首页 游戏天地文章正文

数据革命和AI重大进步,为解决从蛋白质到生物体问题提供独特机会

游戏天地 2025年09月07日 14:57 1 admin
数据革命和AI重大进步,为解决从蛋白质到生物体问题提供独特机会

麻省理工学院的 Andrew (1956) 和 Erna Viterbi 工程学教授卡罗琳·乌勒 (Caroline Uhler) 表示:“由于生物学的数据革命和人工智能的重大进步,当前的机器学习格局为解决从蛋白质到生物体的不同生物组织层面的问题提供了独特的机会。”

数据革命和AI重大进步,为解决从蛋白质到生物体问题提供独特机会


卡罗琳·乌勒教授对海量多模态数据和干预性数据收集在科学和医学领域的前景感到兴奋,但她也清楚地认识到,从如此庞大的数据集中获取真正洞见所固有的问题。“虽然海量多模态数据收集有望加深对复杂生物现象的理解,并最终带来更佳的决策,但表征学习虽然在预测任务中取得了成功,但在因果任务(例如预测干预效果)中却常常失败。鉴于生物医学领域许多最具挑战性的开放性问题本质上都具有因果关系,将表征学习与因果推理相结合将极大地促进这些领域的进步,同时还能激发方法学的进一步发展。”她说道。

卡罗琳·乌勒 (Caroline Uhler) 是麻省理工学院的 Andrew (1956) 和 Erna Viterbi 工程学教授;数据、科学和社会研究所 (IDSS) 电气工程和计算机科学教授;麻省理工学院和哈佛大学布罗德研究所 Eric and Wendy Schmidt 中心主任,她也是该研究所的核心研究所和科学领导团队成员。

卡罗琳·乌勒对科学家揭示生物系统因果关系的所有方法都感兴趣,从对观测变量的因果发现到因果特征学习和表征学习。在本次采访中,她讨论了生物学中的机器学习、一些成熟的问题解决领域以及施密特中心的前沿研究。

问:埃里克和温迪·施密特中心围绕生物组织的四个自然层级:蛋白质、细胞、组织和生物体,研究了四个不同的领域。在当前的机器学习格局下,什么使得现在是研究这些特定问题类别的最佳时机?

答:生物学和医学目前正在经历一场“数据革命”。大规模、多样化数据集的出现——从基因组学、多组学到高分辨率成像和电子健康记录——使得现在成为一个绝佳的时机。廉价而精准的DNA测序已成为现实,先进的分子成像已成为常规,单细胞基因组学也使得数百万个细胞的分析成为可能。这些创新——以及它们产生的海量数据集——将我们带入了生物学新时代的门槛,在这个时代,我们将能够超越对生命单位(例如所有蛋白质、基因和细胞类型)的描述,理解“生命程序”,例如构成组织模式的基因回路逻辑和细胞间通讯,以及构成基因型-表型图谱的分子机制。

与此同时,在过去十年中,机器学习取得了显著进展,BERT、GPT-3 和 ChatGPT 等模型在文本理解和生成方面展现出卓越的能力,而视觉 Transformer 模型和 CLIP 等多模态模型则在图像相关任务中达到了人类水平的性能。这些突破提供了强大的架构蓝图和训练策略,可适用于生物数据。例如,Transformer 模型可以像语言一样对基因组序列进行建模,而视觉模型可以分析医学和显微镜图像。

重要的是,生物学不仅有望成为机器学习的受益者,更将成为新机器学习研究的重要灵感源泉。正如农业和育种推动了现代统计学的发展一样,生物学也有可能为机器学习研究开辟新的、甚至更深远的途径。与推荐系统和互联网广告等领域不同,这些领域没有可供探索的自然规律,预测准确性是衡量价值的最终标准。在生物学中,现象是物理上可解释的,因果机制是最终目标。此外,生物学拥有遗传和化学工具,能够以其他领域无法比拟的规模进行扰动筛选。这些特性的结合使生物学具有独特的优势,既能从机器学习中获益良多,又能成为机器学习的灵感源泉。

问:换个角度,生物学中哪些问题仍然难以用我们现有的工具解决?您认为哪些领域,比如疾病或健康领域的特定挑战,已经成熟到可以解决的程度?

答:机器学习在图像分类、自然语言处理和临床风险建模等领域的预测任务中展现了显著的成功。然而,在生物科学领域,预测准确性往往不足。这些领域的基本问题本质上是因果关系:特定基因或通路的扰动如何影响下游细胞过程?干预导致表型改变的机制是什么?传统的机器学习模型主要针对捕捉观察数据中的统计关联进行优化,通常无法回答此类干预性问题。生物学和医学领域也迫切需要激发机器学习的新基础发展。

该领域如今已配备高通量扰动技术——例如汇集的 CRISPR 筛选、单细胞转录组学和空间分析——这些技术在系统干预下能够生成丰富的数据集。这些数据模式自然需要开发超越模式识别的模型,以支持因果推理、主动实验设计和在具有复杂结构化潜在变量的环境中进行表征学习。从数学角度来看,这需要解决可识别性、样本效率以及组合、几何和概率工具集成等核心问题。我相信,应对这些挑战不仅能开启对细胞系统机制的新见解,还能突破机器学习的理论界限。

关于基础模型,业界普遍认为,我们距离创建一个跨尺度的生物学整体基础模型(类似于 ChatGPT 在语言领域所代表的那种能够模拟所有生物现象的数字有机体)还很遥远。虽然几乎每周都会出现新的基础模型,但迄今为止,这些模型都只针对特定的尺度和问题,并且专注于一种或几种模态。

根据蛋白质序列预测蛋白质结构已取得重大进展。这一成功凸显了迭代机器学习挑战赛(例如 CASP,结构预测关键评估)的重要性,这些挑战赛在对最先进的蛋白质结构预测算法进行基准测试并推动其改进方面发挥了重要作用。

施密特中心正在组织各种挑战赛,旨在提升机器学习领域的认知度,并在开发解决因果预测问题的方法方面取得进展,这些问题对生物医学科学至关重要。随着单细胞水平上单基因扰动数据的日益普及,我相信预测单个或组合扰动的影响,以及哪些扰动可能驱动预期表型,都是可以解决的问题。我们举办的细胞扰动预测挑战赛 (CPPC) 旨在提供客观测试和基准测试新扰动影响预测算法的方法。

该领域取得显著进展的另一个领域是疾病诊断和患者分诊。机器学习算法可以整合不同来源的患者信息(数据模态),生成缺失的模态,识别我们可能难以察觉的模式,并帮助根据疾病风险对患者进行分层。虽然我们必须对模型预测中的潜在偏差、模型学习捷径而非真实相关性的风险以及临床决策中自动化偏差的风险保持谨慎,但我相信机器学习已经在这个领域发挥了重大作用。

问:我们来谈谈 施密特中心最近发布的一些重要新闻。您认为哪些当前的研究值得人们特别关注?为什么?

答:我们最近与布罗德研究所的陈飞博士合作,开发了一种预测未见蛋白质亚细胞定位的方法,称为 PUPS。许多现有方法只能基于训练时使用的特定蛋白质和细胞数据进行预测。然而,PUPS 将蛋白质语言模型与图像修复模型相结合,从而同时利用蛋白质序列和细胞图像。我们证明,蛋白质序列输入可以推广到未见蛋白质,而细胞图像输入可以捕捉单细胞变异性,从而实现针对特定细胞类型的预测。该模型学习每个氨基酸残基与预测的亚细胞定位的相关性,并可以预测由于蛋白质序列突变导致的定位变化。由于蛋白质的功能与其亚细胞定位密切相关,我们的预测可以为潜在的疾病机制提供见解。未来,我们的目标是扩展此方法,以预测细胞中多种蛋白质的定位,并可能理解蛋白质-蛋白质相互作用。

我们与苏黎世联邦理工学院的长期合作伙伴 GV Shivashankar 教授合作,此前已展示如何将简单的细胞图像与机器学习算法相结合,利用荧光 DNA 插入染料标记染色质,从而获取大量关于细胞在健康和疾病状态下状态和命运的信息。最近,我们进一步研究了这一观察结果,并通过开发 Image2Reg 方法证明了染色质组织与基因调控之间的深层联系。Image2Reg 是一种能够根据染色质图像预测未见的遗传或化学扰动基因的方法。Image2Reg 利用卷积神经网络学习受扰动细胞染色质图像的信息表征。它还采用图卷积网络创建基因嵌入,该嵌入基于蛋白质-蛋白质相互作用数据捕捉基因的调控效应,并结合细胞类型特异性转录组数据。最终,它学习由此产生的细胞物理和生化表征之间的映射,使我们能够根据染色质图像预测受扰动的基因模块。

此外,我们最近完成了一种方法的开发,该方法用于预测未见的组合基因扰动的结果,并识别受扰动基因之间发生的相互作用类型。MORPH 可以指导实验室循环实验 (Lab-in-a-loop) 设计最具信息量的扰动。此外,基于注意力机制的框架已证实能够帮助我们识别基因之间的因果关系,从而深入了解潜在的基因调控程序。最后,由于其模块化结构,我们可以将 MORPH 应用于以各种方式测量的扰动数据,不仅包括转录组学,还包括成像。我们对这种方法的潜力感到非常兴奋,它能够有效地探索扰动空间,通过将因果理论与重要的应用联系起来,加深我们对细胞程序的理解,对基础研究和治疗应用都具有重要意义。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动