曾引起人工智能、生命科学两界大地震,DeepMind背后的AlphaFold2是什么来头?

硅谷密探·2021-08-18 13:59
AI究竟能够帮助生命科学解决哪些问题?

7月15日,总部位于伦敦的DeepMind(2014年被谷歌收购)发布了其深度学习神经网络AlphaFold2的开源版本,并在《自然》杂志上的一篇论文中描述了其方法,据悉该神经网络在去年的蛋白质结构预测竞赛中占据主导地位。

与此同时,另一个学术团队已基于AlphaFold2开发出了自己的蛋白质预测工具——RoseTTaFold,从7月15日发表的一篇科学论文中的描述来看,RoseTTaFold系统几乎和AlphaFold2一样强大。

伊利诺伊芝加哥大学(University of Illinois at Chicago)计算生物学家徐金波(音译)表示:“这些工具的开源性意味着科学界应该能够在进步的基础上,创造出更强大、更有用的软件。”

01 一场改变游戏规则的比赛

AlphaFold 首次登场是在 2018 年的最后一届 CASP 中,虽首次参赛但成绩仍名列前茅。或许部分读者对DeepMind这家总部位于伦敦创业公司并不熟悉,但说到其产品可能就无人不知、无人不晓了,例如引起击败李世石、柯洁的AlphaGO。而首次登场的AlphaFold 也即将带来一场生物科学界的大地震。

“这改变了游戏规则,”德国生物学家安德烈·卢帕斯表示:“在CASP不同团队中就DeepMind与众不同,其AlphaFold已经帮助我找到了困扰我十年的一种蛋白质的结构,预计它会改变我的工作方式和处理问题的逻辑、改变医学、改变研究、改变生物工程、改变一切。”

不过对于AlphaFold 一些科学家还是表示不能有太高期望,在某些情况下的结构预测与使用"黄金标准"实验方法(如 X 射线晶体学和近年来低温电子显微镜)确定的预测没有区别。AlphaFold 也许还不能避免这些费力和昂贵的方法的需求,但人工智能将使得以新的方式研究生物成为可能。

图片来源:nature

但DeepMind的进化速度远远超出预期。2020年初,该公司发布了对少数SARS-CoV-2蛋白质结构的预测,这些蛋白质虽然尚未通过实验确定,但加州大学伯克利分校的分子神经生物学家史蒂芬·布罗霍恩却表示:“DeepMindDeepMind对一种叫做Orf3a的蛋白质的预测最终与后来通过低温EM确定的非常相似,他们能够做的事情令人印象深刻。”

当然引发生命科学界大震动的还是在2020年末, AlphaFold2 基于氨基酸序列近乎完美地精确预测出了蛋白质三维结构,其预测水准与实验室水平相差无几,一举破解了困扰学界长达五十年之久的“蛋白质折叠”难题。

Science 惊呼,“科学研究的游戏已经改变了。”

02 AlphaFold2能够解决生命科学哪些问题

在生命科学领域采用AI研究预测的并不只有DeepMind一家,近期华盛顿大学医学院蛋白质设计研究所 David Baker 教授领导生物信息学家团队也开发出了一款名为 RoseTTAFold 的深度学习工具。据官方介绍,RoseTTAFold 在短短十分钟内就可以准确可靠地计算出蛋白质结构,预测水准与 AlphaFold2 水平相似(已开源)。这不禁令人想问:AI究竟能够帮助生命科学解决哪些问题?为何能够轻易破解困扰学界多年的难题?

图片来源:nature

第一:结构问题

蛋白质是生命的基石,是细胞内部发生的大多数事情的原因。蛋白质的工作原理和作用取决于其3D形状——"结构就是功能"是分子生物学的公理。

几十年来,实验室实验一直是获得良好蛋白质结构的主要途径。从20世纪50年代开始,利用X射线束射向结晶蛋白和将衍射光转化为蛋白质原子坐标的技术,确定了蛋白质的第一个完整结构。X射线晶体学在蛋白质结构中所占份额最大。但是,在过去的十年里,低温EM已经成为许多结构生物学实验室的青睐工具。

长期以来,科学家们一直想知道蛋白质的成分,一串不同的氨基酸是如何描绘出其最终形状的许多曲折和褶皱的。研究人员说,在20世纪80年代和90年代,早期试图利用计算机来预测蛋白质结构的尝试表现不佳,直到2018年 CASP13 上DeepMind 的出现。

人类基因组拥有超过20000种蛋白质的指令,但目前能够确定的3D结构大约只有三分之一,而AlphaFold 神经网络生成了一个"完全变革性"的数据库,该数据库包含来自智人和 20 种模型生物的 5 万多个结构,目前已经预测了几乎整个人类蛋白质组的结构(由生物体表达的蛋白质的全部补充)。此外,该工具还预测了从老鼠和玉米(玉米)到疟原虫等各种其他生物的几乎完整的蛋白质组(见"折叠选项")。研究人员表示到今年年底,资源结构将增长到1.3亿,这有可能彻底改变生命科学。

第二:预测及效率问题

DeepMind去年震惊了生命科学界,AlphaFold的一些预测与标准的实验模型不相上下,一些科学家都不得不承认神经网络的影响是划时代的。

前不久,DeepMind 开源了 AlphaFold2 背后的源代码,并详细描述了其开发方式(学术团队已经开始利用这些资源做出有用的预测)。在准备AlphaFold的代码供公开发布的过程中,DeepMind 改进了代码,使其运行更加高效。据悉其效率已由此前在CASP的数天时间,缩短在开源版本中的几分钟到几小时。

有了这种额外的效率,DeepMind团队开始预测几乎所有由人类基因组编码的已知蛋白质的结构,以及20个模型生物体的结构。这些结构可在英国欣克斯顿的EMBL-EBI(欧洲分子生物学实验室欧洲生物信息学研究所)维护的数据库中找到。

除了覆盖98.5%已知人类蛋白质和其他生物体的类似百分比的预测结构外,AlphaFold还产生了对其预测信心的测量。"我们希望给实验家和生物学家一个非常清楚的信号,说明他们应该依靠哪些部分的预测,"凯瑟琳·图尼亚苏武纳库尔(DeepMind科学工程师、《自然》论文第一作者)说道。

对于人类蛋白质组来说,如果它对单个氨基酸位置的预测有58%,那么足以去验证蛋白质褶皱的形状。如果这些预测的部分占到了总数的36% ,那么足以详细说明可用于药物设计的原子特征,如酶的活性部位。

即使是不太准确的预测也可能提供见解。生物学家认为,人类蛋白质和其他具有核细胞的真核生物的蛋白质中,有很大一部分含有天生紊乱的区域,并且只有与其他分子协同才能具有一种明确的结构。AlphaFold首席研究员约翰说:"许多蛋白质只是溶液中的摆动,它们没有固定的结构。

第三:数据泛滥问题

EMBL-EBI的结构生物信息学家萨米尔·维兰卡尔说:“本周沉积的大约36.5万种结构预测到今年年底将膨胀到1.3亿种——几乎是已知蛋白质的一半。随着新蛋白质的识别和预测的改进,数据库内容规模还将呈现几何增长,但这并不都是科学家所期望获得的资源。”

研究人员已经在使用AlphaFold和相关工具,以帮助理解使用X射线晶体学和低温电子显微镜产生的实验数据。科罗拉多博尔德大学的生物化学家马塞洛·苏萨利用AlphaFold从细菌用来躲避一种叫做胆碱的抗生素的蛋白质的X射线数据中制作模型。苏萨指出,与阿尔法折叠预测不同的实验模型部分通常是软件以低置信度分配的区域,这表明阿尔法折叠正在准确预测其极限。

不过,英国剑桥MRC分子生物学实验室的结构生物学家文基·拉马克里什南说,生物学家们仍希望继续将这些预测作为实验数据的基准,以便更好地掌握它们的可靠性。"我们需要能够信任这些数据,"奥伦戈补充道。

但纽约市哥伦比亚大学从事蛋白质结构预测的计算生物学家穆罕默德·阿尔奎希说,这么多蛋白质结构的出现可能标志着生物学的"范式转变"。他的领域花了太多的时间和精力来预测如此大规模的精确蛋白质结构,以至于它还没有确定如何处理这些资源。"

奥伦戈希望数据库能帮助她更好地了解蛋白质的结构约束。她已经将已知蛋白质的数据库映射到大约5000个"结构家族"中,但是数据库中大约一半的蛋白质被排除在外,因为没有其他蛋白质可以确定结构。阿尔法福尔德的预测可以帮助发现新的形状,她说。"我们将真正看到折叠空间是什么样子的。

03 AlphaFold翻越山丘

目前DeepMind对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电镜等复杂仪器观察预测的水平,AlphaFold就像是一颗核弹在人工智能与生命科学两界引爆引掀起轩然大波,西雅图华盛顿大学的生物化学家大卫·贝克说:"当时我感觉我好像失业了,但同样也激发了对新式实验方式探索的好奇心。”

AlphaFold最直接的影响还是改变了蛋白质结构解析的手段,甚至是科学研究的方式与方法。利用实验室手段可能需要数年的研究才能解析一个蛋白质结构,而利用计算结构模型最快只需 10 分钟。

不过AlphaFold不太可能关闭实验室,如布罗霍恩的实验室,使用实验方法来解决蛋白质结构。复旦大学生命科学学院教授丁澦预测:“对于已知的一些固有折叠模式,应该深入了解其折叠的科学本质,为算法优化打下基础;而对于一些未知、稳定的构象,随着收集到的结构数量增加,人工智能会算得更准;而对于柔性区域,特别是复合物中只有相互作用才会形成高级结构的序列,可能需要开发更为特殊和精细的方法学,目前还是离不开实验室。”

"对于相互作用才会形成高级结构的序列,我开始认为这个问题在我的有生之年无法解决,"英国欣克斯顿欧洲分子生物学实验室-欧洲生物信息学研究所的结构生物学家珍妮特·桑顿(Janet Thornton)说道。但总体来说,AlphaFold2的的开源对于生命科学与人工智能来说是一件幸事。

文章原文:‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures

本文来自微信公众号“科创实验室”(ID:scilabs),编译:渣渣辉,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

消费品牌大举进军医疗健康可穿戴领域

2021-08-18

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业