Al可精准预测生物蛋白质空间结构,破解“生老病死”密码

近日,谷歌旗下公司DeepMind发文宣布,他们研发的人工智能系统可以对生物蛋白质的结构进行预测,以帮助研究疾病及寻找有效治疗手段(www.hkwb.com.cn)。

这份研究结果发布于期刊《自然》上,称AlphaFold2已经实现对98.5%已知人类蛋白质以及大肠杆菌、果蝇、疟疾寄生虫等20种模式生物蛋白质的结构预测。同时,AlphaFold2团队与欧洲分子生物学实验室合作,上线了蛋白质结构数据库,科研人员只要输入蛋白质名称或编号,就可以迅速获得免费公开的蛋白质3D结构图像。

研究蛋白质是了解疾病和寻找有效治疗手段的必经之路。据悉,许多疾病都与蛋白质在人体中所扮演的角色有关。蛋白质分子哪怕是微小的重新组合排列都会对人们的健康产生灾难性的影响。不过,仅人类蛋白质就有成千上万种,其他物种的蛋白质更是多达几十亿,包括细菌和病毒的蛋白质。而目前人类只是试图破解一种蛋白质的形状就需要数年的时间和昂贵的仪器设备。

这个问题在上个世纪60年代取得了转机。

1961年,美国科学家克里斯蒂安·安芬森提出观点,认为“蛋白质的高级空间结构由蛋白质的氨基酸序列决定,在这个过程中不需要额外的遗传信息。“这个发现为他赢得了1972年的诺贝尔奖。

这为科学家们提供了新的解题方式——通过已知的氨基酸序列数据,配合以足够的算力,就可以将蛋白质的结构计算出来。

由此,人们慢慢开始寻找一种蛋白质结构预测算法,以精确地用计算机从其氨基酸序列预测出其复杂的空间结构,最终由结构判断其功能。这催化了1994年开始的,每两年一次的国际性比赛CASP(蛋白质结构预测关键评估Critical Assessment of protein Structure Prediction),参赛者们试图通过深度学习和传统算法为这个问题找到解决方案。

然而,由于蛋白质分子搭载的氨基酸和原子数量极大,氨基酸在空间中的组合方式是不确定的,一个蛋白质在空间中有10的300次方种折叠方式,这个数量比宇宙中所有的原子加起来还要大。如此巨大的计算量也使得CASP的参赛者们多年来始终不能将自己的预测分数提高到60分以上,即使是作为Alphafold2前身在2018年参赛的Alphafold,也只取得了70多分。但一个程序需要取得90分以上的成绩才能被认定为“能够解决蛋白质折叠的预测问题”。

不过,Alphafold2在去年的CASP中以92.5的分数摘得了桂冠。这代表着,至少从CASP的评审中,Alphafold2已经拥有了精准预测蛋白质折叠的能力。迄今为止人体最大的秘密之一,可能即将被揭开。

此次DeepMind和欧洲分子生物学实验室合作的核酸数据库中包含着36.5万个可免费获得的蛋白质结构。预计随着新蛋白质的识别和预测技术的改进,到今年年底这个数据将激增至1.3亿。

仅有这样巨大规模的数据就已足够令人振奋。但Alphafold2为科学家们带来的不仅如此,它还能够提供对预测蛋白质置信度的估算。

“在当前近乎覆盖整个人类蛋白质组的蛋白质结构中,AlphaFold2…能够提供对药物设计有用的详细的原子特征,例如酶的活性位点。” 该报告的第一作者、DeepMind的科学工程师Kathryn Tunyasuvunakool说。许多被忽视的疾病也许将由此获得有效的药物治疗

Alphafold2的成果,正将结构生物学带入新的领域之中,而结构生物学的一项重要应用领域就是助力药物和疫苗的研发,虽然目前预测出来的蛋白质结构尚未达到能够以此为根据设计药物的精度,但随着其算法和算力的精进,这样的日子是大有可能到来的。这意味着生物学研究从根本假设上可能迎来巨变。

此外,也有不少人大胆的推测,alphafold2对于蛋白质结构的高精准预测也许会辅助科学家们设计出来尚不存在的蛋白质,而生老病死的解题密匙也许就隐藏在逐渐进化的AI手中。

编译/综合:南都人工智能伦理课题组研究员 胡耕硕

主营产品:工业皮带,机器配件