2017年,欧洲生物信息研究所发布的显示了AlphaFold模拟人类的蛋白质结构,来源:法国新闻社
Meta AI研究科学家Alexander Rives说:“这些蛋白质极其多样,人类对它们知之甚少,为了数量规模庞大的蛋白质,研究人员需要在预测速度上取得突破。”他还称,使用大型语言模型,ESMFold能够在两周内预测超过6亿种蛋白质。
作为测试案例,Meta AI将ESMFold用于来自环境来源(包括土壤、海水、人类肠道、皮肤和其他微生物栖息地)的批量测序“宏基因组”DNA数据库。绝大多数编码潜在蛋白质的DNA条目来自从未培养过且科学未知的生物体。
自从DeepMind取得突破以来,人们对AI在生物学中的应用产生了巨大的兴趣。AlphaFold是蛋白质结构预测方面取得的一大进步,这也进一步激发了深度学习的浪潮。
二、曾取得CASP最好成绩,AlphaFold将被用于治疗疾病目前,DeepMind开源了AlphaFold2的代码,让社区可以免费使用,目前约2.4亿的几乎所有已知的蛋白质都可以查到。此前,研究人员花费几个月或几年时间才能预测蛋白质的结构。投资生命科学技术的成长型股票公司Biospring Partners联合创始人詹妮弗卢姆(Jennifer Lum)称,AlphaFold缩短了这个过程,使这些团队能够将他们的时间转移到下游的研究和产品开发上,进入其他增值领域。
2018年,AlphaFold1在两年一度的CASP实验中取得了最好的成绩。团队又花了大量时间跟踪CASP,尝试不同的方法来改进AlphaFold,测试它们是否可以匹配实验蛋白质结构的准确性。
Jumper称,这个团队一直工作到2019年,他才真正相信这个团队能够完成它的使命。传统而言,生物学家使用基于X射线和其他技术的实验室技术来理解单一蛋白质结构,但据Jumper称,这一过程不仅要花费数年时间,还活花费10万美元。
John Jumper领导了机器学习应用蛋白质生物学的新方法开发,来源:DeepMind官网
虽然计算方法在理解蛋白质结构方面取得进展,但是目前这项技术还不够完善。无法取代实验室方法。最初的AlphaFold模型试验AI预测氨基酸对之间的距离,第二步利用这些距离分布来得到蛋白质的预测结构。其中第二步涉及到AlphaFold,它利用这些信息,提出了一个关注蛋白质是什么样子的共识模型,而无需AI。
Jumper称,研究小组正在把注意力转向蛋白质创新的新挑战。研究小组正在寻求了解突变与蛋白质功能变化之间的联系,这可以帮助治疗疾病。
结语:AI赋能药物研发具有巨大潜力作为蛋白质结构预测大模型,ESMFold在速度上快于AlphaFold2约60倍。如果在实际计算中,这一速度优势表现得更加明显。同时推断速度优势使得基于计算有效映射大型宏基因组序列数据库的结构空间成为可能。
ESMFold还可以被用于进行快速准确的结构预测,进一步帮助发现新的蛋白质结构和功能。未来,ESMFold或将超越预测蛋白质的静态结构,进一步研究蛋白质的动态结构。当这两个领域的研究都完成后,通过AI赋能新药设计就具备了基础,而从长远看,这具有巨大的潜力。
来源:《华尔街日报》
相关文章
猜你喜欢