近日,在摩根大通医疗健康大会上,初创企业Evozyne宣布使用NVIDIA提供的预训练AI模型,创造了两种在医疗和清洁能源领域具有重大潜力的蛋白质。其中,一种蛋白质用于治疗一种先天性疾病,另一种用于消耗二氧化碳以减少全球变暖,日前发布的一篇联合论文描述了这一过程及产出的蛋白质氨基酸序列。
Evozyne联合创始人、论文共同作者Andrew Ferguson表示:“令人欣喜的是,NVIDIA的AI模型第一轮产出的合成蛋白质就像自然生成的蛋白质一样,这意味着该模型已经学会了自然界的设计规则。”
革命性的AI模型:学会如何自然地构建蛋白质氨基酸序列
据了解,Evozyne在创造蛋白质的过程中用到了NVIDIA的ProtT5。ProtT5是一款Transformer模型,主要用于创建医疗AI模型的软件框架和服务,也是属于NVIDIA药物研发框架BioNeMo的一部分。
一直致力于化学和机器学习研究领域的分子工程师Ferguson表示:“BioNeMo非常强大,能让我们训练模型,且在以非常低的成本使用该模型来运行工作任务的同时,在几秒钟内就能生成数百万个序列。”该模型也正是Evovyne ProT-VAE流程的核心,ProT-VAE是一个工作流,其将BioNeMo与作为过滤器的变分自编码器(VAE)相结合。
“这在几年前简直难以想象,因为那时还没有人注意到可以使用大型语言模型与变分自编码器相结合的方式来设计蛋白质。”Ferguson说道。
事实上,就如同人读万卷书,NVIDIA的Transformer模型会读取数百万种蛋白质中的氨基酸序列,其运用神经网络用来理解文本的技术,学会如何自然地构建蛋白质氨基酸序列,这也正是其如何预测并创造了能够满足Evozyne需求的新蛋白质的关键所在。
Evozyne方面表示:这项技术正在助力我们开展工作,以实现十年前无法实现的梦想。
缩短训练时间扩大模型规模 未来可期
目前,传统的蛋白质工程设计方法采用定向进化,即一种缓慢、无计划的方法,该方法通常一次只改变几个氨基酸的序列。而如何通过更高效精准的机器学习来提升研究海量氨基酸组合的可行性,并有效地识别最有用的序列,是NVIDIA一直在专注的领域,该生物学难题的解决,将对生命科学和医学带来很大益处,尤其对于医学领域,这将极大地加快了解细胞组成部分的工作,并使更好更先进的药物被更快地发现成为可能。
Evozyne的ProT-VAE流程就采用了NVIDIA BioNeMo中强大的Transformer模型,生成有用的蛋白质,进而助力药物研发和能源领域实现可持续性。
通过使用Transformer模型,Evozyne的方法只通过一轮就能改变一个蛋白质中半数乃至以上的氨基酸,这相当于进行了数百次的突变。
Evozyne表示:“我们正在实现技术上的飞跃,这使我们能够探索以前从未见过的、具有有用的新功能的蛋白质。“
同时,Evozyne还披露,通过与NVIDIA的合作,他们已能够训练出原本不可能训练出的模型,比如一些有数十亿可训练参数的模型。同时,他们还计划使用新的工艺来构建各种能够对抗疾病和气候变化的蛋白质。”使用AI加速蛋白质工程的前景十分广阔,我们很期待未来的进一步发展。“
来源:医谷网