AI系统可以生成满足结构设计目标的新型蛋白

发布时间:2023-04-27 19:15:58 编辑: 来源:
导读 麻省理工学院的研究人员正在使用人工智能来设计超越自然界中发现的新蛋白质。他们开发了机器学习算法,可以生成具有特定结构特征的蛋白质,...

麻省理工学院的研究人员正在使用人工智能来设计超越自然界中发现的新蛋白质。

他们开发了机器学习算法,可以生成具有特定结构特征的蛋白质,可用于制造具有某些机械性能的材料,如刚度或弹性。这种受生物启发的材料有可能取代由石油或陶瓷制成的材料,但碳足迹要小得多。

来自麻省理工学院、麻省理工学院-IBM 沃森人工智能实验室和塔夫茨大学的研究人员采用了生成模型,这与 DALL-E 2 等人工智能系统中使用的机器学习模型架构类型相同。但是,他们没有像DALL-E 2那样使用它从自然语言提示中生成逼真的图像,而是调整了模型架构,以便它可以预测实现特定结构目标的蛋白质的氨基酸序列。

在即将发表在《化学》杂志上的一篇论文中,研究人员展示了这些模型如何产生现实而新颖的蛋白质。这些模型学习控制蛋白质形成方式的生化关系,可以产生新的蛋白质,可以实现独特的应用,资深作者Markus Buehler说,他是Jerry McAfee工程教授,土木与环境工程和机械工程教授。

例如,该工具可用于开发受蛋白质启发的食品涂层,它可以使农产品保持更长时间的新鲜,同时人类可以安全食用。他补充说,这些模型可以在几天内产生数百万种蛋白质,迅速为科学家提供一系列新想法供探索。

“当你考虑设计大自然尚未发现的蛋白质时,这是一个如此巨大的设计空间,你不能只用铅笔和纸来整理它。你必须弄清楚生命的语言,氨基酸被DNA编码的方式,然后聚集在一起形成蛋白质结构。在我们进行深度学习之前,我们真的无法做到这一点,“Buehler说,他也是MIT-IBM Watson AI实验室的成员。

与Buehler一起发表论文的是主要作者Bo Ni,他是Buehler原子和分子力学实验室的博士后;以及塔夫茨大学斯特恩家族工程学教授和生物工程教授大卫·卡普兰。

为任务调整新工具

蛋白质由氨基酸链形成,以3D模式折叠在一起。氨基酸的序列决定了蛋白质的机械性能。虽然科学家们已经确定了数千种通过进化产生的蛋白质,但他们估计仍有大量的氨基酸序列尚未被发现。

为了简化蛋白质发现,研究人员最近开发了深度学习模型,可以预测一组氨基酸序列的蛋白质3D结构。但事实证明,相反的问题——预测满足设计目标的氨基酸结构序列——更具挑战性。

机器学习的新出现使Buehler和他的同事能够应对这一棘手的挑战:基于注意力的扩散模型。

Buehler说,基于注意力的模型可以学习非常长程的关系,这是开发蛋白质的关键,因为长氨基酸序列中的一个突变可以成就或破坏整个设计。扩散模型通过向训练数据添加噪声的过程学习生成新数据,然后学习通过消除噪声来恢复数据。在生成高质量、真实的数据方面,它们通常比其他模型更有效,这些数据可以调节以满足一组目标以满足设计需求。

研究人员使用这种架构构建了两个机器学习模型,可以预测各种新的氨基酸序列,这些序列形成满足结构设计目标的蛋白质。

“在生物医学行业,你可能不想要一种完全未知的蛋白质,因为那样你就不知道它的特性。但在某些应用中,您可能想要一种全新的蛋白质,类似于自然界中发现的蛋白质,但做一些不同的事情。我们可以用这些模型生成频谱,我们通过调整某些旋钮来控制,“Buehler说。

氨基酸的常见折叠模式,称为二级结构,产生不同的机械性能。例如,具有α螺旋结构的蛋白质产生弹性材料,而具有β折叠结构的蛋白质产生刚性材料。结合α螺旋和β片可以创造出有弹性和坚固的材料,如丝绸。

研究人员开发了两种模型,一种在蛋白质的整体结构特性上起作用,另一种在氨基酸水平上起作用。这两种模型都通过结合这些氨基酸结构来产生蛋白质。对于对整体结构属性进行操作的模型,用户输入所需百分比的不同结构(例如,40%α螺旋和60%β表)。然后,模型生成满足这些目标的序列。对于第二个模型,科学家还指定了氨基酸结构的顺序,这给出了更细粒度的控制。

这些模型与预测蛋白质折叠的算法相关联,研究人员使用该算法来确定蛋白质的3D结构。然后,他们计算其结果属性,并根据设计规范进行检查。

逼真而新颖的设计

他们通过将新蛋白质与具有相似结构特性的已知蛋白质进行比较来测试他们的模型。许多与现有的氨基酸序列有一些重叠,在大多数情况下约为50%至60%,但也有一些全新的序列。相似性水平表明,许多生成的蛋白质是可合成的,Buehler补充道。

为了确保预测的蛋白质是合理的,研究人员试图通过输入物理上不可能的设计目标来欺骗模型。令他们印象深刻的是,这些模型没有产生不可能的蛋白质,而是产生了最接近的可合成溶液。

“学习算法可以发现自然界中隐藏的关系。这让我们有信心说,无论从我们的模型中得出什么结果,都很可能是现实的,“倪说。

接下来,研究人员计划通过在实验室中制造一些新的蛋白质设计来实验验证它们。他们还希望继续增强和完善模型,以便开发满足更多标准的氨基酸序列,例如生物学功能。

“对于我们感兴趣的应用,如可持续性、医药、食品、健康和材料设计,我们需要超越大自然所做的。这是一个新的设计工具,我们可以用来创建潜在的解决方案,帮助我们解决我们面临的一些真正紧迫的社会问题,“Buehler说。

免责声明:本文由用户上传,如有侵权请联系删除!

热点推荐

精选文章