机器学习方法阐明了进化的基本方面

发布时间:2023-05-10 20:20:03 编辑: 来源:
导读 这项工作发表在《科学》杂志上,由计算机科学学院助理教授Andreas Pfenning领导,为Zoonomia项目做出了贡献,该项目旨在对240种哺乳动物的...

这项工作发表在《科学》杂志上,由计算机科学学院助理教授Andreas Pfenning领导,为Zoonomia项目做出了贡献,该项目旨在对240种哺乳动物的整个基因组进行测序,以阐明基因和性状的基本方面,对保护人类健康和保护生物多样性具有重要意义。理解这些新的大型数据集需要最新的人工智能 (AI) 和机器学习 (ML) 技术。

被称为编码DNA的基因组的某些部分为产生蛋白质提供了指令,蛋白质是细胞功能不可或缺的调节因子。随着时间的推移,编码DNA为蛋白质生产提供的指令略有不同,成为进化背后的驱动力之一。

然而,这些产生蛋白质的DNA片段只占构成人类基因组的30亿核苷酸对的百分之一。其他非编码DNA区域,称为增强子,决定了特定基因活跃的时间和地点。

CMU团队创建了一个称为组织感知保护推理工具包(TACIT)的ML方法,以了解有关这些区域如何运作的更多信息。虽然传统的进化模型可能会通过一组基因中的一组突变来证明物种大脑大小的变化,但增强子可能只是打开或关闭基因并达到相同的结果。

大多数对哺乳动物进化的研究都集中在基因组中数百万年来变化相对较小的部分。这些保守区域,尤其是基因,提供了对哺乳动物DNA中基本元素的洞察,这些元素突出了单个物种的独特特征。

Pfenning和他的团队面临的挑战是,随着时间的推移,DNA增强子区域可能会按顺序变化,但功能不会改变。例如,一种经过充分研究的胰岛增强子以类似的模式调节人类、小鼠、斑马鱼和海绵的基因水平,尽管进化了700亿多年。这使得使用检查单个核苷酸的传统方法识别和跟踪它们变得更加困难。

TACIT通过准确预测增强子是否会在特定细胞类型或组织中活跃来解决这个问题。它允许科学家在不进行新的实验室实验的情况下识别新测序基因组中的这些重要增强子区域,从而在保护生物学中提供潜在的应用。该工具包可以预测增强剂在濒危或受威胁物种中的作用,在这些物种中,受控的实验室实验是不可能的。

“TACIT提供了一个前所未有的机会来预测我们无法获得原代组织样本的物种中基因之外的部分基因组功能,例如宽吻海豚和极度濒危的黑犀牛,”该论文的主要作者,博士后助理和CBD的Lane Fellow说。“随着ML方法和从特定细胞类型中识别增强子的方法的改进,我预计我们将能够扩大TACIT的功能,为哺乳动物进化提供新的见解。

在预测了240种哺乳动物基因组序列的功能后,研究小组应用TACIT来识别哺乳动物中为较大大脑进化的基因组部分,并发现这些部分往往靠近突变与人类大脑大小疾病有关的基因。他们还发现了一种与哺乳动物社会行为相关的增强子,该增强子特定于特定的神经元亚型,即小白蛋白阳性抑制性神经元间型。

“我们认为这只是冰山一角,”该研究的资深作者Pfenning说。“通过将TACIT应用于少量组织和少量性状,我们发现了有趣的关系,但仍有很多东西需要发现。

免责声明:本文由用户上传,如有侵权请联系删除!

热点推荐

精选文章