使用机器学习识别无法诊断的癌症

发布时间:2023-05-07 19:38:01 编辑: 来源:
导读 为癌症患者选择适当治疗方法的第一步是确定他们的特定癌症类型,包括确定原发部位 - 癌症开始的器官或身体部位。在极少数情况下,即使进...

为癌症患者选择适当治疗方法的第一步是确定他们的特定癌症类型,包括确定原发部位 - 癌症开始的器官或身体部位。

在极少数情况下,即使进行大量测试也无法确定癌症的起源。虽然这些原发性不明的癌症往往具有侵袭性,但肿瘤学家必须用非靶向疗法治疗它们,这些疗法通常具有严重的毒性并导致低存活率。

麻省理工学院科赫综合癌症研究所和马萨诸塞州总医院(MGH)的研究人员开发的一种新的深度学习方法可以通过仔细研究与早期细胞发育和分化相关的基因表达程序来帮助对未知原发性癌症进行分类。

“有时你可以应用病理学家必须提供的所有工具,但你仍然没有答案,”科赫研究所的Charles W.(1955)和Jennifer C. Johnson临床研究员以及MGH的病理学家Salil Garg说。“像这样的机器学习工具可以让肿瘤学家选择更有效的治疗方法,并为患者提供更多指导。

Garg是发表在Cancer Discovery上的一项新研究的资深作者。人工智能工具可以高度敏感和准确地识别癌症类型。Garg是该研究的资深作者,麻省理工学院博士后Enrico Moiso是主要作者。

开发中的机器学习

解析原发性未知肿瘤中基因表达的差异是机器学习需要解决的理想问题。癌细胞的外观和行为与正常细胞完全不同,因为它们的基因表达方式发生了广泛的变化。由于单细胞分析的进步和对细胞图谱中不同细胞表达模式进行编目的努力,有大量的 - 如果,在人眼看来,是压倒性的 - 数据包含不同癌症如何以及从哪里起源的线索。

然而,建立一个机器学习模型,利用健康和正常细胞之间的差异,以及不同种类的癌症之间的差异,进入诊断工具是一种平衡行为。如果一个模型太复杂,并且考虑了太多癌症基因表达的特征,那么模型可能看起来完美地学习了训练数据,但在遇到新数据时却步履蹒跚。但是,通过缩小特征数量来简化模型,模型可能会错过导致癌症类型准确分类的信息。

为了在减少特征数量和仍然提取最相关信息之间取得平衡,研究小组将模型集中在癌细胞发育途径改变的迹象上。随着胚胎的发育和未分化的细胞特化为各种器官,多种途径指导细胞如何分裂、生长、改变形状和迁移。随着肿瘤的发展,癌细胞会失去成熟细胞的许多特殊性状。与此同时,它们开始在某些方面类似于胚胎细胞,因为它们获得了增殖、转化和转移到新组织的能力。已知许多驱动胚胎发生的基因表达程序在癌细胞中被重新激活或失调。

研究人员比较了两个大型细胞图谱,确定了肿瘤和胚胎细胞之间的相关性:癌症基因组图谱(TCGA),其中包含33种肿瘤类型的基因表达数据,以及小鼠器官发生细胞图谱(MOCA),它描述了胚胎细胞在发育和分化过程中的56个独立轨迹。

“单细胞分辨率工具极大地改变了我们研究癌症生物学的方式,但我们如何使这场革命对患者产生影响是另一个问题,”Moiso解释说。“随着发育细胞图谱的出现,特别是那些专注于器官发生早期阶段的细胞图谱,如MOCA,我们可以将我们的工具扩展到组织学和基因组信息之外,并为分析和识别肿瘤以及开发新疗法的新方法打开大门。

然后将肿瘤和胚胎细胞中发育基因表达模式之间的相关性图谱转换为机器学习模型。研究人员将TCGA中肿瘤样本的基因表达分解为对应于发育轨迹中特定时间点的单个组件,并为这些组件中的每一个分配一个数学值。然后,研究人员建立了一个机器学习模型,称为发育多层感知器(D-MLP),该模型对肿瘤的发育成分进行评分,然后预测其起源。

肿瘤分类

经过培训,D-MLP被应用于52个特别具有挑战性的原发性未知癌症的新样本,这些癌症无法使用可用工具进行诊断。这些案件代表了MGH从2017年开始的四年期间最具挑战性的案件。令人兴奋的是,该模型将肿瘤分为四类,并产生了可以指导这些患者诊断和治疗的预测和其他信息。

例如,一个样本来自有乳腺癌病史的患者,他在腹部周围的液体空间中表现出侵袭性癌症的迹象。肿瘤学家最初找不到肿瘤肿块,也无法使用他们当时拥有的工具对癌细胞进行分类。然而,D-MLP强烈预测卵巢癌。在患者首次就诊六个月后,终于在卵巢中发现了一个肿块,被证明是肿瘤的起源。

此外,该研究对肿瘤细胞和胚胎细胞的系统比较揭示了对特定肿瘤类型的基因表达谱的有希望的,有时甚至是令人惊讶的见解。例如,在胚胎发育的早期阶段,形成一个基本的肠管,肺和其他附近的器官从前肠产生,大部分消化道从中肠和后肠形成。该研究表明,肺源性肿瘤细胞不仅与预期的前肠表现出很强的相似性,而且与中肠和后肠衍生的发育轨迹也表现出很强的相似性。诸如此类的发现表明,有朝一日,发育计划的差异可能会被利用,就像基因突变通常用于设计个性化或有针对性的癌症治疗一样。

虽然该研究提出了一种对肿瘤进行分类的有力方法,但它有一些局限性。在未来的工作中,研究人员计划通过整合其他类型的数据来提高其模型的预测能力,特别是从放射学,显微镜和其他类型的肿瘤成像中收集的信息。

“发育基因表达仅代表可用于诊断和治疗癌症的所有因素的一小部分,”Garg说。“将放射学、病理学和基因表达信息整合在一起是癌症患者个性化医疗的真正下一步。

免责声明:本文由用户上传,如有侵权请联系删除!

热点推荐

精选文章