卡内基跨学科团队利用随机森林模型,基于406份样本成功捕捉33亿年前生命遗迹
美国卡内基科学研究所联合全球多所院校组成跨领域团队,精进了热解气相色谱-质谱+监督机器学习的「技术融合」解决方案,可在混乱的分子碎片中捕捉古老的生命遗迹。
解码深埋于地表之下的古老岩层里的有机分子,对于掌握地球历史与研究生命演进具有至关重要的作用。这些生命活动的潜在见证者不仅能够破解地球生命诞生的谜题,尤其是厘清光合作用的起源和地球大气氧化进程的关联,还能填补生命演进时间线的空白,为理解早期地球生态系统的形成提供核心线索。然而,由于这些「见证者」不同于大型生物,能够形成可见化石,同时经过地质岁月磨蚀,早已无踪无迹,因此如何从高度降解的有机残骸中辨认生命的痕迹,就变成古生物学与地球科学领域的一大挑战。
长久以来,科学家们主要依赖古生物化石形态、同位素分析等手段探寻早期生命,但这些方法往往受限于样本保存状态:如脂质、卟啉等复杂分子的明确记录仅能追溯至约 16 亿年前,远短于其他证据揭示的生命起源时间。而太古代岩石中有机分子的来源模糊,生物成因与非生物成因的界限难以断定,这都让许多关键发现停留在了推测阶段。
为了打破这一僵局,由美国卡内基科学研究所地球和行星实验室主导,联合全球多所院校和研究机构组成跨领域团队,提出一项「技术融合」的解决方案,他们先使用热解气相色谱-质谱(pyrolysis–gas chromatography–mass spectrometry,py-GC-MS)进行分析,然后通过监督机器学习方法对分析数据进行分类判别,进而在混乱的分子碎片中捕捉古老的生命遗迹。
实验表明,这套技术融合的模型表现出超预期的效果,它能 100% 精准区分现代有机物与陨石 / 化石有机物,辨别化石植物组织与陨石有机物精度可达 97%; 更重要的是,当团队将其应用于未知样本时,该模型能成功识别出 33.3 亿年前和 25.2 亿年前古太古代和新太古代岩石中的生物成因分子组合的证据,这为探索更早期、更不易留存的生命痕迹提供了新的方法论支持。
相关研究以「Organic geochemical evidence for life in Archean rocks identified by pyrolysis–GC–MS and supervised machine learning」为题,收录于美国国家科学院院刊 PNAS。
研究亮点:
* 研究提出的技术融合方法打破了传统局限,通过将热解气相色谱-质谱与机器学习结合,攻克了分子降解后难以分辨的核心难题
* 研究样本覆盖范围广泛,从现代生命到数十亿年前的岩石,从地球生物到地外陨石,为模型训练提供了全维度对照*实验表明该方法兼具科学性与前瞻性,不仅验证了太古代岩石中生命痕迹的存在,更为其他未知生命痕迹探寻提供了新方法
论文地址:https://www.pnas.org/doi/10.1073/pnas.2514534122
数据集:406 份样本涵盖广泛,为模型提供全维度对照
研究团队共分析了 406 份包含一系列有机分子的天然和合成样本,涵盖古代与现代、生物与非生物来源,时间跨度从约 38 亿年前(太古代)至 1,000 万年前(新近纪),样本类型囊括沉积岩(141 块)、化石(65 份)、现代生物(123 个)、陨石(42 颗,其中 39 颗为碳质球粒陨石)及实验室合成有机分子组合(35 组),为机器学习分析提供了丰富、多元的数据基础。
在这 406 份样本中,有 272 份样本按系统发育亲缘关系和生理特征明确划分为 9 个类别,用于监督机器学习的训练(75%)与测试(25%),具体来看(如下图所示):
9 类样本的三维 py-GC-MS 数据
* 现代动物:来自多种近期死亡的无脊椎动物和脊椎动物,代表现代非光合异养生物的有机分子特征。样本数量为 21 个。
* 现代植物(非光合组织):包含植物根、种子、花朵、果实和树液的非光合组织及分泌物,代表植物不同功能组织的分子差异。样本数量为 40 个。
* 现代植物(光合组织):主要以叶子及其他光合组织为主,作为光合生物分子特征的现代参照。样本数量为 36 个。
* 含光合蓝藻/藻类化石的沉积岩:从页岩或燧石中经盐酸(HCI)和氢氟酸(HF)酸溶富集的有机残留物,且岩石具有可靠的蓝藻或藻类化石形态学证据,作为古代光合微生物的分子记录。样本数量为 24 个。
* 木化石、煤和油页岩:以显生宙(< 5.41 亿年)样本为主,也包含元古代岩石中成因较复杂的富烃沉积,如 shungite、anthraxolite,代表古代高等植物及烃类物质的分子保存特征。样本数量为 49 个。
* 动物化石:均为显生宙样本,包含鱼类化石、三叶虫化石的碳化残留,以及中新世腹足类动物壳中提取的成壳结合蛋白,代表古代动物的有机分子残留。样本数量为 9 个。
* 现代真菌:包含多种木腐菌和酵母菌,填补真核生物中非植物、非动物类群的分子数据。样本数量为 16 个。
* 陨石:主要以碳质球粒陨石为主(39 个),经化学溶蚀富集有机分子组合,作为明确的非生物有机来源参照。样本数量共 42 颗。
* 实验室合成样本:通过 Maillard 反应、Formose 反应等实验室合成过程中获得的有机分子组合,模拟非生物成因的有机物质的分子特征。样本数量为 35 个。
除此之外,研究团队还额外设定了两个辅助类别样本用于特定机器学习模型,以区分光合生物和非光合生物,样本数量共 3 个。以两个现代蓝藻样本,补充光合原核生物数据。 以一个现代嗜盐菌(Halobacter)样本,补充非光合古菌数据。
最后,剩余的 131 个样本主要为富含有机物的太古代或元古代沉积岩的酸溶富集残留物。这些样本的有机分子来源、生理特征存在未知或争议,但也因此为此次实验验证机器学习分析的应用提供了新的分类试验场。
研究方法及模型:py-GC-MS 与机器学习深度融合
本次实验主要可以概括为四个步骤:
* 第一步,从各种现代和古代、生物和非生物来源中收集 406 种不同的含碳样本;
* 第二步,从陨石和古沉积岩中提取碳质大分子物质;
* 第三步,采用 pyrolysis gas chromatography coupled to electron impact ionization mass spectrometry 对每个样本进行分析;
* 第四步,使用实验样本分析子集中的数据(机器学习方法)训练监督随机森林模型。
其中,该方法最重要的环节还是在于将 py-GC-MS 分析技术与机器学习方法进行「技术融合」。
首先是分析技术,在本次实验中,研究团队在仪器配置方面采用 CDS 6150 热探针与 Agilent 8860 系列气相色谱仪,以及 Agilent 5999 四级杆质谱仪联用,使用 Agilent 30 M 5% 苯基 PDMS 色谱柱进行色谱分离,热解的产物会立即被氦气扫到气相色谱柱上进行分析。具体操作如下:
* 热解:研究人员将样本(10-100μg)装入预热(550℃ 空气下燃烧 3 h)的石英管中,然后将其插入热探针线圈中,进行闪蒸热解,以 500℃/s 的速率升温至 610℃,并保持 10s。
* 色谱:初始温度为 50℃,保持 1min,以 5℃/min 升至 300℃,保持 15min,载气使用超高纯氦气(UHP 5.5 级)。
* 质谱:在 250℃ 下以 70 eV 电离能的电子电离(EI)模式工作,扫描范围 m/z 45-700,扫描速率为 0.80s/decade,扫描间延迟为0.20s。
为了避免小分子挥发物(如 CO₂、H₂O)干扰 ,实验在开始的前两分钟不采集 MS 数据。此外,实验还需要排除色谱图中常见的污染物(如棕榈酸、硬脂酸)洗脱区域后的信号。每个样本都会转换为二维矩阵(3,240 个洗脱时间段 x 150 个 m/z 值),记录其中 489,240 个元素的信号强度作为质量和保留时间的函数。之后经过标准化与平滑处理,最终保留 8,149 个有效特征。
其次是模型选择,本次实验采用随机森林方法,这是一种具备高准确率、低计算成本和可解释性的集成分类方法,通过构建多棵去相关决策树降低过拟合风险。模型采用了 Leo Breiman 在「Random Forests」中提到的随机森林模型。
研究人员对训练好的机器学习模型使用了两种验证策略。首先,采用 75% 训练集 + 25% 测试集的分层随机抽样,确保各类样本比例在两组中一致;然后,通过 10 次重复的 10 折交叉验证评估模型泛化能力,计算平均准确率以减少随机误差。
实验测试了 4 个模型,分别用于区分现代生物源(动植物)与非生物源(陨石+合成样本)、古代生物源(已知生物成因的沉积岩)与非生物源、古代生物源(不含木化石、煤)与非生物源、光合与非光合样本。
实验结果:多模型、多维度,验证技术融合可行性
在初步测试中,研究人员对 9 类已知属性样本的 36 种成对组合进行了随机森林模型分类,在样本数量相对平衡的情况下,36 个测试中 25 个的训练集与测试集正确率均 ≥ 90%,其中 19 个正确率 ≥ 95%。所有结果如下表所示:
为了进一步说明该方法,论文给出了数个案例结果,表明该方法在不同案例区分时的高效和低效差异。如在第 3 组和第 8 组的案例中,即现代植物(光合组织)与陨石,该方法以 100% 的准确率将植物与陨石进行了区分,所有样本的类别概率均 > 0.6 或 < 0.4,分子特征差异显著。如下图 A 所示:
训练集中各样本属于两类别之一的概率直方图
此外,识别生物成因与非生物成因的样本是古生物学和天体生物学研究的一个关键目标,针对于此,研究团队构建并比较了 3 种不同的随机森林模型,针对不同样本组合验证生物源与非生物源的区分能力。
具体来说,在 model # 1 中,研究团队测试了第 1、2、3 组和第 8、9 组的现代动植物与非生物源(陨石和合成样本)的区分能力,样本数量分别为 97 个和 77 个。整体正确率达到 98%,AUC 值训练集 0.977,测试集为 1.000;10 折交叉验证准确率为 98.3%。
model # 2 主要用于验证区分古代生物样本和富含有机物的非生物样本的能力,对照样本来自于第 4、5 组和第 8、9 组,分别包含 87 个样本和 77 个样本。在 87 份生物成因古代有机样本中,有 83 份被正确分类,正确率达到 95%,另外这些样本中有 70 个(80%)具有高置信度的生物成因分类概率,> 0.6。非生物源样本中有 69 个被正确分类,正确率达 90%;AUC 值训练集为 0.924,测试集 0.926;10 折交叉验证准确率为 92.7%。
将 Model # 2 应用于 109 个未知生物源的古代沉积岩中,发现 68 个样本(61%)的生物源分类概率 > 0.50,32 个样本的生物源分类概率 > 0.60。
另外,结果还揭示了生物源样本比例随地质年代递减的规律,在 82 个显生宙样本中,76 个(93%)属于生物成因,元古代样本中有 43 个(73%),太古代的 45 个样本中仅有 21 个(47%)。显示了随年代增长,生物成因样本的百分比显著下降,可能反映了样本中生物分子降解或非生物源有机输入。如下图所示:
从太古代到元古代再到现生宙,Model # 2 分类的生物成因样本百分比趋势图
Model # 3 主要用于验证区分古代生物源与非生物源的能力,生物源样本来自 89 个页岩和燧石样本,包含第 4 组样本,非生物源样本依旧为第 8、9 组的 77 个样本。其中生物源样本全部分类正确, 有 80% 的样本具有高置信度的生物成因分类概率(> 0.60),非生物成因样本正确率为 77%;AUC 值训练集 0.873,测试集 0.863;10 折交叉验证准确率为 91.6%。
此外,通过结合 Model # 2 和 Model # 3,研究人员确认了 11 个古代样本为生物源,最古老的为 33.3 亿年前南非巴伯顿绿岩带的 Josefsdal 燧石。如下表所示:
根据 Model # 2 和 Model # 3中 ≥ 60% 的生物成因分类概率预测生物成因样本
技术融合成为生命起源探寻的重要手段
近年来,针对早期生命痕迹识别、地外有机质溯源等核心难题,全球研究团队已开展多项创新性探索。这些研究同样以复杂分子混合物的解析为核心,通过算法模型深挖传统分析手段难以捕捉的生物特征,为技术融合路径的可行性、追溯地球生命起源奠定了坚实基础。
例如同样由卡内基科学研究所地球和行星实验室主导,联合其他不同院校的成果,也是前文提到的上述实验所借鉴之方法,它既可以用于确定行星样本中有机物质的生物原生性,也可以用于确定地球早期生命痕迹。该方法将陆地和外星碳质材料的热解气相色谱-质谱测量与机器学习的分类方法进行结合,在区分非生物来源的样本与生物样本(含高度降解的生物样本)方面达到了 90% 的准确率,并准确反映了达尔文的生物分子选择功能的必要性。
论文题目:A robust, agnostic molecular biosignature based on machine learning
论文地址:https://www.pnas.org/doi/10.1073/pnas.2307149120
py-GC-MS 与机器学习的技术融合路径,不仅打破了传统方法对早期生命探索的局限,更构建起古生物学与人工智能交叉的新范式。但同时,由上述实验以及其他研究也可见得,基于技术融合的该种方法也仍存有待优化的空间,这也为后续更深入的研究提供了方向,相信在技术的不断精进之下,未来或将推动人类更加直观、深入地认识生命起源,甚至探寻地外生命的痕迹。
本文来自微信公众号“HyperAI超神经”,作者:哇塞,36氪经授权发布。















