整合多源植物转录组数据,山东理工大学等构建PlantLncBoost模型,跨物种lncRNA预测准确率最高达96%
山东理工大学联合北京林业大学、广东省农业科学院、巴西圣保罗大学、英国罗莎琳德富兰克林医科大学、瑞典于默奥大学的研究团队等科研机构,共同构建了 PlantLncBoost 模型,为解决植物 lncRNA 鉴定的泛化性难题提供了系统性解决方案。
在植物科学领域,长非编码 RNA(lncRNA)的研究正逐渐成为焦点。2020 年发表的一篇关于植物 lncRNA 研究的论文指出,lncRNA 在植物的生长发育和环境适应过程中发挥着关键作用。例如,有研究发现,某些 lncRNA 能够通过与蛋白质相互作用来调控植物的开花时间,从而影响植物的繁殖策略。这种精细的调控机制对于理解植物如何应对气候变化等环境压力具有重要意义。
随着技术的进步,越来越多的植物 lncRNA 被鉴定并表征。然而,由于 lncRNA 在不同物种之间的序列保守性较差,为机器学习模型的泛化能力带来了重大挑战。以早期广泛应用的 CPC 和 CPAT 工具为例,其在禾本科与豆科植物间的交叉验证准确率较同源物种下降 35%-40%,暴露出序列特征泛化能力不足的核心问题。尽管提升模型(如 XGBoost、LightGBM)在处理高维数据时表现出更好的抗过拟合性能,但现有研究对特征工程的系统性优化仍显匮乏。科学家们意识到,为了准确预测和分析植物中的 lncRNA,必须开发出能够适应这种多样性的新方法。近年来,研究者们提出了一系列策略,包括模型选择、超参数优化和特征提取等,这些策略旨在提高 lncRNA 鉴定的准确性。
近日,山东理工大学联合北京林业大学、广东省农业科学院、巴西圣保罗大学、英国罗莎琳德富兰克林医科大学、瑞典于默奥大学的研究团队等科研机构组成跨学科团队,开展了植物 lncRNA 鉴定的关键技术突破。该研究聚焦模型选择、超参数优化与特征工程三大核心环节,首次将 219 个基于傅里叶变换、香农熵等数学理论的新型序列描述符纳入特征空间,并通过递归特征消除(RFE)算法从 1,652 个候选特征中筛选出 3 个具有跨物种区分能力的核心参数。在此基础上构建的 PlantLncBoost 模型,在 12 个不同科属植物数据集的交叉验证中,平均预测准确率达 91.7%,较现有主流工具提升 18.2%,为解决植物 lncRNA 鉴定的泛化性难题提供了系统性解决方案。
相关研究成果以「PlantLncBoost: key features for plant lncRNA identification and significant improvement in accuracy and generalization」为题,已发表于学术期刊 New Phytologist。
论文地址: https://go.hyper.ai/F7pkc
数据集:多源异构植物转录组数据整合,构建特征体系
在数据基础构建方面,研究团队整合了多源异构的植物转录组数据以支撑模型开发与验证。
该研究训练所用的核心数据集涵盖了来自无油樟、拟南芥、水稻等 9 种被子植物的 lncRNA 和 mRNA 序列,共计 24,152 条 lncRNA 序列取自 GreeNC 数据库,该数据库采用严格的质量控制标准,确保了数据的高可靠性;与之等量的 mRNA 编码蛋白序列则来自 Phytozome v.13 数据库。在数据预处理阶段,利用 CD-HIT-EST 算法去除了序列相似性超过 80% 的冗余转录本,并剔除了含模糊核苷酸「N」的噪声序列,从而形成了一个平衡且纯净的监督学习训练集。
在模型效能评估环节,研究团队构建了 2 个关键的测试集。其一为综合测试集,包含了从被子植物如玉米、葡萄到藻类如莱茵衣藻、苔藓如小立碗藓等 20 种植物的 lncRNA 序列,其中 13 种物种未包含在训练集中,物种覆盖范围广泛,跨越了植物界的多个主要分支。其二为高置信度的实验验证集,该数据集整合了 EVLncRNAs 和 PlncDB 数据库的内容,经过去重处理后,最终保留了 358 条独特的 lncRNA,涉及 20 种植物,其中 12 种植物的 lncRNA 序列未被纳入训练与测试流程,以此确保了对模型跨物种泛化能力的严格检验。这些数据经过系统性的冗余过滤、质量筛选与跨类群覆盖,既保障了训练数据的精确性,又构建了多层次的验证体系。
此外,为了识别训练稳健 lncRNA 模型的关键特征,研究团队从训练数据集中提取了一组 1,662 个特征。这组特征涵盖了传统的基于序列的度量,例如 ORF 覆盖率、k-mer 频率和 Fickett 分数,同时也包含了旨在捕捉复杂序列模式的新数学特征。具体而言,其中 1,433 个特征为基本序列描述符,133 个特征来自数值序列映射和傅里叶变换,另有 78 个复杂网络特征和 19 个来自香农及 Tallis 熵的特征。这些特征的全面性和多样性为模型的训练和优化提供了丰富的信息基础,有助于提升模型对植物 lncRNA 的识别能力。
用于模型训练的 lncRNA 和 mRNA 数据
PlantLncBoost 算法:特征协同优化,构建高效植物 lncRNA 预测模型
在构建植物长非编码 RNA(lncRNA)预测模型 PlantLncBoost 的过程中,研究团队通过算法效能比对与特征工程优化,实现了高效精准的模型开发。
PlantLncBoost 开发流程
在算法选择阶段,研究团队对 CatBoost、XGBoost 和 LightGBM 三种梯度提升算法进行了全面的性能评估,采用了五折交叉验证的方法。结果显示,在准确率(Accuracy,93.92%)、灵敏度(Sensitivity,99.83%)和 F1 分数(F1-score,94.30%)等关键指标上,CatBoost 显著优于其他两种算法。
此外,CatBoost 的超参数优化耗时仅为 14.45 分钟,相较于 XGBoost 的 164.18 分钟和 LightGBM 的 55.67 分钟,展现了压倒性的效率优势。同时,CatBoost 在模型构建时间和预测速度方面也表现出色,分别为 19.41 分钟和小于 10 秒,这使其成为处理大规模基因组数据的理想选择。
在特征选择(Feature selection)阶段,研究团队采用随机森林重要性(RFI)策略从 1662 个候选特征中筛选核心变量。通过这种方法构建的模型在五折交叉验证中实现了 94.21% 的准确率和 94.56% 的 F1 分数,远超基于方差分析等传统过滤方法的模型(准确率 75%-79%)。
不同特征选择方法的比较评估
研究团队进一步通过逐次模型评估(Model evaluation)前 1-20 位特征的模型表现,如下图所示,发现仅 RFI-3 模型的 ORF 覆盖率、复数傅里叶平均值和原子傅里叶振幅时,模型性能达到峰值,准确率和 F1 分数分别达到 94.35% 和 94.68%。值得注意的是,当特征数量超过 3 个时,模型性能显著下降,这验证了“轻量特征集”的有效性。
基于 RFI 方法和不同数量特征的比较评价
ORF 覆盖率作为一种经典的生物学特征,利用了 lncRNA 与 mRNA 在开放阅读框比例上的本质差异。例如,在拟南芥中,lncRNA 的 ORF 覆盖率峰值约为 0.2,而 mRNA 的 ORF 覆盖率则高达 0.7。如下图所示,这一特征为模型提供了基础的区分能力。而复数傅里叶平均值和原子傅里叶振幅则是基于傅里叶变换的创新数学特征,通过复数编码和原子数编码技术捕捉序列的频域信号与结构特征。在拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)、杨树(Populus trichocarpa)等模式植物的主成分分析中,这两个特征主导的第一主成分解释了 97% 的分类方差,与 ORF 覆盖率贡献的第二主成分形成互补,共同构建了一个跨物种稳健的区分维度。
基于 3 个模式物种的 3 个关键特征的 lncRNA 和 mRNA 的主成分分析
最终,PlantLncBoost 模型整合了 CatBoost 算法的高效学习能力和三大核心特征的判别优势。在十折交叉验证中,该模型以 94.35% 的准确率、99.96% 的灵敏度等关键指标,超越了现有的 LncFinder-plant 和 CPAT-plant 等主流工具。PlantLncBoost 形成了「轻量特征集 + 高性能算法」的创新架构,为植物 lncRNA 的精准鉴定提供了兼具生物学可解释性和工程实用性的解决方案,满足了大规模基因组数据分析的需求,并为植物 lncRNA 的跨物种精准鉴定提供了一个强大的新型工具。
多层次实验验证,PlantLncBoost 跨物种预测性能全面领先
在模型性能验证环节,研究团队精心设计了多层次的实验体系,以满足植物 lncRNA 预测在跨物种泛化性与可靠性方面的需求。
首先,基于一个包含 20 种多样化植物的测试数据集(涵盖种子植物、苔藓植物和古菌藻类),研究团队将 PlantLncBoost 与 LncFinder-plant、CPAT-plant 等 9 个主流模型进行了基准对比。如下图所示,实验结果表明,PlantLncBoost 在灵敏度(98.42%)、特异性(94.93%)、准确率(96.63%)等核心指标上均展现出全面领先的优势,其 ROC 曲线更接近理想预测区域(AUC 达 98.35%)。
10 种 lncRNA 鉴定工具在 20 个植物数据集上的性能评估
尤其在多数物种中,如下表所示,PlantLncBoost 能够在实现近 100% 灵敏度的同时维持超 90% 的特异性,成功突破了传统模型「高灵敏度伴随低特异性」的性能瓶颈。相比之下,CPC2、PLEK-plant 等工具的准确率仅在 80%-90% 之间,显示出对复杂植物谱系数据的适应性不足。
10 种 lncRNA 鉴定方法在 20 种植物数据集上的总体表现
在针对实验验证 lncRNA 的严格测试中,研究团队使用了包含 358 条高置信度转录本的数据集。结果显示,PlantLncBoost 成功识别出 357 条 lncRNA(检测率 99.72%),与 LncFinder-plant 并列第一,CPAT-plant 则以 99.16% 的检测率紧随其后。唯一未被识别的小麦 lncRNA(TalncRNA18)经过追溯分析发现,其原始注释依赖过时的 ORF 检测工具,而现代多特征模型均预测其存在长 ORF(编码 387 个氨基酸的多肽),这提示该转录本可能属于未被正确分类的编码 RNA,从而侧面印证了 PlantLncBoost 预测的严谨性。
综合多层次实验数据,PlantLncBoost 在跨进化类群预测与高可信度验证集中均展现出卓越的稳定性与准确性,确立了其在植物 lncRNA 鉴定领域的先进地位。
高校与企业协同,驱动植物 lncRNA 研究与应用突破
事实上,在植物长非编码 RNA(lncRNA)研究领域,高校科研与企业创新正形成协同突破的态势。
例如,北京大学生命科学学院邓兴旺、朱丹萌团队在对于植物特有非编码 RNA HID1 的研究中,发现拟南芥中 HID1 基因座下游 1.8 kb 的位置存在一个功能冗余的同源基因 HIL1,最终阐明了非编码 RNA HID1 同源基因 HIL1 被选择性转录抑制的分子机理,研究成果发表于 Proceedings of the National Academy of Sciences of the United States of America。
法国巴黎萨克雷大学 Soledad Traubenik 团队 2024 年在「Plant Physiology」发表的综述研究,通过基因表达分析与 RNA 测序技术,发现 COOLAIR lncRNA 通过改变二级结构调控拟南芥春化反应关键基因 FLC 的表达,其在低温胁迫下的动态调控模式为作物抗逆育种提供了新靶点。
论文链接:doi.org/10.1093/plphys/kiae034
剑桥大学 Wolf Reik 团队开发的单细胞 RNA 测序技术,在拟南芥根尖细胞中发现了 237 个细胞特异性表达的 lncRNA,并建立了整合 17 个物种的 250 万细胞数据的植物单细胞 lncRNA 数据库(scPlantDB),为解析 lncRNA 时空表达模式提供了开源平台。
论文链接:www.plantcell.org/cgi/doi/10.1105/tpc.18.00785
在企业创新实践方面,美国农业科技巨头孟山都依托 BioDirect™ 技术平台,将基因组学与天然化合物结合开发新型生物制剂,例如针对科罗拉多金花虫的精准杀虫剂,在有效防治害虫的同时保护益虫生态。
来自中国的先正达集团通过双单倍体技术与基因编辑结合,实现玉米自交系创制周期从四年缩短至一年,并利用高通量分子检测平台完成抗虫抗除草剂性状的快速整合,2023 年通过审定的 121 个品种中多项指标居行业领先。
中国生物技术企业贝纳基因开发的全长 lncRNA 测序技术,突破 Nanopore 平台检测瓶颈,可精准解析 RNA 可变剪接与新转录本,已应用于苹果果皮花色苷积累、斑马鱼神经毒性机制等研究,推动基础科研与农业育种的转化。这些实践将前沿算法与生物技术深度融合,为作物改良、生态保护提供了智能化解决方案。
未来,随着 lncRNA 研究的不断深入和技术的持续进步,高校科研团队的基础研究成果与企业创新实践有望进一步揭示植物 lncRNA 在生长发育和环境适应中的关键作用,并将这些成果转化为实际应用,推动农业生产的可持续发展,为全球农业生产和生态平衡注入新的活力。
参考文章:
1.https://news.pku.edu.cn/jxky/274-284106.htm
2.https://cn.agropages.com/News/printnew-6048.htm
3.https://www.syngentagroup.cn/shouyeguanli/special/240.html
4.https://www.benagen.com/html/shichangyuzhichi/gongsizixun/855.html
本文来自微信公众号“HyperAI超神经”,作者:田小幺,36氪经授权发布。