基于11647例临床数据,法国团队首次实现基于机器学习的HCC肝移植双重死亡风险精准预测

超神经HyperAI·2026年03月05日 15:06
融合集成学习与 SHAP 可解释分析

法国南巴黎高等电信学院和巴黎萨克雷大学的研究团队,提出了融合集成学习与 SHapley Additive exPlanations(SHAP)分析的机器学习框架,为 HCC 肝移植候选者的死亡风险评估提供了新解法。

肝癌因早期隐匿、进展迅猛等特点,一直以来素有「癌中之王」的称号。其中,肝细胞癌(HCC)作为最常见的肝癌类型,占到原发性肝癌的 70% - 90%,患者通常需要进行肝移植作为早期阶段的根治性手段,这也是众多 HCC 患者抓住生命希望的最后一根「救命稻草」。

然而,供体器官的极度稀缺让这份生的希望变得弥足珍贵。更棘手的是,HCC 肝移植候选者始终面临着肝功能衰竭与肿瘤进展的双重死亡威胁,两者相互交织、彼此影响,极大增加了患者等待期的死亡风险。因此,精准评估 HCC 肝移植候选者的等待期死亡风险,不仅是优化肝移植等待名单优先级和实现稀缺供体公平分配的关键,更是高效挽救每一位患者、守护来之不易的生命希望的核心挑战。

此前,如 Child-Pugh、Albumin-Bilirubin(ALBI)、Model for End-Stage Liver Disease (MELD) 等传统风险评估手段,已在肝脏疾病风险评估中广泛应用,但面对 HCC 患者的复杂境况却短板尽显:这些方法要么侧重肝功能和肝硬化程度评估,要么仅聚焦于肿瘤进展的预测,无法兼顾双重风险。即便后续诞生了 HALT-HCC、Mehta Model 等能同时考虑两种风险的综合评分系统,也因受限于线性模型、固定变量权重以及单时间点静态测量,无法捕捉影响因素间的相互作用和疾病动态进展的风险变化,难以实现个体化的准确风险评估。

针对这一临床痛点,来自法国南巴黎高等电信学院和巴黎萨克雷大学的研究团队,提出了融合集成学习(Ensemble Learning, EL)与 SHapley Additive exPlanations(SHAP)分析的机器学习框架,为 HCC 肝移植候选者的死亡风险评估提供了新解法。研究基于 11,647 例患者临床数据开展,对比了随机森林(RF)、XGBoost、LightGBM 三种集成模型,同时通过将 SHAP 值嵌入 Uniform Manifold Approximation and Projection(UMAP)低维空间并结合 K-medoids 算法进行监督聚类,明确了肝功能障碍和肿瘤进展是 HCC 患者死亡的两大核心风险。

这一研究针对性填补了此前机器学习模型在精准评估 HCC 肝移植候选者尤其是双重风险研究方面的空白,实现了 HCC 肝移植候选者 3 个月等待期死亡率的精准预测与临床可解释性,为 HCC 患者肝移植临床决策和风险分层提供了新工具。

相关成果以「Explainable Mortality Prediction for Liver Transplant Candidates with Hepatocellular Carcinoma: A Supervised Clustering Approach」为题,发表于 Health Data Science。

研究亮点:

* 本研究是首个通过机器学习模型进行深入分析 HCC 肝移植候选者等待名单死亡风险的综合性研究 

* 通过 SHAP + UMAP + K-medoids 实现 7 个临床可解释的风险亚组分层,明确双重风险核心驱动因素

* 基于 SHAP 筛选 8 个关键变量构建的全新风险评分 ELM-HCC,预测精度显著优于传统评分

* 首次将关键指标动态变量(如 AFP_DIFF)纳入 HCC 肝移植候选者风险评估,明确了其为 HCC 患者等待期死亡的关键预测指标

论文地址:https://spj.science.org/doi/10.34133/hds.0295

数据集:大样本策略 + 动态变量引入

为减少混杂因素,研究采用了一个基于公共数据库数据的大样本策略。

具体来说,研究数据来自 Organ Procurement and Transplantation Network(OPTN)和 United Network for Organ Sharing(UNOS)的标准移植分析与研究(Standard Transplant Analysis and Research, STAR)文件,范围覆盖 2002 年 2 月 27 日至 2023 年 9 月 30 日期间登记的非多器官移植成年 HCC 患者。

此次研究以预测 HCC 患者肝移植 3 个月等待期的死亡率为核心目标,因此研究团队将研究人群分为两组进行分析,即在等待名单上超过三个月的患者,称为「on waiting list」;3 个月内在等待名单上死亡或因病情加重而无法接受移植的患者,称为「waitlist mortality」。最终,总的研究队列包含了 11,647 名患者,其中 11,199 名患者为「on waiting list」,448 名患者为「waitlist mortality」,数据包含临床、实验室和疾病相关多维度变量。

在数据预处理阶段,为了捕捉患者健康状态的动态特征,研究团队计算了传统评分中涉及的 6 个关键实验室变量的连续测量差值(DIFF),包括血清钠(serum sodium)、肌酐(creatinine)、白蛋白(albumin)、胆红素(bilirubin)、甲胎蛋白(AFP) 和 国际标准化比值(International Normalized Ratio, INR),以此捕获患者健康状态的动态变化轨迹,使总特征数增加到 31 个(25 个原始静态变量 + 6 个新增动态变量)。

对于缺失值的处理,数值变量(缺失率 < 7%)使用类别均值填补;分类变量(缺失率 < 0.1%)直接删除了包含缺失值的观测记录。

模型架构:端到端一体化流程 + 多集成学习模型对比

为了使 HCC 肝移植候选者 3 个月等待期死亡率的预测具有可靠的准确率和可解释性,研究团队构建了一个融合集成学习、SHAP 可解释性分析、UMAP 降维与 K-Medoids 监督聚类的端到端一体化流程,如下图所示:

HCC 肝移植候选者死亡风险评估与分层工作流程

首先,核心模型采用集成学习的树模型,这类模型对于处理表格和异构数据特别有效。为进一步对此类模型性能做出对比,研究共使用了 3 种基础的集成学习模型,包括随机森林、XGBoost 和 LightGBM。实验设置为在两种训练场景下展开,第一种仅使用 25 个原始静态变量;第二种使用 31 个含动态变量的动静态结合变量训练。

其次,可解释性的目的在于对预测结果进行科学、合理的解释,以增强临床决策的依据,为此研究团队将 SHAP 可解释性分析融入框架,用来识别关键风险因素并揭示模型预测。

对于全局解释来说,计算 SHAP 值量化每个特征对模型预测结果的贡献度,可以识别死亡率预测的核心风险因素,明确特征与死亡风险的关联方向;对于局部解释来说,通过 SHAP 总结图、SHAP 力图,可以展示单个特征值高低对于预测结果的具体影响,以及每个患者的特征贡献分布。此外,该环节还将为后续聚类分析提供 SHAP 值特征集,替代原始数据提升聚类的临床可解释性。

最后,为实现对患者的精细化风险分层,从群体水平预测转向亚组特异性分析,研究流程中加入了 UMAP 降维与 K-Medoids 监督聚类方法。首先将模型预测的 SHAP 值嵌入到 UMAP 降维空间中,之后采用 K-Medoids 算法对嵌入 3 维 UMAP 空间的 SHAP 值进行聚类,以发现具有不同临床特征的潜在患者亚组。该方法被称为「监督聚类」,因为聚类基于 SHAP 值而非原始数据。

最优聚类数确定是先通过量化指标 Silhouette coefficient、Davies-Bouldin index 筛选,然后再通过 SHAP 分析聚类特征进行临床验证,最终确定最优聚类数为 7。

实验结果:8 种传统评分作为对比 + 最优特征集训练新模型

风险评分表现对比

研究将所提框架与 8 种传统风险评估方法进行性能对比,包含 ALBI、Child–Pugh、AFP、Hazard associated with LT for HCC(HALT-HCC)、Mehta Model、MELD 及其两个变体 MELD-Na、MELD 3.0 。

考虑到数据集存在严重类别不平衡,研究对多数组(在等待名单上)进行了下采样,生成 30 个与少数组(等待期死亡)规模相当的子集,并针对每个平衡子集执行 3 折交叉验证,以确保同一患者的所有观测值均归为训练集或测试集。之后通过网格搜索确定 3 个集成模型的最优超参数配置,如下图所示:

超参数配置

结果显示,在传统评分系统中,Mehta Model 表现最佳,AUROC 达 0.782,紧随其后的是 HALT-HCC,AUROC 为 0.763。更重要的是,这两种模型在敏感性和特异性方面的表现更为平衡。MELD 3.0 的表现虽然优于基础 MELD 和 MELD-Na,但其敏感性和特异性存在不平衡的问题。

集成学习模型框架与 8 种传统评分系统的实验比较

而当实验扩展到集成学习框架时,首先在 25 个静态变量上的训练,其准确率均超过了传统评分系统。其中 RF 表现最佳,AUROC 为 0.796,且 72.41% 的敏感性和 75.24% 的特异性也表现的相当平衡;在引入包含动态变量的 31 个动静态结合变量后,所有集成学习模型性能更上一层楼。其中 LightGBM 的 AUROC 达到 0.826,敏感性达到最高的 77.42%,是识别高危患者最有效的模型。

识别关键风险因素能力分析

在模型训练完成后,研究将仅使用最相关的特征来评估它们的性能。为此研究团队针对性能最优的 LightGBM 模型,采用 Gain importance 和 SHAP global importance 两种特征重要性评估方法对关键特征进行筛选。

基于 LightGBM 模型(性能最优模型),SHAP global importance 筛选的前 8 个特征使得模型性能达到了最优表现,AUROC 达 0.835,敏感性为 77.14%,特异性为 75.64%,不仅优于 Gain importance 筛选结果(8 个特征时 AUROC 为 0.812;12 个特征时达到最佳,为 0.828),还高于 LightGBM 在 31 个完整变量集上的表现(AUROC 为 0.826),因此被研究团队选择为最优特征集。

利用 SHAP global importance 筛选的 LightGBM 模型的特征重要性排序

最终,研究确定并基于最优特征集训练的 LightGBM 模型,构建了针对 HCC 患者的概率性死亡率评分,称为 ELM-HCC。值得一提的是,LightGBM 在简化后的变量集上比完整的 31 个变量集上的 AUROC 更好,体现了所选取的 8 个变量具备更强的预测影响力,同时,关键相关特征中出现的 AFP_DIFF 也突出了纳入动态信息的重要性。

风险分层与亚组分析

研究基于 SHAP 值的监督聚类识别出 7 个具有不同临床特征和风险水平的患者亚组,如下图 B 清晰的展示了聚类 1 到聚类 7 死亡概率逐渐增加的死亡分析按分层。

A 为基于 SHAP 嵌入值的 UMAP 2D 可视化聚类,B 为 7 个聚类观测值的死亡概率箱型图和群体图

研究基于 Kruskal-Wallis 检验的进一步分析,揭示了不同聚类间变量的差异。如 SHAP 力图所展示:从聚类 1到聚类 7,死亡风险概率呈递进式增长,如代表性患者的死亡概率从 0.03 上升到 0.98。这一趋势与箱型图中所观察到的排名一致,凸显了聚类方法的有效性。

7 个亚组代表的 SHAP 力图

另外,亚组分析还清晰地揭示了导致高死亡率风险的两个主要原因,即严重的肝功能衰竭(以高胆红素、高肌酐和中度腹水为特征,三者均对应正向 SHAP 值,显著增加死亡风险)和活跃的肿瘤进展(以高 AFP 水平为特征)。

总的来说,本研究所提出的基于 LightGBM 和 SHAP 可解释性分析的机器学习框架 ELM-HCC,在预测 HCC 肝移植候选者 3 个月等待期死亡风险方面,展现出显著优于传统评分系统的性能,同时通过监督聚类揭示具有不同风险特征的患者亚组,为临床决策提供了更精准、更具解释性的风险评估工具。

革新肝移植候选者风险评估手段,综合性方法弥补研究空白

如上文所述,肝癌正在成为一项全球性的公共卫生难题,面对日益严峻的疾病挑战和越来越高的医疗要求,科学合理的规划肝移植候选人名单显得弥足珍贵。早在 2002 年,Model for End-Stage Liver Disease(MELD )就已经被应用于肝移植候选名单的优先级排序,然而经过多次修订,MELD 的分配仍然无法公平地满足所有候选人。

而机器学习凭借其对高维和多模态数据的处理能力,如今已成为预测器官移植候选名单死亡风险的最佳方案。

此前已有机器学习模型应用于肝移植死亡率预测,如麻省理工学院、加州大学旧金山分校以及得克萨斯大学的联合团队,提出了基于最优分类树(OCTs)构建的死亡率优化预测模型 OPOM。基于该模型分配肝脏,每年死亡人数比基于 MELD 可减少约 418 例,各 UNOS 区域及各疾病严重程度等级死亡/移除人数均呈显下降。另外,该模型还调整了对非 HCC 和 HCC 患者肝脏分配数量,使肝移植分配得到显著优化,减少了候选者死亡。

论文题目:Development and validation of an optimized prediction of mortality for candidates awaiting liver transplantation

论文地址:https://www.sciencedirect.com/science/article/pii/S1600613522090335

不过,OPOM 虽表现出色,但该模型基于 HCC 和非 HCC 混合队列,未针对性解决 HCC 患者面临的肝功能衰竭与肿瘤进展双重风险问题。而 ELM-HCC 无疑是对此空白的填补。

最后,本次研究不仅仅是对前人研究的精进和拓展,更难能可贵的是如作者所言,是对当前研究空白的弥补,通过首次实现 HCC 肝移植候选者 3 个月等待期死亡率可解释性精准预测,为机器学习+器官移植候选者风险评估提供了新思路。

参考资料:

1.https://spj.science.org/doi/10.34133/hds.0295

2.https://www.sciencedirect.com/science/article/pii/S1600613522090335

本文来自微信公众号“HyperAI超神经”,作者:哇塞,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

随着高层定调,林俊旸离职的消息就此落定了,但风波和讨论尚未停止。

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业