基于11647例临床数据，法国团队首次实现基于机器学习的HCC肝移植双重死亡风险精准预测

超神经HyperAI·2026年03月05日 15:06

融合集成学习与 SHAP 可解释分析

法国南巴黎高等电信学院和巴黎萨克雷大学的研究团队，提出了融合集成学习与 SHapley Additive exPlanations（SHAP）分析的机器学习框架，为 HCC 肝移植候选者的死亡风险评估提供了新解法。

肝癌因早期隐匿、进展迅猛等特点，一直以来素有「癌中之王」的称号。其中，肝细胞癌（HCC）作为最常见的肝癌类型，占到原发性肝癌的 70% - 90%，患者通常需要进行肝移植作为早期阶段的根治性手段，这也是众多 HCC 患者抓住生命希望的最后一根「救命稻草」。

然而，供体器官的极度稀缺让这份生的希望变得弥足珍贵。更棘手的是，HCC 肝移植候选者始终面临着肝功能衰竭与肿瘤进展的双重死亡威胁，两者相互交织、彼此影响，极大增加了患者等待期的死亡风险。因此，精准评估 HCC 肝移植候选者的等待期死亡风险，不仅是优化肝移植等待名单优先级和实现稀缺供体公平分配的关键，更是高效挽救每一位患者、守护来之不易的生命希望的核心挑战。

此前，如 Child-Pugh、Albumin-Bilirubin（ALBI）、Model for End-Stage Liver Disease （MELD）等传统风险评估手段，已在肝脏疾病风险评估中广泛应用，但面对 HCC 患者的复杂境况却短板尽显：这些方法要么侧重肝功能和肝硬化程度评估，要么仅聚焦于肿瘤进展的预测，无法兼顾双重风险。即便后续诞生了 HALT-HCC、Mehta Model 等能同时考虑两种风险的综合评分系统，也因受限于线性模型、固定变量权重以及单时间点静态测量，无法捕捉影响因素间的相互作用和疾病动态进展的风险变化，难以实现个体化的准确风险评估。

针对这一临床痛点，来自法国南巴黎高等电信学院和巴黎萨克雷大学的研究团队，提出了融合集成学习（Ensemble Learning, EL）与 SHapley Additive exPlanations（SHAP）分析的机器学习框架，为 HCC 肝移植候选者的死亡风险评估提供了新解法。研究基于 11,647 例患者临床数据开展，对比了随机森林（RF）、XGBoost、LightGBM 三种集成模型，同时通过将 SHAP 值嵌入 Uniform Manifold Approximation and Projection（UMAP）低维空间并结合 K-medoids 算法进行监督聚类，明确了肝功能障碍和肿瘤进展是 HCC 患者死亡的两大核心风险。

这一研究针对性填补了此前机器学习模型在精准评估 HCC 肝移植候选者尤其是双重风险研究方面的空白，实现了 HCC 肝移植候选者 3 个月等待期死亡率的精准预测与临床可解释性，为 HCC 患者肝移植临床决策和风险分层提供了新工具。

相关成果以「Explainable Mortality Prediction for Liver Transplant Candidates with Hepatocellular Carcinoma: A Supervised Clustering Approach」为题，发表于 Health Data Science。

研究亮点：

* 本研究是首个通过机器学习模型进行深入分析 HCC 肝移植候选者等待名单死亡风险的综合性研究

* 通过 SHAP + UMAP + K-medoids 实现 7 个临床可解释的风险亚组分层，明确双重风险核心驱动因素

* 基于 SHAP 筛选 8 个关键变量构建的全新风险评分 ELM-HCC，预测精度显著优于传统评分

* 首次将关键指标动态变量（如 AFP_DIFF）纳入 HCC 肝移植候选者风险评估，明确了其为 HCC 患者等待期死亡的关键预测指标

论文地址：https://spj.science.org/doi/10.34133/hds.0295

数据集：大样本策略 + 动态变量引入

为减少混杂因素，研究采用了一个基于公共数据库数据的大样本策略。

具体来说，研究数据来自 Organ Procurement and Transplantation Network（OPTN）和 United Network for Organ Sharing（UNOS）的标准移植分析与研究（Standard Transplant Analysis and Research, STAR）文件，范围覆盖 2002 年 2 月 27 日至 2023 年 9 月 30 日期间登记的非多器官移植成年 HCC 患者。

此次研究以预测 HCC 患者肝移植 3 个月等待期的死亡率为核心目标，因此研究团队将研究人群分为两组进行分析，即在等待名单上超过三个月的患者，称为「on waiting list」；3 个月内在等待名单上死亡或因病情加重而无法接受移植的患者，称为「waitlist mortality」。最终，总的研究队列包含了 11,647 名患者，其中 11,199 名患者为「on waiting list」，448 名患者为「waitlist mortality」，数据包含临床、实验室和疾病相关多维度变量。

在数据预处理阶段，为了捕捉患者健康状态的动态特征，研究团队计算了传统评分中涉及的 6 个关键实验室变量的连续测量差值（DIFF），包括血清钠（serum sodium）、肌酐（creatinine）、白蛋白（albumin）、胆红素（bilirubin）、甲胎蛋白（AFP）和国际标准化比值（International Normalized Ratio, INR），以此捕获患者健康状态的动态变化轨迹，使总特征数增加到 31 个（25 个原始静态变量 + 6 个新增动态变量）。

对于缺失值的处理，数值变量（缺失率＜ 7%）使用类别均值填补；分类变量（缺失率＜ 0.1%）直接删除了包含缺失值的观测记录。

模型架构：端到端一体化流程 + 多集成学习模型对比

为了使 HCC 肝移植候选者 3 个月等待期死亡率的预测具有可靠的准确率和可解释性，研究团队构建了一个融合集成学习、SHAP 可解释性分析、UMAP 降维与 K-Medoids 监督聚类的端到端一体化流程，如下图所示：

HCC 肝移植候选者死亡风险评估与分层工作流程

首先，核心模型采用集成学习的树模型，这类模型对于处理表格和异构数据特别有效。为进一步对此类模型性能做出对比，研究共使用了 3 种基础的集成学习模型，包括随机森林、XGBoost 和 LightGBM。实验设置为在两种训练场景下展开，第一种仅使用 25 个原始静态变量；第二种使用 31 个含动态变量的动静态结合变量训练。

其次，可解释性的目的在于对预测结果进行科学、合理的解释，以增强临床决策的依据，为此研究团队将 SHAP 可解释性分析融入框架，用来识别关键风险因素并揭示模型预测。

对于全局解释来说，计算 SHAP 值量化每个特征对模型预测结果的贡献度，可以识别死亡率预测的核心风险因素，明确特征与死亡风险的关联方向；对于局部解释来说，通过 SHAP 总结图、SHAP 力图，可以展示单个特征值高低对于预测结果的具体影响，以及每个患者的特征贡献分布。此外，该环节还将为后续聚类分析提供 SHAP 值特征集，替代原始数据提升聚类的临床可解释性。

最后，为实现对患者的精细化风险分层，从群体水平预测转向亚组特异性分析，研究流程中加入了 UMAP 降维与 K-Medoids 监督聚类方法。首先将模型预测的 SHAP 值嵌入到 UMAP 降维空间中，之后采用 K-Medoids 算法对嵌入 3 维 UMAP 空间的 SHAP 值进行聚类，以发现具有不同临床特征的潜在患者亚组。该方法被称为「监督聚类」，因为聚类基于 SHAP 值而非原始数据。

最优聚类数确定是先通过量化指标 Silhouette coefficient、Davies-Bouldin index 筛选，然后再通过 SHAP 分析聚类特征进行临床验证，最终确定最优聚类数为 7。

实验结果：8 种传统评分作为对比 + 最优特征集训练新模型

风险评分表现对比

研究将所提框架与 8 种传统风险评估方法进行性能对比，包含 ALBI、Child–Pugh、AFP、Hazard associated with LT for HCC（HALT-HCC）、Mehta Model、MELD 及其两个变体 MELD-Na、MELD 3.0 。

考虑到数据集存在严重类别不平衡，研究对多数组（在等待名单上）进行了下采样，生成 30 个与少数组（等待期死亡）规模相当的子集，并针对每个平衡子集执行 3 折交叉验证，以确保同一患者的所有观测值均归为训练集或测试集。之后通过网格搜索确定 3 个集成模型的最优超参数配置，如下图所示：

超参数配置

结果显示，在传统评分系统中，Mehta Model 表现最佳，AUROC 达 0.782，紧随其后的是 HALT-HCC，AUROC 为 0.763。更重要的是，这两种模型在敏感性和特异性方面的表现更为平衡。MELD 3.0 的表现虽然优于基础 MELD 和 MELD-Na，但其敏感性和特异性存在不平衡的问题。

集成学习模型框架与 8 种传统评分系统的实验比较

而当实验扩展到集成学习框架时，首先在 25 个静态变量上的训练，其准确率均超过了传统评分系统。其中 RF 表现最佳，AUROC 为 0.796，且 72.41% 的敏感性和 75.24% 的特异性也表现的相当平衡；在引入包含动态变量的 31 个动静态结合变量后，所有集成学习模型性能更上一层楼。其中 LightGBM 的 AUROC 达到 0.826，敏感性达到最高的 77.42%，是识别高危患者最有效的模型。

识别关键风险因素能力分析

在模型训练完成后，研究将仅使用最相关的特征来评估它们的性能。为此研究团队针对性能最优的 LightGBM 模型，采用 Gain importance 和 SHAP global importance 两种特征重要性评估方法对关键特征进行筛选。

基于 LightGBM 模型（性能最优模型），SHAP global importance 筛选的前 8 个特征使得模型性能达到了最优表现，AUROC 达 0.835，敏感性为 77.14%，特异性为 75.64%，不仅优于 Gain importance 筛选结果（8 个特征时 AUROC 为 0.812；12 个特征时达到最佳，为 0.828），还高于 LightGBM 在 31 个完整变量集上的表现（AUROC 为 0.826），因此被研究团队选择为最优特征集。

利用 SHAP global importance 筛选的 LightGBM 模型的特征重要性排序

最终，研究确定并基于最优特征集训练的 LightGBM 模型，构建了针对 HCC 患者的概率性死亡率评分，称为 ELM-HCC。值得一提的是，LightGBM 在简化后的变量集上比完整的 31 个变量集上的 AUROC 更好，体现了所选取的 8 个变量具备更强的预测影响力，同时，关键相关特征中出现的 AFP_DIFF 也突出了纳入动态信息的重要性。

风险分层与亚组分析

研究基于 SHAP 值的监督聚类识别出 7 个具有不同临床特征和风险水平的患者亚组，如下图 B 清晰的展示了聚类 1 到聚类 7 死亡概率逐渐增加的死亡分析按分层。

A 为基于 SHAP 嵌入值的 UMAP 2D 可视化聚类，B 为 7 个聚类观测值的死亡概率箱型图和群体图

研究基于 Kruskal-Wallis 检验的进一步分析，揭示了不同聚类间变量的差异。如 SHAP 力图所展示：从聚类 1到聚类 7，死亡风险概率呈递进式增长，如代表性患者的死亡概率从 0.03 上升到 0.98。这一趋势与箱型图中所观察到的排名一致，凸显了聚类方法的有效性。

7 个亚组代表的 SHAP 力图

另外，亚组分析还清晰地揭示了导致高死亡率风险的两个主要原因，即严重的肝功能衰竭（以高胆红素、高肌酐和中度腹水为特征，三者均对应正向 SHAP 值，显著增加死亡风险）和活跃的肿瘤进展（以高 AFP 水平为特征）。

总的来说，本研究所提出的基于 LightGBM 和 SHAP 可解释性分析的机器学习框架 ELM-HCC，在预测 HCC 肝移植候选者 3 个月等待期死亡风险方面，展现出显著优于传统评分系统的性能，同时通过监督聚类揭示具有不同风险特征的患者亚组，为临床决策提供了更精准、更具解释性的风险评估工具。

革新肝移植候选者风险评估手段，综合性方法弥补研究空白

如上文所述，肝癌正在成为一项全球性的公共卫生难题，面对日益严峻的疾病挑战和越来越高的医疗要求，科学合理的规划肝移植候选人名单显得弥足珍贵。早在 2002 年，Model for End-Stage Liver Disease（MELD ）就已经被应用于肝移植候选名单的优先级排序，然而经过多次修订，MELD 的分配仍然无法公平地满足所有候选人。

而机器学习凭借其对高维和多模态数据的处理能力，如今已成为预测器官移植候选名单死亡风险的最佳方案。

此前已有机器学习模型应用于肝移植死亡率预测，如麻省理工学院、加州大学旧金山分校以及得克萨斯大学的联合团队，提出了基于最优分类树（OCTs）构建的死亡率优化预测模型 OPOM。基于该模型分配肝脏，每年死亡人数比基于 MELD 可减少约 418 例，各 UNOS 区域及各疾病严重程度等级死亡/移除人数均呈显下降。另外，该模型还调整了对非 HCC 和 HCC 患者肝脏分配数量，使肝移植分配得到显著优化，减少了候选者死亡。

论文题目：Development and validation of an optimized prediction of mortality for candidates awaiting liver transplantation

论文地址：https://www.sciencedirect.com/science/article/pii/S1600613522090335

不过，OPOM 虽表现出色，但该模型基于 HCC 和非 HCC 混合队列，未针对性解决 HCC 患者面临的肝功能衰竭与肿瘤进展双重风险问题。而 ELM-HCC 无疑是对此空白的填补。

最后，本次研究不仅仅是对前人研究的精进和拓展，更难能可贵的是如作者所言，是对当前研究空白的弥补，通过首次实现 HCC 肝移植候选者 3 个月等待期死亡率可解释性精准预测，为机器学习+器官移植候选者风险评估提供了新思路。

参考资料：

1.https://spj.science.org/doi/10.34133/hds.0295

2.https://www.sciencedirect.com/science/article/pii/S1600613522090335

本文来自微信公众号“HyperAI超神经”，作者：哇塞，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。