Nature重磅:医疗AI新突破,人类放射科医生短缺难题被解决了
想象一下,一位放射科医生平均需要耗费 20 分钟,仔细审视数百张切片,才能完成一次腹部 CT 的解读。
而在全球范围内,这样的场景每年要上演 3 亿次,这仅仅是腹部CT的数量就占到了总量的四分之一。然而,与海量的影像需求形成鲜明对比的是严峻的人力危机:预计到 2036 年,全球放射科医生的缺口将超过 19000 人。
AI 能成为帮手吗?遗憾的是,现有的医学 AI 大多还停留在平面阶段。 它们多基于 2D 图像构建,难以真正理解CT扫描复杂的 3D 体积特性,且极度依赖昂贵的人工标注,泛化能力捉襟见肘。
今天,来自斯坦福大学的研究团队在 Nature 期刊上发表了一项重磅成果:一个名为 Merlin 的 3D 视觉-语言模型(VLM),不仅能原生处理 3D 体积数据,更在无需额外人工标注的情况下,展现出超越传统模型的惊人临床能力,为医学影像分析带来了全新的范式。
论文链接:https://www.nature.com/articles/s41586-026-10181-8
研究结果表明,Merlin 不仅能够辅助腹部 CT 扫描的判读并减轻放射科医生的工作负担,同时还能为未来的生物标志物发现及疾病风险分层创造价值。
Merlin 是什么?可以做什么?
Merlin 是一个原生 3D 视觉语言模型(3D VLM)。它的核心能力在于直接理解和处理完整的腹部 CT 容积数据。它能够同时融合三种不同维度的临床信息,即体积CT扫描、电子健康记录(EHR)中的诊断代码,以及放射科医生撰写的自由文本报告。
在训练策略层面,Merlin 采用了高效的弱监督学习框架,从而完全规避了对昂贵人工标注数据的依赖。该方法直接挖掘并利用了医院在常规诊疗流程中自然产生的海量现有数据,即结构化的 EHR 诊断代码与非结构化的放射科报告,以此作为监督信号来驱动模型学习。具体的训练数据规模十分宏大,涵盖了来自 15331 次 CT 扫描的超过 600 万张图像、180 万个诊断代码以及 600 万个文本标记。通过对这些现有数据的挖掘,Merlin实现了自我学习,极大地降低了数据获取的门槛和成本。
图 | Merlin 训练与评估概述。
Merlin的核心优势
研究团队在涵盖六大类任务、共计 752 个具体子任务的基准测试中,对 Merlin 进行了全方位评估,结果证实其具备超越传统方法的综合性能。
零样本分类测试显示,Merlin 能够直接识别30种常见的腹部影像表现,内部验证集的 F1 分数高达 0.741,在包含椎体骨折检测的外部验证中也达到了 0.767。在跨模态检索任务中,无论是实现“从图像检索发现”还是“从发现检索图像”,Merlin 的准确率均显著优于 OpenCLIP 等现有的 2D 视觉-语言模型。此外,Merlin 还能利用 CT 图像直接预测 692 种临床表型,平均 AUROC 达到了 0.81,其中 15% 的表型预测准确率甚至超过了 0.9。
在经过微调的模型适应任务中,Merlin 同样表现出色。在疾病预测方面,即使仅使用少量标签,Merlin 也能准确预测患者未来 5 年内患慢性病的风险。在放射科报告生成任务上,Merlin 生成的报告在结构完整性和质量上均优于现有的 RadFM 等基线模型。值得一提的是,在 3D 语义分割任务中,当仅使用 10% 的训练数据时,Merlin 的分割效果已超越了专业分割模型 nnU-Net,展现了其在低数据资源环境下的巨大优势。
图 | 零样本分类的实现过程,通过将疾病存在提示和疾病不存在提示的文本嵌入与图像嵌入进行对比。
除了在内部测试集上的优异表现,Merlin 在严格的验证环节中也展现了强大的鲁棒性与泛化潜力。
在外部泛化能力测试中,研究团队在 3 个外部医疗机构的 44098 次CT扫描上对模型进行了验证。结果显示,即使面临来自不同设备制造商、不同患者人群分布以及不同医生报告风格的数据分布差异挑战,Merlin 依然保持了高性能,未出现明显的性能衰退,证明了其应对真实世界复杂环境的稳定性。
更引人注目的是,Merlin 展现出了惊人的跨解剖部位泛化能力。尽管该模型仅在腹部 CT 数据上进行训练,但在胸部 CT 的测试评估中,其表现击败了专门针对胸部 CT 训练的基础模型。这一结果强有力地证明了 Merlin 所习得的 3D 特征表征具有极强的通用性和迁移能力,使其具备了解决多种医学影像问题的潜力。
图 | 腹部与胸部 CT 扫描的外部验证。这些结果证明了 Merlin 在来自外部站点的 44098 例腹部和胸部CT扫描中的卓越性能。
这种全方位的优越性在严格的横向对比中得到了进一步证实。通过与最先进的微调 2D VLM、2D 到 3D 升维 VLM 以及仅 3D 视觉模型进行系统比较,结果明确表明:Merlin 的视觉-语言预训练策略显著优于仅视觉预训练。无论是在数据稀缺还是全监督的设置下,Merlin 的性能均全面超越其他基线模型。
图 | 替代架构实验。a–c,基线模型包括五个二维视觉语言模型(2D VLMs)(a)、三个二维到三维提升的视觉语言模型(2D-to-3D lifted VLMs)(b)以及两个纯三维视觉模型(3D vision-only models)(c),用于评估 Merlin 数据集的不同训练策略。基线模型作为与 Merlin 数据集的对比基准。基线模型的训练流程亦予以说明。
意义与展望
Merlin 的出现不仅是一次技术上的胜利,更预示着临床工作流程的深刻变革。
在实际应用层面,该模型有望成为放射科医生的得力助手,通过自动化生成结构化报告、辅助进行准确的诊断编码(ICD编码)以及快速检索相似历史病例,大幅降低因重复性劳动带来的工作负荷,并有效减少人为计费错误。更重要的是,Merlin 展现出了超越人类视觉局限的潜力。它能够从复杂的 3D 体积数据中深度挖掘出那些在常规阅片过程中极易被忽视的早期疾病生物标志物。
从行业发展的宏观视角来看,Merlin 的研究成果为医学人工智能的训练范式提供了重要启示。对比实验结果强有力地证明了,相比于单纯的“图像自监督学习”,利用自然语言进行“视觉-语言对齐”能够提供更为丰富且高效的监督信号,从而学习到更具泛化性的特征表征。
此外,为了推动整个医学 AI 社区的共同进步,研究团队秉持开放科学的精神,不仅公开了 Merlin 的模型代码,还发布了一个包含 25494 对腹部 CT 扫描与放射科报告的高质量数据集。这一举措将为全球研究人员提供宝贵的资源,加速 3D 医学视觉-语言模型及其下游应用的研发与创新。
本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:王跃然,36氪经授权发布。















