全球重注医疗AI的关键时刻,百川智能丢下“重磅炸弹”

晓曦·2025年08月12日 17:32
8月11日,百川智能正式推出开源医疗增强推理大模型Baichuan-M2。

国内大模型领域再传重磅消息。

在OpenAI开源模型gpt-oss-120b发布仅5天后,8月11日,百川智能正式推出开源医疗增强推理大模型Baichuan-M2。这款参数量32B的模型,是百川智能开源的第二个医疗增强大模型,专门为真实世界的医疗推理任务设计。

值得注意的是,在OpenAI官方发布的权威医疗评测集HealthBench上,Baichuan-M2的综合成绩不仅超越OpenAI自家开源的120B模型gpt-oss-120b,更一举登顶,截至目前(2025年8月10日),成为开源领域最接近GPT-5医疗能力的标杆模型。

这无疑标志着中国医疗AI正跻身全球技术第一梯队。

医疗大模型的新标杆

此次Baichuan-M2的发布,表明百川智能在“用大模型造医生”的路上又走出关键一步。其核心突破在于,通过技术创新显著提升了AI医生在复杂诊疗场景中的思维与沟通能力,使其更贴近真实医生的专业决策与互动方式,为最终实现“AI医生”的愿景奠定了更坚实的基础。

先将目光投向模型的具体表现。

在HealthBench(包含了5000个广泛场景覆盖的医患多轮对话,并通过由262个人类医生编写的48562个医疗评价规则来对模型能力进行评估的测试集)上,Baichuan-M2目前超越了gpt-oss-120b、Qwen3-235B-A22B-Thinking-2507、DeepSeek-R1-0528、GLM-4.5、Kimi-K2等开源模型。

特别是在HealthBench Hard任务上,Baichuan-M2优势明显,展现了其在解决复杂医疗场景任务上的优秀能力。

不仅如此,与当前行业前沿的闭源模型相比,Baichuan-M2亦毫不逊色:截至目前,其在HealthBench、HealthBench Hard上超越了o3、Grok3、Gemini 2.5 Pro、GPT-4.1等众多顶尖模型,且其与GPT-5是healthbench上唯二超越32分的模型。

评测结果数据是技术领先性的重要表征,但同时,行业也特别关注AI在真实医疗场景中的实际落地能力。

首先,医疗健康行业涉及个人隐私信息,对私有化部署有着强烈需求。针对这一点,Baichuan-M2以极低的部署成本在HealthBench上取得了优秀效果。相比于OpenAI最新开源的gpt-oss-120b,Baichuan-M2再一次前移了帕累托前沿,进一步提升了模型的落地可能性与可扩展性。

再者,在中国本土医疗场景中,Baichuan-M2展现出比国际模型更精准的临床适配性。中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,这一优势部分源于其对中国医疗场景的深度适配。

举个例子,当面对一位55岁肝癌患者的复杂病例时,Baichuan-M2基于中国卫健委《原发性肝癌诊疗指南》推荐“解剖性肝右叶切除”方案——这与国内临床实践完全吻合。而同样的案例,gpt-oss-120b则建议“经动脉化疗栓塞术(TACE)”,理由是符合BCLCB期治疗指南,显示出对中国诊疗规范的理解偏差。

从优秀的评测表现到更强的场景落地能力,百川智能凭借Baichuan-M2树立了医疗大模型的新标杆。

取得再次突破的核心秘密

优秀医生的培养与供给是医疗行业的巨大瓶颈。

围绕这一方向,百川智能的解决之道是运用大模型智能体提供近乎无限的AI医生供给,通过与真人医生协作实现“双医模式”——让每位医生拥有AI医助,每位患者拥有专属的AI医生,并长期陪伴记录个体健康数据。

然而这一愿景的实现无法一蹴而就,需要逐步攻克诸多核心挑战。

行业层面,AI医疗面临数据来源广泛、格式与标准不统一、存在缺失或错误值,以及AI模型自身“黑箱”特性导致因果关系难以清晰呈现等难题。

为此,百川智能于今年年初发布了Baichuan-M1-14B,其是行业首个医疗增强开源模型。仅隔半年,Baichuan-M2的发布便实现了更进一步的突破。

要知道,在真实的临床医患对话场景中,患者的表达往往具有种种噪声。比如症状描述因个体认知差异带有偏见或是遗漏,这对传统基于规则匹配的强化系统构建提出了严峻挑战。

Baichuan-M2的破局点是在为医疗构建强大的可验证系统时引入了“患者模拟器”。

“患者模拟器”是百川智能于今年1月在arXiv上发布的基于真实病例构建的AI系统。该系统如同自动驾驶的仿真测试平台,通过真实数据构建上万个不同年龄、性别、症状的AI患者,模拟了数百万次诊疗过程,从而生成出具有不同教育背景和表达能力的虚拟患者,让他们在医患对话中提供真实的症状表达和交互反应。

验证系统则通过动态生成评分标准,在端到端强化学习中实时优化AI医生的决策质量。

一系列创新带来的价值在于,系统将静态、预定义的奖励规则,升级为基于真实场景交互的动态智能评估体系。这使得模型在面对信息残缺、表达模糊的真实患者时,能够主动评估诊断假设的稳健性,并动态调整问诊策略——例如补充提问以获取关键信息,或在信息充分时果断给出结论。

基于“患者模拟器”开源的Baichuan-M1-14B成为行业首个医疗增强模型。此次百川智能升级患者模拟器,将其融入“验证系统”,使得训练出的Baichuan-M2在HealthBench等评测上取得了更大突破。

这些创新为医疗领域的强化学习,构建出了一个可验证的系统,并大幅提升了模型在复杂临床环境中的适应性与决策质量,是Baichuan-M2“既懂医学,更懂临床”的关键,也是推动“AI医生”持续落地的重要基石。

AI医疗的全球竞速

当前,全球AI竞争格局正经历深刻变化。

一方面,OpenAI、Anthropic等美国巨头在通用大模型架构(如MoE)、路由机制、评测体系上持续创新,这导致中美在通用能力上的差距并未如年初业界预期那样缩小,甚至还在拉大。

另一方面,与通用领域不同,医疗作为关键垂直领域,正成为全球AI新势力追逐的核心赛道。比如OpenAI在GPT-5发布会上重点展示其在医疗健康领域的突破,强调其对普通人的价值。可以看见,医疗能力在其模型评测体系中的权重不断提升。

资本亦闻风而动。据了解,2025年美国新晋AI独角兽中,医疗AI公司占比已超50%。其中,Abridge(估值53亿美元)、OpenEvidence(估值35亿美元)、Hippocratic AI(估值16.4亿美元)等头部企业获得巨额融资。

“目前人类的专业知识仍然稀缺,比如优秀的医生和出色的教师仍然是社会所依赖的,但未来十年内,借助AI,这些将变得免费、普及,高质量的医疗建议、高水平的个性化教学将随处可得。”比尔·盖茨于今年3月作出此番预言。

图灵奖得主Hinton更是在今年6月强调:“AI将在多个领域发挥举足轻重的作用,尤其是在科学研究方面,它有潜力推动真正的智能系统诞生,这是人类历史上一个令人振奋的里程碑。在医疗、教育等关系民生的领域,AI的影响也将是革命性的。以医疗为例,AI将成为每个人身边的‘私人医生’。它可以接诊数百万名患者,甚至包括与你患有相同疾病的人。”

站在此维度审视,百川智能此次开源Baichuan-M2,不仅是一次技术成果的展示,更是中国AI产业在医疗这一关键领域实现全球并跑的有力印证:当OpenAI发布其开源医疗模型gpt-oss-120b后,百川智能在短短5天内便以Baichuan-M2做出“技术回应”,并在权威评测中实现反超,展现出中国团队在大模型领域的技术锐度与执行力。

据了解,百川智能目前已经与北京儿童医院、北京大学第三医院、海淀卫健委等展开深度合作,加速医疗大模型的迭代与真实医疗场景的实践,为行业的发展奠定更大基础。

犹记得今年年初,DeepSeek-R1的爆火助力中国开源力量走向世界;而Baichuan-M2的发布则证明,在医疗这一关乎人类福祉的关键赛道上,中国AI企业同样具备与国际巨头并跑的能力。

后续,随着模型在真实医院场景中不断迭代验证,一个由AI深度赋能、更高效、更可及的未来医疗图景,正加速向我们驶来。

+1
25

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业