从会说话到能决策:百川M3重塑医疗大模型标准
1月13日,百川智能发布并开源新一代医疗增强大模型Baichuan-M3。在OpenAI主导的权威医疗评测集HealthBench及其困难子集上,该模型取得了全球最高综合成绩,并显著超越了GPT-5.2;在医疗幻觉率的纯模型评估中也达到了当前最低水平;在聚焦全流程临床能力的SCAN-bench评测中,M3在病史采集、辅助检查和诊断等多个核心指标上均居首位,展现出综合领先的医疗推理和问诊能力。
此外,M3还首次具备了原生的“端到端”严肃问诊能力。它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。
但这场发布的意义,并不只是多了一次技术榜单上的超越。更重要的是,Baichuan-M3把医疗大模型推到了一个新的位置:它不再停留在对话和表达的层面,而是开始真正具备支撑完整诊疗流程的能力,能够参与到医疗决策本身。也正因为如此,它的意义远超其他模型,大模型的技术进步,终于能够完整地转化为医疗健康领域可规模化落地的现实价值。
“帮助患者产生辅助决策的价值就是有意义的。”百川智能创始人&CEO王小川在发布会上分享。
在医疗这个对安全性和责任要求最高的场景里,这样的变化并不会偶然发生。它意味着有人选择了一条更慢、更难、也更不讨巧的路径,把模型能力从展示智能一步步推向承载决策。
百川为何能走到这一步?为什么这次突破出现在医疗,而不是代码、搜索或智能体这些更热门的赛道?又为什么是在此时此刻,这些长期积累的技术选择和工程路线,开始同时收敛到一个清晰的结果上?
医疗大模型的评价标准正在被重写
几乎从人工智能诞生之初,人们就把医疗视为最有可能、也最值得被AI改造的行业之一。
在HealthBench出现之前,与医疗行业相关的AI能力几乎是不可比较的。各家模型都可以宣称自己懂医学、能做医疗问答,但没有统一的评价坐标系,也谈不上横向对比。
今年5月,OpenAI推出了HealthBench,这套标准汇集了大量基于真实临床场景设计的多轮对话样本,让医疗能力可以被量化评估,有了公共标准。因此在相当长一段时间里,它几乎等同于医疗大模型的最高标准,也成为各家模型展示医疗能力的共同坐标系。
正因如此,在相当长一段时间里,谁在HealthBench上得分更高,谁就更懂医疗,几乎成了默认共识。这并不是因为HealthBench覆盖了医疗的全部复杂性,而是因为在它之前,行业连标准本身都没有。
从某一刻起,行业趋势发生了变化。去年年中至今,当国内的阿福、小荷医生等医疗助手纷纷上线,OpenAI推出ChatGPT Health,Anthropic推出Claude for Healthcare,医疗不再只是一个用于测试模型聪明程度的benchmark,而成为大模型厂商必须正面投入的产品方向;模型也要直接面对回答能否被当成决策依据这件事。
这不再只是排名问题。
也正是在这个阶段,HealthBench的边界开始显现出来。它仍然重要,但已经不再充分。它依然能够证明模型是否具备医学知识和专业表达能力,却无法回答一个更核心的问题:模型是否具备进入真实医疗决策流程的资格。
临床决策从来不是从一个标准化问题开始,而是从高度不完整、甚至混乱的信息开始。患者往往说不清重点,症状之间相互叠加,不同风险混杂在一起,真正的难点不在于“答案怎么给”,而在于“问题怎么问”。医生的专业能力,很大一部分体现在对信息优先级的判断上:哪些是必须马上排除的高危信号,哪些可以暂缓;哪些信息一旦缺失就无法下结论,哪些只是补充参考。
也正是在这一点上,百川给出了与主流路线明显不同的选择。一方面,它并没有放弃在HealthBench体系里的竞争,仍然持续追求在现有权威标准下做到最好;另一方面,它同时推出了SCAN-bench,试图补上对完整临床流程本身进行建模和评测,这个此前长期被忽视的维度。
围绕SCAN原则,百川借鉴医学教育里长期使用的OSCE方法,联合150多位一线医生,搭建了SCAN-bench评测体系,该体系以真实临床经验作为“标准答案”,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于HealthBench,SCAN-bench是更加全流程端到端的动态评测新范式。
也就是说,当行业还在比谁更会“答”的时候,百川已经把关注点转向了另一个更底层的问题:模型能不能像医生一样“问”?
这正是M3这次发布真正特殊的地方:在能力结构上形成了一个闭环,既能推理,又不乱编,还知道如何把该问的信息问出来。会推理解决的是“能不能判断”,不乱编解决的是“能不能信”,会问诊解决的是“有没有资格进入决策流程”。
当这三者同时成立时,医疗大模型才算从会说话的智能系统,走向可被托付部分医疗决策责任的系统。
从结果上看,M3依然是一款多个第一的模型。它在HealthBench上登顶,意味着在OpenAI亲自定义的医疗能力标准体系下完成了全面超越;而在更强调复杂临床决策能力的 HealthBench Hard子集中,M3以44.4分夺冠,首次系统性超过GPT-5.2,这一成绩的说服力更强,因为它验证的已不只是回答是否专业,而是模型在高度不确定、高推理难度场景中的稳定性与可靠性。
同时,M3在无工具条件下实现了全球最低幻觉率,意味着安全性被内化为模型自身能力,而不是依赖外部检索、规则约束或工程补丁来弥补。更关键的是,在以完整临床流程为目标的SCAN-bench评测中,M3同样取得第一,尤其在最核心的问诊环节显著超过GPT系列模型和人类医生基线水平,这表明模型真正补齐了临床信息获取这一长期被忽视、却决定医疗决策上限的核心能力。
AI医疗真正的分水岭
如果说过去两年行业更多是在让模型“像”医生一样说话,那M3这次给出的判断是:光有表达还不够,必须具备医生的思维结构。
大量“AI医生”仍停留在角色扮演层面,对话流畅、语气专业,但提问更多是在让对话显得完整,而不是为临床决策收集关键信息。模型往往顺着患者描述往下聊,却很少像真实医生那样先做风险分层、排查红旗征象、围绕诊疗路径反向设计问题。结果是,对话看起来专业,却不足以支撑严肃判断,最终只能落在“建议尽快就医”这样的安全性结论上。
这正是“会说话”和“会做临床决策”之间的本质差别,也是百川提出“严肃问诊”“SCAN原则”的背景。王小川在发布会上分享“在医疗行业,患者往往是没法完整表达自己的,只是知道浅显的症状,所以就要去问医生,通过问诊把过去的病情发展问清楚。有了足够的数据以后,才能做好后面的检测、诊断和结论。今天的大模型并不具有这样的能力。”
百川想做的是把临床医生长期依赖经验完成的工作方式,拆解成可以被模型学习、被评测、被强化学习直接优化的工程目标。
具体到工程上,百川并没有选择堆砌功能,而是集中解决三个最底层的问题。
首先是全动态强化学习系统。
在M2阶段,强化学习更多依赖相对静态的验证规则,模型能力提升到一定程度后,验证体系本身就成了上限。而在M3中,Verifier被设计成可以随模型能力共同进化的系统:模型暴露出新的错误模式,验证器就生成新的约束;旧的、低价值的规则被淘汰,高价值规则被持续强化。规则与模型共同抬高上限,解决了能力后期容易封顶的问题。
第二是SPAR算法。
医疗问诊天然是一条极长的决策链路,如果只看最终诊断对不对,模型根本无法知道是哪里出了问题:是病史没问清,还是检查建议错了,还是推理路径偏了。SPAR通过分步惩罚和相对基准机制,把长链条决策拆解为可追责的局部过程,让模型在有限轮次内就能学会把关键问题问准、问够,而不是靠拉长对话轮数。
第三是Fact-aware RL。在医疗场景中,推理能力越强,模型越容易“肯定自己”;说得越肯定,一旦事实基础不牢,就越危险。传统做法往往是靠外部检索或规则系统纠偏,而M3把低幻觉直接做成强化学习的优化目标,让事实一致性成为模型自身能力的一部分。同时,通过动态权重调节,避免模型为了少犯错而退化成少说少错的保守状态,使强推理与高可靠能够同时成立。
这三套设计背后,其实指向的是同一个目标:能力和安全,强推理和高可靠,不做取舍,百川都要,并且要让二者变成同一套工程体系里的协同指标。
这样一来,AI医疗才真正跨过了那条分水岭。
从健康助手,到决策支持
当模型能力完成会推理、不乱编、会问诊这一完整闭环时,百川的重心也必然开始发生变化:从模型本身的展示,转向能力在真实医疗场景中的承载。
这也是为什么,从外部观察会发现,百小应近期的产品节奏明显加快,多种功能陆续补齐,逐步搭建一个可以承接医疗工作流的系统骨架。模型需要的不再是展示窗口,而是一个可以沉淀信息、支持长期使用、对接真实决策链条的载体。
这样一来,百川所坚持的“严肃医疗”与行业中大量“泛健康”产品之间的差异,开始变得格外清晰。
以阿福、小荷医生为代表的产品,更接近健康咨询、医学科普、导诊建议和情绪陪伴,它们解决的是信息不对称和患者在就医前焦虑的问题。
而百川试图进入的,是完全不同的一段链路:医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。
这是一条高风险、高责任、高价值密度的决策支持路径:在这里,模型不再只是提供参考信息或情绪安慰,它给出的每一次判断,都可能影响患者的下一步选择;它提出的每一个问题,都在决定关键信息是否被完整收集;它形成的每一个结论,都必须具备可复核性,能够真正被纳入医疗决策流程之中。
根本区别是,当行业里大多数产品仍然停留在帮用户搜集健康信息这个层面时,百川选择的是一条更难、更慢、但天花板更高的路。
回看百川押注医疗的时间线,其选择是一种提前布局的判断。
在沟通会上,王小川概括了他对医疗行业几个核心痛点的判断:优质医生资源长期紧缺,医疗服务在不同地区与人群之间高度不均衡;在美国有家庭医生体系承接基层诊疗,而在中国,患者更集中地涌向三甲医院,优质医疗资源被进一步挤压。正是基于对这些现实矛盾的长期观察,百川从一开始就把目标放在解决医疗本身的问题上。
2023年,在大模型产业最火热的阶段,百川并没有选择优先切入代码、搜索、内容创作这些更容易验证商业化价值的赛道,而是明确把医疗作为最核心方向。这在当时并不讨巧:医疗数据敏感、场景复杂、责任边界模糊、产品落地周期长,很难形成快速反馈。“当时也受到行业很多人的质疑。”王小川告诉我们。
2026年开年,OpenAI发布ChatGPT Health,Anthropic也正式推出Claude for Healthcare,国际头部模型厂商开始集体进入医疗领域,全球范围内所有公司都意识到医疗才是大模型必争之地。
在这场竞速中,作为国内唯一专注医疗的大模型企业,百川持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力,在医疗大模型底座上完成了代际领先,已从“跟随者”跃迁为行业“引领者”与新范式的“定义者”,正以硬核实力扛起中国AI医疗发展的旗帜。















