姚顺雨带队三个月重构混元,Hy3 preview 上线了
姚顺雨交出了加入腾讯后的第一份模型答卷。
4 月 23 日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一款主打快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,官方称其整体性能达到同尺寸模型最佳水平。
从研发节奏来看,Hy3 preview 于 2026 年 1 月底正式启动训练,从训练到上线用了不到三个月,被腾讯内部定义为混元大模型从「读万卷书」走向「行万里路」、尝试解决真实世界复杂问题的开端。
而这款模型最受行业关注的核心标签,是它作为备受瞩目的「天才少年」姚顺雨,在 2025 年底加盟腾讯后,全程主导推出的第一代大模型。
作为腾讯重金邀请的首席 AI 科学家,Hy3 preview 既是他对重构后的混元研发体系的首次完整实践,也承载着腾讯补齐 AI 短板、在大模型下半场实现追赶的核心期待。
姚顺雨表示,「Hy3 preview 是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度 Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。」
01 一手实测 Hy3 preview
从官方披露的核心信息来看,Hy3 preview 从研发之初就围绕智能体(Agent)场景做了针对性设计,这也是它与此前混元系列模型最核心的差异。
在启动模型训练前,姚顺雨主导完成了混元预训练和强化学习基础设施的全面重建,同时定下了模型追求实用性的三大核心原则,构成了 Hy3 preview 的研发底层逻辑:
能力体系化:不推崇「偏科」,因为即便是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同;
评测真实性:主动跳出易被「刷榜」的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的「真实战斗力」;
性价比追求:实用性离不开商业合理性,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能用得起、用得好。
官方资料显示,Hy3 preview 采用了总参数量 295B、激活参数仅 21B 的 MoE 架构,同时融合了「快慢思考」机制。
21B 的激活参数,为模型高频次、长链路的 Agent 调用提供了低成本的运行底座;而「快慢思考」的融合设计,天然适配复杂逻辑推理与多步工具调用场景,也就是姚顺雨提出的 ReAct(推理 - 行动)循环。
极客公园第一时间实测了 Hy3 preview,先以一个覆盖数据抓取、数值计算、可视化生成、文本分析全链路的综合任务来试水,「使用 Python 抓取过去 90 天纳斯达克 100、伦敦金与沪深 300 的日线收盘数据。计算它们之间的皮尔逊相关系数,并用 D3.js 或 ECharts 生成一个单文件 HTML 动态热力图。最后,基于数据结果输出一段 500 字的跨市场资产配置 Memo。」
可以看到,Hy3 preview 在数据获取阶段反复受阻,接口认证失败后接连切换 akshare、yfinance 等多个数据源,纳斯达克 100 数据因速率限制缺失而被迫用模拟数据替代,修错重试的循环消耗了大量时间。
可视化交付上,Hy3 preview 最终生成了三资产相关性热力图,但由于部分数据并非真实采样,热力图的准确性与可信度打了折扣。
最核心的文本交付物缺失明显——提示词明确要求输出 500 字跨市场资产配置 Memo,Hy3 preview 却只给出了几行 Bullet point 式的简略配置比例,没有成文的分析段落,任务交付在关键环节出现了缺位。
我又尝试了另一个长链路 Agent 测试——启用浏览器模式,在 SkillHub 平台进行全链路深度抓取,完整理清腾讯文档 Skill 的 Auth 认证全流程与数据同步底层机制,最终输出一份标准化的技术原理分析文档。
在这次测试中,Hy3 preview 展现了清晰的 Agent 自治与多步推理(ReAct)过程:先搜索 SkillHub 整体介绍;发现需要深入,又去精准抓取了 Auth 认证的开发者文档;接着去查了 MCP Server 的底层原理;最后才开始动笔写文档,这证明了 Hy3 preview 作为 Agent 的路由调度中心,其长链路规划和工具调用很稳定,没有在中途崩溃或陷入死循环,完整走完了「推理 - 行动 - 验证 - 输出」的闭环。
这一表现也与官方披露的产品落地数据形成了呼应:在 CodeBuddy、WorkBuddy 产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、任务成功率提升至 99.99%+,在实际用户环境中,已稳定驱动最长 495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、工具链编排等多样化办公场景。
从这两组实测可以看出,Hy3 preview 呈现出一种典型的「过渡态特征」。
一方面,在复杂任务中,它已经具备了较为清晰的 Agent 执行路径:能够自主拆解问题、规划步骤,并在不同工具之间进行切换,整体链路没有明显中断。这种「从问题到流程」的能力,确实在向真实工作流靠近。
但另一方面,真正决定可用性的「最后一公里」仍然不够稳定——数据获取阶段的反复试错、关键结果的缺失、以及最终交付物的不完整,都说明模型在长链路执行中,仍然存在「做了一半」的问题。
目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等产品首发上线,同时支持接入 OpenClaw、OpenCode 等主流开源智能体产品,并已上架腾讯云大模型服务平台 TokenHub。价格方面,Hy3 preview 输入价格最低 1.2 元/百万 tokens,输入命中缓存价格 0.4 元/百万 tokens,输出价格最低 4 元/百万 tokens。
02 天才少年,和动起来的腾讯
这是备受关注的「天才少年」姚顺雨入职腾讯后主导的第一代大模型。
作为 2025 年底腾讯重磅挖来的首席 AI 科学家,Hy3 preview 是他入职后交出的第一份核心模型答卷,也承载着腾讯补齐 AI 短板、发力大模型基础研究的期待。
去年 9-12 月,姚顺雨入职腾讯,出任"CEO/总裁办公室"首席 AI 科学家,兼任 AI Infra 部与大语言模型部负责人,直接向总裁刘炽平汇报,全面统筹混元大模型研发工作。
12 月,腾讯完成组织架构重构,新设 AI Infra 部、AI Data 部、数据计算平台部,姚顺雨全面掌控混元研发体系,上任后立即重构了 AI Infra 团队,搭建起预训练、精调、后训练、推理等完整研发链条,为后续模型研发奠定基础。
今年 1 月底,马化腾在年会上承认腾讯 AI「动作慢了」,刘炽平同步披露混元 3.0 正在内部测试,计划 4 月对外推出,也是在 1 月底,Hy3 preview 正式启动训练,从训练到上线用了不到三个月。
姚顺雨(1998 年生)的履历自带「天才少年」标签,但客观来看,他的技术背景与腾讯当时的 AI 需求高度契合,这也是腾讯重金挖角的核心原因——腾讯此前混元负责人张正友(深耕计算机视觉领域)、蒋杰(侧重大数据方向)均非 NLP/LLM 原生背景,而姚顺雨是腾讯首位真正意义上的 LLM 原生技术领导者,其核心履历与研究方向,恰好匹配腾讯混元突破的核心需求。
在学术界,姚顺雨是顶级的语言智能体(Language Agents)研究者,著名的 ReAct(推理-行动框架)和 Tree of Thoughts(思维树)均出自其手,;在 OpenAI 短暂的一年多里,他也深度参与了 Operator、Deep Research 等智能体产品研发,深入接触模型预训练与后训练环节,积累了一线工程化经验。
2025 年 4 月,他曾发表文章《The Second Half》,明确提出,AI 的竞争正在从「训练更强的模型」转向「定义并评估真实世界任务」,强调评估体系重构,反对盲目堆料模型规模。
这一理念也贯穿了 Hy3 preview 的研发,Hy3 preview 定位为一个总参数量 295B、激活参数仅 21B 的 MoE 模型。21B 的激活参数意味着模型具备了高频次、长链路 Agent 调用的低成本底座,同时其内部融合的「快慢思考」机制,天然适合处理复杂的逻辑推理与工具调用(如 ReAct 循环)。
从前面的实测来看,Hy3 preview 更像是一款验证技术方向的原型模型。把视角拉回腾讯自身,这种「未完全成熟」的状态,可能也有其内在合理性。一方面,Hy3 preview 从训练到上线不到三个月,本身就是一次快速迭代的技术试水;另一方面,在经历了 AI 组织架构的全面重构之后,腾讯也需要这样一款模型,去验证新的研发链条是否通顺、锚定的 Agent 技术路线是否成立。
不过,在国内大模型已经进入贴身肉搏的当下,Hy3 preview 的到来,只是腾讯 AI 补位的开始。无论是 MoE 架构的工程化优化,还是 Agent 场景的产业落地深度,国内头部厂商已经跑通了多轮迭代,腾讯想要追上甚至超车,仅凭一次模型更新远远不够。
本文来自微信公众号 “极客公园”(ID:geekpark),作者:连冉,36氪经授权发布。















