倒反天罡,Gemini Flash表现超越Pro,“帕累托前沿已经反转了”

量子位·2025年12月22日 18:07
“Pro的作用就是蒸馏Flash”

倒反天罡!

Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数,比超大杯Pro还略胜一筹。

而且Flash的速度和性价比,都是Pro版难以望其项背的。

谷歌解释,这是因为Flash版当中的一些优化技术,还未在Pro里应用。

但用网友的话讲,Flash这样的表现的确提醒我们帕累托前沿已经反转,是时候抛却“旗舰版迷信”了。

Flash表现超越Pro

根据谷歌团队最新披露的详细评测数据,Gemini 3 Flash这一次不仅在智能程度上全面超越了上一代的Gemini 2.5 Pro,还在编程能力和多模态推理等核心性能维度上,直接反超了自家的旗舰Gemini 3 Pro以及竞品GPT-5.2。

在衡量软件工程能力的权威测试SWE-Bench Verified 中,Flash 一举斩获了 78% 的高分。这一成绩不仅在智能程度上全面碾压了上一代的Gemini 2.5 Pro,还反超了自家旗舰Gemini 3 Pro的76.2%。

在AIME 2025数学竞赛基准测试中,结合代码执行能力的Flash得分高达 99.7%,已无限逼近100%的满分大关。

即便是在难度极高、被设计用来难倒现代大模型的Humanity’s Last Exam测试中,Flash的表现也紧追旗舰,在不使用工具的情况下获得了33.7%的分数,与Pro版37.5%的成绩已经处于同一梯队。

除了硬核的智能指标,Flash的响应速度与成本也极具优势。

数据表明,Gemini 3 Flash的推理速度是2.5 Pro的3倍,Token消耗量减少30%,价格也极具竞争力,输入端仅需0.50美元每100万Token,输出端为3美元每100万Token。

虽然略贵于Gemini 2.5 Flash(每百万输入0.3美元/每百万输出2.5美元),但考虑到其性能和速度,这一价格仍然相当具有吸引力。

如果轻量版已经如此强大,甚至在关键指标上实现了反超,那么“超大杯”存在的意义究竟是什么?

对于这个问题,谷歌核心团队给出了一个意料之外的答案——这并非研发事故,而恰恰是他们顶层设计中最为关键的一环。

“Pro的作用就是蒸馏Flash”

就在前几天,Gemini的三位负责人——DeepMind研究副总裁Oriol Vinyals、谷歌首席科学家Jeff Dean和Noam Shazeer,以及Google AI Studio产品负责人Logan Kilpatrick同台,正式揭示了这背后的战略逻辑。

在谈及旗舰模型的定位时,Oriol Vinyals抛出了极为犀利的观点,他直言Pro模型的主要作用其实就是拿来“蒸馏Flash。

团队认为Flash这样“小而强”的模型对用户至关重要,随着迭代,新一代Flash往往能达到甚至超过上一代Pro的水平。

在理想状态下,Pro的目标是不计成本地探索智能上限,而Flash则通过蒸馏技术继承Pro的能力,并极致优化延迟、成本和吞吐量,未来Pro甚至可能主要作为一个“生成器”,专门用来生产高质量的Flash模型。

但这并不意味着主宰AI发展多年的Scaling Law已经失效。

面对Flash这种“以小博大”的表现,外界很容易产生一种错觉,认为大模型走到头了。

然而在对话中,Vinyals旗帜鲜明地反驳了这一点,他明确表示,与目前流行的“Scaling 结束论”相反,Gemini 团队通过持续扩大规模实现了巨大的性能飞跃,在他看来,前方依然“看不到墙”(No walls in sight)。

Scaling Law虽未消亡,但也确实在发生演变。

Noam认为单纯靠预训练阶段堆砌参数来换取智能增长的路径确实正在逼近极限,“规模神话”不再是唯一的真理,未来的扩展重点将从预训练阶段的算力堆叠,转移到推理侧的扩展(Test-time Compute)。

对于未来的演进,三位负责人一致认为后训练(Post-training)是目前最大的“未开垦绿地”。

虽然代码、推理和数学等基准测试已被逐渐“击穿”,但在诸如“规划旧金山旅行”这类开放式任务上,通过后训练提升的空间依然巨大。

参数不再是迷信

Flash带来的冲击波正在引发一场关于“参数至上论”的大讨论。

开发者们惊讶地发现,那个一直以来被视为铁律的“帕累托前沿”竟然发生了倒转——更便宜、更快的模型,现在竟然也是更聪明的模型。

这直接打破了“模型越大越好”的迷信。

针对Flash为何能反杀Pro,Google DeepMind的研究员Ankesh Anand揭示了背后的技术真相——答案在于强化学习。

他明确指出,Flash不仅仅是Pro的简单蒸馏版,它还集成了大量最新的Agentic RL(代理强化学习)研究成果。

这一结果证明了一个核心命题:在提升模型能力的道路上,单纯堆砌参数并不是唯一的路径。

通过更先进的后训练算法(如RL),小模型完全可以实现“降维打击”,在软件工程等关键领域战胜参数量巨大的旗舰模型。

正如开发者所言,现在是时候停止对“旗舰版”的盲目崇拜了。

参考链接:

https://x.com/i/trending/2002668487114727561

https://twitter.com/i/spaces/1eaJbjvBOooJX/peek

本文来自微信公众号“量子位”,作者:克雷西 ,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

11所高校51页论文揭秘适应性关键

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业