刚刚,Gemini 3 再次大更新!全球免费享 Pro 级智商,奥特曼又要失眠了

爱范儿·2025年12月18日 08:51
年底了,谷歌又开始冲业绩了。

年底了,谷歌又开始冲业绩了。

就在刚刚,Gemini 3 Flash 正式发布,直接对标 OpenAI 和 Anthropic 的旗舰模型,官方号称比2.5 Pro速度快 3 倍,价格砍到 3 Pro 的四分之一,性能还不降反升。

用谷歌自己的话说,这是「为速度而生的前沿智能」。翻译一下就是:又快又便宜,脑子还挺在线。

不过,在实际体验过程中,Gemini 3 Flash 的性能表现还是远远不如 Pro 的,以至于让我产生一种「货不对板」的落差感,也欢迎更多朋友分享你的体验。

即便如此,谷歌在发布时机的选择上依然称得上「快、准、狠」。

紧随 Gemini 3 Pro 与 Deep Think 之后上马 Flash,也是为了完全不给竞争对手喘息的机会,这也让我越来越期待 Sam Altman 的圣诞节反击礼物了。

而从今天起,你将能在 Gemini 产品线里用到三种模型:

Gemini 3 Flash (Fast):主打一个「快」,适合那些不需要长链条思考、追求效率的对话场景。

Gemini 3 Flash (Thinking): 具备轻量化模型推理能力,使其能够在面对复杂难题时,通过模拟人类的思考过程来提升准确率。

Gemini 3 Pro: 性能天花板,它依然是处理极高难度任务的首选。

倒反天罡!Gemini 3 Flash 跑分超越 Pro

基准测试结果显示,Gemini 3 Flash 保留了 Pro 级别的推理能力,但延迟、成本直接降到 Flash 级别。

具体来说,在 GPQA Diamond 这种博士级推理测试里,它能拿到 90.4% 的成绩,跟那些体积更大的前沿模型打得有来有回。在 Humanity's Last Exam 这个变态难度的测试中,无需工具辅助就能拿到 33.7% 的分数。

更夸张的是 MMMU Pro 测试,Gemini 3 Flash 直接拿下 81.2%,达到业界最先进水平,跟自家的 3 Pro 表现相当,属于是有些倒反天罡了。

以前大家觉得「质量-成本-速度」三个维度很难兼顾,要么快但不聪明,要么聪明但却贵。现在谷歌试图用 Gemini 3 Flash 证明,只要工程化能力优化到位,六边形战士是可以存在的。

数据显示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,价格更是压到了输入 0.5 美元/百万 Token,输出 3 美元/百万 Token 的地板价。

行吧,现在的 AI 新模型不光要卷参数,还要卷性价比了。

而且它还是个推理型模型,能根据任务复杂度灵活调整「思考」时间。即使在最低的「思考等级」下,3 Flash 的表现也常常超过前代模型的「高思考等级」。这种自适应能力在实际应用中特别有价值,不会出现「杀鸡用牛刀」的资源浪费。

对于开发者来说,Gemini 3 Flash 的出现,也意味着终于不用在速度和智能之间二选一了。

基准测试显示,Gemini 3 Flash 在 SWE-bench Verified 编码测试里拿到 78% 的高分,不仅吊打 2.5 系列,甚至比自家的 3 Pro 还高。

此外,Gemini 3 Flash 的亮点还在于多模态能力,它能更快地处理视觉、音频等输入,把「看见、听见、理解」串成一条相对顺滑的链路,适合需要即时反馈的交互场景。

具体来说,它可以分析高尔夫挥杆视频并在短时间内给出改进建议;你画草图时,它也能实时识别并预测你的意图。再叠加代码执行能力,使它不仅能理解图片内容,还能在工具链支持下对图片进行处理与操作。

Gemini 3 Flash 快是真的快,但 ……

谷歌官方展示了几个很有意思的应用场景。

比如在「投球解谜」类游戏中,Flash 可以做实时的辅助推理,给出可行解甚至更优解;

在交互 UI 设计流程里,它能生成加载动画,并配合快速迭代做 A/B 方案对比;

你提供一张图片,它也能完成基础识别,再结合上下文生成交互式注释。这些 Demo 的共同点是:强调实时性、强调迭代效率、强调能跑起来。

我也用 Gemini 3 Flash 跑了几个案例。

不得不说,对比 Gemini 3 Pro,前者的响应速度确实是极快的,但效果嘛,则比较中规中矩,对比 Gemini 3 Pro 则明显牺牲了视觉与交互细节的质量。

以复刻 macOS 界面为例,该模型的表现略显乏力:底部 Dock 栏出现了明显的图标缺失,且在交互细节的精致度上,也明显逊于 Gemini 3 Pro 的生成效果。

这种差距在「复古拟物风相机应用」的设计任务中尤为突出。从生成的单页应用结果来看,其视觉呈现与预期目标仍有较大差距。

此外,在尝试打造「星球信号」网页时,有一定程度的交互细节,但整体产出的页面效果还是略显粗糙,缺乏设计的细腻感。

两条腿走路的谷歌:一边卷死对手,一边把 AI 塞进几十亿人的生活

谷歌这次还把 Gemini 3 Flash 塞进了搜索的 AI 模式(国内暂不可用)里,逐步向全球开放。

相比之前的版本,它更能理解复杂问题中的细节,从全网抓取实时信息和有用链接,输出视觉上更清晰、有条理的综合答案。

与此同时,Gemini 3 Flash 正在成为 Google「全家桶」的默认底座。Gemini 应用、搜索 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全线上新。

全球用户都能免费体验,企业用户则可以通过 Vertex AI 和 Gemini Enterprise 来调用。

最后再强调一遍价格,因为这个真的太香了。

输入每百万 Token 0.5 美元,输出每百万 Token 3 美元,音频输入每百万 token 1 美元。试用价格不到 Gemini 3 Pro 的四分之一。

如果用上下文缓存,重复 Token 的成本还能再省 90%。用 Batch API 异步处理的话,又能再省 50%,同时还能提升调用上限。对于同步或接近实时的场景,付费 API 用户可以获得面向生产环境的高调用速率。

价格打到这个程度、性能又不算差,OpenAI 和 Anthropic 当然很难睡踏实。

但话得说严谨一点,当宣传口径把 Flash 包装成「几乎 Pro 级」的时候,用户自然会用 Pro 的标准去验货;而一旦遇到复杂推理、长链路任务、稳定性要求更高的场景,Flash 的短板就会更明显。

谷歌最大的底牌还是流量。

搜索、YouTube、Gmail、Google Maps,每天数十亿用户在使用这些产品。把 3 Flash嵌入到这些高频应用中,用户也就在最熟悉的场景里,无感地、自然地被谷歌 AI 服务包围。

这种打法 OpenAI 和 Anthropic 是学不来的。

一方面,谷歌财大气粗,确实有资本烧钱抢市场;另一方面,谷歌在 TPU、数据中心、分布式训练等基础设施和工程优化上的积累,确实能帮他们把成本压下来。

一边做 toB 的 API 服务,一边直接把 AI 能力塞进自家产品里,覆盖海量普通用户。当用户习惯了在搜索里用 AI 模式,习惯了在 Gemini 应用里对话,自然就会对谷歌的 AI 产生依赖。这才是谷歌真正的阳谋。

当然,这种巨头间的内卷对行业是残酷的,但对用户绝对是好事。模型更强、价格更低,开发者能低成本创新,普通人能享受更智能的服务,这大概是这场 AI 军备竞赛中,为数不多的确定性红利。本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。

+1
174

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

资本公积金补亏的计划披露后,寒武纪的分红意图或呼之欲出。

8小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业