凌晨四颗钻石,谷歌 Gemma 4 突袭发布,31B 模型击败大 20 倍的对手

鲸选AI·2026年04月03日 08:20
国产开源还能霸榜吗

4 月 2 日凌晨,谷歌 DeepMind 的 CEO Demis Hassabis 在 X 上发了四颗钻石 emoji,神秘感拉满。

几个小时后,谜底揭晓。谷歌正式发布了Gemma 4系列,包含 E2B、E4B、26B-A4B、31B4 种型号,这是他们迄今为止最强大的开源模型家族。

更让人意外的是,这次谷歌彻底放下了姿态,直接用上了 Apache 2.0 开源协议。要知道,之前 Gemma 3 那套自定义协议,开发者们可是抱怨了一整年。

看完发布内容,我觉得这次谷歌是真的在开源模型上动真格了。31B 版本直接冲到 Arena AI 排行榜全球第三,用不到十分之一的参数量就能跟那些 400 亿参数的巨无霸掰手腕。这种参数效率的提升,对想在本地跑模型的人来说,意义比什么都大。

Gemma 4与国产大模型跑分对比

Gemma 4 最大的技术亮点,是它直接继承了 Gemini 3 的研究成果和技术架构。谷歌在官方博客里说得很明白:“Gemma 4 基于与 Gemini 3 相同的世界级研究和技术打造。”这意味着什么?就是谷歌把自家闭源旗舰模型的核心能力,下放到了开源模型上。

这种“技术下放”在大厂里其实不常见。通常闭源模型和开源模型是两条完全不同的技术路线,但谷歌这次选择让 Gemma 4 跟 Gemini 3 共享底层技术,这也解释了为什么 Gemma 4 的性能提升这么明显。

小身材,大能量:31B 击败 397B 巨无霸

其实在正式发布之前,社区里就已经有人嗅到了风声。LMSYS Chatbot Arena 上突然出现了一个代号叫“significant-otter”的匿名模型,有用户好奇地问它是谁,它直接回答:“I am Gemma 4, a large language model developed by Google DeepMind。”

Reddit 上 r/LocalLLaMA 社区的用户反馈说,这个模型响应速度快得吓人,而且不是那种专门搞推理的模型,基础能力测试全都通过了。

Hassabis 那四颗钻石 emoji,就是在暗示 Gemma 4 的四个版本。这位 DeepMind 的掌门人,在发布会上直接放话:“这是全球同等规模下最好的开源模型。”

最让人震惊的是 Gemma 4 31B 的实际表现。在业界标准的 Arena AI 文本排行榜上,31B Dense 版本直接冲到了全球开源模型第三名,仅次于 GLM-5 和 Kimi 2.5,而 26B MoE 版本排第六。这意味着什么?它们击败了一大堆参数量是自己 20 倍的巨无霸模型。

要知道,像 Qwen 3.5 397B 这种级别的模型,参数量接近 400 亿,跟 Gemini 3 Pro、Claude Opus 4.5、GPT-5.2 在一个性能档次。但 Gemma 4 31B 用不到十分之一的参数量,就能在排行榜上跟这些巨无霸掰手腕。谷歌把这叫做“每参数智能”——用更少的参数,达到更高的性能。

从实测数据来看,Gemma 4 31B 在多个关键测试中表现惊艳。MMLU Pro 测试拿到了 85.2% 的成绩,AIME 2026 数学竞赛题目达到 89.2% 的准确率,LiveCodeBench v6 代码测试 80.0%,Codeforces 编程竞赛 ELO 评分高达 2150。

要知道,上一代 Gemma 3 27B 在 AIME 2026 上只有 20.8%,这次直接翻了四倍多

更夸张的是视觉和多模态能力。在 MMMU Pro 多模态理解测试中,31B 版本拿到了 76.9%,MATH-Vision 数学视觉题目 85.6%,医学图像评估 MedXpertQA MM 达到 61.3%。就连音频处理能力也没落下,E4B 和 E2B 这两个移动端版本在 CoVoST 语音翻译测试中分别拿到了 35.54 和 33.47 的分数。

这种参数效率的提升,对于想在本地跑模型的开发者来说意义重大。你不需要花几万块买一张 H100,一张消费级显卡就能跑起来接近顶级的性能。

从手机到工作站,四个版本各有所长

Gemma 4 这次发布了四个版本,从手机到服务器全覆盖。

最小的 Effective 2B(E2B)和 Effective 4B(E4B)是专门为移动设备设计的,可以完全离线运行在你的 Android 手机上,甚至树莓派上都能跑。谷歌跟 Pixel 团队、高通、联发科一起合作优化,延迟几乎为零。

26B 的 MoE(混合专家)版本更有意思,它虽然有 260 亿参数,但推理时只激活 38 亿参数,这意味着速度快得飞起,每秒生成的 token 数量比同等规模的模型高出一大截。在 MMLU Pro 上拿到 82.6%,AIME 2026 达到 88.3%,跟 31B 版本咬得很紧,但推理速度快太多了。

31B Dense 版本则是追求极致质量,谷歌说这是为了让开发者能在上面做精细化微调的。在 GPQA Diamond 科学推理测试中拿到 84.3%,Tau2 综合测试平均 76.9%,BigBench Extra Hard 超难任务 74.4%。这些分数放在开源模型里,已经是顶尖水平了。

所有版本都原生支持视频和图像输入,能做 OCR 和图表理解。E2B 和 E4B 还支持原生音频输入,可以做语音识别和理解。更夸张的是,Gemma 4 原生训练了 140 多种语言,上下文窗口边缘模型有 12.8 万 token,大模型有 25.6 万 token。

Apache 2.0:谷歌终于听进去了开发者的抱怨

如果说性能提升是意料之中,那协议的改变就是真正的惊喜了。之前 Gemma 3 用的是谷歌自己定制的协议,里面有一堆限制条款,谷歌还能单方面随时修改使用规则,开发者必须在所有基于 Gemma 的项目里执行谷歌的规定。有些条款甚至可以被解读为,如果你用 Gemma 生成了合成数据,这个协议还能延伸到你用这些数据训练的其他 AI 模型上。这让很多开发者对用谷歌的开源模型心存顾虑。

这次 Gemma 4 直接换成了 Apache 2.0 协议,这是业界最宽松、最成熟的开源协议之一。没有那些过度限制的使用条款,没有商业限制,谷歌也不能哪天突然说协议要改就改了。开发者们熟悉这个协议,用起来放心。谷歌在官方博客里说:“你们给了我们反馈,我们听进去了。构建 AI 的未来需要协作,我们相信应该赋能开发者生态,而不是设置限制性障碍。”

4 亿次下载,10 万个变体,“Gemmaverse”已经成型

自从第一代 Gemma 在 2024 年 2 月发布以来,开发者们已经下载了超过 4 亿次,社区创造了超过 10 万个变体。谷歌把这叫做“Gemmaverse”——一个围绕 Gemma 建立起来的生态宇宙。

这些变体里有些相当有意思。比如 MedGemma 是基于 Gemma 3 做的医疗影像和报告生成工具,DolphinGemma 用来分析海豚的声音,SignGemma 则是做手语翻译的。这些应用远远超出了通用聊天的范畴,证明了开源模型架构的潜力。

Reddit 上有开发者对比了 Gemma 27B 和其他同规模模型,他说:“Mistral 24B 的微调版本和 Gemma 27B 大概有 10-20% 的时候能赢过 Qwen 27B,但 80-90% 的时候还是 Qwen 更强。不过 Gemma 在长上下文能力上表现真的很出色。”这次 Gemma 4 在长上下文测试 MRCR v2 上,31B 版本拿到了 66.4%,比上一代的 13.5% 提升了整整五倍。

本地 AI 的野心:不联网也能用上顶级智能

Gemma 4 最大的意义,其实是把“本地 AI”这件事推向了新高度。你可以在自己的硬件上运行这些模型,不需要连接云端,不需要担心隐私泄露,也不需要为每次 API 调用付费。

谷歌在开发者博客里说得很明白:“Gemma 4 重新定义了你在自己硬件上能做到什么。现在你可以超越聊天机器人,构建能在设备上直接运行的智能体和自主 AI 应用。”Android 开发者可以通过新的 AICore Developer Preview 访问内置的 Gemma 4 模型,或者用 Google AI Edge 在移动端、桌面端和边缘设备上构建智能体应用。

Arm 公司在他们的新闻稿里也提到,Gemma 4 在 Arm 架构的 Android 设备上做了深度优化,开发者只要针对基于 SME2 的 Arm 设备,就能自动获得开箱即用的性能优化。用户能体验到更快的响应、更流畅的持续交互、更可靠的设备端 AI,同时还能保持电池续航和散热稳定。

开源模型的战场,谷歌不想输给中国

Gemma 4 的发布,其实也反映了一个更大的背景:美国在开源大语言模型领域相对中国已经落后了。DeepSeek、Qwen 这些中国的开源模型在全球范围内获得了大量关注和使用。英伟达也在推 Nemotron 系列来发展开源 AI 生态。谷歌显然不想在这个战场上缺席。

对企业来说,开源模型的价值在于可以根据具体业务场景进行定制。谷歌说 Gemma 已经有超过 10 万个变体,这个数字本身就说明了需求的旺盛。虽然 OpenRouter 的使用数据显示,谷歌的开源模型在实际部署中历来落后于 Meta 的 LLaMA 和 DeepSeek,但 Gemma 4 这次结合了竞争力的基准测试性能、Apache 2.0 协议和强大的移动端优先工程,可能会比之前任何一代 Gemma 都更有说服力。

从现在开始就能用上

Gemma 4 已经在 Google AI Studio(31B 和 26B MoE)和 Google AI Edge Gallery(E4B 和 E2B)上线了。你也可以从 Hugging Face、Kaggle、Ollama 下载模型权重。首日就支持 vLLM、llama.cpp、MLX、NVIDIA NIM 等平台。

谷歌还发布了一个新的 Python 包和 CLI 工具 litert-lm,让开发者可以在控制台里直接体验 Gemma,不用写任何代码。这个 CLI 支持 Linux、macOS 和树莓派,现在还支持工具调用功能。

Demis Hassabis 在发布时说的那句话,可能最能概括 Gemma 4 的定位:“按字节计算,这是全球最强大的开源模型。”谷歌这次是真的想在开源 AI 这条赛道上认真跑一跑了。

本文来自微信公众号“鲸选AI”,作者:鲸哥,36氪经授权发布。

+1
201

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

不仅是能源结构转型,更是产业格局重塑

13小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业