谷歌最新发布会:没发最强模型,开卷Agent全家桶

AIX财经·2026年05月20日 17:12
不拼参数了,想要AI帮你干活。

北京时间5月20日凌晨,2026 Google I/O开幕。从2008年首次举办至今,这场大会已成为谷歌每年“秀肌肉”的主要舞台。

而它之所以值得行业关注,在于它作为科技巨头的技术秀场,能一定程度上反映行业未来的走向。

回到本届大会,近两个小时走完全部议程,发布节奏极密,几乎不留间隙。

谷歌CEO桑达尔·皮查伊在开场抛出一个数字:3200万亿Token。这是谷歌全平台每月的AI处理量,两年前这个数字是9.7万亿,去年是480万亿,一年翻了近七倍。这个数字说明,谷歌的AI产品在被大规模使用。

先来拉一张清单,看看这场发布会到底讲了什么:

模型:Gemini 3.5输出速度为同类产品的四倍、成本不到一半,成为Gemini App和搜索的默认引擎;Gemini Omni支持图文音视频混合输入,生成可编辑视频,支持指定镜头和拍摄角度,通过Gemini App和Google Flow使用。Gemini 3.5 Pro预计6月发布,目前处于内测阶段。

搜索与购物:搜索框迎来25年来最大改版,支持多模态输入,可输入文本、图片、视频、文件;Universal Cart打通搜索、YouTube、Gmail的AI购物车,Nike、Walmart等首批接入。

智能体:Gemini Spark作为24小时个人Agent,云端运行;Antigravity 2.0升级为多Agent编排平台,全面摆脱coding场景局限,和Claude Code以及Codex直接竞争。

硬件:Android XR音频眼镜今秋上市,由三星制造,兼容iOS,联合眼镜品牌Gentle Monster和Warby Parker共同设计;纯音频版本今年秋季率先推出,带显示屏的版本将于明年推出。

订阅:新增100美元/月Ultra plan;原250美元/月的顶级Ultra plan降到200美元;Pro维持19.99美元/月。

谷歌没有在参数竞赛上继续加码,而是把最多的时间给了Agent。接下来,我们来详细看看这场大会释放了哪些信号。

01.谷歌模型在讲什么故事

2026 Google I/O大会的第一个重要信号,从芯片层开始。

谷歌提出第八代TPU的“双芯”战略,将训练与推理拆分为独立芯片。TPU 8t专攻训练、TPU 8i则聚焦推理。

TPU 8t单个Pod可塞下9600颗芯片,集群总算力121 ExaFLOPS,较Ironwood提升约3倍,性价比提升2.7倍。集群可扩展至百万级芯片,将大模型训练周期从数月压缩至数周。TPU 8i则主打低延迟推理,它的推理性价比提升80%,大缓存设计显著减少内存访问延迟,可满足Gemini 3.5 Flash等高并发推理需求。

谷歌大会上,介绍芯片性能

第八代TPU对应的是谷歌在AI Agent上的布局。训练、推理分离、供应链多元化、全栈软件优化,既强化了谷歌在算力的基础设施,也标志着全球AI芯片竞争进入更专业的阶段。

有了更强的基建,模型自然也不能掉队。大会上谷歌推出了Gemini 3.5 Flash和Gemini Omni,虽然没有万众期待的Gemini 4.0,但展示了谷歌的产品逻辑:不追求最强模型,更注重让不同模型服务于不同商业场景。

Gemini Omni是谷歌今年推出的世界模型。它被定位为“能从任何输入生成任何输出”的多模态系统,以视频生成和编辑为切入点,将文本、图像、音频和视频统一在同一个创作流程中。

现场演示Gemini Omni创作的视频

它的亮点在于对物理世界规律的理解,这意味着能够准确预测场景中应该发生什么。用户用自然语言编辑视频时,角色一致性、物理逻辑、场景记忆都能保持连贯。

Omni Flash将率先接入Gemini App、Google Flow和YouTube Shorts,面向AI Plus及以上订阅用户开放。谷歌旗下的Nano Banana技术已生成超500亿张图像,Omni的加入将创作能力从静态图像延伸至动态视频。

Gemini 3.5 Flash速度提升,还更省钱了。它在几乎所有基准测试上都超越了三个月前的旗舰模型Gemini 3.1 Pro。一个定位中端的模型能够全面碾压上一代旗舰产品,这在行业中并不多见。在输出速度上,Gemini 3.5 Flash是其他前沿速度模型的4倍。

介绍Gemini 3.5 Flash性能

价格上,Gemini 3.5 Flash的定价为每百万输入token 1.5美元、每百万输出token 9美元。横向对比,Claude Sonnet 4.6的输入价格是3美元、输出是15美元,Gemini 3.5 Flash的整体定价低了40%到50%。性能追平甚至超越竞品旗舰,价格只要一半。

目前,Gemini App月活已达9亿,每日请求量增长超7倍。

值得一提的是,大会上宣布Gemini 3.5 Pro继续走深度推理路线,预计6月发布。

在模型能力之外,谷歌还在推进SynthID。它是DeepMind三年前推出的数字水印技术,已应用于超1000亿图片和视频。此次I/O大会上,谷歌宣布与OpenAI、ElevenLabs携手推动水印透明化标准,并向搜索和Chrome拓展内容凭证验证。这也回应了当下打击AI生成内容泛滥,难以监管的行业难题。

总结来看,TPU 8的训练推理分离,解决的是算力成本结构问题。Gemini 3.5 Flash的高性能低价格,解决的是智能体规模化部署的性价比问题。Omni切入创作者经济,解决的是谷歌在内容生成市场的存在感问题。

这也解释了为什么谷歌敢把3.5 Flash做得又快又便宜。它要的不是模型本身的利润,而是以模型为入口,撬动整个智能体经济的生态。

02.搜索里,长出智能体、购物车和操作系统

模型的迭代终究还是要落到产品。谷歌搜索是这次变化最大的产品,谷歌将其称为“25年来的最大升级”。

过去搜索框的交互逻辑一直是输入关键词,输出网页链接。现在,输入端可以容纳更长、更口语化的查询,也更能理解你的搜索意图,输入端也不再局限于文字,图片、文件、视频、Chrome标签页都可以直接“丢”进去。

谷歌大会上,演示AI搜索

AI Mode已升级到Gemini 3.5 Flash驱动,面向全球所有用户上线,月活突破10亿。两者合并带来的体验是,问一个问题能得到AI概览,还可以直接在原页面上继续追问,上下文不丢失。

但真正改变搜索性质的,是输出端。

谷歌把Antigravity2.0背后的智能体编程能力注入搜索,推出了Generative UI。Gemini 3.5 Flash拿到你的问题后,会从零开始规划回答方案,输出交互式界面、图表等形式,更能满足个人化的需求。

这种能力还在往周期任务延伸。你用自然语言描述需求,搜索可以打造个性化的小型应用,接入实时天气、读取日历、了解饮食偏好,自动生成带链接的计划,生成出来的应用还可以分享给家人。Generative UI今年夏天面向所有搜索用户免费开放,mini app功能先对美国AI Pro和Ultra订阅用户开放。

大会透露,搜索AI概览(AI Overviews)月活超25亿,AI模式(AI Mode)超10亿,自上线以来查询量每季度翻倍。

到这里,搜索已经从回答问题变成了执行任务。谷歌把这个逻辑推向的第一个商业场景是购物。

谷歌大会上,介绍购物功能

Universal Cart是一个跨商家、跨平台的AI购物车,横跨搜索、Gemini App、YouTube和Gmail。它可以在后台自动追踪降价、分析历史价格、提醒补货。整个体系构建在Google Wallet之上,能识别你的支付方式权益和商家优惠。目前,Nike、Target、Walmart、Sephora等大型零售商已接入首批结算功能。

AI购物已接入结算功能的商家

购物车能跨平台运作,靠的是底层协议。Universal Commerce Protocol是年初在NRF上发布的开放标准,让AI智能体代替用户完成跨平台购物和结算,亚马逊、Meta、微软、Salesforce和Stripe均已采纳。

配套的Agent Payments Protocol解决的是支付的安全问题。AP2让用户给智能体设定支付边界,指定品牌、商品类别、预算上限,同时通过加密的数字授权凭证在用户、商家、支付方三者之间建立可追溯的链条。

谷歌在购物领域的尝试已持续十余年,从Google Shopping到Buy on Google,但没能形成闭环的电商交易链路。Universal Cart的逻辑与此前不同,它不试图成为一个独立的电商平台,而是把自己嵌入用户购物决策的全链路中。

Workspace这边的更新同样密集,它的逻辑是让语音成为新的交互入口。Gmail Live可以用语音查询收件箱;Docs Live能把你的口述直接组织成结构化文档,并在授权后从Gmail、Drive和Chat中抓取相关信息充实内容。

现场演示AI音乐创作成果

创作工具层面,Google Pics基于Nano Banana模型,可以选定画面中的单个元素精确编辑,其余部分不受影响。Google Flow和Flow Music则是面向视频和音乐创作的AI工具,前者已推出Android测试版。

把这些变化放在一起看,底层趋势是一样的。谷歌把旗下所有高频产品改造成让AI替用户执行任务的智能体。

03.Agent全家桶,真能替人干活吗?

2026 Google I/O真正想讲的故事是智能体。

Gemini Spark被定义为“个人AI智能体”。它可以全天候代替你执行任务,读邮件、查日程、写汇报、追进度、发提醒,即便你关掉窗口也不会停止。

谷歌推出Gemini Spark,即个人A智能体

Spark运行在Google Cloud的专属虚拟机上,由Gemini 3.5 Flash驱动,底层跑的是Antigravity的Agent调度框架。在首发阶段,Spark接入Gmail、Docs、Sheets等应用,未来将扩展到超过30个合作伙伴。Spark的入口不止Gemini App一个。今年夏天它将入驻Chrome,在任何网页上都能直接让它替你做事。

演示Gemini Spark如何操作

Agent还需要一个可见的界面层。Android Halo嵌入Android 17状态栏的视觉指示器,以微妙的光圈动画显示Agent的实时工作状态。你不需要打开任何App就能知道Spark正在替你做什么。

配合Spark的发布,谷歌还调整了订阅价格:新增100美元/月的Ultra档位,给那些想用Agent服务又不需要顶配的用户;原来250美元/月的顶级Ultra降到200美元/月,Pro则维持19.99美元/月。

但谷歌不止押注C端。Antigravity 2.0是面向开发者的Agent基础设施,它从一个IDE内置的编码辅助工具,变为独立的应用。开发者可以同时部署多个并行子Agent处理不同任务,设置后台定时任务,用语音指挥Agent,Agent可以拆解复杂工作流并分配子任务。

谷歌大会上,介绍Antigravity 2.0性能

谷歌声称其在约12小时内可搭建一个能运行的操作系统核心框架,期间启动了93个子Agent,处理了数十亿Token,总计算成本不到1000美元。

展示Antigravity 2.0制作的游戏

大会还有一个值得关注的重点是Android XR智能眼镜,由三星和高通制造,外观设计来自Gentle Monster和Warby Parker,可兼容Android和iPhone。

谷歌大会上,智能眼镜也是一大亮点

谷歌想打造一整套Agent操作系统,开发层有多Agent编排框架,手机上有状态感知界面,脸上有语音和视觉输入端。

Agent的悖论在于,它的价值取决于用户的信任,而信任取决于可靠性。所以谷歌选择让Spark在执行高风险操作前必须征求用户确认,详细的思考轨迹对用户可见,随时可以打断。

回看整场I/O大会,谷歌这次没有拿出一个让行业惊叹的新模型,但它做的事情更实际,也更有野心。Omni负责感知,Spark负责生成,Agent负责7×24执行。

谷歌有TPU集群、全球数据中心、安卓生态、搜索入口、广告变现机器,它不需要单点第一,只要足够好、足够便宜、足够无处不在,就是它最大的竞争力。

不管怎么说,谷歌已经在全速前进了。

本文来自微信公众号“AIX财经”,作者:雷晶,编辑:金玙璠,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

教育信息化走到深水区:它解决了什么,又制造了什么?

48分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业