谷歌Chrome深夜爆更,Agent不用「装」人了,前端最后防线崩了?
今天,谷歌Chrome团队投下了一枚深水炸弹:WebMCP(Web模型上下文协议)正式登场。
它可以让AI智能体跳过「人类用户界面」,直接与现有的网站和Web应用深度交互。
在Chrome 146的早期预览版中,开启特定flag即可体验WebMCP
这相当于给Agent加上了「超能力」,从此不用再「装得像个人一样」,去看网页、找按钮,或是点链接。
仅通过一个API:navigator.modelContext,AI便可绕过图形界面,直接与Web应用服务的内核对话。
假设想要订一张机票,Agent不用在屏幕上点击,而会直接通过底层协议,向航空公司网站发送命令,直接获取结果。
用开发者Alex Volkov的话来说,「WebMCP就相当于UI里的API」。
可以说,WebMCP的诞生,释放了一个极其明确的信号——
AI Agent与网页交互的底层逻辑,正迎来一场彻底的重塑。
它实现了从「视觉模拟」到「逻辑直连」的跃迁,正让传统的Web交互范式彻底走向终结。
WebMCP震撼登场
掀起Agent交互革命
或许很多人,还没有意识到WebMCP的重要性。
它的核心在于,改变了Agent获取服务的方式,让其直接拿到了网页的「通天钥匙」。
过去几周,全世界都在为爆火的OpenClaw疯狂,若是未来交互更进一步,说不定又将催生一次大变革。
要知道,如今Agent操作网页的方式,既笨拙又原始,而现在的集成方式实在是「太拉胯」了。
它们本质上,就是在模拟人类的行为——截屏、识别按钮的位置、模拟点击,DOM抓取......
这种方式,存在着明显的痛点:
- 成本高昂:一次简单的搜索,可能需消耗数千token来处理截图、解析页面;
- 稳定性低:网站一旦改版,Agent会因找不到按钮陷入「瘫痪」;
- 反馈低效:Agent必须反复「看」屏幕,来确认操作是否成功。
不再装个人,降维打击
如今,有了WebMCP,网站可以直接向AI开放其服务接口。Agent不用经过「前端视觉界面」,直接可以查询并执行服务。
WebMCP将取代传统的「屏幕抓取」(screen-scraping),从而实现更稳定、更高效的页面交互和信息检索。
诚如网友所言,AI Agent正成为网络的「一等公民」。
在谷歌Chrome 146的官博中,为开发者提供了两套灵活的API接入方式:
- 声明性API:执行可直接在HTML表单中定义的标准操作;
- 命令式API:执行需要JavaScript执行的复杂、更动态的互动。
这两种方式,允许开发者为AI提供一套直接的工具集,让Agent跳过视觉识别,直接访问网站背后的结构化函数。
此前,谷歌软件工程师Khushal Sagar在演讲中表示,WebMCP目标是成为AI应用领域的USB-C接口。
它不仅是让智能体替代用户,更是建立一种协作模式:
- 用户、网页、智能体三者共享界面,共同协作。
- 智能体专用路径:开发者在为人类设计UI的同时,为智能体提供结构化的API路径。
两大巨头联手
要彻底「干掉」前端?
值得一提的是,WebMCP并不是谷歌的独角戏。
早在25年8月13日,谷歌、微软开发者联手,在GitHub上提交了WebMCP这一项目。
开源项目:https://github.com/webmachinelearning/webmcp
目前,AI智能体通常通过MCP等协议进行后端集成。
但对于Web开发者来说,为了开放网站功能,他们往往得用Python或NodeJS写一套后端服务器,而不是用他们更熟悉的浏览器端JS。
在项目介绍中,WebMCP让网页能在UI中提供「智能体专用通道」。
与后端集成不同,WebMCP工具在客户端执行,只有在智能体加载页面后才可用。
智能体依然可以像人一样观察页面和模拟操作,但有了工具,它能更直接、高效地达成目标。
据官方的介绍,以下是WebMCP的三大主要优势:
- 代码复用:直接利用现有的前端代码;
- 统一界面:用户和智能体共用一个界面,简化了交互时的身份验证和状态同步;
- 无障碍利器:让辅助技术能执行更高层级的页面操作,而不仅仅是简单的点击。
更进一步说,WebMCP让用户和智能体可以在同一个网页界面里并肩工作,既能利用现有的应用逻辑,又能保持上下文共享和用户的掌控感。
绕过所有UI,统治网络
那么,在WebMCP加持下,Agent未来会演变成什么样?
开发者们提前设想了三大场景,电子商务、旅游出行,以及客户支持。
首先,未来,我们的购物体验,或将迎来质变。
一句指令,Agent不再在页面上反复「翻找」优惠券入口,仅通过WebMCP函数调用,实现秒级下单。
它可以轻松找到产品、配置特定的购物选项,完成结账全流程。
在旅游出行方面,Agent还可以成为更精准的预订专家,使用结构化数据进行搜索、过滤结果和处理预订。
由于避开了混乱的UI干扰,它能确保每次搜索结果的准确性,并直接在后台完成复杂的行程组合。
此外,WebMCP还可以成为自动化服务的桥梁,让智能体自动填写必要的技术细节,以创建详细的客户支持服务工单。
上手试过的开发者惊叹,立即发现了WebMCP两大好处。
分层Web时代来临
一半给AI用
开发者大佬Nikoloz Turazashvili最新一文,深度解释了WebMCP的出现对于开发意味着什么。
如果你看过AI Agent像无头苍蝇一样使用网站——瞎猜哪个按钮是结账,或者纠结乘客姓名该填在哪个框里……
实际上,你已经抓住核心痛点了:
现在的Web UI是给人看的,但智能体需要的是「结构」。
这恰恰是WebMCP想要解决的问题。如前所述,它是一个拟议中的Web标准,允许网站直接向浏览器内的Agent暴露结构化的工具。
这样一来,智能体就能调用真正的函数(带有Schema),而不是去暴力爬取页面,然后祈祷DOM结构没有改变。
因此,可以把它想象成「内置在浏览器标签页里的MCP」。
WebMCP的核心思路,便是发布工具,别光给像素。
与其让Agent去瞎猜一个按钮是干嘛的,不如在搭建的网站明确发布一份契约:
- Discovery(发现):这个页面上有哪些工具(checkout, filter_results等)
- JSON Schemas:输入/输出具体长什么样(以此减少幻觉)
- State(状态):对页面上当前可用内容的共识
这就把「到处乱点直到碰巧蒙对」变成了:直接调用book_flight({ origin, destination, outboundDate… })。
WebMCP基本上是在说——如果智能体要在浏览器肚子里运行,浏览器就得提供这种握手机制。
而且从产品角度看,这也是控制权的转移:网站自己定义了允许哪些操作,以及数据该怎么传。
如果WebMCP真的成为标准落地,主流浏览器开始原生支持这种结构化交互,未来的互联网或许分化为两层:
- 给人类用的UI:视觉美感、品牌叙事
- 给Agent用的工具界面:结构化数据、极速响应
而最终赢家不会是那些界面最花哨的——而是那些拥有最清晰工具契约的App。
这一切,预示着「Agentic UI」时代的到来。
未来的网页将不再仅仅是给「人」看的展示窗,还是能与AI无缝衔接的自动化服务节点。
WebMCP的出现,无疑加速了从「手动搜索」到「智能体自动执行」的互联网范式转移。
参考资料:
https://developer.chrome.com/blog/webmcp-epp?hl=zh-cn
https://x.com/nomad_remy/status/2021307801990201412?s=20
https://dev.to/axrisi/chromes-webmcp-early-preview-the-end-of-ai-agents-clicking-buttons-b6e
https://www.youtube.com/watch?v=p1l8nkQAoUw
本文来自微信公众号“新智元”,作者:新智元,编辑:桃子 好困,36氪经授权发布。















