谷歌Chrome深夜爆更，Agent不用「装」人了，前端最后防线崩了？

新智元·2026年02月11日 12:08

终于，AI不用装得像个人了。谷歌Chrome重磅上线WebMCP。从此，Agent不用疯狂截屏，直连内核完成任务，AI与网页交互的底层逻辑正在重构。

今天，谷歌Chrome团队投下了一枚深水炸弹：WebMCP（Web模型上下文协议）正式登场。

它可以让AI智能体跳过「人类用户界面」，直接与现有的网站和Web应用深度交互。

在Chrome 146的早期预览版中，开启特定flag即可体验WebMCP

这相当于给Agent加上了「超能力」，从此不用再「装得像个人一样」，去看网页、找按钮，或是点链接。

仅通过一个API：navigator.modelContext，AI便可绕过图形界面，直接与Web应用服务的内核对话。

假设想要订一张机票，Agent不用在屏幕上点击，而会直接通过底层协议，向航空公司网站发送命令，直接获取结果。

用开发者Alex Volkov的话来说，「WebMCP就相当于UI里的API」。

可以说，WebMCP的诞生，释放了一个极其明确的信号——

AI Agent与网页交互的底层逻辑，正迎来一场彻底的重塑。

它实现了从「视觉模拟」到「逻辑直连」的跃迁，正让传统的Web交互范式彻底走向终结。

WebMCP震撼登场

掀起Agent交互革命

或许很多人，还没有意识到WebMCP的重要性。

它的核心在于，改变了Agent获取服务的方式，让其直接拿到了网页的「通天钥匙」。

过去几周，全世界都在为爆火的OpenClaw疯狂，若是未来交互更进一步，说不定又将催生一次大变革。

要知道，如今Agent操作网页的方式，既笨拙又原始，而现在的集成方式实在是「太拉胯」了。

它们本质上，就是在模拟人类的行为——截屏、识别按钮的位置、模拟点击，DOM抓取......

这种方式，存在着明显的痛点：

成本高昂：一次简单的搜索，可能需消耗数千token来处理截图、解析页面；
稳定性低：网站一旦改版，Agent会因找不到按钮陷入「瘫痪」；
反馈低效：Agent必须反复「看」屏幕，来确认操作是否成功。

不再装个人，降维打击

如今，有了WebMCP，网站可以直接向AI开放其服务接口。Agent不用经过「前端视觉界面」，直接可以查询并执行服务。

WebMCP将取代传统的「屏幕抓取」（screen-scraping），从而实现更稳定、更高效的页面交互和信息检索。

诚如网友所言，AI Agent正成为网络的「一等公民」。

在谷歌Chrome 146的官博中，为开发者提供了两套灵活的API接入方式：

声明性API：执行可直接在HTML表单中定义的标准操作；
命令式API：执行需要JavaScript执行的复杂、更动态的互动。

这两种方式，允许开发者为AI提供一套直接的工具集，让Agent跳过视觉识别，直接访问网站背后的结构化函数。

此前，谷歌软件工程师Khushal Sagar在演讲中表示，WebMCP目标是成为AI应用领域的USB-C接口。

它不仅是让智能体替代用户，更是建立一种协作模式：

用户、网页、智能体三者共享界面，共同协作。
智能体专用路径：开发者在为人类设计UI的同时，为智能体提供结构化的API路径。

两大巨头联手

要彻底「干掉」前端？

值得一提的是，WebMCP并不是谷歌的独角戏。

早在25年8月13日，谷歌、微软开发者联手，在GitHub上提交了WebMCP这一项目。

开源项目：https://github.com/webmachinelearning/webmcp

目前，AI智能体通常通过MCP等协议进行后端集成。

但对于Web开发者来说，为了开放网站功能，他们往往得用Python或NodeJS写一套后端服务器，而不是用他们更熟悉的浏览器端JS。

在项目介绍中，WebMCP让网页能在UI中提供「智能体专用通道」。

与后端集成不同，WebMCP工具在客户端执行，只有在智能体加载页面后才可用。

智能体依然可以像人一样观察页面和模拟操作，但有了工具，它能更直接、高效地达成目标。

据官方的介绍，以下是WebMCP的三大主要优势：

代码复用：直接利用现有的前端代码；
统一界面：用户和智能体共用一个界面，简化了交互时的身份验证和状态同步；
无障碍利器：让辅助技术能执行更高层级的页面操作，而不仅仅是简单的点击。

更进一步说，WebMCP让用户和智能体可以在同一个网页界面里并肩工作，既能利用现有的应用逻辑，又能保持上下文共享和用户的掌控感。

绕过所有UI，统治网络

那么，在WebMCP加持下，Agent未来会演变成什么样？

开发者们提前设想了三大场景，电子商务、旅游出行，以及客户支持。

首先，未来，我们的购物体验，或将迎来质变。

一句指令，Agent不再在页面上反复「翻找」优惠券入口，仅通过WebMCP函数调用，实现秒级下单。

它可以轻松找到产品、配置特定的购物选项，完成结账全流程。

在旅游出行方面，Agent还可以成为更精准的预订专家，使用结构化数据进行搜索、过滤结果和处理预订。

由于避开了混乱的UI干扰，它能确保每次搜索结果的准确性，并直接在后台完成复杂的行程组合。

此外，WebMCP还可以成为自动化服务的桥梁，让智能体自动填写必要的技术细节，以创建详细的客户支持服务工单。

上手试过的开发者惊叹，立即发现了WebMCP两大好处。

分层Web时代来临

一半给AI用

开发者大佬Nikoloz Turazashvili最新一文，深度解释了WebMCP的出现对于开发意味着什么。

如果你看过AI Agent像无头苍蝇一样使用网站——瞎猜哪个按钮是结账，或者纠结乘客姓名该填在哪个框里……

实际上，你已经抓住核心痛点了：

现在的Web UI是给人看的，但智能体需要的是「结构」。

这恰恰是WebMCP想要解决的问题。如前所述，它是一个拟议中的Web标准，允许网站直接向浏览器内的Agent暴露结构化的工具。

这样一来，智能体就能调用真正的函数（带有Schema），而不是去暴力爬取页面，然后祈祷DOM结构没有改变。

因此，可以把它想象成「内置在浏览器标签页里的MCP」。

WebMCP的核心思路，便是发布工具，别光给像素。

与其让Agent去瞎猜一个按钮是干嘛的，不如在搭建的网站明确发布一份契约：

Discovery（发现）：这个页面上有哪些工具（checkout, filter_results等）
JSON Schemas：输入/输出具体长什么样（以此减少幻觉）
State（状态）：对页面上当前可用内容的共识

这就把「到处乱点直到碰巧蒙对」变成了：直接调用book_flight({ origin, destination, outboundDate… })。

WebMCP基本上是在说——如果智能体要在浏览器肚子里运行，浏览器就得提供这种握手机制。

而且从产品角度看，这也是控制权的转移：网站自己定义了允许哪些操作，以及数据该怎么传。

如果WebMCP真的成为标准落地，主流浏览器开始原生支持这种结构化交互，未来的互联网或许分化为两层：

给人类用的UI：视觉美感、品牌叙事
给Agent用的工具界面：结构化数据、极速响应

而最终赢家不会是那些界面最花哨的——而是那些拥有最清晰工具契约的App。

这一切，预示着「Agentic UI」时代的到来。

未来的网页将不再仅仅是给「人」看的展示窗，还是能与AI无缝衔接的自动化服务节点。

WebMCP的出现，无疑加速了从「手动搜索」到「智能体自动执行」的互联网范式转移。

参考资料：

https://developer.chrome.com/blog/webmcp-epp?hl=zh-cn

https://x.com/nomad_remy/status/2021307801990201412?s=20

https://dev.to/axrisi/chromes-webmcp-early-preview-the-end-of-ai-agents-clicking-buttons-b6e

https://www.youtube.com/watch?v=p1l8nkQAoUw

本文来自微信公众号“新智元”，作者：新智元，编辑：桃子好困，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。