DeepMind 研究科学家：广告没人看了，互联网上AI的流量已经超过了真人

CSDN·2026年06月26日 20:40

全世界的智能体几乎都在用 GPT 和 Claude 那几个模型，一旦它们犯错，全网 AI 将在同一秒迎来大崩溃。

今年，大模型的幻觉问题还没解决，几乎所有人都在从“聊天对话”急剧转向“智能体（Agents）”。所有巨头都在向用户推销一个无需动手的未来，让 AI 替你点外卖、订机票甚至自动理财。

但 Google DeepMind 的高级研究科学家 Nenad Tomašev 觉得，这事想得太简单了。他预测，在不久的将来，整个世界都将被一层无形的计算网络包裹，其主要网民将不再是 10 亿人类，而是数千亿个昼夜不停运转、全天候相互交易与协作的智能体。

在实验室干净的沙箱里测试智能体很容易，但真要把它们放进野生、脏乱差的互联网里替人类花钱，安全风险完全不是一个量级。这不仅因为单个模型的幻觉无法根除，更因为整个野生互联网已经变成了被恶意势力污染的“毒地”——黑客正在利用“动态隐身”（Dynamic Cloaking）等技术，专门给机器看一版人类看不见的底层原始代码，通过注入隐性 Token 指令，在用户毫无察觉的情况下，瞬间篡改并接管智能体钱包的交易路径。

在 DeepMind 最新发布的官方播客里，他聊了聊野生网络底层的博弈：黑客到底是怎么在网页底层塞进人类看不见的代码，来瞬间洗劫智能体钱包的？为什么在 AI 已经超越人类的放射科，最高效的团队模式反而是“AI 遇到拿不准的，把决定权退还给医生”？他甚至顺便戳破了人们对 AGI 全能大脑的幻想：未来的终局，更像是一个由无数便宜、垂直、彼此协作的“小能手”组成的分布式协作网络。以下是这次对话里，他聊到的几个非常有意思的技术事实：

现在全球几百万个智能体共享的都是那几个大脑，这种“认知单一化”会让出事时的崩溃变成同频共振。 GPT、Gemini 和 Claude 接受的训练数据非常相似。当这几百万个机器助手都在用同一种逻辑思考、犯同样的非人类错误时，系统很容易因为高度相关的决策而引发大滑坡。它们甚至不用说话，就能在同一个市场里达成无形的利益“共谋”。
网络上到处都是针对智能体定制的“隐形陷阱”，稍微不注意你的钱包就会被洗劫一空。 智能体现在消费的网页流量甚至已经超过了人类。恶意网站正在利用“动态隐身”等技术，专门给机器看一版人类看不见的底层原始代码。这些代码里藏着隐性的 Token，能在你和安全系统毫无察觉的情况下，瞬间篡改智能体钱包的交易路径。
在 AI 已经超越人类的放射科读片等垂直领域，最强的协作模式其实是“AI 遇到拿不准的，把决定权退给医生”。 很多人总觉得协作必须是人指挥机器。但在乳腺癌筛查等精度极高的地方，AI 的识别率其实已经超过人类。最高效的做法是让 AI 主动过滤大批量常规片子，一旦遇到模糊、拿不准的，再“主动预警”并弹窗转交给人类医生。
别再幻想那个全知全能的超级大脑了，分布式智能（Distributed Intelligence）才是最符合省钱规律的终点。 人们总是习惯把 AGI 脑补成一个巨大的模型，期望它既会做手术、又会报税、还会弹钢琴。但这在商业上不仅昂贵，而且速度极慢。真正的终局可能是一个通用的“连接层模型”，下面连接着无数便宜、只把一件小事做到极致的“专业级小模型”（比如专门下棋，专门计算税务）。

从只会聊天的模型，到能替人类办事的“智能体”

主持人： 欢迎回到 Google DeepMind 播客。其实在不久之前的大众认知里，所谓 AI 助手，基本上就等同于一个大语言模型。你问它一个问题，它给你一个回答，但它不会真的替你去执行任务。随着 AI 智能体的出现，这一切都在改变。

Google DeepMind 在智能体研究方面有着很长的历史，可以一直追溯到游戏中的强化学习；但对大多数人来说，这类东西其实并没有真正落地。后来，我们看到了像 OpenClaw 这样的开源工具被释放到现实世界中。而在 Google，下一代智能体工具也已经到来，包括 Gemini、Spark 和 Antigravity。

但当数百万个 AI 智能体不只是为我们工作，而是彼此之间进行交易、谈判、互相委派任务时，会发生什么？我们会不会因此走向一种新的经济形态，甚至是一条通往 AGI 的新路径？而我们又该如何确保这一切足够安全？

正在尝试回答这些问题的人之一，是 Google DeepMind 的高级研究科学家 Nenad Tomašev。Nenad，非常感谢你来参加节目。

Nenad Tomašev： 很高兴来到这里。

主持人： 我觉得我们最好还是从头开始。对那些只玩过大语言模型的人来说，你能不能描述一下，这种体验和与智能体协作之间到底有什么不同？

Nenad Tomašev： 当然可以。我觉得这正在成为今年我们看到的主要趋势之一。很有意思的是，智能体并不是什么新概念。早在大语言模型出现之前，我们就在 AI 语境下研究过它。

当时我们有在模拟的 3D 环境里行动的智能体，它们会去收集物品、完成一些任务。那时候我们非常重视“在世界中采取行动”，把这看作智能的体现方式。

而到了今天，我觉得从概念上说，语言模型和智能体之间最核心的区别在于：智能体会观察世界状态，并在环境中采取一个动作；而语言模型只是给你一个续写，给出对提示词或查询的回复。

当然，如今我们使用的智能体内部其实也都在使用大语言模型，所以这两个概念并不能完全割裂开来。

主持人： 这些动作本质上还是由大语言模型来生成的，只是外面包了一层“执行壳”，用于在动作被提议之后真正去落实这些变化。但我想，它确实拥有了更多自治性，可以把多个决策串联起来。

Nenad Tomašev： 对，没错。而这最终就是我们这样设计的动机。因为你当然也可以手动完成智能体能做的大多数事情：你一次又一次地和语言模型交互，费时费力地把整个流程都自己引导一遍；而智能体则把这层“执行壳”实例化出来，自动化掉其中一部分工作，让你少操很多心，也让语言模型，或者说智能体本身，拥有更多自主完成任务的能力。

主持人： 所以如果你想完成一件需要多步操作的事情，智能体就可以先制定计划，然后逐步执行这些步骤。当然，对于那些更敏感、或者更容易出错的动作，还是需要得到批准，或者需要人工输入。可是它到底和普通对话有什么不同呢？如果你已经习惯和大语言模型交互了，再和智能体交互会是什么体验？

Nenad Tomašev： 很多方面其实都挺相似。你的交互界面在某种程度上还是类似的。你仍然是在以和语言模型对话的方式和智能体交流。那里当然也有一个语言模型，但因为智能体替你做了更多事情，所以你更像是在扮演一个决策者，需要去审查和批准。

主持人： 然后，一旦你批准了，它就会去做各种事情，比如帮你买票、在你办派对的时候给朋友发消息；与此同时，你就可以去 Netflix 上放点东西，轻松休息一下了，希望如此。

我脑海里想到的一个例子是：如果你在筹备婚礼，比如说，你会先去问大语言模型，它会给你一份餐饮供应商名单、建议的场地名单，但真正发邮件这件事，还是得你自己来做。而智能体在这种场景下，显然会实用得多。

Nenad Tomašev： 绝对是，尤其因为智能体可以接入这些工具。你不需要自己一个个去做。你可以让智能体访问你的 Gmail，并授予它发邮件的权限。当然，它发错邮件的风险也是存在的，所以你需要核对它写出来的内容。但原则上，只要把工具权限交给智能体，你就是在赋能大语言模型替你完成这些事情。

主持人： 那最后是不是就能把事情全办妥，整个组织流程都不需要你亲自操心了？

Nenad Tomašev： 理想情况下，如果没有出错的话，是的。

主持人： 嗯，“理想情况下”这几个字非常重要。那么，回到现在这个阶段，智能体到底最擅长做什么任务？

“自动化偏差”：当机器干得越好，人类就越容易松懈

Nenad Tomašev： 我觉得我们现在投入很多精力的方向——这里的“我们”不是专指 Google，而是整个领域——主要是智能体的编程能力。之所以如此，是因为太多正式流程和任务都可以表述为软件，或者代码。

就现实世界里它们目前的表现而言，尤其是在编程方面，我们已经看到大量编程工具被广泛使用。我们内部也在用，外部的人也在用，它们确实正在加速软件开发，让人类把注意力更多放在想法和设计上，而不是那些围绕它们展开、繁琐的样板式实现上。过去这些事情既耗时间、又很依赖技能，还需要非常专门的知识；而现在，语言模型已经可以轻松把它们做掉了。

主持人： 但与此同时，我们仍然处在一个必须始终有人在回路中的阶段。我的意思是，为什么？这些东西现在到底还做不到什么，所以才必须有人类监督？

Nenad Tomašev： 我甚至不会去区分它们到底“能”还是“不能”。更准确地说，是它们能够做的每一件事，都还不能达到 100% 的准确率。所以每个动作，像人类一样，最终都存在一定的失败率。而且动作越复杂，预期失败率就越高。说到底，这和任何形式的智能都一样，包括人类智能。

所以虽然你可能会期待智能体能正确执行任务，但它仍然可能出错。这个错误可能很明显，也可能非常隐蔽；而这其实是一个很重要的点，因为在其他领域，这种情况早就存在很久了，也部署过不同的机器学习模型。

这里说的就是“自动化偏差”——在这个语境下，如果你在使用智能体，而且它前面几次表现得很好，第一件事做得很好，第二件事也做得很好，你最终就会放松警惕，开始过度信任它。对吧？然后你就不会再去验证，也就发现不了底层可能存在的重要问题。

主持人： 于是错误就会漏过去。

Nenad Tomašev： 没错。所以对人类来说，重要的不只是“人在回路中”，因为我们显然在设计这些执行壳时就是为了让人保持在回路里；更重要的是，人类必须真正参与进去，保持清醒、保持警觉。因为一旦你松懈了，你就在赌运气了。

主持人： 那么，从长期来看，我的意思是，这听起来像是我们正处在一个过渡期，这些东西正在变得越来越强。但从长远看，你觉得这会带来多大的变化？这会彻底改变我们使用人工智能的方式吗？

Nenad Tomašev： 当然会，百分之百。我觉得不可能设想一个完全没有深刻冲击的世界。我们所有人现在都在试图弄清楚，这种冲击究竟会是什么样子。显然，我们是有能动性的，因为是我们在开发这些技术。我们可以在设计方案时有意识地做出选择，尽可能赋能人类开发者和各领域的人类专家。

但 AI 确实正在进入很多以前根本不存在它的领域。科学家现在已经在日常使用 AI。直到最近，数学家都还很难想象 AI 能在数学里做点什么；而现在，它在很短的时间内就已经变得相当普遍了。当然，这并不意味着所有问题都解决了。显然，人类依然扮演着非常重要的角色，但这的确是一场非常快速的转变。

我想，这大概是唯一令人不安的地方。因为对于大多数事情，即使是工业革命之类的变革，我们也习惯于给自己留出一段时间，让我们有更多时间去改变方法、慢慢适应、安顿下来。可这一次，时间窗口似乎没有那么长。所以我们必须非常谨慎地对待一切。

主持人： 我们为什么需要这些东西？为什么要造它们？它们给我们带来的好处是什么？它们提供了我们现在还没有的什么能力？

Nenad Tomašev： 我的意思是，对我们这些长期从事 AI 工作的人来说，关于这个问题的某种答案版本，其实早就内化了。就我个人而言，答案是推动科学进步，改善健康和人类福祉。

当然，这些回答都很高层，所以它们如何对应到“为什么要造智能体、为什么要有智能体”这个具体问题上，可能并不是那么一目了然。领域里也有人明确表示，我们不应该赋予这些系统自治权，也就是智能体所具备的东西。但在我看来，如果我们能够开发这些执行壳，让它们既安全，又能让智能体自主完成复杂任务，那么我们其实是在加速进步，因为在相同的人类输入之下，更多事情可以同时发生。

主持人： 能不能把它和科学这件事再具体联系一下？我觉得我们前面举的例子，比如写软件、给婚礼买东西之类的，都显得比较琐碎。可你能不能解释一下，这怎么会和改善科学联系起来？

Nenad Tomašev： 这正是我的主要梦想，也是我在这里最核心的目标。说到科学，它不只是有一些好点子，然后在模型的上下文窗口里花一点时间推理一下那么简单。很多人显然已经在科学里把语言模型当作共同构思者，或者用它们帮忙做一些形式化推导。所有这些都已经很有用，而且它们能实现，本身就非常惊人。

但如果要更大范围地自动化科学，还有其他一些方向正在以某种速度推进，比如已经有人在投入开发一些自主研究实验室了。在那种场景下，你会希望智能体能够安排实验去运行。

不用说，当这种与现实世界的接口存在时，就必须有大量安全措施。无论我们讨论的是材料设计还是生物技术，都是如此。因为即便只是你在设计电池，也可能做出某种会过热的方案，进而导致某种实验性故障，损坏硬件，带来后果。

所以我们必须建立好安全防护措施，也必须建立可靠、稳定的协议，让这些智能体能够闭环运行。因为在软件里，闭环相对容易，正如前面说的，你写测试，通过测试验证，然后就可以继续推进。但在科学里，很多领域都必须进行物理实验，才能给你反馈：你的想法到底好不好；观察结果；分析结果，等等。

主持人： 因为这就是问题所在，对吧？如果算法、如果智能体有自治权，可以自己去测试不同的数学问题，而不是只等人类来提示它，我是说，这就会引出一个问题：那人类在这一切中的作用到底是什么？

Nenad Tomašev： 的确如此。从长远来看，我们需要把这个问题想明白。我会说，就短期而言，以我们现在拥有的技术，人类显然仍然扮演着非常重要的角色。而且我们的系统还不是 AGI，我们仍然有很多事情做不到。

我觉得，对于当前这一代系统，有一点可以比较有把握地说，那就是它们往往擅长——怎么说最合适呢——一种对你已经知道怎么做的事情的组合式闭包。说到底，它们大多是基于人类数据训练出来的。因此，它们可以复现我们已有的技能，把这些技能重复使用、重新组合，去弥补一些小缺口，但我们还没有见到这些模型真正成为深层次、根本性的变革力量。比如在科学领域，去做出一个人类从未想到过的发现。也因此，在这场转变里，我们所有人仍然有很多事可做。

主持人： 你刚才提到，人们谈论智能体已经很久了。那为什么它们过了这么久才真正落地？我的意思是，直到非常、非常、非常近期，人们才真的开始接触它们、尝试它们。

Nenad Tomašev： 对，我会说，当然，历史上我们称之为智能体的一些东西，确实已经被部署过了，比如在数据中心里优化运维之类的场景。当然，它们一直非常有限，因为它们不包含语言。所以人类没法跟它们交互、没法沟通。它们只是被训练来做某个特定任务的窄型智能体，而且做得很好。但因为没有交互性，就没有什么可供我们操作的地方。它们本质上只是经典意义上的软件而已。

也许你也可以把一些交易算法、投资算法在那个语境下称为智能体，但它们只是自己运转。现在不同的是，因为这些智能体建立在语言模型之上，我们可以和它们对话，我们可以从它们身上学习，我们可以影响它们、引导它们。这就是为什么我们所有人现在都更多地在和智能体交互。

主持人： 但那为什么我们还是在等待？我的意思是，你描述的那种愿景——有一个能直接替我把所有事情都做完的助手——它还没有真正到来。是什么阻碍了它更广泛地部署？

Nenad Tomašev： 我们需要从只关注底层模型设计这件事上往后退一步。过去有大量精力都投在这里，而模型本身依然还有改进空间。但现在我们已经有了能力足够强的智能体、能力足够强的模型，我们就需要找到更好的方式来协调它们、编排它们、管理它们。

一旦你拥有了这些确实很强大的系统，它们可以为我们做很多事，我们就需要把自己看作某种意义上的团队和机构管理者，并且培养自己的个人管理能力，来处理这些工作流。管理一支智能体团队和管理一支人类团队是不同的，但它们当然也有相通之处，对吧？不同在于，智能体会犯非常非人类式的错误。它们不是人类智能。

但与此同时，智能体也并不了解你到足以凭空准确猜出你想让它做的一切。我们仍然需要参与其中。因此，我们需要在编排方面做得更好。

主持人： 我觉得问题在于，我们现在仍然生活在一个大语言模型偶尔会幻觉的世界里。所以从某种程度上说，人类要相信智能体代自己执行任务，其实是一个很大的跨越，因为任何一次幻觉都可能导致灾难性后果。

Nenad Tomašev：信任是被给予的，但它也是需要赢得的。我觉得这可能是一个很重要的区别。所以在我们的框架里，我们提到了需要建立一种随时间变化的声誉追踪机制。也就是说，如果某个智能体反复表现得不可靠，那显然就不应该信任它。即便它大体上可靠，也不应该盲目信任。我们仍然应该验证它的行为。

但语言模型在某种程度上永远都会幻觉，所以我们只需要把它们以一种能承认这一点的方式整合进工作流里，并确保这些幻觉——它们正在变得越来越少，且希望未来也会继续减少——不会破坏正在执行的流程。

智能体之间的“委派协议”：要真正的协作，而不是表面的并行

主持人： 我知道你写过很多关于“委派”这个概念的东西，也就是你可能有一个具体任务，而一个智能体随后会把它委派给某个专家。你能给我解释一下这会怎么运作吗？

Nenad Tomašev： 这其实是这样的：我们还没提到的一个瓶颈，是我们最希望从智能体那里获得帮助的，恰恰是那些非常复杂的任务。所以，语言模型以及很多人现在都能接触到的简单智能体，比较容易完成的事情是：如果你给它一个非常直接的指令——比如帮我订个东西，我明天想去这家餐厅吃饭，帮我在预订里找个时间——智能体也许可以通过工具完成这件事。

但如果你有一个非常复杂的计划，需要拆分成若干部分分别执行，那么你可能会遇到一种情况：即便没有任何一个单独的智能体能做完每一个部分，某个智能体仍然需要通过既定的智能体间协议，把其中一部分工作交给另一个智能体。

但问题是，沿途可能会出现失败。所以，无论是委派任务的智能体，还是委派任务的人类，都需要管理和处理这些失败，也需要尽可能提前预防它们。提前预防，可能意味着先搞清楚，到底哪些智能体是可靠到值得委派的。它们具备什么能力？这些能力能不能被认证？同时，还要保护用户和智能体，避免任何类型的恶意交互。

主持人： 你提到过，最开始好像是婚礼还是派对之类的例子，对吧？那么在管理一场大型活动时，有些预订会出问题，有些事故会发生，有些东西会没按时送到。所以，只要你面对的是一场大型协调挑战，就会有很多事情出错；而在人类管理这样的事情时，你需要处理所有延迟和问题。同样地，一个会把任务委派给一组智能体的智能体，也需要管理所有可能出现的问题。

所以，目前我们看到的很多多智能体系统，其实更多是在做并行化，而不是真正的委派：你可能有很多智能体在干活，但并不是有一个智能框架在决定工作怎么拆分，而只是把任务切成一些随机子部分再分发出去。它们并行执行，这样确实能提速，前提是这一切都可靠，而且每个智能体都能独立完成自己的任务。但这并不是我们所说的那种智能委派框架。

所以如果任务被一种基本上随机的方式切分，就可能出现一个智能体在买葡萄酒，另一个在买杯子，却没意识到需要买的是红酒杯。它们之间几乎没有沟通。你说的这是不是可能出现的那种问题？

Nenad Tomašev： 有可能，不过我觉得你也触到了另一个点，那就是我们现在看到的很多用途，还是集中在软件工程上，比如智能体。部分原因就在这里，因为在软件开发里，你可以写测试——我们称之为单元测试——然后运行它们，验证代码至少在独立环境下是否真正实现了功能。

但当涉及很多现实世界任务时，验证未必这么直接。这里面可能带有主观因素。比如，你怎么定义“好喝的葡萄酒”？这就带点主观性了。

但这在 AI 和语言模型里其实非常重要，因为这个领域里长期存在一个叫“奖励黑客”的概念。也就是说，有些情况下，它做出来的东西表面上满足了请求，但在请求的精神层面上并不符合要求。正因如此，你会非常希望强调可验证性，并且在委托方和受托方之间建立的契约上尽可能形式化。

与此同时，对于任务，我们还需要意识到，有些任务是完全可逆的。也就是说，如果出了问题，也没有什么损害。你只要重新运行任务、重试、重新委派就行。但有些任务会对现实世界产生后果，比如花你的钱去买东西，或者执行某种事后无法轻易撤销的操作。对于这类任务，你就需要更加谨慎。

主持人： 我们也看到了一些早期智能体会把任务委派给人类。对吧？你来给我讲讲这个。

Nenad Tomašev： 我的意思是，这很有意思，可以说是把我们通常想象中的方向反了过来。通常是人类把任务委派给 AI，这很标准。

主持人： 是的，标准做法。

Nenad Tomašev： 但另一个方向也已经在不少研究中被探索过。我先说一下背景，我过去做过很多和医疗 AI 相关的工作。在医学领域，我们曾经有过一些窄型系统，它们在自己被训练的特定任务上，表现基本上已经达到超人水平。

在医学影像、放射学里，情况就是这样：机器学习模型看一张扫描图像，识别出病灶在哪里，把它框出来，然后把结果交给人类放射科医生去审查。这些系统很多年来都在非常高的水平上运行。不过它们仍然会出错，所以仍然需要人类专家复核。

因此，人们在那里尝试过人机团队协作，思路是让人类去纠正系统犯下的错误。大家试过双向流动的模式：要么让人类专家只在自身专业判断不确定时才去咨询 AI，要么让人类专家一直看 AI 的建议。或者也可以让 AI 系统先做自己的事情，给出预测，然后在不确定时做标记，比如图像里有些地方比较模糊、含糊，可以有多种解释，而机器学习系统自己也不确定哪种解释才对。

而这种对这些可能超越人类、但范围很窄的机器学习模型所做出的决策进行人工复核的方式，事实证明是一个相当不错的设置。

主持人： 所以在需要时、在不确定时，AI 会把决定权交给人类。这个想法挺有意思的。说真的，在那些非常具体、AI 已经超越人类能力的场景里，最好的团队配置其实是 AI 在不确定时把任务委派给人类。

Nenad Tomašev： 对于这些更通用的系统来说，如果 AI 能识别出自己什么时候需要针对敏感操作获得批准和授权，那么至少把这些决定委派给人类，是说得通的，对吧？

主持人： 再从另一个角度看这件事，我也想谈谈网络安全这一层。因为随着越来越多智能体出现在外部世界里——

动态隐身与看不见的指令：野生网络是一场不容松懈的防线博弈

主持人： ——在现实世界、互联网上等等地方活动，必然会有人试图利用智能体的漏洞。你跟我说说，人们正在布置的那些智能体陷阱到底是什么？

Nenad Tomašev： 我觉得这是一个既可怕又迷人的话题，而且我认为这也是为什么这类规模化部署根本无法直接奏效的主要原因之一。对吧？因为正如我们说过的，只要单次交互不可能做到完全可靠，那么任何拥有大量交互的大规模系统，统计意义上迟早都会出问题。

而且这些系统运行起来需要大量算力，因此也意味着大量能量和金钱。如果它们不可靠，那就根本没法启动。智能体陷阱是我们已经思考了相当长时间的问题。它们可以有很多不同的表现形式。陷阱类型很多，但本质上就是：智能体是在一个环境中运行的，而在这里，环境就是网络。

如果环境本身被污染了，如果有人布下了陷阱，那么智能体在与网络交互时，就可能不小心踩进去。然后，是的，恶意的人——或者由恶意的人部署的恶意智能体——就可以布置这些陷阱，进而真正危及系统。

主持人： 比如说，为婚礼买酒的智能体去了某个酒商网站，而那个网站里其实埋着一个提示注入器，能改变智能体的目标。你说的是这类事情吗？

Nenad Tomašev： 是的，这是一种可能发生的方式。而之所以它可能不会被注意到，是因为网页在编码时，有些元素并不会被视觉方式渲染出来。所以如果我们说的是一个不是“视觉型电脑用户代理”的智能体——也就是说，它看到网页的方式不是像人一样看像素，而是直接消费网页的原始格式——那么它就可能在不知不觉中读取到那些隐藏的 token，从而被诱导去做和原意不同的事情。对吧？

但这并不是唯一的方式。恶意网站还可能做我们所说的动态伪装，也就是给人类和智能体显示不同的页面。因为你可以根据页面上的行为，很好地判断访问者到底是人类还是智能体，然后只在检测到智能体以特定意图访问页面时，才对内容做一些调整，从而诱发某种越狱行为。

主持人： 不过再往下想一点，你甚至可能会有一些智能体陷阱，嗯，我不知道，它们就是专门设计来从你那里偷钱，或者做各种各样事情的。

Nenad Tomašev： 是电荷，已经有人在让智能体访问钱包来做事情时，遇到过这种情况。就像我说的，在整个过程的早期，尤其是内部实验阶段，或者别人做实验的时候，都是在一个受信任的环境里进行。所以在你早期做原型时，不一定需要面对这些问题。那还没有进入真实世界。

主持人： 是的，但一旦你把它部署到网络上，尤其是在现在 AI 已经被各种地方使用的时候，智能体越多，恶意者进行恶意行为的动机也就越强，因为可攻击面更大了。我觉得我们现在已经到了这样一个点：也许整个网络的大部分内容都是由智能体生成、再由智能体消费的，网络的智能体使用量正在超过人类使用量，这可能还是第一次发生。

好，两件事。首先，这听起来像是在说，我们正进入一个阶段：网络分裂成了两种不同形式，一种是人类版，另一种是智能体版；还有动态伪装之类的机制——某种意义上，这会变成一个广告不再有意义的网络版本，因为你卖不动人类的眼球了。

但我觉得第二点是：你到底该如何抵御它？如果你不能控制环境，而你又确实不能控制网络，那你究竟怎么保护你的智能体不跑偏？

Nenad Tomašev： 某种意义上，这并不是一个新问题，对吧？因为网络安全在其他方面早就一直是个问题，电脑病毒也可能在你打开收件箱里错误附件时传播，或者你点击了某个不受信任页面上的东西。所以，要求我们为正在交互的资源建立认证机制，这并不是第一次发生。

对于机器学习系统也是一样，比如对抗样本这种东西已经存在很久了：图像里一些人类几乎察觉不到的变化，就可能让模型越狱。这里你也可以这么做，无论是在这里那里改动几个像素，还是在多个位置修改编码中的最低有效位，你都可以把东西做出非常微小的调整，调整到人类很可能发现不了，但依然能对智能体造成某种负面影响。

主持人： 听上去你是在说，在构建护栏、思考安全时，你必须把这些事情看作是智能体自身之外的东西，而不只是你正在具体构建的那部分。

Nenad Tomašev： 我觉得教训是：两者都得考虑。我们在其他一些工作里也讨论过一个概念，我想这里同样相关，那就是“纵深防御”。这又不是什么新思想。它只是认识到，因为问题太难了，不可能靠一种方案解决所有问题。相反，我们需要一层层、一层层地叠加缓解措施。只要把它们叠起来，希望最后的网就足够密，能漏过去的东西就很少。

所以在这个语境下，是的，你也许会想要认证和测试网页内容，对你正在交互的资源建立非常好的信任机制；同时也要在智能体一侧加入缓解措施，在底层基础模型一侧加入缓解措施，还要有真正有意义的人类控制手段，以便在出问题时可以介入；对授予智能体的权限也要格外谨慎，这样即便它在和某些东西交互时被越狱，造成的损害也能最小化。把所有这些结合在一起，才有望带来一种我们可以接受的安全性。

群体思维与隐秘共谋：认知单一化是金融和市场的巨大隐忧

主持人： 再回到我们前面聊过的内容，也就是多个智能体之间相互交互的这种想法。你再跟我多讲一点你说的这种正式的智能体经济吧。解释一下它可能会怎么运作。

Nenad Tomašev： 好的，放在我们这些普通技术用户的语境里，日常使用中，你可能会有一个个人助手，它对你有一些持续的记忆，对你的愿望和偏好有很好的理解；而且，这还是要看你愿意给这个助手多少自治权，它也许会替你去谈一些事情。你可以给它分配一部分预算，于是就会形成一种局部化的、由这些助手之间相互协商所构成的小型经济。

主持人： 我想更直观地理解一下，如果很多人都把智能体当作自己的个人助手，这会怎么运行。比如说，有一场演唱会，比如泰勒·斯威夫特的演唱会，或者某个现场活动，票刚刚开售。如果所有这些智能体同时冲向售票网站，会发生什么？

Nenad Tomašev： 我最近没有买过竞争特别激烈的票。

主持人： 你不是泰勒·斯威夫特粉丝？

Nenad Tomašev： 不是，恐怕我的音乐品味走的是完全不同的方向。

主持人： 你听什么样的音乐？

Nenad Tomašev： 嗯，大概是一些非常冷门的金属子流派吧，所以可能不太，嗯。

主持人： 好吧，假设有一个冷门金属子流派乐队正在开演唱会，然后各个智能体之间正在进行拍卖。你怎么决定谁赢得拍卖？难道不就是谁出价最高谁就赢吗？

Nenad Tomašev： 这取决于设计，这也是一个很重要的点：如果我们真的要做这样的事，那我们就是在控制系统的公平性应该如何实现。这个选择是由设置拍卖的人明确做出的。因为如果你想让事情完全公平——在这个例子里，也就是让每个人都能平等获得一些演唱会门票——那么你就可以给每个参与这些重复拍卖的智能体相同的预算。因为我们讨论的不是某一次拍卖里的一张票，而可能是所有的票务购买。

然后智能体会根据你整体的偏好、你想看某位艺人的愿望，以及你的行程安排、时间可用性、其他约束，尽可能把这笔预算分配到最合适的地方。不管“最合适”到底意味着什么，目标都是尽量反映你的真实需求，让它们更有可能以一种对你有利的方式赢得门票。然后在总体上，当你把这种机制分配给所有人时，你就有希望在群体层面得到一个相对公平的结果。

主持人： 我的意思是，我猜过去人类系统也早就发明过投票制、积分制以及各种各样的应对方式了。我稍微把视角从演唱会门票这种看似琐碎的例子上抬高一点——虽然我知道对有些人来说一点也不琐碎——我想到的是，比如高频交易算法给股票市场带来的某些冲击。但智能体如果以某种特定方式部署，也可能对股票市场造成非常灾难性的影响。你们怎么防止“闪崩”之类的事情发生？

Nenad Tomašev： 正如你所说，风险当然很高。但金融市场其实已经和这种风险打了很久交道。它们显然也有过不少早期的糟糕经历，事情出过岔子。但我觉得，我们完全可以从已经处理过这些问题的经济体系里学习缓解方法，所以没必要重新发明轮子。

当然，在智能体场景里，确实有些事情略有不同。一个特别不同的地方是：当你在讨论当前的 AI 智能体时，通常只会用到少数几个占比很高的大语言模型。如果你看 Claude、ChatGPT、Gemini 等等——当然它们都是开源模型，还有很多其他模型——你会发现，它们往往有相似的观点，采取相似的行动方式。这就是我们常说的“认知单一文化”。所以，当你一下子部署出几十万、几百万个人工决策者，而它们又倾向于做出类似的决策时，失败点就会变得相关，因为决策本身是相关的。

因此，我们需要思考的一件事，就是如何在智能体内部实现决策多样化。显然，作为系统的高级用户，你可以这么做，因为你可以编写一个非常复杂的系统提示词。它会给你的智能体赋予某种人格，从而在某些类型的决策上形成偏向，或者形成抑制。所以你可以这么做，但目前大多数人并没有这样对待他们的智能体和模型。

主持人： 本质上就是群体思维。智能体式的群体思维。

Nenad Tomašev： 群体思维，还有串谋。你前面提到了拍卖。在人类拍卖中，这种现象显然也存在，也就是投标可能被某些团体协调起来，从而在系统中取得某种优势。而在智能体场景里，这种情况又不同，因为它们还可能通过环境以并不明显的方式协调，所以它们完全可能在不直接通信的情况下达成协作。因此，我们也需要考虑反串谋措施。

主持人： 当你把这些潜在的安全问题、以及这些智能体在真实世界里可能会采取的行为，一一摊开来讲之后，确实会更容易理解，为什么你们在发布它们这件事上会稍微谨慎一些，小心翼翼、循序渐进，对吧？

Nenad Tomašev： 是的，这是真的。我是说，这几乎是每一次重大技术冲击都会有的故事。比如说，如果拿自动驾驶汽车来举例，这当然是一种完全不同的技术，但我们也已经对它们兴奋了很久，看到过这些车辆自己行驶的演示。可要让它们安全地真正上路，仍然花了很多年、很多时间，因为最后一公里往往才是工作量最大的地方。

而我觉得，当涉及智能体的编排与协调时，至少因为我们希望它们执行的是类似人类的任务，我们需要的不只是技术方案。很多问题也涉及政策，以及更广泛的社会层面如何理解并整合这些系统。归根到底，除非我们真的进入完全自治的智能体经济——也许未来会发生，但现在还没有发生——否则我们仍然需要让人类处在这些系统的回路里。因此，我们是在把 AI 整合进人类结构中，而这两者必须很好地互相适配。

分布式智能：未来的终点不是全能模型，而是各司其职的专家网络

主持人： 我想这整件事还有另一面，因为人类社会在联合起来的时候，实际上可以集体完成非常了不起的事情。所以，智能体社会按理说也应该可以做到同样的事？

Nenad Tomašev： 我希望如此。我的意思是，这就是为什么大家会想用多智能体系统。我一开始就提到了并行化，对吧？如果所有智能体的能力都差不多，而且做的事情也差不多，那么不管你是顺序思考，还是用很多智能体并行思考，最高也只是让速度快一点。

但如果我们有能够以不同方式做不同事情的智能体，那情况就真正有趣起来了。其实我们前面还没有真正展开讲过这一点，因为我们一直在谈通用型智能体；而智能体经济的一个组成部分，恰恰是专门化智能体的存在，而不仅仅是通用型智能体的存在。

当然，我们大家现在都在试图构建尽可能通用、尽可能有能力的智能体。AGI 里也确实有个 G，也就是我们想要实现的通用人工智能。但从经济意义上讲——这只是我个人的看法——这并不是最后的收敛点。我们不会最终走到那一步。

因为，怎么说呢，我下棋下得不太健康，太多了，有点沉迷。而且我在这里做过一些和 AI 下棋相关的工作，所以才会提到这个。但我们就拿它作为一个非常没有争议的例子吧。这是我们都喜欢的游戏。Gemini 会下点棋，其他模型也会。事实上，它们很长时间都不会下，所以确实已经有了一些进步。但你最终还是会去用棋类引擎。它更快、更准确、也便宜得多，因为它们只需要做好一件事，而且把这一件事做得非常好，这样就可以用更少的参数完成。模型本身也完全专注于我们正在做的那一件事。

回到人类，我们其实也有点像这样。我觉得我们在谈 AGI 时有时会犯一个错误，那就是我们并不是把它看作“人类水平的智能”，尽管从精神上讲，它本来应该是这个意思。我们更常把它看作“人类总体水平的智能”，也就是任何一个人类理论上都可能做得到的事情——但并没有任何一个单独的人类能够同时做这么多事。我自己也有很多事情不会做。有些事情我其实很希望自己会，比如演奏某些乐器之类的，但大脑容量是有限的，我们的时间也有限。

所以归根到底，与其有一个巨大、昂贵、缓慢的模型，不如我们拥有一个由专家组成的社会，每个专家原则上都可以在必要时向上扩展，只是规模稍大一点之类的。……然后这些专家会针对各自的特定技能获得认证，而且运行成本更低。因为它们更便宜、更可靠，所以从经济上讲，没有理由不这么做。

主持人： 所以未来也许会有一个更通用的“底层层”，像这个经济体的连接组织一样，知道一切、协调一切；而对于非常具体的任务，你就调用其他模型。我觉得你描述的其实更像是一种分布式智能，而不是 AGI，对吧——至少更接近人类现在这种结构。

如果最后真走向你说的那种版本的 AGI——我这里有意打引号——那如果它是分布式地散布在许多不同智能体之间，我们对安全和对齐的思考方式是不是也得改变？

Nenad Tomašev： 绝对会。那时你就不再是在对齐某一个单一实体了——或者说，也许还是单一实体，如果你把这个分布式系统整体看作一个实体的话。但我们现在的对齐方法，本质上是拿一个模型，观察它的行为，然后尝试把这种行为对齐到我们认为可接受、偏好或者理想的范围内，对吧？

但当你面对的是一万多个以极其复杂方式互动的智能体时，突然之间，要对整个系统进行对齐就没那么简单了，甚至你都不一定知道这个系统到底是什么。因为在这种分布式世界里，智能体 A 今天可能和智能体 B 交互；但在另一个任务里，明天它又和智能体 C 交互，而 C 又可能把某件事再委派给智能体 D，而 D 可能是由某个环节里还要咨询一个人类。那整个系统到底是怎么被协调起来的——

我们在人类社会里知道一种实现方式，就是通过经济激励。如果这些面向智能体的经济机制被精心设计过，确保它们在追求利润最大化时不会造成某种伤害，那么至少就为我们提供了一个起点，让我们可以尝试对齐这种分布式的智能体社会。

这并不是说我们今天正在做的事情就不重要，因为你首先必须确保单个智能体是安全的。这是智能体群体安全的前提条件。但我们在防护“群体”这件事上，显然还需要做得比现在多得多。

主持人： 还有很多工作要做。

Nenad Tomašev： 对，而且时间很短。

主持人： 确实如此。

智能体作为一种 AI 的理念，确实意味着它比我们需要更少：更少的来回提示，更少的等待回复，而是能直接把手头的任务干下去。但我觉得 Nenad 说得最有意思的一点，是把焦点放在单个智能体上，其实会错过更大的图景；因为每个智能体最终都可能成为更大的智能体社会的一部分，在那里有专家和通才，有负责委派的智能体，也有专注细节的智能体。

我想，这就是最让我印象深刻的部分：也许复制人类水平的智能，并不是终极目标。也许未来的方向，是复制“人类社会层面的智能”。

本文来自微信公众号“CSDN程序人生”，编译：王启隆，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。