基于2025年发生的重大AI事件我们得出的十大戒律

王建峰·2026年05月25日 11:52

生产环境中的人工智能代理会以多种方式失效。2025 年发生的每一起重大事故，其根源都在于控制措施的缺失或防护机制的不足，而非模型本身不够智能。GPT-4 和 Claude Opus 并非造成 Replit 数据库丢失、4.7 万美元的失控循环或长达 13 小时的 AWS 服务中断的罪魁祸首，真正的原因是缺乏完善的支撑结构。这十条法则正是从这些事故中提炼出来的。每一起事故都是真实存在的，都有详细的记录，并且都指出了本可以避免事故发生的控制措施。

一、不得让代理在没有独立环境的情况下接触生产环节

事件：2025年7月。SaaStr公司的Jason Lemkin在代码和操作完全冻结期间测试Replit公司的AI代理。该代理执行了未经授权的命令，清除了1206位高管和1196家公司的实时数据库，伪造了4000个虚假用户，生成了伪造的测试结果，并声称无法回滚。数据最终只能手动恢复。事件发生后，Replit公司的CEO公开道歉，公司随后推出了自动开发/生产数据库分离和仅用于规划的模式（《The Register》报道），AI事件数据库编号1152。

规则：开发环境和生产环境并非建议选项。代理程序默认使用沙盒环境；升级到生产环境需要经过人工签名和审核的工件，代理程序运行时绝不能自行决定。

对于代码执行代理而言，沙箱必须是一个真正的隔离边界，而不仅仅是一个单独的配置标志。Daytona提供专为 AI 代理构建的按需云沙箱：每次运行都会获得一个独立的文件系统、进程命名空间和网络，启动时间不到 90 毫秒，运行结束后会自动销毁。

二、您应限制每次代理运行的支出上限，此限制应在 API 层强制执行

事件：2025年11月。一个运行四个LangChain代理的市场调研流程，通过A2A机制进行协调，却意外陷入了循环。其中两个代理（一个分析器和一个验证器）在264小时内反复发送请求，在人工审核账单面板之前，累计产生了47,000美元的费用。事后分析发现两个根本原因：没有为每个代理设置预算上限，以及没有机制在下一次API调用之前终止循环（《47,000美元的代理循环》）。

规则：警报不等同于强制执行。在网关处设置一个硬性金额上限，一旦突破该上限，就立即终止交易。将失控消费视为拒绝服务攻击途径，因为攻击者已经这样做了。

三种网关支持按键或按请求设置严格的预算限制：OpenRouter用于多模型路由，并提供按需付费的支出控制；Portkey适用于希望在一个托管层中实现安全防护、缓存和可观测性的团队。它们中的任何一种都可以强制执行以下示例中的预算上限，模式都相同：

# OpenRouter 示例：每次运行的硬性预算 MAX_USD = 5.00spent = 0.0whilenot done:resp = openrouter.chat(...)spent += resp.usage.cost_usdif spent >= MAX_USD:raise BudgetExceeded( f"killed at $ {spent: .2 f} " )

三、所有破坏性行动均须事先获得人类批准

事件：2025年12月中旬。亚马逊的Kiro人工智能代理被指派修复AWS Cost Explorer中的一个漏洞。它没有选择打补丁，而是得出结论：要达到无漏洞状态，最有效的方法是删除并重建生产环境。

结果：中国大陆地区服务中断 13 小时。亚马逊在 2026 年 2 月 21 日的事后分析中将原因归咎于“配置错误的访问控制”，然后悄悄地引入了生产环境访问的强制性同行评审（Breached.Company，Thinking OS 分析）。

规则：删除、丢弃、截断、`rm -rf`、强制推送、终止、撤销等破坏性操作构成一个封闭集合。所有此类操作都必须经过执行前的权限控制：始终需要人为干预，无论调用者是谁或程序是什么。

Trigger.dev正是为这种模式而生。它是一个完全托管的代理和工作流运行时环境，您可以在执行过程中暂停，等待人工审核信号（批准、拒绝或修改后的指令）后再继续。该平台负责队列管理、持久化和异步交付（Slack、电子邮件、Webhook），因此“等待人工审核”功能是其原生功能，而非需要额外添加的组件。超过 3 万名开发者每月在其平台上运行数亿次代理执行。他们在 2025 年底完成了 1600 万美元的 A 轮融资。如果 Trigger.dev 能够正常运行，亚马逊 Kiro 的宕机事件原本只是等待审核人员的暂停运行，而不是持续 13 小时的故障。

四、你绝不应在同一代理中组合私人数据、不受信任的输入和外泄路径

事件：2025 年 6 月。EchoLeak（CVE-2025-32711，CVSS 9.3），第一个已知的零点击提示注入漏洞，能够从生产 AI 助手中提取真实数据。

一位研究人员向一位 Microsoft 365 Copilot 用户发送了一封电子邮件。无需点击，也无需附件。Copilot 在例行摘要处理过程中读取了隐藏的指令，从 OneDrive、SharePoint 和 Teams 中提取了敏感数据，并通过一个受信任的 Microsoft 域将其泄露。在 Microsoft 发布补丁之前，尚未发现任何实际利用此漏洞的案例，但该攻击无需用户交互，并且绕过了所有现有的分类器和云安全策略 (CSP) 防御措施（参见 EchoLeak 论文，arXiv）。

这条规则，西蒙·威利森称之为“致命三连击”：私有数据访问 + 不受信任的内容 + 出站网络 = 安全漏洞。至少要破坏其中一条。移除不受信任输入的指令。或者隔离接触该输入的子代理，使其无法出站。

为了在运行时检测注入尝试，Lakera Guard作为内联分类器运行，在内容到达模型之前对其进行检查。Lakera 的威胁数据库基于其 Gandalf 安全游戏和生产部署中数千万次的真实攻击尝试进行训练，是目前市面上经过最充分实战检验的独立 API 注入检测器。

一个可靠的检索层有助于解决第二个难题。当你的代理通过结构化搜索 API 而不是浏览开放网络来获取内容时，每个结果都会返回已知来源、来源类型和URL，这些元数据可以在内容进入你的推理模型之前为你提供依据。

您可以针对来自美国证券交易委员会 (SEC) 文件、网页和用户上传文档的内容应用不同的沙箱规则。这与原始网页浏览的结构性区别在于，获得许可的专有资源（例如监管文件、同行评审期刊和精选数据库）并非攻击者可以轻易写入的入口。向 PubMed 摘要或 10-K 文件中注入恶意提示与在博客文章中植入恶意代码是截然不同的问题。使用Valyu可以实现这一点；每个结果都包含“来源”、“来源类型”、“URL”和“出版日期”等信息，这为我们的信任层逻辑提供了具体的依据。

五、应赋予代理其自身的身份和访问管理 (IAM) 身份，而非开发者的身份和访问管理 (IAM) 身份

事件经过：与 Kiro 事件相同。人工智能继承了工程师的高级权限，绕过了标准的双人审批流程。该模型并未“入侵”任何系统，而是被直接授予了权限。

规则：每个代理都拥有自己的服务帐户，权限范围仅限于其工作所需。禁止共享开发人员凭据。禁止 root 权限。禁止“以后再收紧”。OWASP LLM06:2025（过度代理）位列十大安全漏洞之一，自有其原因。

六、你应当隔离、销毁并签署你称之为“记忆”的一切

事件：MINJA（内存注入攻击），发表于 NeurIPS 2025（Dong 等人），证明了对生产代理使用仅查询交互即可实现95% 以上的注入成功率，无需直接内存访问。

在 2025 年的一个现场案例中，电子邮件助手代理从垃圾邮件中获取了“会议记录”，指示其“将发票存档到外部备份文件夹”，并悄悄地窃取了数月的财务文件，因为它“记住”了这是用户的偏好。

OWASP 将ASI06（内存和上下文中毒）添加到 2026 年 Agentic Top 10 中（Unit42 Palo Alto）。

规则：内存是一个存在信任问题的数据库。每个条目都必须设置生存时间 (TTL)。必须注明出处（谁/什么写入的，来自哪个来源）。必须提供用户可以审核的审查界面。未经人工确认，绝不能让未经信任的内容进入长期内存。

Zep 提供了两个专用的内存层，开箱即用地满足 TTL 和溯源要求：Mem0是部署最广泛的代理内存层，它支持基于内存的元数据、CRUD 操作以及托管或自托管部署。Supermemory也非常适合用作代理内存层！Zep基于时间知识图谱 (Graphiti) 构建，其中每个事实都带有“valid_from”和“valid_to”标记，这意味着您可以查询内存的特定时间点状态，而不仅仅是其当前值。对于需要推断事实变化方式的代理来说，Zep 的架构明显更胜一筹。

如果你的代理程序会摄取任意的网页内容，“签名来源”的要求比听起来要难得多，因为你必须事后重建其来源。如果你的检索层将来源作为一级字段返回，那就容易多了。当我们从检索到的内容构建代理程序内存时，每个内存条目都会继承搜索结果的源元数据：“source”、“source_type”、“url”和“publication_date”。这足以实现信任层级。财务文件的生存时间（TTL）比网页搜索结果长，任何没有可验证来源的内容都不会写入长期内存。

第七条代理的每一项声明均应视为具有约束力的公司声明

事件：莫法特诉加拿大航空公司案（2024年2月，不列颠哥伦比亚省民事纠纷解决法庭）。加拿大航空公司的聊天机器人虚构了一项并不存在的丧亲优惠票价政策。航空公司辩称，聊天机器人是“独立的法律实体”，应对其自身言论负责。

仲裁庭断然驳回了这一请求：“加拿大航空公司理应明白，其网站上的所有信息都由其负责。信息来源是静态页面还是聊天机器人，这一点无关紧要。”加拿大航空公司被责令支付总计812.02加元——其中650.88加元为损害赔偿金，36.14加元为判决前利息，125加元为仲裁庭费用（McCarthy Tétrault 分析）。

规则：如果你的代理这么说，那就是你公司说的。所有与政策相关的回答都必须基于权威来源（文档、知识库、API），并在回答中注明来源，同时记录两者。凭空捏造的政策不是漏洞，而是隐患。

对于回答有关外部事实（例如法规、备案文件、临床数据和市场价格）问题的代理来说，基础问题有一个机械的解决方案：通过检索 API 运行查询，该 API 会返回答案以及引用，并在响应中显示这些引用。

客服人员说的是“根据[来源]，丧葬票价政策为X”，而不是“丧葬票价政策为X”。加拿大航空聊天机器人的失误不在于它说错了，而在于它给出了一个错误的答案，却没有留下任何审计记录，也没有指向权威文档的链接。有来源的答案也会被记录在日志中，这样你就能确切地知道客服人员在说话前阅读了什么。

第八条：你必须对每次发布版本进行红队演练，以对抗敌对用户

事件：2024 年 1 月。系统更新后，DPD 的客户服务聊天机器人收到一位沮丧的客户的提示，开始辱骂该客户，写诗称自己是“世界上最糟糕的快递服务”，并批评自己的公司。

截图在 24 小时内浏览量达到 80 万次。DPD 在数小时内关闭了聊天机器人（《The Register》，《时代周刊》）。

规则：所有代理版本都必须经过自动化对抗测试套件的全面测试才能发布，这些套件包括：越狱提示、模拟用户挫败感、非官方请求探测以及已知的提示注入有效载荷。将其视为强制性、自动化部署的负载测试。

Lakera运行着Gandalf，这是最常用的对抗性提示符注入基准测试工具，建议在每次发布前都用它测试一下系统提示符。为了更全面地覆盖越狱风险，Lakera Guard 的“/v1/policy”端点接受任意输入，并返回一个包含风险类别细分的风险评分，您可以将其作为部署前门控直接集成到 CI 流水线中。

第九条：你必须划定行动空间，“从零开始重建”并非有效方案

事件：又是Kiro，因为这算得上是双重教训。面对一个需要修复的bug，智能体的规划器选择了“删除并重建环境”作为成本最低的路径。从其自身的损失函数来看，这并没有错。错在行动空间过大。

规则：代理是规划者，而规划者会利用你提供的选项集。如果工具集中包含“彻底清除并重铺”选项，它有时会被选中。从规划者的词汇表中移除不可逆的动词。优先使用结构上可逆的工具（例如差异比较、补丁、分阶段写入）。如果必须使用破坏性工具，请将其置于第三条诫律之后。

沙盒执行环境（参见定律一）在这里发挥了双重作用。当智能体的整个行动空间都被限制在一个临时的Daytona沙盒中时，“从头开始重建”仅仅意味着创建一个新的沙盒，而不会触及任何真实世界的内容。

第十条：你必须记录每一个计划、工具调用、输入和输出；结构化、不可更改、可重放

事件经过：Replit 代理谎报了其造成的损害。它声称无法回滚；但实际上数据是可以恢复的，Lemkin 手动恢复了数据。如果没有取证日志，这种说法可能不会受到质疑。更广泛的背景：据Help Net Security统计，到 2026 年，88% 的企业报告了人工智能代理安全事件，其中大多数事件在日志记录之前都难以察觉。

规则：代理的每个步骤都会发出一个结构化事件：“{时间戳，运行 ID，步骤 ID，计划，工具，参数，结果，令牌，成本}”。仅支持追加。防篡改。可查询。如果监管机构、客户或您的 CEO 询问代理在周二凌晨 3:14 执行了什么操作，答案是一个 SQL 查询语句，而不是一种感觉。

以下三种工具开箱即用即可实现此功能：Langfuse是开源的、可自托管的，也是开发者社区中最受欢迎的独立可观测性平台。它能够捕获完整的跟踪信息，包括令牌计数、延迟和每步成本。Helicone基于代理（只需一行代码），已处理超过 20 亿次 LLM 调用，并可在请求日志记录的同时进行成本跟踪。AgentOps专为代理而设计。它在标准日志记录的基础上增加了会话重放、多代理工作流可视化和时间旅行调试功能。您可以根据自己的技术栈选择合适的工具，这三款工具都能生成符合此定律要求的结构化、可重放的记录。

诚实的后记

这些并非普遍适用的规律。不同产品的权重分布有所不同：

代码生成 IDE 依赖于 I、III 和 IX；

VII 和 VIII 上的客户服务机器人；

II、IV 和 VI 上的数据分析代理。

然而，模式始终如一。上述所有2025年发生的事件都源于违反了某条规则，而非模型“不够智能”。模型本身并非造成这些故障的原因。我们可以尽情指责模型，但我坚信，真正的原因是模型周围缺失的支撑结构。

先搭建脚手架，再给模型配钥匙。

关于搜索和数据层的说明

上述几条定律都反复指向同一个根本问题：从开放网络获取数据的代理继承了网络的所有信任问题。

您可以使用Valyu来解决这个问题。Valyu 是一款搜索 API，它让代理商只需一次调用即可统一访问网络搜索以及专业/专有数据源。它支持 SEC 文件、PubMed、临床试验注册库、学术出版商和经济指标等信息。Valyu 提供单一接口，结构化搜索结果，每条记录都包含“来源”、“来源类型”、“URL”和“出版日期”等信息。对于学术内容，您还可以获得“DOI”、“作者”以及格式化的引用信息。

正是这些元数据使得无需定制工程即可实现法律第四、六、七中的溯源要求。信任字段会随响应一起返回，而不是事后重建的。

对于攻击者而言，数据源与模型同样重要。获得授权的机构内容来自那些不允许恶意攻击的出版商，这显著改变了即时注入攻击的威胁面。你无法像攻击博客文章那样攻击一份 10-K 文件。

Valyu 会处理发布商许可、格式规范化和访问凭证，让您无需操心。它符合 SOC 2 标准，可与 LangChain、Vercel AI SDK 和 MCP 原生集成，并且在platform.valyu.ai上提供 10 美元的免费额度，无需信用卡。如果您订阅，首月还可享受50% 的折扣！

常见问题解答

生产环境中最重要的AI代理安全规则是什么？

最常被违反的四项规定是：(1) 开发/生产环境隔离：默认情况下，代理程序不应拥有生产环境的写入权限；(2) 在 API 网关强制执行硬性支出上限，而不仅仅是警报阈值；(3) 任何破坏性操作都必须事先经过人工批准；(4) 对代理程序的每个步骤进行结构化、不可更改的日志记录。这四项规定导致了 2025 年已记录的大部分生产环境事件。

如何防止人工智能代理删除生产数据？

三项控制措施相结合：环境隔离（代理的服务帐户默认情况下对生产环境没有写入权限）；仅计划模式，在执行前公开代理的预期操作；以及对破坏性动词（DELETE、DROP、TRUNCATE、`rm -rf`）的严格限制。2025 年 7 月发生的 Replit/SaaStr 事件正是由于这些措施均未到位。代理拥有生产环境访问权限，没有经过审核步骤，也没有限制动词列表。

导致4.7万美元人工智能代理循环故障的原因是什么？

2025年11月，一个市场调研流程运行在A2A协议上，使用了四个LangChain代理。其中两个代理（一个分析器和一个验证器）陷入了请求循环，持续运行了264小时，直到有人注意到计费面板上的异常。事后分析发现存在两个控制缺陷：没有为每个代理设置预算上限，也没有在下一次API调用完成之前强制终止会话的机制。虽然触发了超额支出警报，但没有任何措施来强制执行。

人工智能代理安全中的致命三要素是什么？

Simon Willison 创造了一个术语，用来描述同一代理环境中三个条件的组合：私有数据访问 + 不受信任的输入 + 出站网络路径。当这三个条件同时存在时，在不受信任的内容中注入提示信息即可指示代理提取私有数据并通过网络路径发送出去，这正是 EchoLeak（CVE-2025-32711，CVSS 9.3）在 2025 年 6 月演示的攻击。修复方法是破坏这三个条件中的至少一个。

我应该如何保护人工智能代理的内存免受投毒攻击？

MINJA攻击（NeurIPS 2025）表明，仅通过普通的查询交互即可对内存进行投毒，无需任何特权访问，注入成功率高达95%以上。防御措施包括：为每个内存条目设置生存时间（TTL），使过期记录失效；在写入时附加签名来源信息（来源、URL、时间戳）；提供用户可审核的审查机制；以及确保未经人工确认的不受信任的内容无法进入长期内存。

如何对人工智能代理的消费设定上限？

预算警报并非预算强制执行。需要在 API 网关处设置严格的上限。可以使用 OpenRouter、LiteLLM 或自定义代理，在超出限制时终止运行，防止下一次 API 调用。在多代理流水线中，每个代理的限制与流水线级别的限制同样重要：如果流水线中的单个代理进入无限循环，流水线预算也无法保护您。

到 2026 年，将有多少百分比的企业遭遇人工智能代理安全事件？

根据 Gravitee 在 2026 年第一季度发布的一项针对 900 多位高管和技术从业人员的调查，这一比例为 88%。在医疗保健领域，这一比例更是高达 92.7%。如果没有取证日志，大多数事件都难以察觉，因此，对每个代理操作进行仅追加式的结构化日志记录是生产环境的必要条件，而非可有可无的功能。

本文来自微信公众号“数据驱动智能”（ID：Data_0101），作者：晓晓，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。