2026 年智能体人工智能治理框架：风险、监督和标准

王建峰·2026年03月12日 12:20

今年伊始，人工智能智能体（Agentic AI）的崛起便成为焦点。2026年才过去不到两个月，人工智能的讨论就已被人工智能智能体、它们的能力以及它们对企业的益处所主导。在智能体一夜之间创造出各种科幻场景，一系列更为实际的问题浮出水面。例如：将任务委托给机器所带来的治理风险、对人类劳动力的影响，以及对人类控制和监督日益增长的需求。

由于我对任何形式的科技炒作都过敏，所以我不会相信人工智能代理最迟会在圣诞节前统治地球这种说法。但企业确实在探索利用人工智能代理来优化工作流程的可能性。智能体人工智能治理框架的出现似乎也印证了人们对这些解决方案日益增长的兴趣。让我们来看几个例子。

一新加坡的模型，世界上第一个智能体人工智能框架

2026年1月，新加坡资讯通信媒体发展局（IMDA）发布了全球首个智能体人工智能治理框架。该框架首先承认，智能体“能够访问敏感数据并对其环境进行更改”，这带来了全新的风险。智能体之间复杂的交互作用显著增加了结果变得难以预测的风险。由于智能体可能进行金融交易或修改包含个人数据的数据库，因此这些潜在风险的严重程度无法被低估。

新加坡的模式并非重写治理体系，而是调整人工智能的考量并将其转化为适用于智能体的形式。例如，公平和透明的原则比以往任何时候都更加重要。同样重要的是，人类的问责制、监督和控制也需要尽可能地贯穿人工智能的整个生命周期。

1.智能体人工智能风险

新加坡的框架承认，智能体人工智能的风险与传统的LLM相关风险（SQL注入和提示注入、幻觉、偏见、数据泄露等）并无太大区别。不同之处在于这些风险的表现形式：智能体可能通过制定错误的任务完成计划而产生幻觉，或者在执行过程中，通过调用不存在的工具或以带有偏见的方式调用这些工具而产生幻觉。

当主体之间相互交互时，风险会更高。一个主体的错误可能会引发连锁反应，因为错误的输出会传递给其他主体，并在整个系统中传播。如上所述，复杂的交互可能导致不可预测的结果，并在行动链中出现意想不到的瓶颈。

该模型识别出五类关键的、可能造成危害的风险：

错误操作。试想一下，如果人工智能代理检测到的异常情况不符合预设阈值，导致未能将IT事件上报给人工操作员，会发生什么情况？根据具体情况，这种错误操作可能会导致系统安全受到威胁。

未经授权的行为。这种风险是由代理人采取超出其许可范围的行为造成的。

带有偏见或不公平的行为。我们对偏见并不陌生，因为这是传统人工智能（尤其是二元分类模型）中常见的难题。其原理与此相同：试想一下，一个智能体做出了带有偏见的招聘决定。

数据泄露。一个典型的例子是，代理人可能在不知情的情况下无意中泄露了敏感信息，或者恶意行为者通过代理人获取了私人信息，从而造成了安全漏洞。

对连接系统的干扰。这种风险与代理与其他系统交互时采取的错误行为传播，从而扰乱信息或行为流的事件有关（例如，错误地删除生产代码库）。

2.治理模式

新加坡资讯通信媒体发展局 (IMDA) 的智能体人工智能治理模式基于四大支柱。

(1)前期风险评估

从本质上讲，这一步骤涉及确定代理部署的风险和用例，并设计风险控制系统。

确定应用案例的核心在于识别风险，风险被描述为影响和可能性的函数（这正是风险管理人员所需要的……），以及进行威胁建模。该模型展示了一系列影响人工智能代理潜在影响（部署领域、对敏感数据和外部系统的访问权限、代理行为的范围和可逆性）和可能性（代理的自主程度、任务复杂性）的因素。新加坡资讯通信媒体发展局（IMDA）认为，威胁建模是对风险评估的补充，因为它能够识别潜在的外部攻击场景。常见的威胁包括内存投毒、工具滥用和权限泄露。

下一步合乎逻辑的做法是定义智能体的限制和权限。这意味着需要制定策略、流程和协议，明确界定智能体在工具和系统访问权限、自主程度以及影响范围方面的限制（例如，将智能体部署在网络和数据访问权限受限的“独立环境”中，尤其是在执行代码执行等高风险任务时）。智能体的身份管理和访问控制问题更为棘手，因为目前为人类设计的身份验证系统无法顺利应用于人工智能智能体等复杂系统。随着新的解决方案和标准的开发，传统的身份访问控制和人工监督相结合的模式仍然不可或缺。

(2)使人真正承担责任

第二大支柱在于明确组织内外各方的责任，并建立有效的监督机制。新加坡资讯通信媒体发展局（IMDA）的基本原则是，组织和个人应对其代理人的行为负责。

在组织内部，应明确以下各方的职责：a)关键决策者，包括设定代理的高级目标、权限限制和整体治理方法；b)产品团队，包括定义代理的需求、设计、控制措施、安全实施和监控；c)网络安全团队，包括建立基线安全防护措施和安全测试程序；d)用户，包括确保负责任地使用代理并遵守相关政策。外部参与者可能包括模型开发者或智能体提供商等，组织也应为其明确职责。

设计有效的监督机制包含三项措施。首先，企业需要明确需要人工审批的行动边界，例如高风险或不可逆的操作（编辑敏感数据或永久删除数据），或异常和非典型行为（代理人越权行事）。其次，企业必须确保监督机制的持续有效性，例如通过培训员工识别常见故障模式并定期审核人工控制措施。最后，企业应引入自动化实时警报监控系统。

(3)实施技术和控制流程

除了传统的LLM 相关技术控制之外，第三支柱建议增加因智能体 AI 的新颖性而需要在生命周期内实施的新控制。

例如，企业应使用测试代理引入严格的部署前控制措施，以观察实际代理部署后的运行情况。企业在测试代理时应采取整体方法，包括评估新风险、工作流程、真实环境以及跨数据集的表现，并大规模评估测试结果。与传统人工智能一样，代理在部署后也应持续监控和测试，以便人工能够实时介入并在必要时进行调试。这项工作并非一帆风顺，因为代理运行速度极快，企业可能难以跟上。

(4)赋予最终用户责任

最后，为了确保最终用户（即使用和依赖人工智能代理的用户）的责任和义务，企业应注重透明度（沟通代理的功能和局限性）和教育（培训用户正确使用和监督代理）。企业可以重点关注与代理交互的用户（例如客户服务或人力资源代理等外部用户）的透明度，以及将代理集成到工作流程中的用户（例如编码助手等内部用户）的教育。

二加州大学伯克利分校的智能体人工智能框架

2026年2月，加州大学伯克利分校长期网络安全中心的一组研究人员发布了《智能体人工智能风险管理标准规范》，该风险框架广泛反映了美国国家标准与技术研究院（NIST）的人工智能风险管理框架（AI RMF）。与IMDA类似，该规范也指出了智能体带来的更高风险，包括“非预期目标追求、未经授权的权限提升或资源获取，以及其他行为，例如自我复制或抵抗关闭”。这些独特的挑战“使传统的、以模型为中心的风险管理方法变得复杂，并需要系统级治理”。

加州大学伯克利分校的框架是专门为单智能体或多智能体人工智能系统的开发者和部署者设计的。然而，作者表示，政策制定者和监管机构也可以使用该框架“来评估智能体人工智能系统的设计、评估和部署是否符合领先的风险管理实践”。

1.智能体人工智能风险

与IDMA相比，该报告指出了更广泛的风险：

歧视和毒性，包括反馈回路、毒性物质的传播以及试剂的可用性、质量和能力方面的差异。

隐私和安全，包括个人或敏感数据的意外泄露、数据泄露以及由此导致的不协调结果。

错误信息，尤其是当一个代理产生的幻觉和错误输出被其他代理重复使用时。

恶意行为者和滥用行为，包括更容易执行复杂的攻击、自动化滥用、大规模操纵、欺诈和协调的影响活动。

人机交互，例如减少人为监督、社会说服行为以及用户难以理解或质疑代理行为。

失控，包括监管破坏、快速执行超越监控和响应，以及破坏关闭或遏制机制的行为。

社会经济和环境危害，包括获得自主能力方面的不平等、集体无力感、大规模的经济和环境影响。

人工智能系统的安全性、故障和局限性，包括自主复制、错位、欺骗、串谋、目标驱动规划、现实世界的影响以及人类监督不足。

2.关注人类控制

与新加坡资讯通信媒体发展局（IMDA）类似，加州大学伯克利分校的标准主要旨在加强人工监管，重点关注以下方面：

人为控制和问责（明确的角色和职责，包括明确的角色定义、干预检查点、升级途径和关闭机制）

系统级风险评估（尤其适用于多智能体交互、工具使用和环境访问）

持续监控和部署后监督（代理行为可能随时间和环境而变化）

纵深防御和遏制（由于当前评估技术的局限性，将特工视为不可信实体）

透明度和文档记录（向利益相关者清晰传达系统边界、局限性和风险缓解决策）

作者承认其自身标准的局限性。首先，智能体人工智能的分类体系差异很大，且在全球范围内应用不一致，这限制了“跨组织和司法管辖区协调建议的能力”。其次，复杂的多系统行为和日益增强的自主性使得确保有效的人为控制和正确归责变得困难。最后，许多风险指标仍不完善，尤其是在“涌现行为、欺骗性匹配和长期危害方面”。

因此，作者警告说，本文采取了一种“预防性方法，强调保守的假设、多层保障措施和持续的重新评估”。它不应被视为一份静态的治理清单，而应被视为“一个动态框架，旨在与智能体人工智能的研究、部署实践和治理规范共同发展”。

2，NIST 设计

如上所述，该框架的设计与 NIST AI RMF 的设计有重叠之处，围绕治理、映射、衡量和管理这四个核心功能构建了智能体人工智能的工作框架。这是作者有意为之，旨在帮助企业在其熟悉的架构上应用风险管理程序，并构建一个与现有实践相一致的框架。

三更多智能体人工智能框架

新加坡资讯通信媒体发展局 (IMDA) 和加州大学伯克利分校的框架近期已发布，但并非仅有的人工智能代理治理方案。还有其他一些模型概述了应对人工智能代理带来的风险的流程和程序。让我们来看看其中的四个。

1.Agentsafe

2025 年 12 月，三位爱尔兰 IBM 专家发表了一篇论文，提出了Agentsafe，这是一个与工具无关的基于 LLM 的代理系统的治理框架。

实际上，Agentsafe“通过将抽象的风险类别映射到一套结构化的技术和组织机制，将麻省理工学院人工智能风险库付诸实践”，并针对特定代理的风险进行定制。它还对风险行为施加约束，将高影响行为升级至人工监督，并基于部署前的事件场景（包括安全性、隐私性、公平性和系统安全性）评估系统。据作者称，该框架通过证据和可审计性提供保障，提供了一种将风险与测试、指标和来源联系起来的方法。

Agentsafe 似乎是一个非常有前景的框架，是传统人工智能技术治理向智能体人工智能领域的自然延伸。它建立在伦理原则（问责制、透明度和安全性）之上，以符合国际标准的结构化风险管理流程为基础，并且似乎有潜力解决智能体人工智能的两大关键挑战：及时遏制和有效的人工监督。

2.AAGATE

2025年11月，在技术层面，11位企业家、研究人员和行业专家发表了一篇论文，提出了“智能体人工智能治理保障与信任引擎”（AAGATE），将其定义为“符合NIST人工智能风险管理框架（NIST AI RMF）的智能体人工智能治理平台”。该论文基于这样的假设：“传统的应用安全和合规工具是为确定性软件设计的，而不是为能够进行即兴推理的自主推理系统设计的”。

为了弥合这一差距，AAGATE将上述 NIST AI RMF 原则（治理、映射、衡量、管理）付诸实践，并针对每个 RMF 功能集成了“专门的安全框架：映射采用 Agentic AI Threat Modeling MAESTRO 框架，衡量采用 OWASP 的 AIVSS 和 SEI 的 SSVC 混合框架，管理采用云安全联盟的 Agentic AI Red Teaming Guide”。作者解释说，这种分层架构将实现“安全、负责且可扩展的部署”。

3.NVIDIA 的 Agentic AI 风险框架

2025年11月，NVIDIA和苏黎世人工智能公司Lakera的一组专家发布了一个基于智能体的AI安全框架。该框架引入了一个新颖的理念，即使用由人类监督的辅助AI模型和智能体来“协助发现、评估和缓解情境化风险”。简而言之，该风险框架涉及四类参与者：

全球情境化安全代理，可设置和执行系统范围内的策略、风险阈值和升级规则，并具有完全的可见性和可审计性。

本地上下文攻击代理，充当嵌入式红队，通过逼真的上下文感知攻击探测系统，以发现新出现的风险。

本地上下文防御代理，可在运行时应用带内保护，强制执行最小权限原则，验证工具使用情况，并遏制不安全行为。

本地评估代理，用于监控代理行为以衡量安全性、可靠性和偏差，并触发警报和治理措施。

该框架分两个阶段运行：

第一阶段：风险发现与评估。此阶段在沙盒环境中进行，旨在发现静态测试中未出现的突发风险。嵌入式攻击者可以模拟对抗性攻击（例如提示注入、恶意数据检索或不安全工具链），而评估人员则会监控完整的执行轨迹，以衡量安全性、可靠性和策略合规性。目标是识别漏洞、评估风险阈值并设计部署前防御控制措施。

第二阶段：嵌入式缓解和持续监控。此阶段将这些控制措施应用于生产环境。系统运行内置防御机制，强制执行最小权限访问、验证工具调用、应用安全防护措施，并实时遏制不安全行为。监控组件持续评估系统行为是否符合预期轨迹和预定义的风险阈值，并在必要时触发警报或启动人工干预。该系统确保安全是一个适应性强、持续进行的治理过程，能够应对行为偏差、不断变化的环境以及新出现的威胁。

4.代理风险与能力（ARC）框架

新加坡政府科技局人工智能实践部门的负责任人工智能团队在Github上发布了AgenticRisk & Capability (ARC)框架，这是一个技术治理方案，“用于识别、评估和减轻智能人工智能系统中的安全风险”。

该团队开发了一种以能力为中心的分类法，将人工智能代理分为三个主要领域：

认知能力（推理、计划、学习和决策）

交互能力（智能体如何感知、交流和影响环境或人类）

操作能力（代理人是否安全高效地执行行动）

他们还编制了一份风险登记册，将各项能力与特定风险联系起来：

组件风险（系统模块中的故障或漏洞）

设计风险（架构、逻辑或决策回路问题）

能力特定风险（由代理人的能力引起的威胁、奖励黑客攻击）

每项风险都会被映射到特定的技术控制措施（防护措施、策略、监控）以减轻其影响，从而实现风险控制的直接可追溯性。这有助于管理团队了解针对每项能力和风险应用了哪些控制措施。