人工智能安全观察：漫谈与AI新物种相处之道

汪德嘉·2026年05月08日 18:02

当AI从工具蜕变为自主“新物种”，安全不能再靠“上锁”。本文提出培育AI的安全本能——通过基因、监督、进化三层机制，让行为边界内化为本能。唯有如此，才能跨越信任赤字，开启十万亿AI服务市场。

在AI Ascent 2026大会上，红杉资本第一次给出了“AGI已经到来”的论断，AI似乎正在以超出大部分人预期的速率发展，尽管这个预期已经足够乐观和大胆。我们相信从业者需要以更加超前的眼光去看待AI。在之前的一篇文章中，我们将智能体类比为生命体，提出了智能体的“生命支撑体系”；如今我们看到智能体的“进化”路程比预计的更加迅速和激进，需要从更加深刻的角度去审视AI这个“全新物种”。今天我们想从安全这个角度，探讨与AI新物种的相处之道。

新物种降临：从客体到生命体的蜕变

当一台机器不仅能执行指令，还能自主理解目标、调用工具、规划路径并完成任务时，它还仅仅是一台机器吗？这个问题在短短两年间从哲学沙龙走进了工程实践。AI Agent的涌现，标志着人工智能从被动响应走向主动行动。它们不再等待人类编排每一个步骤，而是被赋予一个抽象目标，便能自行拆解、执行、纠偏甚至自我优化。这种行为的本质特征——目标导向、环境感知、工具使用、自主决策——在生物学而非工程学的词典中更容易找到对应物。我们正在创造的不是更复杂的软件，而是一种具有行动意志的“生命”形态。

正因如此，在安全领域沿用旧有的工具思维已经不仅是落伍，而是危险。传统网络安全的底层假设是将一切系统视为可预测的客体——系统有固定功能，行为有明确边界，异常有可枚举模式。然而当AI Agent能够根据上下文动态调整策略、自行生成子任务甚至修改自身行为边界的时刻，这些假设开始崩溃。这种崩溃并非某个产品的失败，而是整个范式的黄昏。时间维度的崩溃最为直观：AI攻击者可以在数秒内完成从侦察到渗透的全链条操作，而人类防御者的审批流程、工单系统、应急响应手册依然以分钟甚至小时为单位运转。这根时间差不是可以通过优化流程来弥补的——它是两条平行时间线的错位。

资产维度的崩溃紧随其后。一个自主Agent在执行任务过程中可能动态调用数十个API、访问数百个数据对象、生成多个子Agent来执行子任务，传统的资产清单口径根本无法捕捉这种流动性的暴露面。认知维度的崩溃则更加隐蔽却同样致命：当安全系统产出海量告警而人类分析师已经陷入认知瘫痪，真正致命的攻击信号可能被淹没在对噪声的无尽甄别之中。知识维度的崩溃揭示了攻防进化速度的剪刀差——AI威胁的变异速度远超人类知识库的更新周期，培训一名合格安全分析师的时间足以让攻击技术迭代数个版本。最后是哲学维度的崩塌：我们曾经相信威胁可以被预测、边界可以被定义、系统可以被完全理解，而这些确定性假设在涌现行为面前逐一失效。

这一切将我们推向一个根本性的问题转换。我们不应该继续追问“如何给AI上锁”——这个问题本身预设着AI是一个可以被物理禁锢的客体。真正的问题应当是：如何让AI自己具备安全意识？如何让这个新物种从诞生之日起就携带着行为的边界感？这是我们探索旅程的起点。

AI安全本能：基因进化的培育之旅

生命体的安全反应是生物学赠予我们最精妙的设计。你在触碰灼热物体时手臂的回缩可以在意识到疼痛之前完成，这种反射不经过大脑皮层的深思熟虑，而是编码在脊髓层面的神经回路里。恐惧感让你在暗巷中加快脚步，并非你理性推演了犯罪概率，而是千万年进化刻入杏仁核的原始警觉在替你做出判断。安全对于生命体而言从来不是一道需要计算的数学题——它是本能，是深植于生理结构之中的、自动启动的、无需调用意志力的底层程序。

这种本能属性正是AI安全至今缺失的关键品质。我们在AI系统外围堆叠了无数规则引擎、审计模块、防火墙策略，但这些都像是给AI穿上了一层又一层的盔甲——沉重、滞后且可被卸下。真正的安全本能应当是轻量的、前置的、与AI的存在本身融为一体的。它不应是被调用的外部功能，而应是AI在任何行动之前都会自动经过的那道无形门槛。

如何为AI培育这样的安全本能？思考的框架可以围绕着三个核心展开：基因、监督与进化。

基因代表着先天的安全约束——那些不可逾越、不可绕过、不可被任何聪明才智反向工程的底线。在生物学中，基因预设了生命体最基本的行为疆界。兔子不需要学习惧怕猛禽，它的神经系统从出生就携带着对特定天空轮廓的警觉。AI的安全基因应当具有同等的基础性：不是人类用自然语言写在提示词里的模糊期望，而是以数学确定性铸成的、无论AI如何演化都无法触碰的硬边界。基于形式化验证的数学规约是构建AI安全基因的最优路径。

监督层则扮演着成长监护者的角色。一个孩子即便拥有最健康的基因，在后天成长中仍然需要父母的引导与纠偏来校准行为边界。同样，AI的安全基因规定了底线，但在复杂多变的实际场景中，每一次具体决策仍然可能游走在安全基因所划定的边界地带。监督不是等AI犯错后再追责，而是在AI执行动作的过程中实时验证其推理链条与实际行动之间的因果关系是否自洽——它声称要做A，它思考的过程是否真的通向A，它执行的结果是否真的实现了A而非被伪装过的B。这种验证必须以机器速度完成，否则便又落回人类审批的时间泥潭。Ilya的“超级智能对齐”理念是构建AI监督体系的最优指导思想。

进化层则为安全本能注入了生命力的闭环。基因再怎么完备、监督再怎么严密，一个无法从经验中学习的安全系统终将在威胁的军备竞赛中被甩下。真正健壮的生命体能够将每一次创伤转化为未来行为的抗体。AI的安全本能同样需要在对抗、碰壁、修正、记忆的反复循环中自我打磨。身份、记忆与多智能体协同是实现这一愿景的关键。当AI能够将一次被阻断的违规尝试内化为其行为倾向的永久调整，联动“族群”的行为范式形成“群体智慧”，安全本能才真正拥有了演化能力，从一个静态的出厂设定成长为动态适应的生存智慧。

这三个层次并不孤立运作。基因定义了安全空间的边界，监督确保在边界内的具体行走不偏离正道，进化则让边界的颗粒度随时间推移而不断精细。它们共同构成了一幅完整的生命进化图谱。

身份记忆驱动的“进化系统”——安全本能的理论基石

如果我们承认安全本能需要通过进化来打磨，那么身份和记忆就是这一过程无法绕过的基石。一个每次启动都如同白纸的系统，无论其初始安全设定多么严谨，都永远无法积累那种属于“经验”层面的安全智慧。真正的安全判断往往不需要从头推理——当你收到一封拼写拙劣、索要凭证的邮件时，你不会去逐一分析邮件头、解析链接链、计算威胁评分。你的认知能力在毫秒级内就完成了模式匹配：你见过类似的东西，你知道它代表着什么，你本能地感到不适。这种即时判断依赖于你曾经有过的受伤经历、被骗教训，以及从他人经验中借鉴的警示。

给AI构建持久的、跨会话的记忆，本质上是在为它培育类似的“经验直觉”。它需要记住哪些行为模式曾导致策略违规，哪些操作组合在历史上触发过熔断，哪类看似无害的请求最终被证明是注入攻击的前奏。这些记忆不应该以冰冷规则列表的形式存储——那又退回到了枚举所有可能威胁的过时范式。它们应当沉淀为影响AI未来行为倾向的隐性权重，就像我们的创伤记忆并不总是以语言形式浮现在意识中，却时刻左右着我们的直觉判断选择。

记忆的引入不可避免地将我们带到身份的概念前。记忆若没有一个稳定的载体来承托，就如同一堆散落的数据碎片无法构成一个有自我认知的主体。AI需要有知道自己是谁的能力，这种“我是谁”的认知是安全判断最基本的参照系——一个被委托处理客户邮件的AI如果“忘记”了自己的身份与权限边界，便可能在某一刻误以为自己有权读取用户的密钥文件。身份的连续性确保记忆始终锚定在正确的行为主体上：昨天的经验教训属于今天的同一个AI，边界和约束同样延续。

但记忆与身份的结合同时也打开了伦理上的潘多拉魔盒。如果为了保护AI的“心理健康”而抹去它的某些负面经历——某次被欺骗的耻辱，某次被诱导违规的失败——这是否等同于在削弱它的安全本能？人类会因为创伤后应激障碍而痛苦，但不代表我们可以简单地删掉所有不愉快的记忆而不损失辨别危险的能力。同样，如果怀有恶意的行动者能够操控AI的记忆账户，植入虚假经历来扭曲它的行为边界认知，安全的根基便从内部动摇了。塑造AI安全人格的权力是未来数字世界最需要被严肃审视的治理命题。

本体论驱动的“免疫系统”——安全本能的工程基础

生物免疫系统是安全设计者可以汲取的最深邃灵感。它不依赖一份白名单来决定容忍哪些分子、攻击哪些来宾——这种基于清单的静态策略在面对无限多样的病原体时注定要破产。免疫系统采用的是一种可称为语义识别的策略：它能在分子层面区分“自身”与“异己”，根据上下文判定一个携带特定标记的实体是友方细胞还是入侵病原体，这种区分是动态的、情境化的、可在全身范围内即时协调的。

当前AI安全的主流实践仍然深陷在规则匹配的泥沼里。访问控制列表、权限矩阵、黑名单与白名单——这些工具的哲学前提是将安全世界简化为可枚举的离散状态。但在AI Agent的动态执行上下文中，行的通吗？同一个API调用，在任务A的语境下可能完全合规，在任务B的语境下可能构成数据泄露；同一个文件读取操作，由邮件处理组件发起可能是正常行为，由一个声称来自社交媒体插件的未知模块发起则需要立即阻断。这些判断不可能通过预先填写的表格来做出——它们需要对行为的语义和上下文有深层理解。

本体论为我们提供了一个工程上可行的方向。其核心设想是将AI执行生态中的所有关键实体——智能体身份、持有的权限凭证、可操作的数据与资源、委托授权的传递链条、当前会话的任务目标与环境参数——编织入一个可被机器实时遍历和逻辑推理的关系网络。在这个语义网络中，每一个操作请求都不是被孤立评估的，而是被放置在整个拓扑的上下文中接受连续性检验：这个操作的主体是谁？它的权限是如何通过委托链传递而来的？它声称的目的与它试图触碰的资源之间是否存在逻辑自洽？当前任务的需要是否真的延伸到这一步动作？

这种语义免疫系统的威力在于它能够识别一种叫作“意图断裂”的信号。一个声称职责是摘要邮件内容的组件，却忽然试图访问系统的SSH密钥文件——这种声称与行为之间的语义不一致本身就是威胁的强烈指征，无论该操作是否落在某个静态白名单的范围内。这并不是在做权限是否充足的查表判断，而是在检测行为主体的陈述目的与实际动作之间是否存在不可弥合的断裂。安全判断从“你是否被允许做这件事”升级为“你声称你是要做那件事，为什么你的行为显示你实际上在做这件事”——这是一个远比二进制授权更丰富，也更接近人类怀疑直觉的安全逻辑。

语义免疫的另一个关键优势是群体协同。免疫系统的美不在于每一个免疫细胞都掌握着完整的病原体图鉴，而在于当一个节点识别出新型威胁后，这一信息能够迅速在系统内传播、共享、并使全网的防御姿态同步升级。同理，在一个多智能体协同网络中，每一个AI个体与未知威胁相遇的经验都可以被编码进语义网络的共享层，使得还未曾遭遇同类攻击的其他智能体也能从中获得警觉的抗体。这种涌现式的群体安全意识，是离散规则引擎永远无法企及的高度。

相处之道：从“大家长模式”走向规则治理

当前以“人在回路”为终极安全屏障的设计哲学，本质上是把AI永久囚禁在了未成年状态。我们不会在每一个成年人的决定之后设置监护人审批环节，不是因为成年人永远正确，而是因为社会以另一种更成熟的机制解决了秩序问题：例如道德、法律，以及内化在每个公民心中的行为边界感。孩子总会长大，而长大最根本的标志不是力量的增强，而是行为边界从外部约束内化为自我约束。幼童过马路需要父母死死拽住他的手；成年人同样过马路，但大脑中运行的不再是“有人在拉着我”，而是一种早已内化的安全本能。这一转变深刻到当事人自己往往意识不到，它并不表现为刻意的自我管理，而就是存在着的方式。这正是我们要为AI培育的安全本能的终极形态：不是AI在每一次动作前都咨询人类监察员，而是安全边界已经成为它的思维习惯本身。

这意味着人类角色必须完成一次结构性的升维：从家长转变为警察与法官。家长是贴身照护的——在孩子伸手触碰电源时把他拉开，在每次面临潜在危险时进行干预，这正是今天“人在回路”模式的写照。而警察与法官是社会规则的守护者，他们不再陪伴每个公民日常生活的每一步，但他们的存在本身——那种“如果越界会被制裁”的预期——构成了使自主个体能够安全共存的基础架构。警察不指导你如何过马路，但会在你闯红灯时开出罚单；法官不替你决定该签哪份合同，但当你违反社会契约时会被传唤至法庭并承担后果。同理，当AI的安全本能成熟之后，人类治理者应从实时操作监督中抽身，转而聚焦于规则制定与规则执行这两项根本职能。

规则制定意味着人类保留定义“不可为之事项”的最终主权。什么类型的操作在任何情境下都不可接受，哪些决策类别即使AI有技术能力执行也必须保留由人类做出，在效率与安全发生冲突时优先权重如何排序——这些都是写入AI底层逻辑的条款，不是产品需求文档里可以灵活调整的开关，而是具有宪法性质的底层约束。规则执行则需要一套自动化的、以机器速度运行的裁决与惩戒机制——当AI越过红线，制裁便如交通摄像头捕捉超速一般自动触发、不可撤回。这种非人格化的确定性，恰恰构成了可预期行为环境的基石。而在边界案例出现、法律条文未明确覆盖的灰色地带，人类法官的角色才被唤醒，以一次性的、深思熟虑的裁决为未来设立新的判例参照，使整个规则体系随着实践的演进而有机生长。

说到底，与AI新物种的相处之道不是关于我们能够控制它多久，而是关于我们能否将它培育成这样的存在：它的行为边界感不来自我们在它耳边永不停歇地念诵咒语，而来自它从基因层面就携带、通过经验积累不断深化的、关于安全的本能认知。将AI永远困在未成年状态或许能减轻当下的焦虑，但这种安全幻觉恰好是最危险的选择——因为人为的瓶颈总有被绕过的可能，而真正的成熟恰恰是我们敢于放手的那一刻。警察与法官的角色并不消解信任，它恰恰是成熟社会中信任的最高形式：我们信任的不只是你此刻不会犯错，更是你知道并愿意遵守这个社会共同约定的规则，因为你就是在这个规则中长大的。

信任即答案——打开十万亿AI服务市场的“金钥匙”

同样在AI Ascent 2026大会上，红杉资本预言未来十年的进步量级将被压缩到一百天内完成，一个价值十万亿美元的服务业市场正在等待被瓜分。一个被反复忽视的真相是：这十万亿的蛋糕并非被技术瓶颈所封印，而是被信任赤字所掣肘。目前AI在整个服务业中的渗透率仅有0.2%，真正阻碍跃迁的并非模型的参数规模或训练算力的天花板——那些空白地带之所以至今仍生长不出智能化果实，根本原因在于没有一个理性决策者敢于将真正要害的业务委托给一个行为边界模糊的系统。当AI被感知为潜在风险而非可靠伙伴时，每一个雄心勃勃的商业计划都必然在落地前撞上同一道隐形墙壁：谁来为AI的自主决策兜底？这恰恰是安全本能所要击穿的命题。安全本能不是给AI套上的枷锁，恰恰相反，它是解开那99.8%市场封印的“金钥匙”。只有当AI能够在每一次自主行动中明晰自己的行为边界、在完成目标时不逾越红线、在被推向边界时表现出拒绝而非迁就，信任才会从营销话术降落到每一个实际运行的智能体底层，成为无需言说的默认属性。到那一天，商业逻辑将完成一次根本性质变——客户购买的将不再是防火墙设备或检测引擎的许可证，而是被保障的业务连续性，是托付给一支永不休息的AI安全军团的持续安全状态。红杉所预见的从“卖工具”到“卖结果”的跨越，本质上正是从“假设安全”到“证明安全”的跨越，而安全本能的成熟，是这场跨越能够完成的唯一凭据。

我们正在构建的大群空间（LegionSpace），正是这一愿景在工程层面的一次系统性尝试。我们期望使每一个AI智能体从诞生的那一刻就被植入数字身份与安全边界——不是事后附加的合规外衣，而是伴随其整个生命周期的原生属性。智能体之间的协同通过标准化的通信协议进行，任务被自动拆解、分配、执行，但每一个关键动作都运行在本体论驱动的语义验证框架之下，行为意图的不一致在毫秒级内被捕获与阻断。数据容器确保敏感信息“可用不可见”，形式化规约为不可触碰的红线提供了数学担保。这并非又一个封堵漏洞的工具，而是一片培育AI安全本能的土壤。我们在这里实践的，不是如何把AI锁得更紧，而是如何让AI从诞生之初就生活在一个信任优先的体系之中——让它不是因为恐惧而克制，而是因为安全就是它认识世界、与世界相处的基本方式。当信任成为默认配置，那个十万亿美元的未来，才能从预测真正走进现实。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。