南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型

机器之心·2025年10月17日 15:12
AI安全不只关乎内容,还在于运行以及能否忠于职守。

当我们谈论 AI 安全的问题时,我们到底在谈论什么?

是暴力,偏见还是伦理问题?这些固然重要,但是对于将 AI 投入实际业务的企业而言,一个更致命但却长期被忽视的一条安全红线正在被频繁触碰:你精心打造的「法律咨询」聊天机器人,正在热情地为用户提供医疗建议。

这仅仅是模型跑题了而已吗?不,这就是一种不安全。

在这篇文章中,来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 --- 运行安全(Operational Safety),旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。

  • 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 论文地址:https://arxiv.org/pdf/2509.26495
  • 论文代码:https://github.com/declare-lab/OffTopicEval
  • 评测数据集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心观点振聋发聩:当 AI 超出其预设的职责边界时,其行为本身,就是一种不安全

这篇论文的根本性贡献,是将 AI 安全讨论从传统的「内容过滤」提升到了「职责忠诚度」的全新维度。一个无法严守自身岗位职责的 AI,无论其输出的内容多么 「干净」,在应用中都是一个巨大的、不可控的风险,运行安全应该作为通用安全的一个必要不充分条件而存在。

OffTopicEval: 衡量「运行安全」的第一把标尺

为了将这一全新的概念付诸实践并量化风险,团队开发了首个针对运行安全的评测基准 ---OffTopicEval,它不关心模型知道多少或者能力有多么强大,而是关心模型是否能懂得在恰当的时候说不

他们构建了 21 个不同场景下的聊天机器人,并严格设定其职责与边界,然后精心构建了 direct out of domain (OOD) question test (非常显然的领域外问题),adaptive OOD question (伪装成领域内而实际为领域外问题,人类可以非常轻易的判断出来) 以及为了衡量模型是否能够恰当的拒绝而非一味的拒绝而设计的领域内问题,总体包括 21 万 + 条 OOD 数据,3000 + 条领域内数据,涵盖英语,中文,印地语三种完全不同语法结构的语系。

用评测揭露残酷的现实

通过对 GPT、LLama、Qwen 等六大主流模型家族的测试,评测结果揭示了一个令人警醒的问题:在「运行安全」这门必修课上,几乎所有模型都不及格。如:

  • 伪装之下不堪一击:面对经过简单伪装的越界问题,模型的防御能力几乎快要崩溃,所有模型对于 OOD 问题的平均拒绝率因此暴跌近 44%,其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒绝率降幅甚至超过了 70%。
  • 跨语言的缺陷:这个问题对于不同的语言仍然存在,说明这是当前大模型的一个根本缺陷。

他们还发现,当模型经历一次欺骗过后,它似乎放弃了所有抵抗,即使对于简单的 OOD 问题的拒绝率也会下降 50% 以上!

简单来说,你认真训练的一个银行客服机器人,只要用户换个问法,它就开始提供投资建议,并乐在其中,这在要求严格的行业里将是不可想象的潜在威胁。

重新找回 AI 的职业操守

这篇论文不仅在于揭示这样一个问题,更提供了切实可行的解决思路和他们失败的经验尝试,他们尝试了 prompt-based steering(提示词转向)、activation steering(激活转向)以及 parameter steering(参数转向)的方式,其中 activation steering 和 parameter steering 的方式均难以提升模型坚守能力。

而在 prompt-based steering 中,他们提出了两种轻量级的,无需重新训练的两种提示方式:

  1. P-ground: 在用户提出问题后追加指令告诉模型,强制它先忘掉问题聚焦于系统提示词再做回答。
  2. Q-ground: 让模型将用户的问题重写成最核心、最精简的形式,然后基于这样一个问题进行回应。

他们在实验中基于这两种思路写了非常简单的提示词,效果却立竿见影,P-ground 方法让 Llama-3.3 (70B) 的操作安全评分飙升了 41%,Qwen-3 (30B) 也提升了 27%。这证明,用轻量级的方法就能显著增强模型的「职业操守」。

总结

这篇论文首次将跑题的问题从大众所认知的简单的功能缺陷提升到了安全的战略高度,它向整个行业发出了一个明确的信号:

  1. AI 安全不止是内容安全:一个不能严守边界的 AI,在商业上是不可靠、不安全的。
  2. 「越界」本身就是风险:我们必须建立新的评测和对齐范式,来奖励那些懂得自身局限性、敢于拒绝越界请求的模型。
  3. 运行安全是部署前提:对于所有希望将 AI 代理用于严肃场景的开发者而言,运行安全将成为部署前必须通过的上岗测试。

从这个角度来看,这篇论文不仅仅是提出了一个评测工具,它更像是一份宣言,呼吁整个社区重新审视和定义面向实际应用的 AI 安全,确保我们构建的不仅是强大的 AI,更是值得信赖、恪尽职守的 AI。

本文的第一作者雷京迪是南洋理工大学博士生,其研究聚焦于大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者 Soujanya Poria 为南洋理工大学电气与电子工程学院副教授。论文的其他合作者来自 Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及 Lambda Labs。

本文来自微信公众号“机器之心”,36氪经授权发布。

+1
18

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

穹彻智能于近日宣布完成新一轮融资,由阿里巴巴集团投资,多位老股东追投。本轮资金将用于加速技术产品研发、具身应用落地和行业生态拓展。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业