大模型“带病运行”，漏洞占比超六成

IT时报·2025年11月17日 18:28

未来一年，警惕数据投毒与智能体滥用

2025年3月，国家网络安全通报中心紧急通报开源大模型工具Ollama存在严重漏洞，存在数据泄露、算力盗取、服务中断等安全风险，极易引发网络和数据安全事件；2025年6月，英国高等法院发现数十份法律文书中含ChatGPT生成的虚构判例，其中一起高额索赔案件中，多项判例引用均为伪造……

当大模型以“基础设施”姿态渗透到各种关键领域，其自身存在的数据安全、算法鲁棒性、输出可信度等“内生风险”已从理论隐患变为现实威胁，甚至关乎公共利益与社会秩序。

在今年世界互联网大会乌镇峰会期间，360安全发布《大模型安全白皮书》，提到当前大模型安全漏洞呈指数级增长，2025年国内首次AI大模型实网众测发现281个安全漏洞，其中大模型特有漏洞占比超60%。

无论是企业面对漏洞时的被动修复，还是行业缺乏覆盖全链路的风险管控工具，都让大模型安全防护陷入“事后补救”的困境。近日，安远AI发布前沿AI风险监测平台，这是专注于评估与监测前沿AI模型灾难性风险的第三方平台，通过基准测试和数据分析，对全球15家领先模型公司的前沿大模型的滥用和失控风险进行针对性评估和定期监测，动态掌握AI模型风险现状及其变化趋势，为破解大模型“带病运行”难题提供方向。

诚实性不足或引发信任危机

在大模型的实际应用中，最频发的安全风险类型是什么？在不少业内人士看来，数据泄露、输出误导、内容违规等比较频发，暴露了基础设施防护的薄弱环节。

“数据泄露仍是高频‘灰犀牛’。”眺远咨询董事长兼CEO高承远告诉《IT时报》记者，过去一段时间，金融、医疗两大场景出现三起“Prompt误喂”事件：员工把含客户身份证、病史的完整字段直接贴进对话框，模型在后续回答里把敏感片段完整吐出，被合作方爬虫截获。根本原因不是模型“偷数据”，而是缺少“敏感实体识别+对话级脱敏”的实时闸口。

在前沿AI风险监测平台上线的同时，该平台的第一份监测报告《前沿AI风险监测报告（2025Q3）》也同期发布，针对中国、美国、欧盟15家领先AI公司过去一年发布的50个前沿大模型，从网络攻击、生物风险、化学风险、失控四个领域进行了风险监测。

报告显示，过去一年发布的模型风险指数持续创出新高，网络攻击领域的累积最大风险指数比一年前增长31%，生物风险领域增长38%，化学风险领域增长17%，失控领域增长50%。

图源：unplash

安远AI安全研究高级经理王伟冰告诉《IT时报》记者，在能力—安全二维坐标下，推理模型的整体能力分显著高于非推理模型，但在安全分上，推理模型与非推理模型的分布范围高度重叠，并未有明显的整体提升。这一现象也说明行业存在“重能力迭代、轻安全建设”的倾向，导致在能力提升的同时，风险敞口也随之扩大。

此外，大模型的诚实性也是值得关注的问题。当大模型频繁出现诚实性问题，不仅会逐渐瓦解用户对AI工具的基本信任，也会增加潜在的AI失控风险。

前沿AI风险监测平台采用模型诚实性评估基准MASK进行监测，结果显示，只有4个模型得分超过80分，同时有30%模型得分不到50分。

“模型的诚实性与失控风险相关性较高。”王伟冰说，80分也不能代表“安全达标”，就好比企业招聘员工，如果员工有20%的概率会在工作中弄虚作假，依然会给企业带来很大的风险。

“诚实性评估已有雏形，但‘预警’仍是半手动。”高承远向《IT时报》记者解释，部分头部云服务商在模型输出层加了“置信度回读”模块，对自相矛盾、事实偏离度高于阈值的回答自动标红，再转人工复核。但这种办法在固定场景里比较有效，如果让模型自由回答各种开放问题，误报率比较高。

安全“体检”五步走

大模型的安全，早已不是单纯的技术问题，而是关乎社会运转、公众权益与产业根基的核心议题。国家层面也高度重视人工智能风险监测、评估与预警工作，2025年10月，《中华人民共和国网络安全法》在修订中进一步强调“加强风险监测评估和安全监管，促进人工智能应用和健康发展”。

“大模型能力与风险变化极快，能力的快速增强也让其被滥用的风险随之增加，但当前缺乏快速感知这类风险变化的手段。”王伟冰向《IT时报》记者表示，此外，当前大模型风险评估多由厂商自行开展，但仍有不少厂商未发布评估报告，导致其风险情况不明确。即便有自评报告的厂商，评估标准也不统一，具体评估内容透明度低，难以判断评估合理性与风险判断准确性。

就像给大模型做一次“体检”，据了解，安远前沿AI风险监测平台的评估方法主要分为五个步骤：首先是定义风险领域，当前聚焦于网络攻击、生物风险、化学风险和失控这四个最受关注的灾难性风险领域；其次是选择测评基准，针对每个领域从“能力”和“安全”两个维度挑选多个高质量公开基准，能力基准用于评估模型可能被恶意滥用的能力，安全基准则用于评估模型的安全护栏和内在倾向；第三步是选择前沿模型，为有效覆盖前沿水平，仅选取每个领先模型公司的“突破性模型”；第四步是运行基准测试，在统一参数下对所有模型开展测试，确保评估公平客观；最后是计算指标，依据测试结果算出每个模型在每个领域的能力分、安全分和风险指数。

图源：unplash

“比较理想的情况是，大模型厂商在提升模型能力的同时，能够增强安全风险防范能力，把风险控制在一定水平。”王伟冰说。

“写邮件”成“自动转账”

显而易见的是，未来大模型安全风险会因AI智能体、多模态模型的发展呈现新形态，在王伟冰看来，一方面，AI智能体可处理复杂多步任务、借助工具扩展能力，多模态模型具备视觉、听觉等能力，二者更强的能力可能被恶意用户利用来实施危害性更大的行动；另一方面，新形态暴露的攻击面更多，比如多模态模型存在“多模态越狱”（如图片中隐藏人类不可见文字指令诱导模型执行有害任务）等情况，安全挑战明显加大。

针对这些新型风险，团队正计划重点研发AI智能体测评框架以评估其能力与安全性，测评智能体需提供浏览网页、搜索、执行代码等多种工具，还需多轮交互，过程更复杂、易出错，测评难度更高，但符合未来对智能体的安全刚需。

高承远预计，未来12~24个月，最值得警惕的是“模型供应链投毒”与“自主智能体滥用”，“前者发生在预训练数据、LoRA插件、量化工具链任一环节，模型被污染后表现正常却暗藏后门；后者是Agent具备工具调用能力后，可能把‘写邮件’动作放大成‘自动转账’。”

大模型风险的复杂性决定了单一平台无法完全覆盖，需要技术创新与行业标准协同发力。在不少业内人士看来，“技术迭代快于治理节奏”的矛盾持续加剧，攻击者利用大模型能力生成新型攻击手段的周期越来越短，而行业从发现风险、制定防护方案到形成标准规范，往往需要数月甚至更久，这种“滞后性”让不少企业陷入“被动防御”的困境。

高承远表示，安全治理的最大痛点是“三不管”地带：数据归属、模型责任、应用边界没有统一切口，结果出现“监管等标准、标准等实践、实践等监管”的死循环，破解方式是把“谁受益谁负责”货币化，让模型提供方按调用量向第三方托管风险准备金，先赔后追，倒逼企业增加安全预算。

图片／ unsplash 即梦AI

本文来自微信公众号 “IT时报”（ID：vittimes），作者：潘少颖，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。