给大模型「持续注入新知识」,北航CASE框架:编辑千次不失忆,额外参数不到1MB

量子位·2026年03月27日 18:24
让千次编辑准确率95%的轻量「插件」

“星巴克换了新CEO”、“最新科研成果发布”……

当大语言模型(LLM)需要持续吸收新知识,在多次更新后容易陷入两个困境:

要么因参数更新冲突遗忘先前的知识内容,要么为避免遗忘而大量附加参数导致占用大量计算资源。

北航团队最新提出的CASE框架,给出了一个解法:给每次编辑“算分”,冲突的知识分开存,不冲突的共享空间;同时只调对当前知识最敏感的“关键神经元”,避免无关参数被带偏。

这一方法有效破解了这一大语言模型“终身模型编辑”任务(Lifelong Model Editing)的核心痛点,研究发表了以《CASE: Conflict-assessed Knowledge-sensitive Neuron Tuning for Lifelong Model Editing》为题的论文,已入选国际顶会WWW 2026(The ACM Web Conference 2026)。

实验显示,在对LLM进行1000次连续知识编辑后,CASE比现有最优方法平均准确率提升近10%,还能保持参数高效性,额外参数仅不到1MB。

终身编辑的“两难困境”:现有方法在多次更新模型后为何遗忘频发?

大模型的“知识老化”和“事实幻觉”早已不是新鲜事,而“终身模型编辑”的目标更苛刻:让LLM像人一样持续学新东西或校正新知识,同时不丢之前编辑过的知识、不干扰无关能力。

现有主流方法始终没跳出两个难题:

“盲目加参数”:为充分保留预训练知识,现有大模型编辑方法通常采用附加参数的方式进行知识更新。而在多批次的终身编辑过程中,现有方法要么按固定的批次数量无限制新增参数子空间,导致额外占用大量计算资源;要么一股脑地将大量知识塞进同一空间,却不管这些是否会对模型产生冲突的更新,导致“灾难性遗忘”。

“无差别调参数”:在每个批次特定知识更新时,现有方法仅将知识相关的参数定位到了“layer wise”,从而对不同的知识无差别更新该层的全部神经元。这导致本该重点调整的“关键神经元”梯度被分散,反而让不同知识在局部无关神经元上的梯度冲突逐渐累积,造成编辑次数越多,遗忘越严重。CASE团队指出,上述问题的根源在于,现有方法忽略了对不同知识之间“编辑冲突”的量化——既没算清两次知识更新是否矛盾,也没找准该调哪些神经元。

核心突破:用“冲突量化”+“敏感调优”双模块破局

CASE框架的关键,是给终身编辑加上“冲突评估大脑”和“精准调优工具”,两个核心组件协同解决全局与局部冲突:

1. CAA模块:给编辑冲突“算分”,合理分配参数空间

Conflict-Assessed Editing Allocation(CAA)模块的核心是“量化冲突、按需分配”——对于每次要编辑的新知识,借鉴多任务学习的梯度理论,利用梯度方向表示知识对模型的更新趋势,先算清新知识与先前参数子空间是否矛盾,再决定是共享空间还是新建空间。

具体怎么做?团队设计了两个关键指标,分别用于衡量新知识(xt,yt)与先前参数子空间各自相对于原始模型的更新方向:

参数子空间的更新方向(E i t-1 ):衡量现有第i个子空间经过前t-1次编辑后偏离初始权重的程度,反映这个空间已“记住”的知识;通过计算子空间参数矩阵ΔW i t-1 与模型初始子空间ΔW 0 0 的差异得到:

编辑梯度(Gt):计算新知识(xt,yt)对模型初始子空间的损失梯度矩阵,代表新知识对模型的更新方向和幅度。

再通过余弦相似度

给“编辑冲突打分”,并按如下规则进行子空间分配:

若cti≥0:新知识与子空间现有知识兼容,直接共享该空间,避免子空间碎片化;

若cti<0:两者存在冲突,新建一个子空间隔离,防止“旧知识被冲掉”。

这一设计从根源上解决了“盲目分空间”问题——既不会让冲突知识挤在一起,也不会让子空间数量失控,推理时的路由难度自然大幅降低。

2. KNT策略:只调“关键神经元”,消除局部冲突

Knowledge-sensitive Neuron Tuning(KNT)策略则聚焦“精准调优”——不是全量更新子空间参数,而是只找对当前知识“最敏感”的神经元,将知识定位从“layer wise”进一步细化到“neuron wise”,避免无关参数更新导致的参数空间不稳定。

团队用Fisher信息矩阵(FIM)给神经元“测敏感度”:Fisher值越高,说明这个神经元的微小变化对模型预测影响越大,是当前知识的“关键节点”。为了兼顾效率,他们用对角线近似FIM(计算量大幅降低),再通过梯度分布的熵动态设定阈值,生成“敏感神经元掩码Mt”——只让高敏感神经元参与更新。

此外,KNT还加了知识激活正则化:把历史知识的激活值量化存储(float32转int8,存储量降75%),更新时用KL散度约束新激活值与历史激活值的差异,确保调优后“旧知识不跑偏”。

可以说,微调是给模型“重塑认知”,而KNT是给关键神经元‘精准调音’——既改对了问题,又不打乱整体节奏。

实验:1000次编辑后准确率领先10%,还能兼容多模型

为验证CASE的效果,团队在两个核心任务上做了对比实验,基准模型包括LLaMA2-7B、Qwen2.5-7B、LLaMA3-8B-Instruct,对比方法涵盖GRACE、WISE、MEMIT等主流终身编辑框架。

1. 问答任务(ZsRE数据集):1000次编辑不“掉线”

在需要连续更新实体关系的ZsRE终身知识编辑任务中:

100次编辑时,CASE在LLaMA2-7B上的编辑准确率比次优方法高5个百分点,局部性(无关知识保存率)达100%;

1000次编辑后,现有方法大多准确率大幅下滑(如WISE准确率从90%降到77%),而CASE仍保持95%的准确率,比次优方法高10%,且仅比100次编辑时下降3%——几乎做到“编辑千次不失忆”。

值得注意的是,GRACE虽能保持高准确率,但泛化性极差(仅26%),只能死记实体关系;而CASE的泛化性达82%,能处理未见过的相似问题。

2. 幻觉修正(SelfCheckGPT数据集):perplexity降60%

在修正模型“胡言乱语”的任务中,CASE表现更突出:

LLaMA2-7B上,1000次编辑后,CASE的perplexity (衡量文本factual一致性的指标,越低越好) 从3.12降至1.22,比次优方法低60%;

Qwen2.5-7B上,其他方法因冲突积累导致perplexity飙升,而CASE是唯一能稳定维持低perplexity的方法。

3. 效率优势:参数少、推理快

CASE的参数效率远超同类方法:额外参数不到1MB(WISE需86MB),推理时每迭代耗时仅10.72秒,与未编辑模型几乎无差异——这意味着它能轻松部署到实际场景中。

分析实验:CASE在不同设置下的稳定性

团队测试了CASE在不同参数设置下的稳定性。整体来看,CASE在不同超参数取值范围内均能保持稳定的编辑性能,无需复杂调参即可适配场景需求。

从下面部分实验样本可以看出,CASE仅在极少数特定情况存在失败案例。

随着大模型在金融、医疗、法律等领域落地,“知识持续更新”成为刚需:比如医疗指南更新、法律条文修订、企业信息变更,都需要模型及时跟进,且不能丢之前的专业知识。

此前,这类需求要么靠“全量微调”(成本高、周期长),要么靠“RAG+提示词”(效果不稳定)。而CASE通过突破终身模型编辑技术,提供了一个未来可能的更优解:

无需重训模型,通过“冲突量化分配+敏感神经元调优”实现轻量级更新; 支持千级别的连续编辑,适合长期服役的大模型;

兼容主流开源LLM(LLaMA、Qwen等),迁移成本低。

团队表示,未来将进一步探索CASE在多模态模型和非结构化数据编辑中的应用,让大模型的“终身学习”能力覆盖更多场景。

本文来自微信公众号“量子位”,作者:CASE团队 ,36氪经授权发布。

+1
19

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

人虾合一,就是教你游泳、帮你造船。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业