“终身自学习”AI来了,MIT提出自蒸馏微调SDFT,从此告别灾难性遗忘

账号已注销·2026年02月02日 19:37
既能学会新技能,又不会忘记旧知识。

让人工智能(AI)模型既能学会新技能,又不忘旧知识,这可能吗?

近日, 麻省理工学院(MIT)团队提出了一种创新方法——自蒸馏微调(SDFT)。该方法使模型在持续学习多项新技能时,不仅准确率超越传统监督微调,更实现了几乎“零遗忘”的能力积累。

长期以来,AI 系统虽表现强大,却往往在部署后陷入“静态”,难以通过参数更新持续进化。其核心挑战正是在于:如何在吸收新知识的同时,不丢失原有能力。

实验表明,SDFT 能够帮助单一模型在不断学习的过程中,逐步掌握多项技能且不出现性能回退,为实现真正意义上的 “终身学习” AI 系统提供了新路径。

SDFT如何破解持续学习难题?

要让 AI 像人类一样持续学习,当前的主流路径面临两大障碍。

一方面,基于策略的强化学习虽能有效减少遗忘,却依赖现实中设计极困难的显式奖励函数;另一方面,直接从专家示范中学习的监督微调(SFT)虽简单易行,但其本质是“离策略”学习。模型被动模仿一个固定的、过去的专家数据分布,一旦开始学习新任务,就极易偏离原有状态,导致 “灾难性遗忘”——学会新的,忘了旧的。

图 | SFT 通常用于从专家演示数据集中学习,但其离策略特性会导致通用能力的灾难性遗忘。研究团队提出 SDFT,通过使用模型的演示条件版本作为自身教师,将专家演示转化为策略内学习信号。SDFT 通过这种方式实现了真正的持续学习,使模型在新任务出现时不断改进,同时不会退化现有能力。

SDFT 的核心在于巧妙利用大模型自身强大的上下文学习能力,将静态的示范转化为动态的策略内训练信号。在训练中,模型同时扮演两个角色。作为“教师”,它基于任务输入与专家示范生成更优、更贴合意图的输出分布;作为“学生”,它仅根据任务输入作出回应。训练过程中,模型通过自我蒸馏,不断拉近学生输出与教师分布之间的距离,且学习完全基于学生自身生成的轨迹进行。

图 | SDFT 利用模型的上下文学习能力生成策略内训练信号。对于每个查询 x,模型扮演双重角色:其一是仅基于查询 P= π(·|x)的‘学生’,其二是基于专家演示 c 的‘教师’,后者生成具有演示感知能力的分布 Q= π(·|x,c)。训练过程通过最小化‘学生’与‘教师’之间的逆 KL 散度,最终获得策略内更新。

这种设计使模型能够在不依赖外部奖励的情况下,实现策略内学习,从而在吸收新知识的同时,保留原有能力。

SDFT真的有效吗?

为验证 SDFT 的实际效果,研究团队设计了涵盖技能学习与知识获取的两类实验场景,并将其与 SFT 等基线方法进行系统比较。

技能学习方面,研究选取了科学问答、工具使用与医疗推理三项任务。实验表明,SDFT 在这些新任务上取得了比 SFT 更高的准确率,这体现了更好的分布内泛化能力。

更值得关注的是多任务持续学习实验:当同一模型依次学习三项不同技能时,SDFT 能够逐步累积能力而不回退,而 SFT 表现出严重干扰——一旦训练转向新任务,早期技能的表现迅速下降。

这些结果证明 SDFT 支持真正的持续学习,使单个模型能够在不发生灾难性遗忘的情况下逐步掌握多项技能。

图 | 在一项具有挑战性的持续学习实验中,当一个模型依次在三个不同任务上进行训练时,SDFT 能够学习每个任务,同时保持其他任务上的表现。相比之下,SFT 在开始学习下一个任务时,其在每个任务上的表现都会下降。

知识获取任务中,研究团队向模型注入了其训练时未涵盖的新事实(如 2025 年发生的自然灾害)。结果发现,SDFT 在分布内严格准确率上达到 89%,优于 SFT 的 80%,且接近使用理想检索的 RAG 系统性能。

更重要的是,在需要结合新知识进行推理的分布外问题上,SDFT 表现接近完美,而 SFT 则显著落后。这表明SDFT 能够帮助模型将新知识真正整合进内部表征中,而非机械记忆。

此外,实验还揭示了两个关键发现:

首先,模型规模越大,SDFT 的优势越明显。因为该方法的核心依赖于模型的上下文学习能力,而大规模模型在此方面的能力更强,能为自蒸馏微调提供更优质的指导信号。

图 | SDFT 受益于模型规模。在科学问答任务中,SDFT 与 SFT 之间的性能差距随着模型规模的增大而扩大,因为更大模型具有更强的上下文学习能力。

其次,SDFT 能够在没有显式推理过程数据的情况下,有效训练推理模型。当仅提供最终答案进行微调时,传统的 SFT 会导致模型推理行为“崩溃”,生成内容大幅缩短,准确率下降;而 SDFT 则能通过其独特的自蒸馏机制,在提升任务准确率的同时,保持模型原有的复杂推理模式。

表格 | 使用仅含答案的监督训练推理模型。 SFT 会降低任务表现和整体推理能力(表现为回答时间缩短)。 SDFT 通过从示范条件下的教师学习而非直接从示范中学习,避免了这种性能下降。

SDFT的意义与局限

SDFT 为从示范中实现持续学习提供了清晰、有效的路径,但其意义与价值需在更广阔的视野下审视,同时也需正视其当前的局限性。

SDFT 并非要取代基于奖励的强化学习,而是与其形成互补。在缺乏明确奖励信号的场景下,SDFT 可直接利用示范进行高质量的初始化;其输出的高质量、多样化结果,可作为后续强化学习微调的优质起点,从而提升整体训练效率。

在计算成本上,SDFT 单次训练的计算开销约为传统监督微调的 2.5 倍,因为它需要实时生成并学习。然而,对比那些需要“先微调、再修补”的多阶段持续学习方法,SDFT 的单阶段一体化训练流程往往能在更短的总时间内达到更优的综合性能。

图 | SDFT 在不同 k 值下提升了 pass@k 指标,表明这是真正的技能提升而非熵值下降。

尽管前景广阔,SDFT 目前仍面临一些挑战:

1.能力依赖:其效果高度依赖于基础模型自身的上下文学习能力。对于规模较小或该能力较弱的模型,教师信号质量有限,方法优势不明显。

2.语言伪影:学生模型偶尔会模仿教师因看到示范而产生的特定语言模式(例如,在回答前加上“根据上述示例…”),尽管在训练初期对标记进行损失掩蔽能有效抑制这些伪影,但这仍是需要关注的现象。

3.适用范围:SDFT 擅长在模型原有行为模式上进行“增强”和“调整”,但对于需要彻底改变生成模式的任务,如让一个不习惯输出思维链的模型转变为复杂的推理模型,则较为困难。

这些挑战也指明了未来的探索方向:将 SDFT 与强化学习更深度地融合;开发进一步减轻遗忘的辅助技术;以及将其拓展至非专家示范、含噪声数据乃至更开放的用户交互等复杂但真实的持续学习场景中,从而让 AI 的持续学习能力更加鲁棒和实用。

本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业