混合数学编程逻辑数据,一次性提升AI多领域强化学习能力
近年来,AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。
然而,现有关于强化学习和模型的研究多聚焦于单一领域优化,缺乏对跨领域知识迁移和协同推理能力的系统性探索,让模型能够在多领域协同工作,发挥更好的推理能力。
上海AI Lab的OpenDataLab团队通过大规模实验,深入剖析了RLVR在多领域推理中的复杂机制,为构建更强大、更具鲁棒性的AI推理模型提供了多个维度的关键发现。
团队构建了一个涵盖数学(Math)、编程(Code)和逻辑谜题(Puzzle)三大类数据的多领域评估框架,并为不同训练数据设计了定制化的奖励策略。
实验基于Qwen2.5-7B系列模型,在将数学、代码和谜题三大领域数据进行联合训练后,模型的整体平均性能达到了56.57,显著优于任何双领域组合。
研究团队通过大规模实验,有以下关键发现:
Puzzle与Math数据的相互支持:逻辑推理与数学能力相辅相成,显著提升模型的整体性能。
Code推理的跨领域混合效应:指令遵循能力较强的Instruct模型可以较好的将代码能力泛化到其他领域,而Base模型则不然。
跨领域数据提升鲁棒性:多样化数据通常能提升模型能力或实现更均衡的表现,但需要更复杂的设计来解决Math、Code和Puzzle领域间的潜在冲突。
SFT可以提升强化学习效果:在强化学习前加入SFT阶段可显著改善模型性能。
Template一致性至关重要:训练与评估Template的不匹配会导致性能大幅下降,表明RLVR在特定领域训练时的泛化能力鲁棒性面临挑战。
Policy Refresh的益处:在课程学习中定期更新参考模型和优化器状态可提升模型稳定性和性能。
奖励设计需适应任务难度:根据模型在训练数据上的表现调整奖励设置,可提高学习效率。
RLVR对语言敏感:中文训练的模型性能低于英文训练的模型,存在一定的性能差距。
研究过程与性能表现
领域划分与数据构建:多域推理的“基石”
上海AI Lab的OpenDataLab团队构建了一个涵盖数学(Math)、编程(Code)和逻辑谜题(Puzzle)三大类数据的多领域评估框架,并为不同训练数据设计了定制化的奖励策略。
实验基于Qwen2.5-7B系列模型,探索了以下几方面:
模型在数据上的表现与泛化能力:重点关注单领域数据优化与跨领域泛化,以及跨领域数据间的相互影响。
训练方法与策略的有效性:评估Template在RLVR中的作用,以及课程学习策略的有效性。
模型优化要素:研究不同奖励机制的设计原则,以及训练语言对模型性能的影响。
通过系统性实验,研究揭示了强化学习(RLVR)在多领域推理中的内在机制,为优化大模型推理能力提供了新视角。
单领域训练:各领域“内卷”大比拼
在单领域训练中,模型在特定任务上展现出显著的性能提升,但跨领域效应复杂,既有协同增效也有相互削弱。
数学领域:RLVR提升数学性能,但跨域效应复杂
经过针对性训练,Base模型在CountDown任务上准确率提升了约75个百分点。同时,数学训练还能有效提升模型解决逻辑谜题的能力,平均得分得到提高。然而,深度优化数学能力的同时,也可能对代码任务产生负面影响,提示了不同领域技能间存在一定的权衡关系。
代码领域:指令微调助力编程,展现更强的跨域泛化
代码训练提升了模型在编程任务上的表现,尤其是经过SFT的Instruct模型表现出更高的性能上限。同时,Base模型在代码训练后往往在多数域外任务上出现性能下降,而Instruct模型则展现出更强的跨域泛化能力,能够在多数域外任务上保持甚至提升表现。
谜题领域:逻辑推理实力强劲,部分训练利于数学迁移
在KK数据集上,Instruct模型准确率高达99.14,在Zebra任务中,得分提升至36.20。此外,KK谜题的训练效果还能迁移到数学任务上,甚至在部分数学基准中,使得Base模型的表现接近或超过Instruct模型,进一步体现了跨领域迁移的潜力。
跨域互动:协同与冲突的探究
双领域组合:探索协同与权衡
- 存在显著协同效应的组合:Math+Puzzle组合使Math任务表现提升至49.72(优于单Math训练的47.48),证明跨领域知识迁移的有效性;Code任务在添加Puzzle或Math数据后均获得提升,显示组合训练的潜在优势。
- 需要谨慎处理的组合情况:Puzzle任务在所有多领域训练中表现均不及单领域训练,凸显其高度专业化特性;值得注意的是Math+Puzzle组合会显著降低Code任务表现;而Puzzle+Code的组合实现了平均最大19.39的提升。
三领域全家桶:平衡与鲁棒性
紧接着,将三个领域的数据全部组合在一起,结果如下所示,多领域联合训练展现出更优的整体表现与鲁棒性:
- 三领域联合训练实现整体性能突破:将数学、代码和谜题三大领域数据进行联合训练,模型的整体平均性能达到了56.57,显著优于任何双领域组合。
- 数据多样性与边际收益:增加训练数据的多样性(领域组合数量)确实能提升整体性能,但这种提升存在边际效应递减的趋势。
- 防止性能塌陷,实现均衡发展:与某些双领域组合(如Math+Puzzle可能导致Code任务性能骤降)不同,三领域联合训练有效地避免了特定任务的性能“崩溃”,确保了模型在所有任务上均能保持竞争力。
Template一致性:最佳表现
在RL训练中,一个常被忽略的问题是训练和测试的Template不匹配。这可能导致模型性能大幅下降。研究团队在不同Template(R1、Qwen、Base)下进行测试,揭示了Template一致性的重要性。
- 不匹配Template会严重拖累性能:例如,Base模型在使用不匹配模板时,CountDown准确率从19.36暴跌至0,MBPP从51.80降至3.00。Instruct模型在MATH500上从73.20跌至1.80。
- 一致性Template通常带来最佳表现:R1模板下,Base模型平均性能达47.84,Instruct模型达54.56,远超不匹配情况。这强调了Template一致性的必要性——RLVR在特定领域训练时的泛化鲁棒性仍面临挑战。
课程学习:从易到难,逐步征服
课程学习在SFT中已证明有效,但在RLVR中的应用仍未全面探索。研究团队在Puzzle中的KK数据集上进行测试,基于子问题数量(3PPL到8PPL)设置难度梯度,并设计了”Policy Refresh”策略——在每个难度阶段后更新参考模型并重置优化器状态。
通过实验发现,
- 课程学习提升性能上限:标准课程学习最终准确率达97.29,远超混合训练的94.29。这种方法帮助模型逐步掌握复杂依赖关系,提升泛化能力。
- Policy Refresh加速收敛:采用刷新策略后,模型在6PPL阶段就达到97.43的准确率,最终结果近乎完美(99.71),甚至超过了指令模型的混合训练结果(99.14)。
奖励设计:个性化定制
奖励设计是强化学习的核心。研究团队在KK和LPB数据集上测试了四种策略:(1)二元奖励要求答案全对才得分;(2)部分奖励按正确比例计分;(3)格式奖励用标签引导推理;(4)重缩放奖励则将分数范围调整为[-1,1]并对错误施加惩罚。不同设计为模型塑造了截然不同的学习信号。
研究团队发现,在简单任务KK上,二元奖励R1凭借直接明了的奖励设置实现了最优表现;但在复杂任务LPB中,R1因信号稀疏反而训练崩溃。部分奖励R2能在LPB初期迅速起效,却难以长期维持优势;格式奖励R3和重缩放奖励R4则凭借稳定推理和放大行为差异,后来居上夺得LPB冠军。不过,复杂设计在KK上反成累赘。结果表明,数据集稀疏性和任务难度,是决定RLVR奖励机制成败的关键因素。
展望未来,团队呼吁拓展Science、General Reasoning等新领域数据分类,并探索Llama、DeepSeek等模型的适配性。RLVR已经在多个领域被证明其有效性,但无论训练方式如何,数据永远是模型能力来源的基石,也希望未来的研究能够更深入地探究数据对RLVR的影响。
论文地址:https://arxiv.org/abs/2507.17512
训练代码:https://github.com/Leey21/A-Data-Centric-Study
本文来自微信公众号“量子位”,作者:上海AI Lab 团队,36氪经授权发布。