训练加速1.8倍,推理开销降78%,精准筛选题目高效加速RL训练

量子位·2026年02月09日 18:38
要练出AI好学生,就要多做「跳一跳够得着」的题

以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人

高昂成本很大一部分来自训练过程中的“低效”。如果一直学习不合适的“考题”,既学不到东西,又造成了巨大浪费。想象一下,要培养一位“数学尖子生”,你让他做成千上万道题。若题目太简单,比如“1+1”,毫无意义;若题目太难,他根本不会,同样徒劳。

真正高效的训练,来自那些“跳一跳,刚好够得着”的题目。

此前,学术界和工业界主要有两种策略来给大模型“挑题”:

“题海战术”(Uniform Sampling):从题库中随机抽取题目给大模型。这会导致大量的算力被浪费在那些无法提供有效学习信号的题目上:如GRPO面对回答全对全错问题,梯度会坍缩为0,失去更新效果,白白浪费资源。

“先测后学”(Dynamic Sampling,DS):一些在线采样方法(如DAPO中的DS)被提了出以加速训练。其让大模型“自测”一个更大的候选题目集,并据此筛选出难度适中的题目进行训练。然而“自测”本身就需要大量的LLM推理,成本依然高昂。就像为节省尖子生的时间,却让他花更多时间去做额外的摸底测试。

有没有一种方法,既能精准地挑出难度最合适的题目,又不需要昂贵的大模型“自测”?

MoPPS:轻量预测,精准挑题

面对这一挑战,清华大学季向阳教授THU-IDM团队主导,与慕尼黑大学CompVis团队合作提出了一个全新的框架:基于模型预测的提示选择(Model Predictive Prompt Selection,MoPPS)。

该工作已被KDD 2026接收,受到包括阿里千问、腾讯混元、蚂蚁等业界的关注,以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用。

MoPPS解决的核心问题是:

能否不需要昂贵的大模型评估,就动态预测题目难度,并据此精准挑选训练数据,从而更高效地提升模型推理能力?

△ DAPO算法中的Dynamic Sampling依赖大模型自评估,带来显著计算开销。而MoPPS用轻量化贝叶斯模型快速预估问题难度,实现高效问题筛选加速训练。

MoPPS的想法和实现非常简单:

1. 将题目建模为“老虎机”(Bandit Formulation)

MoPPS将每一道题(prompt,τ)看作一个老虎机臂。

每个题目有一个未知的“获胜概率”,即在当前模型参数下,模型答对的概率(成功率)。

训练的目标是优先选择那些对训练更有价值的题目,即成功率接近0.5的中等难度题。

2. 轻量化的贝叶斯难度预测(Bayesian Inference)

MoPPS为每个题目配备一个Beta分布,用来估计其成功率:

无先验时,题目的成功率分布被初始化为均匀分布Beta(1,1)。如果有可靠先验可以对应设置以提升效果。

随着训练推进,大模型产生“成功/失败”的反馈,这些二值反馈被直接转化为对Beta分布的更新:

α′ = α + 成功次数, β′ = β + 失败次数

这种递归更新方式不仅计算量极低,还能随着训练积累越来越精准的难度估计。MoPPS 还引入了时间衰减因子,以适应模型能力不断变化的动态环境。

α′ = λ·α + (1 − λ)·α⁰ + 成功次数, β′ = λ·β + (1 − λ)·β⁰ + 失败次数

3. 主动问题筛选(Active Selection with Thompson Sampling)

MoPPS不依赖真实LLM自测,而是直接从Beta分布中采样预测难度

使用Thompson Sampling:为每个候选题目抽取一个难度估计值,平衡探索与利用。

从候选集中挑选出最接近目标难度γ∗≈0.5的题目(即“跳一跳够得着”的黄金题)。

仅使用被选中的题目进行RL训练;随后,真实反馈反过来更新Beta分布,形成闭环。

这种设计有三个突出优势:

极低开销:预测基于Beta分布采样,不需要额外LLM推理。

动态适应:在线更新,难度估计越来越准。

探索与利用平衡:Thompson Sampling引入随机性,既能挑选已知最优题目,也会探索潜在有价值的新题。

MoPPS提出了一种预测-采样-优化的新范式:

△ 图1:MoPPS框架概览及与DS对比。

效果炸裂:提速1.8x,减少7成推理开销

MoPPS在数学、逻辑、视觉几何三大推理任务上展现出显著优势:

算力成本大幅降低。

与需要大量额外推理的“先测后学”方法(如DS)相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46%!

△ 图2: Countdown任务中,MoPPS在训练效率与性能方面均优于均匀选择策略,同时相比于DS方法,大幅减少rollouts的计算开销。

训练效率显著提升。

相较于传统的“题海战术”(Uniform采样),MoPPS总能为模型挑出最关键的题目,训练过程被大大加速。实现了高达1.6倍至1.8倍的训练加速,且训练效果更好。

△ 图 3:MoPPS与基线方法在三类推理任务中、不同规模模型下的训练曲线。

难度预测精准可靠。

实验证明,MoPPS预测的题目难度与真实的题目难度之间,具有极高的相关性(Spearman Rank Correlation),证明了其预测的有效性和可靠性。

△ 图 4:在所有实验中,相关性在训练初期迅速攀升并稳定在0.5以上的高水平,证明了MoPPS预测的准确性。

方法适用性与拓展性强。

1. 兼容多种强化学习算法:

MoPPS作为“数据筛选器”可以即插即用,适配PPO、GRPO、Reinforce++等多种RL算法。

2. 支持不同采样策略并可引入先验信息:

MoPPS默认采用Top-B采样策略,但同样可以扩展为阈值采样(筛选难度落在某个区间的题目)。此外,还能结合先验知识,进一步加速前期训练。

△ (a) MoPPS可以使用不同的筛选策略,并可以结合先验知识提升效果。*(b) 在线问题筛选效果强于离线筛选

总结

这项由清华大学THU-IDM团队和慕尼黑大学CompVis团队合作的研究,为大模型强化微调领域,提供了一个“降本增效”的利器。

MoPPS框架的核心贡献在于提出了一种全新的“先预测,再优化”(predict-then-optimize)范式。未来,MoPPS有希望应用于更大规模的大模型强化学习后训练。

论文标题:Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models?

论文链接:https://arxiv.org/abs/2507.04632

代码链接:https://github.com/thu-rllab/MoPPS

团队主页:https://www.thuidm.com

本文来自微信公众号“量子位”,作者:清华大学THU-IDM团队 ,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

八部门联合发布42号文,首次将现实世界资产代币化RWA纳入监管!这不是一份简单的禁令,而是一套分类施策的监管体系。技术中立不是免责理由,AIoT企业的3个合规警示

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业