训练加速1.8倍，推理开销降78%，精准筛选题目高效加速RL训练

量子位·2026年02月09日 18:38

要练出AI好学生，就要多做「跳一跳够得着」的题

以DeepSeek R1为代表的一系列基于强化学习（RLVR）微调的工作，显著提升了大语言模型的推理能力。但在这股浪潮背后，强化微调的代价却高得惊人。

高昂成本很大一部分来自训练过程中的“低效”。如果一直学习不合适的“考题”，既学不到东西，又造成了巨大浪费。想象一下，要培养一位“数学尖子生”，你让他做成千上万道题。若题目太简单，比如“1+1”，毫无意义；若题目太难，他根本不会，同样徒劳。

真正高效的训练，来自那些“跳一跳，刚好够得着”的题目。

此前，学术界和工业界主要有两种策略来给大模型“挑题”：

“题海战术”（Uniform Sampling）：从题库中随机抽取题目给大模型。这会导致大量的算力被浪费在那些无法提供有效学习信号的题目上：如GRPO面对回答全对全错问题，梯度会坍缩为0，失去更新效果，白白浪费资源。

“先测后学”（Dynamic Sampling，DS）：一些在线采样方法（如DAPO中的DS）被提了出以加速训练。其让大模型“自测”一个更大的候选题目集，并据此筛选出难度适中的题目进行训练。然而“自测”本身就需要大量的LLM推理，成本依然高昂。就像为节省尖子生的时间，却让他花更多时间去做额外的摸底测试。

有没有一种方法，既能精准地挑出难度最合适的题目，又不需要昂贵的大模型“自测”？

MoPPS：轻量预测，精准挑题

面对这一挑战，清华大学季向阳教授THU-IDM团队主导，与慕尼黑大学CompVis团队合作提出了一个全新的框架：基于模型预测的提示选择（Model Predictive Prompt Selection，MoPPS）。

该工作已被KDD 2026接收，受到包括阿里千问、腾讯混元、蚂蚁等业界的关注，以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用。

MoPPS解决的核心问题是：

能否不需要昂贵的大模型评估，就动态预测题目难度，并据此精准挑选训练数据，从而更高效地提升模型推理能力？

△ DAPO算法中的Dynamic Sampling依赖大模型自评估，带来显著计算开销。而MoPPS用轻量化贝叶斯模型快速预估问题难度，实现高效问题筛选加速训练。

MoPPS的想法和实现非常简单：

1. 将题目建模为“老虎机”（Bandit Formulation）

MoPPS将每一道题（prompt，τ）看作一个老虎机臂。

每个题目有一个未知的“获胜概率”，即在当前模型参数下，模型答对的概率（成功率）。

训练的目标是优先选择那些对训练更有价值的题目，即成功率接近0.5的中等难度题。

2. 轻量化的贝叶斯难度预测（Bayesian Inference）

MoPPS为每个题目配备一个Beta分布，用来估计其成功率：

无先验时，题目的成功率分布被初始化为均匀分布Beta(1,1)。如果有可靠先验可以对应设置以提升效果。

随着训练推进，大模型产生“成功/失败”的反馈，这些二值反馈被直接转化为对Beta分布的更新：

α′ = α + 成功次数, β′ = β + 失败次数

这种递归更新方式不仅计算量极低，还能随着训练积累越来越精准的难度估计。MoPPS 还引入了时间衰减因子，以适应模型能力不断变化的动态环境。

α′ = λ·α + (1 − λ)·α⁰ + 成功次数, β′ = λ·β + (1 − λ)·β⁰ + 失败次数

3. 主动问题筛选（Active Selection with Thompson Sampling）

MoPPS不依赖真实LLM自测，而是直接从Beta分布中采样预测难度：

使用Thompson Sampling：为每个候选题目抽取一个难度估计值，平衡探索与利用。

从候选集中挑选出最接近目标难度γ∗≈0.5的题目（即“跳一跳够得着”的黄金题）。

仅使用被选中的题目进行RL训练；随后，真实反馈反过来更新Beta分布，形成闭环。

这种设计有三个突出优势：

极低开销：预测基于Beta分布采样，不需要额外LLM推理。

动态适应：在线更新，难度估计越来越准。

探索与利用平衡：Thompson Sampling引入随机性，既能挑选已知最优题目，也会探索潜在有价值的新题。

MoPPS提出了一种预测-采样-优化的新范式：

△ 图1：MoPPS框架概览及与DS对比。

效果炸裂：提速1.8x，减少7成推理开销

MoPPS在数学、逻辑、视觉几何三大推理任务上展现出显著优势：

算力成本大幅降低。

与需要大量额外推理的“先测后学”方法（如DS）相比，MoPPS达到相同性能所需的Rollouts减少了高达78.46%！

△ 图2： Countdown任务中，MoPPS在训练效率与性能方面均优于均匀选择策略，同时相比于DS方法，大幅减少rollouts的计算开销。

训练效率显著提升。

相较于传统的“题海战术”（Uniform采样），MoPPS总能为模型挑出最关键的题目，训练过程被大大加速。实现了高达1.6倍至1.8倍的训练加速，且训练效果更好。

△ 图 3：MoPPS与基线方法在三类推理任务中、不同规模模型下的训练曲线。

难度预测精准可靠。

实验证明，MoPPS预测的题目难度与真实的题目难度之间，具有极高的相关性（Spearman Rank Correlation），证明了其预测的有效性和可靠性。

△ 图 4：在所有实验中，相关性在训练初期迅速攀升并稳定在0.5以上的高水平，证明了MoPPS预测的准确性。

方法适用性与拓展性强。

1. 兼容多种强化学习算法：

MoPPS作为“数据筛选器”可以即插即用，适配PPO、GRPO、Reinforce++等多种RL算法。

2. 支持不同采样策略并可引入先验信息：

MoPPS默认采用Top-B采样策略，但同样可以扩展为阈值采样（筛选难度落在某个区间的题目）。此外，还能结合先验知识，进一步加速前期训练。

△ (a) MoPPS可以使用不同的筛选策略，并可以结合先验知识提升效果。*（b) 在线问题筛选效果强于离线筛选

总结

这项由清华大学THU-IDM团队和慕尼黑大学CompVis团队合作的研究，为大模型强化微调领域，提供了一个“降本增效”的利器。

MoPPS框架的核心贡献在于提出了一种全新的“先预测，再优化”（predict-then-optimize）范式。未来，MoPPS有希望应用于更大规模的大模型强化学习后训练。

论文标题：Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models?

论文链接：https://arxiv.org/abs/2507.04632

代码链接：https://github.com/thu-rllab/MoPPS

团队主页：https://www.thuidm.com

本文来自微信公众号“量子位”，作者：清华大学THU-IDM团队，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。