博文：熵机制

最后更新：2025/06/27。

用于大型语言模型推理的强化学习熵机制。

🎉新闻

[2025/05/29] 🎉 在 Huggingface Daily Papers 上荣获当日排名 #1。
[2025/05/29] 在 arXiv 上发布了我们的论文。详情请见此处。我们深入探讨了用于 LLM 的 RL 熵机制，并提出了两种简单而有效的策略来缓解熵崩溃问题。

✨开始

准备好训练数据后，要在单节点上训练 Qwen2.5-7B 模型，以 KL-Cov 方法为例，您可以简单地运行：

cd verl
conda activate your_env
bash recipe/dapo/7b_kl_cov.sh

而在多节点上训练 Qwen2.5-32B 模型，您可以运行以下命令：

cd verl
conda activate your_env
bash recipe/dapo/32b_kl_cov.sh

📖简介

本文针对大型语言模型 (LLM) 强化学习 (RL) 扩展中出现的熵崩溃问题进行了研究。在该问题中，策略熵在训练过程中急剧下降，导致模型过度自信和性能饱和。我们通过实验证明了熵 ($H$) 与性能 ($R$) 之间存在一种关系：$R=−aexp(H)+b$，表明性能受到熵耗尽的制约。

理论上，我们发现熵的变化是由动作概率与 Logit 更新之间的协方差驱动的，这与策略梯度方法中的优势（advantage）相关。高概率、高优势的动作会降低熵，而罕见、高优势的动作会增加熵。在实践中，协方差项始终为正，这解释了熵的单调下降。为了缓解这个问题，我们提出了 Clip-Cov 和 KL-Cov 方法，它们限制了高协方差 token 的更新。这些方法有效地防止了熵崩溃，并提高了性能。

📃评估

我们的方法能够在整个训练过程中维持显著更高的熵水平。例如，当基线方法的熵达到平台期且无法进一步消耗时，KL-Cov 方法仍然能维持超过 10 倍的熵水平。同时，策略模型的响应长度稳步增加，并且在测试集上的性能持续优于基线方法。这表明我们的模型能够在训练中更自由地探索，并通过 RL 学习到更好的策略。

方法	AIME24	AIME25	AMC	MATH-500	OMNI-MATH	OlympiadBench	Minerva	平均值
Qwen2.5-7B
GRPO	21.2	9.6	58.7	78.8	27.9	40.7	36.7	38.6
w. Clip-higher	18.1	11.5	56.6	79.2	29.8	43.3	40.4	38.8
w. `CLIP-Cov`	22.1	15.8	58.2	80.4	30.5	44.1	41.1	40.4
w. `KL-Cov`	22.6	12.9	61.4	80.8	29.1	42.6	38.2	40.6
Qwen2.5-32B
GRPO	21.8	16.2	69.7	84.2	35.2	43.6	45.5	45.8
w. Clip-higher	35.6	22.3	69.5	77.2	35.1	42.5	43.0	47.2
w. `CLIP-Cov`	32.3	22.7	67.2	87.0	42.0	57.2	46.0	50.3
w. `KL-Cov`	36.8	30.8	74.5	84.6	39.1	49.0	46.3	52.2

我们的两种方法在所有基准测试中都取得了显著的改进。与 GRPO 相比，我们的方法在 7B 模型上的平均性能提高了 2.0%，在 32B 模型上提高了 6.4%。此外，我们观察到在更大的 Qwen2.5-32B 模型上，我们的方法带来了更可观的收益。具体而言，在最具挑战性的 AIME24 和 AIME25 基准测试上，我们的方法分别比 GRPO 提高了 15.0% 和 14.6%。

🎈引用

如果您发现这篇论文或仓库有帮助，请引用我们。

@article{cui2025entropy,
  title={The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models},
  author={Cui, Ganqu and Zhang, Yuchen and Chen, Jiacheng and Yuan, Lifan and Wang, Zhi and Zuo, Yuxin and Li, Haozhan and Fan, Yuchen and Chen, Huayu and Chen, Weize and others},
  journal={arXiv preprint arXiv:2505.22617},
  year={2025}
}

🌻致谢

我们实现了基于 verl 的强化学习算法。我们使用 vLLM 进行推理。我们的模型主要在 Qwen2.5 系列上进行训练。我们的训练数据基于 DAPO-MATH。感谢他们的伟大贡献！

📬 联系

如有疑问、讨论或合作机会，请随时联系：

Ganqu Cui: cuiganqu@pjlab.org.cn
Yuchen Zhang: yuchen.zhang2003@gmail.com
Jiacheng Chen: jackchan9345@gmail.com
Ning Ding: ningding.cs@gmail.com