# 博文:熵机制 最后更新:2025/06/27。
用于大型语言模型推理的强化学习熵机制。 [![论文](https://img.shields.io/badge/paper-A42C25?style=for-the-badge&logo=arxiv&logoColor=white)](https://arxiv.org/pdf/2505.22617) [![Github](https://img.shields.io/badge/PRIME-000000?style=for-the-badge&logo=github&logoColor=000&logoColor=white)](https://github.com/PRIME-RL/Entropy-Mechanism-of-RL) [![alphaXiv](https://img.shields.io/badge/discussion-A42C25?style=for-the-badge&logo=arxiv&logoColor=white&color=blue )](https://www.alphaxiv.org/abs/2505.22617) [![Twitter](https://img.shields.io/badge/Twitter-%23000000.svg?style=for-the-badge&logo=twitter&logoColor=white)](https://x.com/stingning/status/1928088554166505667) [![Twitter](https://img.shields.io/badge/Twitter-%23000000.svg?style=for-the-badge&logo=twitter&logoColor=white)](https://x.com/charlesfornlp/status/1928089451080585283) [![Twitter-ak](https://img.shields.io/badge/Twitter-%23000000.svg?style=for-the-badge&logo=twitter&logoColor=white)](https://x.com/_akhaliq/status/1928077929105268861)

🎉 新闻✨ 开始📖 简介

🎈 引用🌻 致谢📬 联系📈 Star 记录

## 🎉新闻 - **[2025/05/29]** 🎉 在 [Huggingface Daily Papers](https://huggingface.co/papers?date=2025-05-29) 上荣获当日排名 **#1**。 - **[2025/05/29]** 在 arXiv 上发布了我们的论文。详情请见 [此处](https://arxiv.org/pdf/2505.22617)。我们深入探讨了用于 LLM 的 RL 熵机制,并提出了两种简单而有效的策略来缓解熵崩溃问题。 ## ✨开始 准备好训练数据后,要在单节点上训练 Qwen2.5-7B 模型,以 KL-Cov 方法为例,您可以简单地运行: ``` cd verl conda activate your_env bash recipe/dapo/7b_kl_cov.sh ``` 而在多节点上训练 Qwen2.5-32B 模型,您可以运行以下命令: ``` cd verl conda activate your_env bash recipe/dapo/32b_kl_cov.sh ``` ## 📖简介
issue
本文针对大型语言模型 (LLM) 强化学习 (RL) 扩展中出现的熵崩溃问题进行了研究。在该问题中,策略熵在训练过程中急剧下降,导致模型过度自信和性能饱和。我们通过实验证明了熵 ($H$) 与性能 ($R$) 之间存在一种关系:$R=−aexp(H)+b$,表明性能受到熵耗尽的制约。
issue
理论上,我们发现熵的变化是由动作概率与 Logit 更新之间的协方差驱动的,这与策略梯度方法中的优势(advantage)相关。高概率、高优势的动作会降低熵,而罕见、高优势的动作会增加熵。在实践中,协方差项始终为正,这解释了熵的单调下降。为了缓解这个问题,我们提出了 Clip-Cov 和 KL-Cov 方法,它们限制了高协方差 token 的更新。这些方法有效地防止了熵崩溃,并提高了性能。 ## 📃评估
issue
我们的方法能够在整个训练过程中维持显著更高的熵水平。例如,当基线方法的熵达到平台期且无法进一步消耗时,KL-Cov 方法仍然能维持超过 10 倍的熵水平。同时,策略模型的响应长度稳步增加,并且在测试集上的性能持续优于基线方法。这表明我们的模型能够在训练中更自由地探索,并通过 RL 学习到更好的策略。 | **方法** | **AIME24** | **AIME25** | **AMC** | **MATH-500** | **OMNI-MATH** | **OlympiadBench** | **Minerva** | **平均值** | | ----------------- | ---------: | ---------: | -------: | -----------: | ------------: | ----------------: | ----------: | -------: | | *Qwen2.5-7B* | | | | | | | | | | GRPO | 21.2 | 9.6 | 58.7 | 78.8 | 27.9 | 40.7 | 36.7 | 38.6 | | w. Clip-higher | 18.1 | 11.5 | 56.6 | 79.2 | 29.8 | 43.3 | 40.4 | 38.8 | | w. **`CLIP-Cov`** | 22.1 | **15.8** | 58.2 | 80.4 | **30.5** | **44.1** | **41.1** | 40.4 | | w. **`KL-Cov`** | **22.6** | 12.9 | **61.4** | **80.8** | 29.1 | 42.6 | 38.2 | **40.6** | | *Qwen2.5-32B* | | | | | | | | | | GRPO | 21.8 | 16.2 | 69.7 | 84.2 | 35.2 | 43.6 | 45.5 | 45.8 | | w. Clip-higher | 35.6 | 22.3 | 69.5 | 77.2 | 35.1 | 42.5 | 43.0 | 47.2 | | w. **`CLIP-Cov`** | 32.3 | 22.7 | 67.2 | **87.0** | **42.0** | **57.2** | 46.0 | 50.3 | | w. **`KL-Cov`** | **36.8** | **30.8** | **74.5** | 84.6 | 39.1 | 49.0 | **46.3** | **52.2** | 我们的两种方法在所有基准测试中都取得了显著的改进。与 GRPO 相比,我们的方法在 7B 模型上的平均性能提高了 2.0%,在 32B 模型上提高了 6.4%。此外,我们观察到在更大的 Qwen2.5-32B 模型上,我们的方法带来了更可观的收益。具体而言,在最具挑战性的 AIME24 和 AIME25 基准测试上,我们的方法分别比 GRPO 提高了 15.0% 和 14.6%。 ## 🎈引用 如果您发现这篇论文或仓库有帮助,请引用我们。 ```bibtex @article{cui2025entropy, title={The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models}, author={Cui, Ganqu and Zhang, Yuchen and Chen, Jiacheng and Yuan, Lifan and Wang, Zhi and Zuo, Yuxin and Li, Haozhan and Fan, Yuchen and Chen, Huayu and Chen, Weize and others}, journal={arXiv preprint arXiv:2505.22617}, year={2025} } ``` ## 🌻致谢 我们实现了基于 [verl](https://github.com/volcengine/verl) 的强化学习算法。我们使用 [vLLM](https://github.com/vllm-project/vllm) 进行推理。我们的模型主要在 [Qwen2.5 系列](https://github.com/QwenLM/Qwen2.5) 上进行训练。我们的训练数据基于 [DAPO-MATH](https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k)。感谢他们的伟大贡献! ## 📬 联系 如有疑问、讨论或合作机会,请随时联系: - Ganqu Cui: cuiganqu@pjlab.org.cn - Yuchen Zhang: yuchen.zhang2003@gmail.com - Jiacheng Chen: jackchan9345@gmail.com - Ning Ding: ningding.cs@gmail.com