用于大型语言模型推理的强化学习熵机制。
[](https://arxiv.org/pdf/2505.22617) [](https://github.com/PRIME-RL/Entropy-Mechanism-of-RL) [](https://www.alphaxiv.org/abs/2505.22617) [](https://x.com/stingning/status/1928088554166505667) [](https://x.com/charlesfornlp/status/1928089451080585283) [](https://x.com/_akhaliq/status/1928077929105268861)
## 🎉新闻
- **[2025/05/29]** 🎉 在 [Huggingface Daily Papers](https://huggingface.co/papers?date=2025-05-29) 上荣获当日排名 **#1**。
- **[2025/05/29]** 在 arXiv 上发布了我们的论文。详情请见 [此处](https://arxiv.org/pdf/2505.22617)。我们深入探讨了用于 LLM 的 RL 熵机制,并提出了两种简单而有效的策略来缓解熵崩溃问题。
## ✨开始
准备好训练数据后,要在单节点上训练 Qwen2.5-7B 模型,以 KL-Cov 方法为例,您可以简单地运行:
```
cd verl
conda activate your_env
bash recipe/dapo/7b_kl_cov.sh
```
而在多节点上训练 Qwen2.5-32B 模型,您可以运行以下命令:
```
cd verl
conda activate your_env
bash recipe/dapo/32b_kl_cov.sh
```
## 📖简介