算法基线

最后更新：2025-06-18。

数学相关数据集

GSM8k

假设 GSM8k/math 数据集已通过以下命令预处理：

python3 examples/data_preprocess/*.py

参考下表，了解如何从不同的预训练检查点复现 RL 训练。以下是在 GSM8k 数据集上的性能表现（除非另有说明）。更全面的基准测试结果可在 recipe 文件夹中找到。

硬件	模型	方法	测试得分	详情
NVIDIA GPU	google/gemma-2-2b-it	hf checkpoint	23.9	Huggingface
NVIDIA GPU	google/gemma-2-2b-it	SFT	52.06	命令和日志
NVIDIA GPU	google/gemma-2-2b-it	SFT + PPO	64.02	命令和日志, wandb
NVIDIA GPU	Qwen/Qwen2.5-0.5B-Instruct	hf checkpoint	36.4	Qwen 博客
NVIDIA GPU	Qwen/Qwen2.5-0.5B-Instruct	PPO	56.7	命令和日志
NVIDIA GPU	Qwen/Qwen2.5-0.5B-Instruct	PRIME	58.7	脚本, wandb
NVIDIA GPU	Qwen/Qwen2.5-0.5B-Instruct	GRPO-LoRA	54.3	命令和日志
NVIDIA GPU	Qwen/Qwen2.5-1.5B-Instruct	GRPO-LoRA	77.9	命令和日志
NVIDIA GPU	Qwen/Qwen2.5-3B-Instruct	GRPO-LoRA	86.1	命令和日志
NVIDIA GPU	deepseek-ai/deepseek-llm-7b-chat	PPO (Megatron)	69.5 [1]	日志, wandb
NVIDIA GPU	Qwen/Qwen2-7B-Instruct	GRPO	89	脚本
NVIDIA GPU	Qwen/Qwen2-7B-Instruct	GRPO (FSDP2)	89.8	日志
NVIDIA GPU	Qwen/Qwen2-7B-Instruct	GRPO (Megatron)	89.6	日志
NVIDIA GPU	Qwen/Qwen2.5-7B-Instruct	ReMax	97	脚本, wandb
NVIDIA GPU	Qwen/Qwen2.5-7B-Instruct	SPPO	65.6 (MATH)	SPPO 脚本
NVIDIA GPU	Qwen/Qwen2.5-7B-Instruct	GRPO-LoRA	93.4	命令和日志
NVIDIA GPU	Mixtral-8x22B-Instruct-v0.1	Instruct model	83.7	Qwen 博客
NVIDIA GPU	Mixtral-8x22B-Instruct-v0.1	RLOO (Megatron)	92.3	wandb
NVIDIA GPU	Qwen/Qwen2.5-7B-Instruct	SPIN	92	脚本
NVIDIA GPU	Qwen/Qwen2-7B-Instruct	GPG	88	日志, wandb
NVIDIA GPU	Qwen/Qwen2-7B-Instruct	GPG (Megatron)	88	日志, wandb
NVIDIA GPU	Qwen/Qwen2.5-VL-7B-Instruct	GRPO (Megatron)	65.4 (GEO3k)	脚本, wandb
AMD MI300	deepseek-ai/deepseek-llm-7b-chat	PPO	70.5 [1]	日志
AMD MI300	deepseek-ai/deepseek-llm-7b-chat	GRPO	71.4 [1]	日志
NVIDIA GPU	Qwen/Qwen2.5-14B-Instruct	GRPO-LoRA	94.6	命令和日志
NVIDIA GPU	Qwen/Qwen2.5-32B-Instruct	GRPO-LoRA	95.8	命令和日志
NVIDIA GPU	Qwen/Qwen2.5-72B-Instruct	GRPO-LoRA	96.0	命令和日志

DAPO math-17k

训练 DAPO math-17k 数据集：https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
测试：AIME’24：https://huggingface.co/datasets/BytedTsinghua-SIA/AIME-2024

注意：

对于 Qwen/Qwen2.5-Math-7B，我们直接将 max_position_embeddings 修改为 32768，在没有观察到性能下降的情况下，以便训练更长的响应长度。

硬件	模型	方法	测试得分	详情
NVIDIA GPU	Qwen/Qwen2.5-Math-7B (32k)	DAPO	36.3	命令, 日志
NVIDIA GPU	Qwen/Qwen2.5-7B-Instruct	DAPO + Code Interpreter	40.0	命令

编程相关数据集

以下是在 leetcode 上的结果（除非另有说明）。

硬件	模型	方法	测试得分	详情
NVIDIA GPU	PRIME-RL/Eurus-2-7B-SFT	RPIME	36.1	脚本, swanlab

注意

[1] 在评估期间，我们只提取了遵循 "####" 格式的答案。更灵活的答案提取、更长的响应长度和更好的提示工程可能会带来更高的分数。

[2] 自 verl 0.3.x（2025-05-30）起，actor_rollout_ref.actor.entropy_coeff 的默认值设置为 0.0，这与之前的版本不同。