算法基线

最后更新:2025-06-18。

数学相关数据集

GSM8k

假设 GSM8k/math 数据集已通过以下命令预处理:

python3 examples/data_preprocess/*.py

参考下表,了解如何从不同的预训练检查点复现 RL 训练。以下是在 GSM8k 数据集上的性能表现(除非另有说明)。更全面的基准测试结果可在 recipe 文件夹中找到。

硬件

模型

方法

测试得分

详情

NVIDIA GPU

google/gemma-2-2b-it

hf checkpoint

23.9

Huggingface

NVIDIA GPU

google/gemma-2-2b-it

SFT

52.06

命令和日志

NVIDIA GPU

google/gemma-2-2b-it

SFT + PPO

64.02

命令和日志, wandb

NVIDIA GPU

Qwen/Qwen2.5-0.5B-Instruct

hf checkpoint

36.4

Qwen 博客

NVIDIA GPU

Qwen/Qwen2.5-0.5B-Instruct

PPO

56.7

命令和日志

NVIDIA GPU

Qwen/Qwen2.5-0.5B-Instruct

PRIME

58.7

脚本, wandb

NVIDIA GPU

Qwen/Qwen2.5-0.5B-Instruct

GRPO-LoRA

54.3

命令和日志

NVIDIA GPU

Qwen/Qwen2.5-1.5B-Instruct

GRPO-LoRA

77.9

命令和日志

NVIDIA GPU

Qwen/Qwen2.5-3B-Instruct

GRPO-LoRA

86.1

命令和日志

NVIDIA GPU

deepseek-ai/deepseek-llm-7b-chat

PPO (Megatron)

69.5 [1]

日志, wandb

NVIDIA GPU

Qwen/Qwen2-7B-Instruct

GRPO

89

脚本

NVIDIA GPU

Qwen/Qwen2-7B-Instruct

GRPO (FSDP2)

89.8

日志

NVIDIA GPU

Qwen/Qwen2-7B-Instruct

GRPO (Megatron)

89.6

日志

NVIDIA GPU

Qwen/Qwen2.5-7B-Instruct

ReMax

97

脚本, wandb

NVIDIA GPU

Qwen/Qwen2.5-7B-Instruct

SPPO

65.6 (MATH)

SPPO 脚本

NVIDIA GPU

Qwen/Qwen2.5-7B-Instruct

GRPO-LoRA

93.4

命令和日志

NVIDIA GPU

Mixtral-8x22B-Instruct-v0.1

Instruct model

83.7

Qwen 博客

NVIDIA GPU

Mixtral-8x22B-Instruct-v0.1

RLOO (Megatron)

92.3

wandb

NVIDIA GPU

Qwen/Qwen2.5-7B-Instruct

SPIN

92

脚本

NVIDIA GPU

Qwen/Qwen2-7B-Instruct

GPG

88

日志, wandb

NVIDIA GPU

Qwen/Qwen2-7B-Instruct

GPG (Megatron)

88

日志, wandb

NVIDIA GPU

Qwen/Qwen2.5-VL-7B-Instruct

GRPO (Megatron)

65.4 (GEO3k)

脚本, wandb

AMD MI300

deepseek-ai/deepseek-llm-7b-chat

PPO

70.5 [1]

日志

AMD MI300

deepseek-ai/deepseek-llm-7b-chat

GRPO

71.4 [1]

日志

NVIDIA GPU

Qwen/Qwen2.5-14B-Instruct

GRPO-LoRA

94.6

命令和日志

NVIDIA GPU

Qwen/Qwen2.5-32B-Instruct

GRPO-LoRA

95.8

命令和日志

NVIDIA GPU

Qwen/Qwen2.5-72B-Instruct

GRPO-LoRA

96.0

命令和日志

DAPO math-17k

  • 训练 DAPO math-17k 数据集:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k

  • 测试:AIME’24:https://huggingface.co/datasets/BytedTsinghua-SIA/AIME-2024

注意:

  • 对于 Qwen/Qwen2.5-Math-7B,我们直接将 max_position_embeddings 修改为 32768,在没有观察到性能下降的情况下,以便训练更长的响应长度。

硬件

模型

方法

测试得分

详情

NVIDIA GPU

Qwen/Qwen2.5-Math-7B (32k)

DAPO

36.3

命令, 日志

NVIDIA GPU

Qwen/Qwen2.5-7B-Instruct

DAPO + Code Interpreter

40.0

命令

编程相关数据集

以下是在 leetcode 上的结果(除非另有说明)。

硬件

模型

方法

测试得分

详情

NVIDIA GPU

PRIME-RL/Eurus-2-7B-SFT

RPIME

36.1

脚本, swanlab

注意

[1] 在评估期间,我们只提取了遵循 "####" 格式的答案。更灵活的答案提取、更长的响应长度和更好的提示工程可能会带来更高的分数。

[2] 自 verl 0.3.x(2025-05-30)起,actor_rollout_ref.actor.entropy_coeff 的默认值设置为 0.0,这与之前的版本不同。