运行 RL 所需的硬件资源
最后更新: 2025年6月25日。
相比常规训练,RL 需要更多资源,因此在训练前确定能成功运行所需的资源量是一项相对困难的任务。为了给更多人在处理不同模型和任务时选择资源提供参考点,本节主要介绍我们通过实验进行的软硬件环境需求。
然而,由于人力和设备资源的限制,我们也期望开源社区能做出更多贡献。在提交 PR 时,需要提供一个可添加到 examples/tuning 脚本的脚本。
我们需要两种类型的脚本:一种是可以使用**最小资源 (min)** 运行的配置,另一种是可以使用**推荐资源 (recommended)** 运行的配置。前者可以理解为应用了所有内存优化技术(例如 offload,gradient checkpointing)后可以运行的脚本。后者可以理解为在尽可能避免额外时间开销的操作(目标是最佳吞吐量)下可以运行的脚本。
在定义脚本名称时,请遵循此格式: [model]_[task]_[gpunums]_[device]_[train]_[infer].sh。这将有效地提高脚本的可识别度。您可以将脚本放置在 examples/tuning/ 目录下。
如果您恰好有已测试过的配置,欢迎您提交 PR 并附上来自 Wandb 或其他可验证证据的截图。
0.5B ~~~
Tag |
Model |
Task |
Resource |
MaxBatch |
Train |
Infer |
Link |
Contributor |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2.5-0.5B |
GRPO-LoRA |
1*H100 |
116 |
fsdp |
vllm0.8.3 |
1.5B ~~~
Tag |
Model |
Task |
Resource |
MaxBatch |
Train |
Infer |
Link |
Contributor |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2.5-1.5B |
GRPO-LoRA |
1*H100 |
128 |
fsdp |
vllm0.8.3 |
3B
Tag |
Model |
Task |
Resource |
MaxBatch |
Train |
Infer |
Link |
Contributor |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2.5-3B |
GRPO-LoRA |
1*H100 |
62 |
fsdp |
vllm0.8.3 |
7B
Tag |
Model |
Task |
Resource |
MaxBatch |
Train |
Infer |
Link |
Contributor |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2-7B |
GRPO |
2*H800 |
fsdp |
vllm0.8.2 |
|||
MIN |
Qwen2.5-7B |
GRPO-LoRA |
1*H100 |
16 |
fsdp |
vllm0.8.3 |
14B
Tag |
Model |
Task |
Resource |
MaxBatch |
Train |
Infer |
Link |
Contributor |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2-14B |
GRPO |
4*H800 |
fsdp |
vllm0.8.2 |
|||
MIN |
Qwen2.5-14B |
GRPO-LoRA |
2*H100 |
116 |
fsdp |
vllm0.8.3 |
32B
Tag |
Model |
Task |
Resource |
MaxBatch |
Train |
Infer |
Link |
Contributor |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2-32B |
GRPO |
8*H20 |
megatron |
vllm0.8.2 |
|||
MIN |
Qwen2.5-32B |
GRPO-LoRA |
4*H100 |
180 |
fsdp |
vllm0.8.3 |
70B
Tag |
Model |
Task |
Resource |
MaxBatch |
Train |
Infer |
Link |
Contributor |
|---|---|---|---|---|---|---|---|---|
MIN |
Qwen2-70B |
GRPO |
32*H20 |
fsdp |
vllm0.8.2 |
|||
MIN |
Qwen2-70B |
GRPO |
32*H800 |
fsdp |
vllm0.8.3 |
|||
MIN |
Qwen2.5-72B |
GRPO-LoRA |
8*H100 |
176 |
fsdp |
vllm0.8.3 |
405B
tag |
model |
task |
resource |
MaxBatch |
train |
infer |
link |
|---|---|---|---|---|---|---|---|
671B
tag |
model |
task |
resource |
MaxBatch |
train |
infer |
link |
|---|---|---|---|---|---|---|---|