运行 RL 所需的硬件资源

最后更新: 2025年6月25日。

相比常规训练，RL 需要更多资源，因此在训练前确定能成功运行所需的资源量是一项相对困难的任务。为了给更多人在处理不同模型和任务时选择资源提供参考点，本节主要介绍我们通过实验进行的软硬件环境需求。

然而，由于人力和设备资源的限制，我们也期望开源社区能做出更多贡献。在提交 PR 时，需要提供一个可添加到 examples/tuning 脚本的脚本。

我们需要两种类型的脚本：一种是可以使用**最小资源 (min)** 运行的配置，另一种是可以使用**推荐资源 (recommended)** 运行的配置。前者可以理解为应用了所有内存优化技术（例如 offload，gradient checkpointing）后可以运行的脚本。后者可以理解为在尽可能避免额外时间开销的操作（目标是最佳吞吐量）下可以运行的脚本。

在定义脚本名称时，请遵循此格式： [model]_[task]_[gpunums]_[device]_[train]_[infer].sh。这将有效地提高脚本的可识别度。您可以将脚本放置在 examples/tuning/ 目录下。

如果您恰好有已测试过的配置，欢迎您提交 PR 并附上来自 Wandb 或其他可验证证据的截图。

0.5B ~~~

Tag	Model	Task	Resource	MaxBatch	Train	Infer	Link	Contributor
MIN	Qwen2.5-0.5B	GRPO-LoRA	1*H100	116	fsdp	vllm0.8.3	qwen2-0.5b_grpo-lora_1_h100_fsdp_vllm.sh	SimonHuang

1.5B ~~~

Tag	Model	Task	Resource	MaxBatch	Train	Infer	Link	Contributor
MIN	Qwen2.5-1.5B	GRPO-LoRA	1*H100	128	fsdp	vllm0.8.3	qwen2-1.5b_grpo-lora_1_h100_fsdp_vllm.sh	SimonHuang

3B

Tag	Model	Task	Resource	MaxBatch	Train	Infer	Link	Contributor
MIN	Qwen2.5-3B	GRPO-LoRA	1*H100	62	fsdp	vllm0.8.3	qwen2-3b_grpo-lora_1_h100_fsdp_vllm.sh	SimonHuang

7B

Tag	Model	Task	Resource	MaxBatch	Train	Infer	Link	Contributor
MIN	Qwen2-7B	GRPO	2*H800		fsdp	vllm0.8.2	qwen2-7b_grpo_2_h800_fsdp_vllm	Xiangyongan
MIN	Qwen2.5-7B	GRPO-LoRA	1*H100	16	fsdp	vllm0.8.3	qwen2-7b_grpo-lora_1_h100_fsdp_vllm.sh	SimonHuang

14B

Tag	Model	Task	Resource	MaxBatch	Train	Infer	Link	Contributor
MIN	Qwen2-14B	GRPO	4*H800		fsdp	vllm0.8.2	qwen2-14b_grpo_4_h800_fsdp_vllm	Xiangyongan
MIN	Qwen2.5-14B	GRPO-LoRA	2*H100	116	fsdp	vllm0.8.3	qwen2-14b_grpo-lora_2_h100_fsdp_vllm.sh	SimonHuang

32B

Tag	Model	Task	Resource	MaxBatch	Train	Infer	Link	Contributor
MIN	Qwen2-32B	GRPO	8*H20		megatron	vllm0.8.2	qwen2-32b_grpo_8_h20_megatron_vllm	Xiangyongan
MIN	Qwen2.5-32B	GRPO-LoRA	4*H100	180	fsdp	vllm0.8.3	qwen2-32b_grpo-lora_4_h100_fsdp_vllm.sh	SimonHuang

70B

Tag	Model	Task	Resource	MaxBatch	Train	Infer	Link	Contributor
MIN	Qwen2-70B	GRPO	32*H20		fsdp	vllm0.8.2	qwen2-70b_grpo_32_h20_fsdp_vllm	Xiangyongan
MIN	Qwen2-70B	GRPO	32*H800		fsdp	vllm0.8.3	qwen2-70b_grpo_32_h800_fsdp_vllm	Xiangyongan
MIN	Qwen2.5-72B	GRPO-LoRA	8*H100	176	fsdp	vllm0.8.3	qwen2-72b_grpo-lora_8_h100_fsdp_vllm.sh	SimonHuang

405B

tag	model	task	resource	MaxBatch	train	infer	link

671B

tag	model	task	resource	MaxBatch	train	infer	link