多模态示例架构 ================================= 最后更新:2025/04/28。 介绍 ------------ 现在,verl 已支持多模态训练。你可以使用 fsdp 和 vllm/sglang 来启动一个多模态 RL 任务。Megatron 的支持也在进行中。 请按照以下步骤快速启动一个多模态 RL 任务。 第一步:准备数据集 ----------------------- .. code:: python # 它将被保存在 $HOME/data/geo3k 文件夹中 python examples/data_preprocess/geo3k.py 第二步:下载模型 ---------------------- .. code:: bash # 从 huggingface 下载模型 python3 -c "import transformers; transformers.pipeline(model='Qwen/Qwen2.5-VL-7B-Instruct')" 第三步:使用多模态模型在 Geo3K 数据集上执行 GRPO 训练 --------------------------------------------------------------------- .. code:: bash # 运行任务 bash examples/grpo_trainer/run_qwen2_5_vl-7b.sh