PPO Ray Trainer
===============

最后更新时间：2025 年 2 月 12 日。

我们实现了 RayPPOTrainer，这是一个在单个 CPU/GPU 节点（默认是 CPU）的驱动进程上运行的 trainer。

PPORayTrainer 包含 3 个核心函数，用于数据准备、WorkerGroup 初始化和 PPO 训练循环。

数据准备
--------

``PPORayTrainer`` 作为单个进程，负责从数据集中加载完整的样本批次（prompts），然后分发给在不同 GPU 上运行的 worker_groups。

为了通用化数据加载，我们实现了 ``RLHFDataset`` 类来加载预处理过的 parquet 文件，对 prompts 应用 chat templates，添加 padding，截断超出最大 prompt 长度的 prompts，然后进行 tokenization。

.. code:: python

   self.train_dataset = RLHFDataset(data_files=self.config.data.train_files,
                                       tokenizer=self.tokenizer,
                                       config=self.config.data)

然后，dataloader 将在 PPO mini batch size 的约束下迭代数据集。

WorkerGroup 初始化
------------------

我们首先介绍一个在给定 GPU 集上初始化 actor 模型 `WorkerGroup` 的基本实现。

.. code:: python

   # max_colocate_count 表示每个 RayResourcePool 中的 WorkerGroup（即进程）数量
   # 对于 FSDP 后端，我们建议使用 max_colocate_count=1，将所有 WorkerGroup 合并为一个。
   # 对于 Megatron 后端，我们建议使用 max_colocate_count>1，以便为不同的模型利用不同的 WorkerGroup
   resource_pool = RayResourcePool(process_on_nodes=[config.trainer.n_gpus_per_node] * config.trainer.nnodes,
                                   use_gpu=True,
                                   max_colocate_count=1)
   # 定义将在远程初始化的 actor rollout 类
   actor_rollout_cls = RayClassWithInitArgs(cls=ActorRolloutWorker)
   # 定义 actor_rollout worker group
   actor_rollout_worker_group = MegatronRayWorkerGroup(resource_pool=resource_pool,
                                                       ray_cls_with_init=actor_rollout_cls,
                                                       default_megatron_kwargs=config.actor_rollout.megatron)

在上面的实现中，不同的 WorkerGroup，如 ``actor_rollout_worker_group``、``critic_worker_group`` 和 ``ref_worker_group`` 位于单独的进程中。

驱动进程随后可以调用 ``actor_rollout_worker_group`` 和其他角色的分布式计算函数来构建 RL 训练循环。

对于驻留在同一 GPU 集中的模型，我们提供了更细粒度的优化，即将同一进程中不同角色的 `worker_group` 进行合并。此优化可以节省不同进程中的冗余 CUDA/分布式上下文。

.. code:: python

   # 初始化 WorkerGroup
   # 注意：如果您想为每个角色使用不同的资源池，以支持不同的并行大小，
   # 则不应使用 `create_colocated_worker_cls`。而是直接将不同的资源池传递给不同的 worker groups。
   # 更多信息请参见 TODO(url)。
   all_wg = {}
   for resource_pool, class_dict in self.resource_pool_to_cls.items():
       worker_dict_cls = create_colocated_worker_cls(class_dict=class_dict)
       wg_dict = self.ray_worker_group_cls(resource_pool=resource_pool, ray_cls_with_init=worker_dict_cls)
       spawn_wg = wg_dict.spawn(prefix_set=class_dict.keys())
       all_wg.update(spawn_wg)

   if self.use_critic:
       self.critic_wg = all_wg['critic']
       self.critic_wg.init_model()

   if self.use_reference_policy:
       self.ref_policy_wg = all_wg['ref']
       self.ref_policy_wg.init_model()

   if self.use_rm:
       self.rm_wg = all_wg['rm']
       self.rm_wg.init_model()

   # 我们应该最后创建 rollout，以便 vllm 能够更好地估计 kv 缓存内存
   self.actor_rollout_wg = all_wg['actor_rollout']
   self.actor_rollout_wg.init_model()

.. note:: 对于 megatron 后端，如果我们把 ``worker_groups`` 合并到同一个进程中，所有角色将使用相同的 3D 并行大小。为了优化这一点，我们可能需要为同一分布式上下文中的每个角色维护几个 3D 进程组。如果您想为不同角色使用不同的 3D 并行大小，请遵循第一个代码块的类似架构来初始化每个角色的 ``worker_group``。


PPO 训练循环
------------

我们通过调用每个角色的 worker_group 中的函数来实现 PPO 训练循环。每个函数的输入和输出数据是 `protocol.py <https://github.com/volcengine/verl/blob/main/verl/protocol.py>`_ 中实现的 ``DataProto`` 对象。在训练循环中，trainer 会按照封装在 worker 函数中的传输协议，将数据分发到/从不同的 GPU 收集。PPO micro batches 的计算在 ``update_actor`` 和 ``update_critic`` 函数中进行。

要扩展到其他 RLHF 算法，例如 DPO、GRPO，请参阅 :doc:`../advance/dpo_extension`。

.. code:: python

   def fit(self):
       """
       PPO 的训练循环。
       驱动进程只需要通过 RPC 调用 worker group 的计算函数来构造 PPO 数据流。
       轻量级的 advantage 计算在驱动进程上完成。
       """
       from verl.utils.tracking import Tracking
       from omegaconf import OmegaConf

       logger = Tracking(project_name=self.config.trainer.project_name,
                           experiment_name=self.config.trainer.experiment_name,
                           default_backend=self.config.trainer.logger,
                           config=OmegaConf.to_container(self.config, resolve=True))

       global_steps = 0

       # 在训练前进行验证
       # 目前，我们只支持使用 reward_function 进行验证。
       if self.val_reward_fn is not None:
           val_metrics = self._validate()
           pprint(f'Initial validation metrics: {val_metrics}')

       for epoch in range(self.config.trainer.total_epochs):
           for batch_dict in self.train_dataloader:
               metrics = {}

               batch: DataProto = DataProto.from_single_dict(batch_dict)
               # batch = batch.to('cuda')

               # pop those keys for generation
               gen_batch = batch.pop(batch_keys=['input_ids', 'attention_mask', 'position_ids'])

               # generate a batch
               with Timer(name='gen', logger=None) as timer:
                   gen_batch_output = self.actor_rollout_wg.generate_sequences(gen_batch)
               metrics['timing/gen'] = timer.last

               batch = batch.union(gen_batch_output)

               if self.use_reference_policy:
                   # compute reference log_prob
                   with Timer(name='ref', logger=None) as timer:
                       ref_log_prob = self.ref_policy_wg.compute_ref_log_prob(batch)
                       batch = batch.union(ref_log_prob)
                   metrics['timing/ref'] = timer.last

               # compute values
               with Timer(name='values', logger=None) as timer:
                   values = self.critic_wg.compute_values(batch)
                   batch = batch.union(values)
               metrics['timing/values'] = timer.last

               with Timer(name='adv', logger=None) as timer:
                   # compute scores. Support both model and function-based.
                   # We first compute the scores using reward model. Then, we call reward_fn to combine
                   # the results from reward model and rule-based results.
                   if self.use_rm:
                       # we first compute reward model score
                       reward_tensor = self.rm_wg.compute_rm_score(batch)
                       batch = batch.union(reward_tensor)

                   # we combine with rule-based rm
                   reward_tensor = self.reward_fn(batch)
                   batch.batch['token_level_scores'] = reward_tensor

                   # compute rewards. apply_kl_penalty if available
                   batch, kl_metrics = apply_kl_penalty(batch,
                                                           kl_ctrl=self.kl_ctrl_in_reward,
                                                           kl_penalty=self.config.algorithm.kl_penalty)
                   metrics.update(kl_metrics)

                   # compute advantages, executed on the driver process
                   batch = compute_advantage(batch,
                                               self.config.algorithm.gamma,
                                               self.config.algorithm.lam,
                                               adv_estimator=self.config.algorithm.adv_estimator)
               metrics['timing/adv'] = timer.last

               # update critic
               if self.use_critic:
                   with Timer(name='update_critic', logger=None) as timer:
                       critic_output = self.critic_wg.update_critic(batch)
                   metrics['timing/update_critic'] = timer.last
                   critic_output_metrics = reduce_metrics(critic_output.meta_info['metrics'])
                   metrics.update(critic_output_metrics)

               # implement critic warmup
               if self.config.trainer.critic_warmup <= global_steps:
                   # update actor
                   with Timer(name='update_actor', logger=None) as timer:
                       actor_output = self.actor_rollout_wg.update_actor(batch)
                   metrics['timing/update_actor'] = timer.last
                   actor_output_metrics = reduce_metrics(actor_output.meta_info['metrics'])
                   metrics.update(actor_output_metrics)

               # validate
               if self.val_reward_fn is not None and (global_steps + 1) % self.config.trainer.test_freq == 0:
                   with Timer(name='testing', logger=None) as timer:
                       val_metrics: dict = self._validate()
                       val_metrics = {f'val/{key}': val for key, val in val_metrics.items()}
                   metrics['timing/testing'] = timer.last
                   metrics.update(val_metrics)

               # collect metrics
               data_metrics = compute_data_metrics(batch=batch)
               metrics.update(data_metrics)

               # TODO: make a canonical logger that supports various backend
               logger.log(data=metrics, step=global_steps)

               if self.config.trainer.save_freq > 0 and (global_steps + 1) % self.config.trainer.save_freq == 0:
                   actor_local_path = os.path.join(self.config.trainer.default_local_dir, 'actor',
                                                   f'global_step_{global_steps}')
                   actor_remote_path = os.path.join(self.config.trainer.default_hdfs_dir, 'actor')
                   self.actor_rollout_wg.save_checkpoint(actor_local_path, actor_remote_path)

                   if self.use_critic:
                       critic_local_path = os.path.join(self.config.trainer.default_local_dir, 'critic',
                                                           f'global_step_{global_steps}')
                       critic_remote_path = os.path.join(self.config.trainer.default_hdfs_dir, 'critic')
                       self.critic_wg.save_checkpoint(critic_local_path, critic_remote_path)

               global_steps += 1

       # 在训练后进行验证
       if self.val_reward_fn is not None:
           val_metrics = self._validate()
           pprint(f'Final validation metrics: {val_metrics}')