训练器接口 ============== 最后更新:2025 年 8 月 6 日(API docstrings 自动生成)。 训练器负责驱动训练循环。鼓励在出现新的训练范式时引入新的训练器类。 .. autosummary:: :nosignatures: verl.trainer.ppo.ray_trainer.RayPPOTrainer 核心 API ~~~~~~~~~~~~~~~~~ .. autoclass:: verl.trainer.ppo.ray_trainer.RayPPOTrainer :members: __init__, init_workers, fit .. automodule:: verl.utils.tokenizer :members: hf_tokenizer .. automodule:: verl.trainer.ppo.core_algos :members: agg_loss, kl_penalty, compute_policy_loss, kl_penalty .. automodule:: verl.trainer.ppo.reward :members: load_reward_manager, compute_reward, compute_reward_async .. autoclass:: verl.workers.reward_manager.NaiveRewardManager .. autoclass:: verl.workers.reward_manager.DAPORewardManager