# GPG:策略梯度 上次更新时间:2025 年 7 月 3 日。 策略梯度 (GPG) 是一种极简的强化学习 (RL) 方法,它能在不依赖监督微调或复杂技巧的情况下,增强大型语言模型的推理能力。GPG 重新审视了传统的策略梯度,并直接优化 RL 目标——没有代理损失、没有 KL 惩罚、没有判别器,也没有参考模型。与 GRPO 相比,GPG 更简单、更高效,并且在许多任务上取得了更好的结果。更多详情,请参阅原始论文 [GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning ](https://arxiv.org/abs/2504.02546)。 ## 核心组件 - 使用修正后的优势函数,以提高策略梯度的准确性和训练效率。 - 通过消除判别器(critic)和参考模型,并避免 KL 散度约束,与组相对策略优化 (GRPO) 相比,显著简化了训练过程。 ## 配置 要在框架内配置 GPG,请使用以下 YAML 设置。 ```yaml algorithm: adv_estimator: gpg actor_rollout_ref: actor: policy_loss: loss_mode: "gpg" ``` ## 高级扩展 GPG 是一个简单而强大的模型推理基线。虽然它在原始形式中避免了使用 KL 损失,但您仍然可以使用 KL 损失来进一步提高性能。 ```yaml algorithm: adv_estimator: gpg actor_rollout_ref: actor: use_kl_loss: True # 启用 KL 正则化 kl_loss_coef: 0.01 policy_loss: loss_mode: "gpg" ```