奖励循环
========

最后更新：2025年10月10日。

.. warning::
   奖励循环仍在进行中。

奖励循环旨在实现更灵活、更易用的奖励计算。

**设计目标**：

- 通过异步设计支持更高效的奖励计算
- 为用户定制的奖励函数提供更灵活的奖励模型接口
- 在多个奖励服务器之间提供请求级别的负载均衡