奖励循环 ======== 最后更新:2025年10月10日。 .. warning:: 奖励循环仍在进行中。 奖励循环旨在实现更灵活、更易用的奖励计算。 **设计目标**: - 通过异步设计支持更高效的奖励计算 - 为用户定制的奖励函数提供更灵活的奖励模型接口 - 在多个奖励服务器之间提供请求级别的负载均衡