
解决 LLM 后训练瓶颈:SAPO 去中心化集群,共享 RL 经验提效
集群采样策略优化(Swarm Sampling Policy Optimization,简称SAPO)是一种去中心化的异步强化学习(RL)算法,适用于语言模型(LM)后训练任务。该算法可在异构计算节点上运行,通过网络共享轨迹(rollouts)以传递学习洞见,避免大规模并行化带来的瓶颈问题,降低成本,并在实验中实现了高达94%的奖励提升(包括在数千个多样化社区节点上的测试)。
方法原理
由N个节点组成的集群会随时间生成并交换轨迹(rollouts)。每个节点都拥有一个含可验证任务的数据集,这些任务带有已知解决方案及说明正确性校验方式的元数据。节点持有一个策略(即语言模型),该策略会为每个任务生成多个答案,这些答案即为“轨迹”。不同节点间的轨迹必须采用兼容的模态格式。数据集、答案数量及轨迹均会随时间动态变化,且可通过提示词生成(prompt generation)控制任务难度。节点并非强制要求参与训练,且可采用任何兼容的策略(包括人类或其他非传统生成器)。
在每个训练轮次中,节点会执行以下步骤:
- 采样一批任务;
- 生成轨迹;
- 将轨迹子集(含元数据、真值标签及轨迹本身)共享至整个集群。 随后,各节点会结合自身生成的轨迹与其他节点共享的轨迹构建训练数据集,且节点对数据集的筛选或选择拥有完全控制权。训练集构建完成后,节点会使用本地奖励模型计算奖励,并通过策略梯度方法(如近端策略优化PPO、GRPO等)更新自身策略。上述过程会在各训练轮次中重复进行。
受控实验设置
实验采用了ReasoningGYM数据集,该数据集可生成海量可验证问题,涵盖代数、逻辑、图推理等领域。实验选取了9个不同的专业任务类别,每个智能体(agent)在每个训练轮次中,每个任务类别会接收1个问题,并为每个问题生成8个补全答案(completions)。策略更新采用GRPO算法,且未使用KL散度惩罚项(KL penalty)。奖励由ReasoningGYM的基于规则的验证器生成(正确答案记1分,错误答案记0分);由于正确格式可通过集群共享传播,因此无需额外设置格式奖励。实验在GenRL框架上运行,该框架为去中心化架构,可与ReasoningGYM集成,并支持可扩展的多智能体强化学习。
受控实验结果
研究人员将标准强化学习微调(无经验共享)与SAPO算法的不同配置(混合本地轨迹与外部轨迹,且保持训练样本数量固定)进行了对比。结果表明,经验共享可显著提升性能:
- “4个本地轨迹/4个外部轨迹”的配置实现了最高累积奖励;
- 其次是“2个本地轨迹/6个外部轨迹”和“6个本地轨迹/2个外部轨迹”的配置;
- “4/4”配置相较于基准模型(无共享)实现了94%的奖励提升,且在所有训练轮次中始终保持更高的平均奖励。
然而,过度依赖外部轨迹(如“2/6”配置)会导致性能波动并降低整体表现,其原因在于:
- 过度依赖性能较弱智能体的输出;
- 共享数据池中有效信息被稀释。 综上,均衡的经验共享可实现最佳效果——既能在集群中传递“顿悟时刻”(Aha moments,即关键学习洞见),又能避免因过度依赖外部数据导致的训练不稳定性。
大规模集群训练:来自开源演示的洞见
研究团队通过包含数千个社区节点的大规模演示实验,在异构环境下测试了SAPO算法。实验中,所有节点通过中央评判器(central judge)使用ReasoningGYM任务进行性能评估。结果显示:
- 集群训练可显著提升中等规模模型的性能,例如Qwen2.5(0.5B参数模型)在约175个训练轮次后,性能超过了孤立训练(无共享)的模型;
- 更大规模的模型(如Qwen3,0.6B参数模型)则未表现出明显差异,这表明SAPO算法的优势在中等容量模型上最为显著。
由于实验中轨迹采用均匀采样方式(未进行筛选),大量低价值样本稀释了集群数据的整体质量。研究人员指出,若采用更优的采样策略,SAPO的优势有望扩展至性能更强的模型。
参考文献
https://arxiv.org/abs/2509.08721Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
本文转载自AIGC深一度
