鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

解决 LLM 后训练瓶颈：SAPO 去中心化集群，共享 RL 经验提效

发布于 2025-9-17 07:26

浏览

0收藏

集群采样策略优化（Swarm Sampling Policy Optimization，简称SAPO）是一种去中心化的异步强化学习（RL）算法，适用于语言模型（LM）后训练任务。该算法可在异构计算节点上运行，通过网络共享轨迹（rollouts）以传递学习洞见，避免大规模并行化带来的瓶颈问题，降低成本，并在实验中实现了高达94%的奖励提升（包括在数千个多样化社区节点上的测试）。

方法原理

由N个节点组成的集群会随时间生成并交换轨迹（rollouts）。每个节点都拥有一个含可验证任务的数据集，这些任务带有已知解决方案及说明正确性校验方式的元数据。节点持有一个策略（即语言模型），该策略会为每个任务生成多个答案，这些答案即为“轨迹”。不同节点间的轨迹必须采用兼容的模态格式。数据集、答案数量及轨迹均会随时间动态变化，且可通过提示词生成（prompt generation）控制任务难度。节点并非强制要求参与训练，且可采用任何兼容的策略（包括人类或其他非传统生成器）。

解决 LLM 后训练瓶颈：SAPO 去中心化集群，共享 RL 经验提效-AI.x社区

在每个训练轮次中，节点会执行以下步骤：

采样一批任务；
生成轨迹；
将轨迹子集（含元数据、真值标签及轨迹本身）共享至整个集群。随后，各节点会结合自身生成的轨迹与其他节点共享的轨迹构建训练数据集，且节点对数据集的筛选或选择拥有完全控制权。训练集构建完成后，节点会使用本地奖励模型计算奖励，并通过策略梯度方法（如近端策略优化PPO、GRPO等）更新自身策略。上述过程会在各训练轮次中重复进行。

受控实验设置

实验采用了ReasoningGYM数据集，该数据集可生成海量可验证问题，涵盖代数、逻辑、图推理等领域。实验选取了9个不同的专业任务类别，每个智能体（agent）在每个训练轮次中，每个任务类别会接收1个问题，并为每个问题生成8个补全答案（completions）。策略更新采用GRPO算法，且未使用KL散度惩罚项（KL penalty）。奖励由ReasoningGYM的基于规则的验证器生成（正确答案记1分，错误答案记0分）；由于正确格式可通过集群共享传播，因此无需额外设置格式奖励。实验在GenRL框架上运行，该框架为去中心化架构，可与ReasoningGYM集成，并支持可扩展的多智能体强化学习。

受控实验结果

解决 LLM 后训练瓶颈：SAPO 去中心化集群，共享 RL 经验提效-AI.x社区

研究人员将标准强化学习微调（无经验共享）与SAPO算法的不同配置（混合本地轨迹与外部轨迹，且保持训练样本数量固定）进行了对比。结果表明，经验共享可显著提升性能：

“4个本地轨迹/4个外部轨迹”的配置实现了最高累积奖励；
其次是“2个本地轨迹/6个外部轨迹”和“6个本地轨迹/2个外部轨迹”的配置；
“4/4”配置相较于基准模型（无共享）实现了94%的奖励提升，且在所有训练轮次中始终保持更高的平均奖励。

解决 LLM 后训练瓶颈：SAPO 去中心化集群，共享 RL 经验提效-AI.x社区

然而，过度依赖外部轨迹（如“2/6”配置）会导致性能波动并降低整体表现，其原因在于：

过度依赖性能较弱智能体的输出；
共享数据池中有效信息被稀释。综上，均衡的经验共享可实现最佳效果——既能在集群中传递“顿悟时刻”（Aha moments，即关键学习洞见），又能避免因过度依赖外部数据导致的训练不稳定性。

大规模集群训练：来自开源演示的洞见

解决 LLM 后训练瓶颈：SAPO 去中心化集群，共享 RL 经验提效-AI.x社区

研究团队通过包含数千个社区节点的大规模演示实验，在异构环境下测试了SAPO算法。实验中，所有节点通过中央评判器（central judge）使用ReasoningGYM任务进行性能评估。结果显示：

集群训练可显著提升中等规模模型的性能，例如Qwen2.5（0.5B参数模型）在约175个训练轮次后，性能超过了孤立训练（无共享）的模型；
更大规模的模型（如Qwen3，0.6B参数模型）则未表现出明显差异，这表明SAPO算法的优势在中等容量模型上最为显著。

由于实验中轨迹采用均匀采样方式（未进行筛选），大量低价值样本稀释了集群数据的整体质量。研究人员指出，若采用更优的采样策略，SAPO的优势有望扩展至性能更强的模型。

参考文献

https://arxiv.org/abs/2509.08721Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

本文转载自AIGC深一度

标签

赞

收藏

回复

举报

回复

相关推荐

大神Aviral Kumar：价值学习真的是离线 RL 的主要瓶颈吗？

AIGC最前线 • 3632浏览 • 0回复
剖析大规模 GPU 集群：针对 LLM 场景的挑战和优化

amei2000go • 6831浏览 • 0回复
阿里 HPN：针对大规模 LLM 训练的万卡集群

amei2000go • 7357浏览 • 0回复
自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

xuxiangda • 6602浏览 • 0回复
打破视觉-语言预训练的瓶颈：新算法解决噪声和标注问题

AI论文解读 • 4170浏览 • 0回复
大模型训练集群的存储设计

夜行神鱼 • 4111浏览 • 0回复
INTELLECT-1：全球首个去中心化训练的 10B 参数大模型

Syrupup • 4041浏览 • 0回复
快手动效渲染引擎Crab，解锁“游戏化动效”开发新方式！

快手技术 • 3551浏览 • 0回复
Hugging Face 发布 Picotron：解决 LLM 训练 4D 并行化的微型框架

Halo咯咯 • 3052浏览 • 0回复
LLM之后，Agent的未来是RL！

探索AGI • 5238浏览 • 0回复
DeepSeek爆火：普通人跨越AI提效终局的10倍进化指南

ermulong • 2898浏览 • 0回复
多代理微调如何克服 LLM 的数据瓶颈

51CTO内容精选 • 3004浏览 • 0回复
DeepSeek-R1+Dify打造AI简历筛选神器，3步提效300%！

风云2002_1 • 4180浏览 • 0回复
如何在LLM训练过程中精妙设计SFT与RL步骤—— LLM训练框架推荐

shizhi02 • 3062浏览 • 0回复
半年复盘，AI迎来预训练后的新瓶颈

探索AGI • 1479浏览 • 0回复
AI提效99.5%！英国政府联手 Gemini，破解城市规划审批困局

ermulong • 1741浏览 • 0回复
全球首个去中心化训练的32B参数大模型：INTELLECT-2如何重塑AI训练范式

顿数AI • 2674浏览 • 0回复
知识图谱常用的八款可视化提效神器

数智飞轮 • 1507浏览 • 0回复
谷歌首个nana-banana多模态RAG实战：彻底告别关键词搜索，让AI为电商游戏提效

AI博物院 • 1952浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

能 “替科学家写代码” 的 AI 来了！谷歌新系统突破科研瓶颈，加速科学发现 5h前发布
DuPO 凭 “广义对偶性” 实现无标注提升，7B 模型比肩 DeepSeek-R1 2025-09-04 06:58:27发布

热门推荐

Agentic新SOTA诞生！美团开源5600亿参数MoE大模型的效率革命 0回复

智能体主流框架深度研究报告：功能特性、用户群体、技术架构与商业化路径分析 0回复

一键搞定补帧+上色！神器ToonComposer让动画“动”起来、“靓”起来！效率飙升！ 1回复

2025年AI Builder 工具箱：20个开源神器让你效率飙升 0回复

即梦图片4.0来了！文生图修图组图一键搞定，小白也能秒变设计师 0回复

上一篇： DuPO 凭 “广义对偶性” 实现无标注提升，7B 模型比肩 DeepSeek-R1

下一篇：能 “替科学家写代码” 的 AI 来了！谷歌新系统突破科研瓶颈，加速科学发现

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载