全球首个去中心化训练的32B参数大模型:INTELLECT-2如何重塑AI训练范式

发布于 2025-8-11 06:03
浏览
0收藏

在大型语言模型(LLM)不断扩展参数规模和推理复杂度的今天,传统的集中式训练流程面临着越来越多的限制。高性能模型训练通常依赖于紧密耦合且具有快速互连的计算集群,这些集群成本高昂、可用性有限,并且容易出现可扩展性瓶颈。此外,集中式架构限制了广泛协作和实验的可能性,尤其是在开源研究环境中。

近日,PrimeIntellect发布了INTELLECT-2,这是一个拥有320亿参数的推理模型,采用广义强化策略优化(GRPO)在完全去中心化的异步强化学习框架内进行训练。与传统的集中式训练方法不同,INTELLECT-2通过全球分布式的、异构的、无需许可的计算贡献者网络进行训练,开创了大型语言模型训练的新范式。

该版本采用Apache 2.0许可,不仅包含模型权重,还包含完整的代码库和训练日志。INTELLECT-2在关键推理基准测试中超越了此前领先的QwQ-32B模型。这一开源发布旨在支持可重复性、可扩展性和持续研究,为开源社区提供了宝贵的资源。

全球首个去中心化训练的32B参数大模型:INTELLECT-2如何重塑AI训练范式-AI.x社区

架构与技术创新:分布式训练的全新范式

INTELLECT-2是基于专为分布式环境构建的全新训练堆栈开发的。该系统由三个主要组件构成:

PRIME-RL:异步强化学习框架

PRIME-RL是一个异步强化学习引擎,它将rollout生成、训练和参数分发三个阶段分离。这种解耦消除了同步更新的需要,并允许系统在多变且不可靠的网络条件下运行。与传统的集中式强化学习框架不同,PRIME-RL原生支持训练和推理的异步执行,使模型更新可以在可信的集中节点上计算,而rollout则可以在不可信的分散节点上独立生成。

PRIME-RL的架构将训练和推理组件完全分离为不同的可执行文件,它们仅在交换数据和检查点时通信。这种干净的分离消除了对像Ray这样的集中式协调器的需求,而且其两步异步设计有效地隐藏了通常与数据传输相关的延迟,创建了一个高效的分布式强化学习管道。

在训练方面,PRIME-RL使用PyTorch FSDP2对模型权重、梯度和优化器状态进行分片,遵循类似于ZeRO-3的策略。推理方面,它使用vLLM,并在bfloat16精度下加载模型。为了支持TOPLOC证明构建,它通过logits处理器中的钩子捕获最终隐藏状态。

SHARDCAST:高效的权重广播系统

SHARDCAST是一个基于HTTP树形拓扑网络的库,用于高效地将更新后的模型权重传播到分散的推理工作节点。它通过中继服务器网络分发检查点,类似于内容分发网络(CDN)。为了最小化延迟,检查点文件被分片并以流水线方式传输,允许推理工作节点在中继服务器上的完整检查点可用之前开始下载分片。

SHARDCAST解决了异步分布式强化学习中的关键挑战:确保最新的策略权重能够快速交付给推理工作节点。它使用nginx作为HTTP服务器,并配置了每IP速率限制和动态防火墙规则,以保护中继服务器免受恶意攻击。

为了最大化客户端吞吐量和负载均衡,SHARDCAST实现了一种基于预期吞吐量的概率采样策略,而不是让每个客户端总是选择最快的中继服务器。这种策略通过使用多个连接到不同中继服务器,实现了比任何单一连接更高的总带宽。

TOPLOC:可信推理验证机制

TOPLOC是一种基于局部敏感哈希的验证机制,用于检测推理输出中的修改。这对于确保分布式和潜在的非确定性硬件环境中的完整性至关重要。由于INTELLECT-2依赖不可信的计算节点进行推理,因此需要确保这些节点忠实地执行推理。

TOPLOC通过三类检查来确保可验证的合规性:

  1. 计算检查:每个推理工作节点为每个生成的序列生成TOPLOC证明,作为解码过程中产生的最终隐藏状态的加密承诺。可信验证节点随后使用预填充重建这些激活,并将其与提交的承诺进行比较以确认一致性。
  2. 采样检查:验证生成序列的终止标准是否合法(达到模型的最大上下文长度或生成EOS令牌),并检查logit分布以检测不一致性。
  3. 数据完整性检查:确保使用了正确的样本,并验证报告的标量值(如奖励和优势)是否在预定义的范围内。

Prime Intellect协议:去中心化协调层

Prime Inellect协议通过模块化、去中心化的协调层协调无需许可的节点。它为模型训练者提供了检查所有节点健康状况、查看日志和分发新任务的能力,类似于去中心化的SLURM。

该系统由多个用Rust实现的组件组成,包括去中心化账本、工作节点软件、发现服务和协调器。去中心化账本存储有关当前训练运行、所有权和工作节点贡献的信息。每个贡献者和计算池所有者都有用于签名交易和证明所有权的加密地址,确保API交互的安全性和计算资源的正确归属。

工作节点软件负责向中央协调器传输心跳和指标,并配置和管理本地Docker环境以执行任务。发现服务允许节点上传工作节点元数据信息,并将这些数据存储在Redis数据库中。协调器的核心任务包括分发任务和基于心跳观察分散工作节点的生命周期。

训练配方:优化分布式强化学习

INTELLECT-2的目标是训练一个具有推理能力的模型,特别是在数学和编码领域。此外,它还旨在通过允许用户在任务提示中指定所需的思考令牌数量,来控制模型的思考预算。作为基础模型,团队使用了QwQ-32B,并在很大程度上遵循了Deepseek-R1的基于GRPO的训练方法,结合可验证奖励。

训练数据与奖励

INTELLECT-2使用双重目标进行训练:一方面是鼓励模型在数学和编码任务上改进推理的任务奖励,另一方面是长度奖励,以教导模型遵守提示中提供的思考预算。

团队策划了一个训练数据集,由可通过符号验证/字符串匹配和单元测试执行进行验证的数学和编码任务组成。他们选择了来自NuminaMath-1.5和Deepscaler的高质量数学问题,以及之前为SYNTHETIC-1策划的编码任务。完整数据集包含285k个任务,其中包括26k个基于Python的算法编码挑战和259k个数学问题。

对于数学和代码任务,他们实现了二元奖励,正确响应分配1分,错误响应分配0分。此外,他们还纳入了长度奖励,使用户能够在任务提示的一部分中指定INTELLECT-2的思考预算。

异步强化学习

INTELLECT-2使用异步强化学习来利用专用的推理和训练节点,最大限度地减少GPU空闲时间。在集中式异步RL训练设置中,更新后的策略权重可以立即用于下一个RL步骤的训练。但在分布式设置中,由于权重广播需要时间,推理工作节点无法立即获得更新后的策略权重,因此使用的是来自两个或更多步骤之前的权重。

全球首个去中心化训练的32B参数大模型:INTELLECT-2如何重塑AI训练范式-AI.x社区

团队进行了消融实验,验证异步RL训练不会损害模型性能。结果表明,即使异步级别高达四步,模型的奖励轨迹仍与同步基线的轨迹匹配,表明在稍微离策略的数据上训练不会损害RL训练的性能。

离线与在线数据过滤

在消融实验中,团队发现按难度过滤数据集对训练性能有显著影响。他们同时采用了训练前的离线过滤和选择性选择训练样本的在线过滤。

对于离线过滤,他们发现从训练集中过滤掉太简单或太难的问题至关重要。在使用Deepscaler数学数据集训练DeepSeek-R1-Distill-Qwen-7B时,过滤掉基础模型pass@8率高于50%和低于12.5%的问题后,奖励显著提高。

对于在线过滤,由于GRPO和RLOO等训练算法依赖于基于组的相对奖励来计算优势,如果一个问题的所有完成获得相同的奖励,则这些样本的优势为零,除了辅助损失外没有训练信号。为了缓解这一问题,他们在执行训练步骤之前,持续从推理工作节点采样响应,直到有一个完整批次的非零优势样本。

双边GRPO裁剪提高训练稳定性

在训练过程中,团队面临损失和梯度范数峰值导致的不稳定性,特别是随着模型变大。经检查,他们发现主要原因是GRPO和类PPO训练目标中采用的单边令牌概率比裁剪。

为了缓解这一问题,他们引入了一个额外的超参数δ,在负优势情况下为令牌概率比添加上限:

JGRPO(θ) = Eq∼P(Q), {oi}G i=1∼πθold(O|q) 1/G ∑G i=11/|oi| ∑|oi| t=1[min(min(πθ(oi,t|q, oi,<t)/πθold(oi,t|q, oi,<t), δ)ˆAi,t, clip(πθ(oi,t|q, oi,<t)/πθold(oi,t|q, oi,<t), 1−ε, 1+ε)ˆAi,t)]

δ值应高于1+ε,以仍然允许远离不良rollout的大幅更新,但避免数百或更高的巨大令牌概率比。有了这一改变,训练稳定性显著提高。

缓解大规模训练不稳定性

尽管上述双边GRPO裁剪机制显著减少了大幅损失和梯度峰值,但在使用更大模型时,团队观察到了额外类型的训练不稳定性,这些不稳定性与大规模预训练中遇到的不稳定性相似。

他们观察到梯度范数逐渐但持续增加,即使在没有立即峰值的情况下。这种现象似乎与模型大小相关,在更大的架构中更为明显。他们发现采用激进的梯度裁剪(阈值低至0.05-0.1)有效缓解了稳定性问题,而不会显著阻碍收敛。

此外,他们还观察到令牌概率裁剪比在训练期间稳步增加,以及熵损失的独特模式:在初始下降后,熵损失开始上升趋势,这通常预示着灾难性训练失败。

有趣的是,团队注意到基于QwQ的训练比基于DeepSeek-R1-Distill-Qwen-32B的训练稳定性更差,尽管两者都基于相同的预训练模型(Qwen 2.5)。他们推测,这种差异源于QwQ已经经历了一阶段可验证奖励的强化学习,这种先前的RL训练似乎使模型更容易受到后续优化不稳定性的影响。

实验与结果:分布式训练的实证验证

在两周内,团队使用由可信训练集群和验证器节点以及不可信、社区贡献的异构推理工作节点组成的设置进行了多次训练运行。

实验设置

使用QwQ-32B作为基础模型,团队采用了修改后的GRPO进行训练,裁剪阈值ε=0.2,δ=4,熵损失系数为1e-4。他们将KL散度损失系数设为0.001,将α设为0.0003以平衡任务和长度奖励,并在0.1处应用梯度范数裁剪。训练使用学习率3e-7,预热步骤25;在每个rollout步骤中,他们生成了4096个样本,由对256个提示的16个响应组成,并使用512的批量大小执行8个优化器步骤。

为了最大限度地提高32K序列长度的计算效率,团队实现了序列打包,以解决样本长度的显著差异。尽管RL基本上需要保留完整样本,但GRPO的令牌级损失公式允许他们通过调整注意力掩码并将样本整理到序列维度中来实现跨样本打包。这一优化对于扩展到20K+序列长度至关重要,同时保持了跨打包序列的交叉熵计算的完整性。

计算利用率

在两个主要实验中,团队成功地通过异步强化学习重叠了通信和计算。SHARDCAST广播到所有节点平均需要14分钟,对应约590 Mb/s的带宽吞吐量。具有更好连接性的节点更早接收检查点,允许它们提前开始数据生成。此外,具有更多计算资源的节点(如完整H100节点)更快地生成批次。

训练与推理FLOP的比率在两个实验中平均为4.5×,在分散的推理工作节点上花费的计算量明显多于训练方面。异步设置有效地与广播、推理生成和验证阶段同步,确保几乎完美的计算重叠,最小化GPU空闲时间。

奖励轨迹

在整个训练过程中,团队看到任务奖励显著提高,表明模型在数学和编码问题上的表现有所改善。他们还看到长度惩罚减少,但比1.5B和7B参数模型的消融实验慢得多。因此,他们的模型在给定的实验时间内没有学会严格遵守指定的思考预算。

基准性能

团队使用evalchemy及其默认设置来测试模型在常见推理基准上的性能。如表1所示,他们能够提高QwQ-32B在数学和编码基准上的性能,同时在IFEval上略有下降,这可能是由于他们仅在数学和编码任务上进行训练,而不是使用更通用的指令遵循任务。

模型

AIME24

AIME25

LiveCodeBench (v5)

GPQA-Diamond

IFEval

INTELLECT-2

78.8

64.9

67.8

66.8

81.5

QwQ-32B

76.6

64.8

66.1

66.3

83.4

Qwen-R1-Distill-32B

69.9

58.4

55.1

65.2

72.0

Deepseek-R1

78.6

65.1

64.1

71.6

82.7

总体而言,由于QwQ-32B已经通过强化学习进行了广泛训练,因此很难在基准测试上获得大量泛化改进,超出他们在训练数据集上的改进。要看到更强的改进,可能需要更好的基础模型(如现在可用的Qwen3)或更高质量的数据集和RL环境。

讨论:测试时计算范式中的去中心化训练

随着大型语言模型的计算需求在近年来增加了几个数量级,跨数据中心的分布式训练变得越来越相关。除了为协作开源开发提供经济可持续的路径外,训练这些模型所需的计算能力和能源很快将超过世界上最大的数据中心。

到目前为止,大多数进展来自扩展参数和数据集大小——通常称为预训练扩展。最近,一个互补的进展轴出现了:测试时计算扩展,如在以推理为重点的模型中所见。

虽然这两种形式的扩展都与去中心化兼容,但团队认为测试时计算扩展特别适合去中心化训练。它减少了协调要求,并将计算需求转向推理,使异构设备能够更广泛地参与。

异步RL隐藏了大部分通信开销

通信是去中心化训练中的主要瓶颈。DiLoCo等技术可以将预训练通信开销减少高达两个数量级。然而,随着模型大小的增加,通信——特别是阻塞通信——再次成为限制因素。

一个有前途的策略是重叠通信和计算。与ZeRO-offload等延迟梯度应用并影响收敛的方法不同,延迟RL中的rollout提供了更好的权衡。这是因为延迟应用于模型级别,而不是优化步骤。即使模型稍微离策略,它仍然可以生成有用的推理轨迹,导致正面奖励,这是有效的训练信号。

进一步的研究需要评估超过两步的异步RL延迟。尽管如此,使用4-5步的延迟,可以有效地隐藏RL管道中的各种阻塞阶段——包括权重广播、环境验证、无需许可的验证和相对KL对数概率计算。这一策略提高了训练和推理的计算利用率,并实现了更大的硬件异构性。

推理将消耗大部分计算

在INTELLECT-2中,训练与推理的计算比约为1:4。团队预计,随着测试时推理的扩展,这一比率将更加倾向于推理。这一趋势为在全球分布式异构计算资源上训练具有数千亿参数的模型打开了大门。

这一转变的关键驱动因素是数据集过滤。如图8所示,当训练专注于更具挑战性的样本时,模型能力会提高。然而,推理过程中生成的并非所有数据都有用。随着模型处理更困难的任务,正面奖励越来越稀疏,推理将需要比训练多得多的计算。在这种情况下,生成高质量的rollout成为主要的计算成本。

这种计算需求的不对称重塑了去中心化RL的扩展动态,并间接解决了其历史限制之一:内存限制。通过将大部分工作负载转移到推理——内存需求显著低于训练——去中心化训练在更广泛的硬件范围内变得可行。

结论与未来工作

INTELLECT-2是全球首个通过分布式异步强化学习训练的32B参数大型语言模型,它开创了大型语言模型训练的新范式。团队开源了训练模型、任务和验证器环境,以及所有基础设施组件,包括训练框架PRIME-RL。这一开源发布为研究社区探索去中心化训练提供了宝贵的资源,有助于推进全球分布式强化学习作为构建前沿开源模型的基础。

虽然INTELLECT-2是朝着以去中心化方式训练开源前沿推理模型的第一步,但仍有几个未来工作方向值得探索:

  1. 增加强化学习中推理与训练计算的比率:由于推理是无限可并行的,不需要工作节点之间的通信,因此相对于训练花费更高计算量的RL训练配方非常适合去中心化训练。如VinePPO等方法花费额外时间进行推理,以计算基于蒙特卡洛的价值估计,而不是利用像PPO这样的价值网络,是一个值得探索的有趣领域。
  2. 推理模型的工具调用:最新一代专有推理模型可以在推理链中访问工具调用,如网络搜索或Python解释器。开源研究在这一方向已有初步成果,为进一步扩展这些方法并训练能够利用此类工具的更大开源推理模型打开了大门。
  3. 众包RL任务和环境:要教导模型新技能,需要构建多样化的RL环境。这归结为一个传统的软件工程问题,高度可并行,需要具有专业领域知识的各种贡献者,非常适合开源、社区驱动的努力。
  4. 模型合并和DiLoCo:模型合并已成为最近工作中的有效后训练技术。这种能力是否扩展到推理任务仍是一个开放问题。然而,能够合并在不同推理领域上训练的模型将标志着跨并行计算资源扩展异步强化学习的重要一步。

INTELLECT-2展示了全球去中心化RL的可行性,为开源社区提供了一个强大的基础,可以在此基础上构建更强大、更灵活的AI系统。随着测试时计算范式的发展,去中心化训练将在塑造AI未来方面发挥越来越重要的作用。。

参考资料

本文转载自​顿数AI​,作者:小顿

已于2025-8-11 06:03:56修改
收藏
回复
举报
回复
相关推荐