让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL

发布于 2025-10-20 07:56
浏览
0收藏

这篇来自 Meta的论文(The Art of Scaling Reinforcement Learning Compute for LLMs)是迄今为止关于 强化学习(RL)在大语言模型(LLM)中如何随规模扩展 的最深入研究之一。论文耗费了 超过 40 万 GPU 小时的实验,找到了一个 可预测的扩展规律 和一套 稳定可复现的训练配方(ScaleRL),能够在计算资源增加时持续奏效。可以将其视为一份 实用指南 —— 适用于任何想用 RL 训练推理或对齐模型的人。

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

洞见:RL 的进步遵循可预测的曲线:当你将 模型性能与计算量 作图时,增长并不是随机的,而是呈现出一个 S 形(sigmoid)曲线。

这条曲线只由三个简单参数决定:

•A = 最终能达到的最佳性能上限

•B = 达到该上限的效率

•C_mid = 到达性能一半所需的计算量

令人惊叹的是:你只需在小规模实验上拟合这条曲线,就能准确预测一次 10 万 GPU 小时大规模训练的表现。这意味着——再也不用盲目烧算力,可以在训练前预测 RL 的极限性能。

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区


“ScaleRL”——一套经验证的稳定 RL 方案:论文测试了数十种 RL 变体,最终找到一种可以稳定扩展到 10 万 GPU 小时的组合方案:

•PipelineRL(8 条流水线) + CISPO 损失函数(一种稳定化的 REINFORCE 变体)

•Prompt 级平均 + Batch 级归一化 → 降低方差

•FP32 logits → 更高稳定性和更优最终精度

•No-Positive-Resampling 课程策略 → 避免奖励投机(reward hacking)

•强制中断(截断长思考) → 取代对长输出的惩罚

这种组合被称为 ScaleRL,实现了在稳定性、样本效率和极限性能之间的最佳平衡。

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

提升 RL 结果的关键因素:并非所有技巧都同等重要:

•损失函数与精度 是最关键的:CISPO + FP32 logits 将最终通过率从约 52% 提升到 61%。

•归一化、聚合与课程策略 主要影响收敛速度(效率),而非最终性能上限。

•一些看似先进的变体(如 GRPO、DAPO、Magistral)在扩展后表现不如 ScaleRL。

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

训练扩展的实用建议:若你计划进行大规模 RL 训练:

•更长上下文窗口(至 32k tokens) → 提升最终性能,但会拖慢早期训练。

•更大的全局 batch size → 提升稳定性和最终精度;小 batch 容易陷入停滞。

•更大的模型或 MoE 模型 → 以更少计算量获得更高奖励上限。

•每个 prompt 生成更多样本 → 略有帮助,但远不如想象中重要。

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力:Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

指南

•使用 1000 条 prompt 的验证集,实时监控模型通过率曲线。

•尽早拟合 sigmoid 曲线,判断是否在浪费算力。

•关注 截断率(若输出频繁被中断,说明训练不稳定)。

•优先中断长输出,而非惩罚它们。

•选择训练方案时,应 先优化上限性能(A),再微调 效率(B)。

本文转载自​AI帝国​,作者:无影寺

已于2025-10-20 07:56:37修改
收藏
回复
举报
回复
相关推荐