鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL

发布于 2025-10-20 07:56

浏览

0收藏

这篇来自 Meta的论文(The Art of Scaling Reinforcement Learning Compute for LLMs)是迄今为止关于强化学习（RL）在大语言模型（LLM）中如何随规模扩展的最深入研究之一。论文耗费了超过 40 万 GPU 小时的实验，找到了一个可预测的扩展规律和一套稳定可复现的训练配方（ScaleRL），能够在计算资源增加时持续奏效。可以将其视为一份实用指南 —— 适用于任何想用 RL 训练推理或对齐模型的人。

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

洞见：RL 的进步遵循可预测的曲线：当你将模型性能与计算量作图时，增长并不是随机的，而是呈现出一个 S 形（sigmoid）曲线。

这条曲线只由三个简单参数决定：

•A = 最终能达到的最佳性能上限

•B = 达到该上限的效率

•C_mid = 到达性能一半所需的计算量

令人惊叹的是：你只需在小规模实验上拟合这条曲线，就能准确预测一次 10 万 GPU 小时大规模训练的表现。这意味着——再也不用盲目烧算力，可以在训练前预测 RL 的极限性能。

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

“ScaleRL”——一套经验证的稳定 RL 方案：论文测试了数十种 RL 变体，最终找到一种可以稳定扩展到 10 万 GPU 小时的组合方案：

•PipelineRL（8 条流水线） + CISPO 损失函数（一种稳定化的 REINFORCE 变体）

•Prompt 级平均 + Batch 级归一化 → 降低方差

•FP32 logits → 更高稳定性和更优最终精度

•No-Positive-Resampling 课程策略 → 避免奖励投机（reward hacking）

•强制中断（截断长思考） → 取代对长输出的惩罚

这种组合被称为 ScaleRL，实现了在稳定性、样本效率和极限性能之间的最佳平衡。

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

提升 RL 结果的关键因素：并非所有技巧都同等重要：

•损失函数与精度是最关键的：CISPO + FP32 logits 将最终通过率从约 52% 提升到 61%。

•归一化、聚合与课程策略主要影响收敛速度（效率），而非最终性能上限。

•一些看似先进的变体（如 GRPO、DAPO、Magistral）在扩展后表现不如 ScaleRL。

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

训练扩展的实用建议：若你计划进行大规模 RL 训练：

•更长上下文窗口（至 32k tokens） → 提升最终性能，但会拖慢早期训练。

•更大的全局 batch size → 提升稳定性和最终精度；小 batch 容易陷入停滞。

•更大的模型或 MoE 模型 → 以更少计算量获得更高奖励上限。

•每个 prompt 生成更多样本 → 略有帮助，但远不如想象中重要。

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

让强化学习不再烧冤枉算力：Meta提出可预测的RL扩展公式 ScaleRL-AI.x社区

指南

•使用 1000 条 prompt 的验证集，实时监控模型通过率曲线。

•尽早拟合 sigmoid 曲线，判断是否在浪费算力。

•关注截断率（若输出频繁被中断，说明训练不稳定）。

•优先中断长输出，而非惩罚它们。

•选择训练方案时，应先优化上限性能（A），再微调效率（B）。

本文转载自AI帝国，作者：无影寺

标签

已于2025-10-20 07:56:37修改

赞

收藏

回复

举报

回复

相关推荐

扩散模型如何帮助创建更好的强化学习系统

51CTO内容精选 • 3783浏览 • 0回复
Nature：最大扩散强化学习

ceesoft • 5050浏览 • 0回复
Transformers学习上下文强化学习的时间差分方法

AIGC最前线 • 3509浏览 • 0回复
机器学习有哪些类型？监督学习、无监督学习、强化学习、深度学习等等！

parson2000 • 5191浏览 • 0回复
从具身智能再谈强化学习，为什么需要强化学习，以及强化学习的应用场景

AI探索时代 • 4352浏览 • 0回复
为啥强化学习开始成为了大语言模型（LLM）的新宠？

智驻未来 • 4100浏览 • 0回复
突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型

Aceryt • 3415浏览 • 0回复
清华团队靠强化学习让 7B 模型打败 GPT-4o 数学推理

Aceryt • 3707浏览 • 0回复
基于多模态深度强化学习的投资组合优化

灵度智能 • 4789浏览 • 0回复
基于深度强化学习的投资组合配置动态优化

灵度智能 • 5519浏览 • 0回复
一文搞懂 DeepSeek - 强化学习和蒸馏

玄姐聊AGI • 4376浏览 • 0回复
谷歌提出Titans：突破算力限制，扩展上下文

Aceryt • 3121浏览 • 0回复
强化学习与软件工程：开源软件奖励演化的强化学习

AI研究前瞻 • 3103浏览 • 0回复
多智能体强化学习如何让AI回答更精准？MMOA-RAG的突破性进展

Halo咯咯 • 4556浏览 • 0回复
白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

后向传播 • 8189浏览 • 0回复
Logic-RL：基于规则强化学习的推理释放

顿数AI • 3317浏览 • 0回复
强化学习强在哪里？基础探索

柏企阅文 • 2434浏览 • 0回复
智能体强化学习综述；强化学习原生GUI智能体；多轮工具交互强化学习；模块化多轮工具强化学习

AI研究前瞻 • 2747浏览 • 0回复
牛津+上海 AI 实验室联合全球15+顶校合著Agentic RL综述：讲透智能体强化学习范式革命

十一月雨_55 • 4289浏览 • 0回复
早期经验监督的智能体强化学习；推理元信息感知的强化学习奖励；安全与有效联合训练智能体框架

AI研究前瞻 • 1330浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Dr.LLM：大语言模型中的动态层路由 14h前发布
Inoculation Prompting：让大模型在训练时“学坏”，测试时更听话 14h前发布

热门推荐

阿里新一代企业级多 AI 智能体开发框架 AgentScope 技术架构全解析 0回复

代码41%由AI生成！2025七大编程工具深度对比，你的选择是？ 0回复

DeepSeek 成长史：从量化投资到 AI 革命的一个 “非主流” 量化大佬的 AI 梦 0回复

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

Cursor 1.3 ~ 1.6 版本更新全梳理：终端不再挂、Agent 更聪明、上下文更可控 0回复

上一篇：如何使用 Unsloth & Docker 训练大语言模型

下一篇： Inoculation Prompting：让大模型在训练时“学坏”，测试时更听话

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载