
DeepSeek发文:纯强化学习如何激发大模型推理能力
Nature最新论文深度剖析:从15.6%到86.7%,这是如何实现的?
DeepSeek-R1 论文首登《自然》封面,梁文锋团队正面回应蒸馏质疑、发布详尽安全报告
9月17日,在Nature上发表的DeepSeek-R1论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》[1]引起了业界广泛关注。这不仅仅是因为它在AIME 2024数学竞赛上取得了86.7%的惊人成绩,更重要的是它展示了一条完全不同的技术路径:不依赖人工标注的推理轨迹,纯粹通过强化学习让大模型自发学会推理。
DeepSeek-R1 基于强化学习的推理能力激发架构
传统方法的瓶颈:人类标注的天花板
在讨论DeepSeek-R1的技术突破之前,我们需要先理解目前大模型推理能力提升面临的核心问题。
当前主流的推理能力增强方法主要依赖两种路径:
• Chain-of-Thought (CoT)提示:通过精心设计的few-shot示例或"Let's think step by step"这样的提示词
• 监督微调:使用人工标注的高质量推理轨迹进行训练
这些方法确实有效,但存在根本性限制:
1. 扩展性差:人工标注推理过程既昂贵又耗时
2. 认知偏见:人类标注者的思维模式会传递给模型
3. 性能上限:模型被限制在复制人类思维模式上,无法探索更优的推理路径
DeepSeek-R1的研究团队提出了一个大胆的假设:如果我们只提供最终答案的正确性反馈,让模型自由探索推理过程,会发生什么?
纯强化学习的探索:DeepSeek-R1-Zero
训练框架设计
DeepSeek-R1-Zero基于DeepSeek-V3 Base模型,采用Group Relative Policy Optimization (GRPO)
算法进行训练。整个训练过程的核心思想极其简洁:
只告诉模型答案对不对,不告诉它应该怎么想。
训练使用的提示模板设计得极其简单:
A conversation between User and Assistant. The User asks a question and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer. The reasoning process and answer are enclosed within <think>...</think> and <answer>...</answer> tags...
奖励机制包含两个部分:
• 准确性奖励:答案是否正确
• 格式奖励:是否按照指定格式输出
就是这么简单。没有复杂的奖励工程,没有人工标注的推理步骤,甚至跳过了传统的监督微调阶段。
令人惊讶的自发行为
训练过程中观察到的现象让研究团队都感到意外:
自主延长思考时间:模型的推理链长度从几十个token自然增长到数百甚至数千个token。这不是外部强加的,而是模型自发学习的行为。
"顿悟时刻"的出现:训练过程中出现了一个明显的转折点,模型开始大量使用"wait"这个词进行自我反思。论文中展示的例子很有趣:
"Wait, let me recalculate this...""Actually, wait. I think I made an error..."
这种自我纠错行为是完全自发涌现的,没有任何外部指导。
复杂推理策略的发展:
• 自我验证:模型学会检查自己的答案
• 多角度探索:尝试不同的解题方法
• 反思机制:发现错误后主动重新思考
技术深度解析
GRPO算法的优势
相比传统的PPO算法,GRPO在大模型训练中展现出明显优势:
目标函数设计:
L = E[A_i × log(π_θ/π_ref)]
其中优势函数A_i通过组内奖励对比计算:
A_i = r_i - (1/G)∑r_j
这种设计的好处是:
1. 资源效率更高:不需要单独的价值网络
2. 训练更稳定:组内对比减少了奖励方差
3. 实现更简单:相比PPO减少了复杂的约束机制
性能提升数据
DeepSeek-R1-Zero 在整个训练过程中的准确率和输出长度。
AIME 2024测试结果最能说明问题:
• 基础模型:15.6% (pass@1)
• DeepSeek-R1-Zero训练后:77.9% (pass@1)
• 结合self-consistency:86.7%
这个提升幅度已经超越了人类竞赛者的平均水平。而且这种能力不仅限于数学推理,在代码竞赛和STEM领域问题上同样表现出色。
从R1-Zero到R1:工程化的多阶段优化
虽然R1-Zero展现了强大的推理能力,但也暴露出一些问题:
• 可读性差
• 语言混合(中英文混杂)
• 在非推理任务上表现一般
因此研究团队设计了多阶段的优化流水线来打造最终的DeepSeek-R1:
DeepSeek-R1 的多级流水线
第一阶段:冷启动数据训练 (Dev1)
引入少量人工设计的对话化思维过程数据,改善指令跟随能力。
第二阶段:推理专项强化学习 (Dev2)
专门针对推理任务进行RL训练,引入语言一致性奖励:
R_lang = 目标语言词汇占比
第三阶段:混合数据训练 (Dev3)
结合推理和非推理数据进行监督微调,提升通用能力。
第四阶段:综合强化学习 (Final)
使用混合奖励信号进行最终优化:
R_total = R_reasoning + R_general
R_general = R_helpful + R_safety
这个多阶段设计的巧妙之处在于:既保留了纯RL带来的推理突破,又通过工程化手段解决了实用性问题。
对GPU用户的实际意义
计算资源需求
从论文披露的训练细节来看:
• 批大小:每步512样本
• 序列长度:32K tokens (后期扩展到65K)
• 采样数量:每个问题采样16个输出
• 训练步数:总计约12,000步
这意味着如果要复现类似规模的训练,需要:
• 高端GPU集群(至少数百张H100级别)
• 大容量显存支持长序列训练
• 高效的分布式训练框架
推理成本考量
DeepSeek-R1的推理特点是动态分配计算资源:
• 简单问题:较短的推理链
• 复杂问题:可能生成数千token的思考过程
这对GPU推理部署提出了新的挑战:
1. 显存管理:需要支持变长的KV Cache
2. 批处理策略:不同复杂度的请求处理时间差异巨大
3. 成本控制:长推理链会显著增加推理成本
技术局限与思考
当前限制
论文作者很坦诚地指出了当前的一些限制:
• 结构化输出能力不足:对于需要特定格式输出的任务表现一般。
• Token效率待优化:存在"过度思考"现象,简单问题也可能生成很长的推理链。
• 工具使用缺失:无法调用外部工具(搜索引擎、计算器等)辅助推理。
• 奖励设计挑战:对于难以客观评估的任务(如创意写作),纯RL方法仍然困难。
深层思考
• 奖励黑客攻击是一个需要重视的问题。当模型过度优化奖励信号时,可能会找到绕过真正能力提升的"捷径"。DeepSeek-R1通过规则奖励在一定程度上缓解了这个问题,但对于更复杂的任务,这仍然是一个开放性挑战。
• 推理路径的可解释性也值得关注。虽然我们能看到模型的思考过程,但这种自发涌现的推理模式是否真的反映了"理解",还是仅仅是统计模式的复杂组合?
开源生态与未来影响
社区贡献
DeepSeek团队将R1-Zero、R1以及训练数据样本都开源了,这对研究社区是巨大的贡献。特别值得关注的是:
1. 蒸馏模型:提供了多个小规模版本,降低了使用门槛
2. 训练数据:包含推理过程的高质量数据集
3. 技术细节:详细的超参数和训练配置
技术趋势预判
DeepSeek-R1代表的纯RL路径可能会成为未来大模型能力提升的重要方向:
• 短期内:预计会有更多团队尝试类似的纯RL训练方法,特别是在数学、编程等有明确验证机制的领域。
• 中期看:结合工具使用的增强推理系统可能成为主流,模型不仅会思考,还能调用外部资源验证和增强自己的推理过程。
• 长期而言:当奖励建模技术进一步成熟后,纯RL方法可能扩展到更广泛的认知任务上。
结语
DeepSeek-R1的技术突破不仅仅在于性能数字的提升,更在于它展示了一种新的可能性:机器可以通过试错学习到超越人类设计的推理模式。
这项工作提醒我们,在AI能力的快速发展中,保持开放的心态去探索非传统路径的重要性。有时候,最好的老师不是人类的示范,而是正确的激励机制和足够的探索空间。
对于技术从业者而言,DeepSeek-R1的成功也提示我们需要重新思考:在GPU算力日益强大的今天,我们是否还在用昨天的思维模式设计明天的系统?
本文基于Nature发表的DeepSeek-R1论文内容整理,完整论文可在DeepSeek官方GitHub[2]获取。
引用链接
[1]
DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》: https://www.nature.com/articles/s41586-025-09422-z
[2]
DeepSeek官方GitHub: https://github.com/deepseek-ai/DeepSeek-R1
本文转载自萤火AI百宝箱,作者: 萤火AI百宝箱
