
奖励驱动学习:LLM后训练与推理时代的全景综述
在大语言模型(LLMs)的后训练与推理Scaling时代,一个革命性范式正在崛起:Learning from Rewards(奖励驱动学习)。 从 OpenAI-o1和DeepSeek-R1中的强化学习,到测试时的Best-of-N采样,奖励信号不再只是训练噪声的附属,而是引领模型走向主动学习的导航星标。它使模型更贴近人类偏好、具备复杂推理能力,推动迈向更通用、更智能、更可控的AI系统!
本文是当前最系统的Learning from Rewards综述之一,全面梳理该范式在 LLMs 后训练(Post-Training)与测试时(Test-Time) 的研究趋势,覆盖训练策略、推理机制、输出纠错、多模态场景与奖励模型评测。
论文:Sailing AI by the Stars A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
链接:https://arxiv.org/abs/2406.06852
项目主页:https://github.com/bobxwu/learning-from-rewards-llm-papers
全文导航
核心范式:Learning from Rewards
从 RLHF 到 GRPO,从 Generate-then-Rank 到 Post-Hoc Correction,我们构建了一个统一的理论框架,全面拆解四大核心组成:
- 🧩 语言模型(Language Model):基础生成引擎
- 🏅 奖励模型(Reward Model):行为评估与反馈机制
- 💡 奖励信号(Rewards):引导模型学习的价值标尺
- 🛠️ 学习策略(Learning Strategy):如何利用奖励调整模型行为
奖励模型的设计:
- 模型架构(Model-based and Model-free)
- 奖励信号的形式(Scalar, Critique, and Implicit Rewards)
- 评价方式(Pointwise and Pairwise)
- 奖励的颗粒度(Outcome and Process)
Training with Rewards — 后训练时代的对齐引擎
后训练阶段,奖励信号已成为对齐人类偏好与深度推理能力的核心驱动力。
- 训练策略全景对比:REINFORCE / REINFORCE++ / PPO / DPO / GRPO
- 奖励类型多样化:Scalar(数值型)/ Critique(评语型)/ Implicit(隐式)/ Rule-based(规则)/ Process(过程级)
- 奖励来源广泛:人类反馈 vs 自动反馈(如 LLM-as-a-Judge、自评机制、知识库、工具)
🎯 Inference with Rewards — 推理阶段的智能放大器
无需微调,基于奖励动态调控输出,轻量高效地释放LLMs潜能!
- Generate-then-Rank:基于奖励的候选采样排序,Best-of-N(Outcome vs Process)
- Reward-Guided Decoding:Token-level与Step-level奖励引导搜索(支持MCTS、Beam Search等),提升推理路径的智能探索能力
Post-Inference with Rewards — 输出后的智能修正器
模型输出不是终点,奖励引导的后处理成为提升质量的关键手段!
- Self-Correction:模型自我反思与改写(如Self-Refine、Reflexion)
- External Feedback:外部评审模型、知识库、工具反馈等提供稀疏/密集奖励信号
🧪 Reward Model Benchmarking — 奖励模型该如何评测?
作为Learning from Rewards 的核心引擎,奖励模型的评估标准必须科学、全面,才能真正保障对齐效果与泛化能力。
- 评测维度:准确性、稳定性、一致性、泛化能力
- 标注来源:人类专家 👤 vs LLM 判官 🤖(如 LLM-as-a-Judge)
- 标注形式:Pointwise(逐项评分)vs Pairwise(两两对比)
- 任务覆盖:Chat / Reasoning / Safety / Multimodal 等多任务评估场景
挑战与机遇
在迈向更智能、更对齐的大语言模型过程中,Learning from Rewards 仍面临多项关键科学问题:
- 🧠 奖励模型的可解释性:如何让奖励决策更透明、更可信
- 🌐 通用奖励模型:能否跨任务、跨模态构建通用型奖励系统
- 🧨 Reward Hacking:如何防止模型“投机取巧”以规避奖励目标
- 🌎 真实交互中的奖励获取:能否在开放环境中高效获取有效反馈
- 🔄 持续优化与适应性学习:如何实现长期学习与动态适应机制
为什么值得关注?
- 📚 全面梳理:系统回顾奖励驱动学习的最新研究方法与发展趋势
- 🧭 统一框架:构建覆盖训练、推理、纠错的概念性技术图谱
- 📊 方法集锦:涵盖 200+ 代表性技术与系统化对比分析
- 🔬 前瞻视角:聚焦未来挑战,提出关键研究方向与机遇
🎓 如果你关注 LLM 的对齐性、推理能力、强化机制或安全保障,或正从事 RLHF / DPO / test-time scaling 等相关研究,本 Survey 将成为你不可或缺的核心参考。
本文转载自AI-PaperDaily,作者:AI-PaperDaily
