在 LLM 时代,对齐(alignment)已成为追求更可靠、更可控、更强大的机器智能的一个基础但具有挑战性的问题。推理模型和对话式人工智能系统近期的成功凸显了强化学习(RL)在提升这些系统中的关键作用,通过逆强化学习(IRL)的视角,全面回顾了LLM对齐的最新进展。

一、强化学习基础
回顾了马尔可夫决策过程(MDP)的基本概念,包括状态空间、动作空间、转移动态、奖励函数等。

- 定义:马尔可夫决策过程(MDP)是强化学习中的一个核心框架,用于描述决策过程。MDP由状态空间(S)、动作空间(A)、转移动态(T)、奖励函数(R)、初始状态分布(ρ₀)和折扣因子(γ)组成。
- 目标:强化学习的目标是最大化长期回报。通过与环境的交互,代理(agent)学习如何在每个时间步选择最优的动作。
- 挑战:在大型语言模型(LLM)的背景下,状态空间和动作空间可能非常庞大,且奖励函数通常需要从数据中学习,而不是预先定义。
尽管RL算法在某些任务中表现出色,但不存在一种适用于所有任务的“万能算法”,算法的选择应基于环境属性和资源限制。
二、 LLM生成的MDP框架
将LLM的生成过程形式化为MDP,其中状态是当前句子,动作是词汇表中的单词,转移动态是确定性的,而奖励函数则需要通过数据驱动的方法生成。


三、 无奖励函数的MDP(MDP\R)
- 动机:在许多现实任务中,奖励信号难以明确指定。例如,在自动驾驶系统中,学习目标是模仿人类驾驶行为,这很难形式化为奖励函数。
- 行为数据集:在模仿学习(IL)和逆强化学习(IRL)中,行为数据集是直接和有效的手段,用于指定期望的行为,而无需手动设计奖励函数。
- 方法:IL和IRL可以被解释为行为分布匹配,目标是使学习策略的行为分布与专家的行为分布一致。IL直接模仿专家行为,而IRL学习一个奖励模型,通过最大化累积回报来诱导专家行为。

四、为什么我们需要神经奖励模型
仅靠模仿学习(IL)优化LLM是不够的,需要神经奖励模型(NRM)来提升性能和对齐质量。

- 模仿学习的局限性:
- 模仿学习(如行为克隆、监督微调)依赖于静态数据集,难以泛化到新任务。
- 提示优化虽有效,但成本高且模型依赖。
- 神经奖励模型的优势:
- 偏好数据:偏好数据比演示数据更容易获取,且能更灵活地构建奖励模型。
- 泛化能力:奖励模型帮助LLM在复杂任务(如数学推理)中表现出更强的泛化能力。
- 测试时优化:奖励模型支持在测试时对生成结果进行优化,使LLM能够动态调整生成结果。
五、通过奖励建模实现实用的逆强化学习(IRL)
探讨了如何通过奖励建模(Reward Modeling)将现实世界中的行为数据转化为对齐目标,从而实现大型语言模型(LLM)的优化。
1. 基于偏好反馈的奖励建模
- PPO与Bradley-Terry奖励模型:在标准的RLHF中,奖励模型通过Bradley-Terry模型从成对的偏好数据中学习,将偏好转化为标量奖励信号。训练好的奖励模型随后用于指导策略优化,通常结合近端策略优化(PPO)算法。
- 直接偏好优化(DPO):DPO跳过了显式的奖励建模和轨迹采样步骤,直接优化策略以满足人类反馈中的成对偏好约束。这种方法通过KL散度正则化的目标函数来优化,避免了显式奖励建模的复杂性。
- 对比与选择:研究表明,当PPO的超参数调整得当时,基于奖励模型的RLHF可以优于DPO。然而,稳定PPO在实践中并非易事,而DPO则更为稳健。选择哪种方法应根据任务的敏感性和计算资源来决定。

2. 数学推理中的奖励建模
- 从启发式提示到RLVR:早期的数学推理方法主要集中在提示优化,如链式思考(CoT)提示。随后,研究者转向基于搜索和规划的方法,利用密集奖励和蒙特卡洛树搜索(MCTS)来探索推理路径。最近,研究者转向强化学习与可验证奖励(RLVR),直接优化正确性。
- Prompt-OIRL:提出了一种基于IRL的提示优化方法,通过重用历史提示试验经验来训练奖励模型,用于离线提示评估和优化。这种方法在数学推理任务中取得了显著的性能提升。

4.3 从演示数据集中学习奖励模型
- 前向KL散度(SFT):最小化演示策略和当前策略之间的前向KL散度,对应于监督式微调(SFT)目标。
- 逆向KL散度(对抗性模仿):最小化逆向KL散度导致对抗性模仿学习目标,通过生成对抗方法估计演示策略的轨迹分布。

4.4 使用奖励模型改进LLM生成
- 训练时优化与推理时优化:文章讨论了在训练时通过策略更新或在推理时通过解码策略修改来优化LLM生成的方法。这些方法包括Best-of-N采样、迭代微调、PPO、REINFORCE、GRPO和DAPO等。
- 方法比较:不同的方法在计算复杂性、稳定性和性能方面各有优劣。例如,Best-of-N采样简单但计算成本高;PPO广泛使用但对超参数敏感;DAPO在稳定性和训练效率方面表现出色。

https://arxiv.org/pdf/2507.13158
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances
本文转载自PaperAgent