PPO 与 DPO：大模型偏好对齐的两种核心算法解析原创

发布于 2025-7-17 13:33

浏览

0收藏

在大模型训练中，让模型输出符合人类偏好的内容是关键一步。目前主流的两种方法 ——PPO（近端策略优化）和 DPO（直接偏好优化），分别代表了强化学习和直接优化的不同思路。本文将拆解两者的核心思想、实现逻辑，以及 DPO 如何解决 PPO 的痛点。

PPO 是强化学习在大模型领域的经典应用，核心思想是在限制策略更新幅度的前提下，最大化模型获得的奖励。简单来说，就是让模型在学习过程中 "稳步提升"，避免因更新幅度过大而 "学偏"。

PPO 通过 "Actor-Critic" 框架实现：

为了避免策略突变，PPO 用两种方式约束更新：

以大模型对话训练为例，PPO 的流程如下：

形象理解：好比训练学生答题，Actor 是学生，Critic 是老师预判分数，奖励模型是实际阅卷评分，参考模型是学生的初始水平。老师会限制学生每次进步的幅度，避免为了高分而偏离基础知识点。

DPO 的核心思想是将强化学习转化为偏好分类问题：直接用人类标注的 "好回答" 和 "差回答" 训练模型，跳过 PPO 中复杂的奖励模型和强化学习循环。

DPO 的关键观察是：人类偏好数据（比如 "回答 A 比回答 B 好"）本身就可以指导模型优化，无需先训练一个奖励模型。它通过对比 "好回答" 和 "差回答" 的概率，让模型更倾向于生成 "好回答"。

具体来说，DPO 的损失函数会让模型满足：

PPO 与 DPO：大模型偏好对齐的两种核心算法解析-AI.x社区

DPO 的流程更简单，无需强化学习循环：

PPO 与 DPO：大模型偏好对齐的两种核心算法解析-AI.x社区

形象理解：好比直接给学生展示 "满分答案" 和 "错误答案"，让学生对比学习，跳过了 "先训练老师打分" 的步骤，效率更高。

PPO 虽然有效，但在工程落地中存在不少痛点，DPO 针对性地解决了这些问题：

比如在医疗大模型训练中，PPO 可能需要反复调整奖励模型对 "专业性" 和 "安全性" 的权重，而 DPO 直接用医生标注的 "优质回答" 和 "风险回答" 训练，大幅减少调试成本。

两种算法各有优劣，实际应用中需根据场景选择：

从工业实践来看，ChatGPT 等早期模型用 PPO 保障了灵活性，而开源社区（如 Zephyr 模型）多用 DPO 实现高效对齐，两者正逐步融合（如用 DPO 初始化，再用 PPO 微调）。

PPO 和 DPO 的演进，体现了大模型偏好对齐的效率追求：

南门子，《阿里淘天大模型终面：麻了，真的麻了！》，https://mp.weixin.qq.com/s/x43pwfNw7doFB5pGMLpJfA，2025-06-19，微信公众号
偷星九月 333，《大模型时代必会强化学习算法之 PPO》，https://mp.weixin.qq.com/s/iLQU9EXa7ullT4zUpPhxvA，2025-03-11，微信公众号
捏太阳，《近端策略优化 (PPO) 算法深度解析》，https://mp.weixin.qq.com/s/gPEtblnP6Q7hGSa48HPHlg，2025-04-24，微信公众号
LLMQuant，《一文教你看懂强化学习策略优化：PPO 与 GRPO 全面解析》，https://mp.weixin.qq.com/s/oowsngGxY3qz1sFw_KiZKA，2025-05-28，微信公众号
算法狗，《人人都能看懂的 DPO 数学原理》，https://mp.weixin.qq.com/s/aG-5xTwSzvHXN4B73mfKMA，2024-09-09，微信公众号
算法狗，《2 分钟入门 DPO 算法》，https://mp.weixin.qq.com/s/kMbOH11sla79Tv28uSH7UA，2025-01-15，微信公众号
大模型技术前沿，《强化学习入门，小学生都可以读懂的 DPO，PPO》，https://mp.weixin.qq.com/s/HBQNSMIhocWgrJ4R7W8qzQ，2025-04-07，微信公众号
纪牛牛，《DPO 算法，突然不香了...》，https://mp.weixin.qq.com/s/IrrHCkQ3rPsXnZhMVN5NlQ，2025-04-11，微信公众号