
一篇200+文献的视觉强化学习技术最新综述
强化学习(RL)与视觉智能交叉领域的最新进展,已催生出不仅能感知复杂视觉场景,还能在其中进行推理、生成并采取行动的智能体。
NUS&浙江大学&香港中文大学对这一快速发展领域进行了批判性且及时的系统梳理:
- 首先形式化视觉 RL 问题,并追溯策略优化策略的演进:从 RLHF 到可验证奖励范式,从近端策略优化(PPO)到群组相对策略优化(GRPO)。
- 将200 余篇代表性工作归纳为四大主题支柱:多模态大语言模型、视觉生成、统一模型框架,以及视觉-语言-动作(VLA)模型。
- 针对每一支柱,剖析算法设计、奖励工程与基准进展,并提炼出课程驱动训练、偏好对齐扩散、统一奖励建模等关键趋势。
视觉 RL 发展时间线
2023 起出现「ImageReward->DiffusionRL」;2024 起「R1-style GRPO」井喷;2025 全面开花:GUI、Robot、3D、Video 全覆盖。
LLM 的 RL 三板斧
1.1 符号与问题建模
- 任务视角:把文本或图像生成当作“回合式”马尔可夫决策过程(MDP)。
- 状态:用户提示 + 已生成 token 的历史。
- 动作:下一个 token / 像素块 / 去噪步。
- 奖励:用冻结的偏好模型代替环境反馈。
- 约束:KL 正则化让新策略不远离参考策略。
1.2 三大对齐范式
中文标题 | 核心思想 | 流程/公式 | 代表 |
人类反馈强化学习 (RLHF) | 学奖励模型 → 用 PPO 微调 | 三步:SFT → Reward Model → PPO | InstructGPT,LLaVA-RLHF |
直接偏好优化 (DPO) | 不用奖励模型,直接对比偏好 | 闭式目标 + KL 隐式约束 | Rafailov 2023 |
可验证奖励强化学习 (RLVR) | 用确定性指标当奖励 | 两步:SFT → GRPO/PPO | DeepSeek-R1 |
1.3 策略优化算法
中文标题 | 关键创新 | 要点 |
近端策略优化 (PPO) | 信任区域 + 价值基线 | 价值网络估计优势;KL 正则化 |
群组相对策略优化 (GRPO) | 去掉价值网络 | 组内标准化优势;提示级 KL 约束 |
视觉 RL 的四大阵地
把 LLM 的 RL 套路搬到「看、想、画、动」四个赛道,形成 200+ 篇工作的清晰地图。
这里可以先看综合一个例子,最近开源GLM-4.5V的多领域奖励系统,结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化:GLM4.5之后,智谱又开源GLM-4.5V,实测下来视觉推理能力贼强~
2.1 多模态大语言模型(MLLM)
细分方向 | 关键词 | 代表工作 |
传统 RL-MLLM | 用可验证奖励(IoU、BLEU)直接对齐 | RePIC、VLM-R1、GoalLadder |
空间 & 3D 感知 | 强化检测/分割/布局一致性 | Omni-R1、MetaSpatial、Scene-R1 |
图像推理 | 静态图推理 vs 动态图操作 | SVQA-R1(静态) |
视频推理 | 长序列时序因果 | VQ-Insight、VideoR1、Ego-R1 |
2.2 视觉生成
模态 | 关键思路 | 典型算法 |
图像生成 | 人类偏好 / 指标混合 / 推理提示 | ImageReward、DiffusionDPO、ReasonGen-R1 |
视频生成 | 时序一致性 + 物理约束 | DanceGRPO、VideoReward、Phys-AR |
3D 生成 | 体积渲染奖励 / NeRF 对齐 | DreamCS、DreamReward、DreamDPO |
2.3 统一模型
思路 | 做法 | 代表 |
统一 RL | 同一策略&奖励同时做理解与生成 | UniRL、CoRL、SelfTok |
任务专用 RL | 只给生成头加 RL,理解头保持 SFT | VARGPT-v1.1、Emu3 |
2.4 视觉-语言-动作模型(VLA)
场景 | 挑战 | 代表工作 |
GUI 自动化 | 动作空间巨大、稀疏奖励 | GUI-R1、UIShift、Mobile-R1 |
视觉导航 | 长程规划、环境迁移 | OctoNav-R1、VLN-R1、Flare |
视觉操控 | 精细抓取、多步重排 | TGRPO、RLVLA、ReinBot |
主流 Metrics和Benchmarks
https://arxiv.org/pdf/2508.08189
Reinforcement Learning in Vision: A Survey
https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
本文转载自PaperAgent
