一篇200+文献的视觉强化学习技术最新综述

发布于 2025-8-15 07:40
浏览
0收藏

强化学习(RL)与视觉智能交叉领域的最新进展,已催生出不仅能感知复杂视觉场景,还能在其中进行推理、生成并采取行动的智能体。

NUS&浙江大学&香港中文大学对这一快速发展领域进行了批判性且及时的系统梳理:

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

  • 首先形式化视觉 RL 问题,并追溯策略优化策略的演进:从 RLHF 到可验证奖励范式,从近端策略优化(PPO)到群组相对策略优化(GRPO)。
  • 将200 余篇代表性工作归纳为四大主题支柱:多模态大语言模型、视觉生成、统一模型框架,以及视觉-语言-动作(VLA)模型。
  • 针对每一支柱,剖析算法设计、奖励工程与基准进展,并提炼出课程驱动训练、偏好对齐扩散、统一奖励建模等关键趋势。

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

视觉 RL 发展时间线

2023 起出现「ImageReward->DiffusionRL」;2024 起「R1-style GRPO」井喷;2025 全面开花:GUI、Robot、3D、Video 全覆盖。

LLM 的 RL 三板斧

1.1 符号与问题建模

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

  • 任务视角:把文本或图像生成当作“回合式”马尔可夫决策过程(MDP)。
  • 状态:用户提示 + 已生成 token 的历史。
  • 动作:下一个 token / 像素块 / 去噪步。
  • 奖励:用冻结的偏好模型代替环境反馈。
  • 约束:KL 正则化让新策略不远离参考策略。

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

1.2 三大对齐范式

中文标题

核心思想

流程/公式

代表

人类反馈强化学习

(RLHF)

学奖励模型 → 用 PPO 微调

三步:SFT → Reward Model → PPO

InstructGPT,LLaVA-RLHF

直接偏好优化

(DPO)

不用奖励模型,直接对比偏好

闭式目标 + KL 隐式约束

Rafailov 2023

可验证奖励强化学习

(RLVR)

用确定性指标当奖励

两步:SFT → GRPO/PPO

DeepSeek-R1

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

1.3 策略优化算法

中文标题

关键创新

要点

近端策略优化

(PPO)

信任区域 + 价值基线

价值网络估计优势;KL 正则化

群组相对策略优化

(GRPO)

去掉价值网络

组内标准化优势;提示级 KL 约束

视觉 RL 的四大阵地


把 LLM 的 RL 套路搬到「看、想、画、动」四个赛道,形成 200+ 篇工作的清晰地图。

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

这里可以先看综合一个例子,最近开源GLM-4.5V的多领域奖励系统,结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化:​GLM4.5之后,智谱又开源GLM-4.5V,实测下来视觉推理能力贼强~

2.1 多模态大语言模型(MLLM)

细分方向

关键词

代表工作

传统 RL-MLLM

用可验证奖励(IoU、BLEU)直接对齐

RePIC、VLM-R1、GoalLadder

空间 & 3D 感知

强化检测/分割/布局一致性

Omni-R1、MetaSpatial、Scene-R1

图像推理

静态图推理 vs 动态图操作

SVQA-R1(静态)
GRIT / Ground-R1(动态)

视频推理

长序列时序因果

VQ-Insight、VideoR1、Ego-R1

2.2 视觉生成

模态

关键思路

典型算法

图像生成

人类偏好 / 指标混合 / 推理提示

ImageReward、DiffusionDPO、ReasonGen-R1

视频生成

时序一致性 + 物理约束

DanceGRPO、VideoReward、Phys-AR

3D 生成

体积渲染奖励 / NeRF 对齐

DreamCS、DreamReward、DreamDPO

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

2.3 统一模型

思路

做法

代表

统一 RL

同一策略&奖励同时做理解与生成

UniRL、CoRL、SelfTok

任务专用 RL

只给生成头加 RL,理解头保持 SFT

VARGPT-v1.1、Emu3

2.4 视觉-语言-动作模型(VLA)

场景

挑战

代表工作

GUI 自动化

动作空间巨大、稀疏奖励

GUI-R1、UIShift、Mobile-R1

视觉导航

长程规划、环境迁移

OctoNav-R1、VLN-R1、Flare

视觉操控

精细抓取、多步重排

TGRPO、RLVLA、ReinBot

主流 Metrics和Benchmarks

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

一篇200+文献的视觉强化学习技术最新综述-AI.x社区

https://arxiv.org/pdf/2508.08189
Reinforcement Learning in Vision: A Survey
https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.

本文转载自​​​​​​​​​​​​PaperAgent

收藏
回复
举报
回复
相关推荐