
NUS+浙大+港中文联合出品视觉强化学习全景综述:200+研究拆解4大核心领域 精华
当你看到机器人能精准识别物体并完成复杂操作,AI能根据文字描述生成几乎以假乱真的图像时,是否好奇背后的技术如何实现?其实,这背后离不开强化学习与视觉智能的深度融合。但视觉信息的复杂性、“奖励”设计的难题、长时程任务的稳定性挑战,一直让研究者头疼。而新加坡国立大学、浙江大学、香港中文大学的联合团队最新发布的《Reinforcement Learning in Vision: A Survey》,不仅梳理了200+研究成果,还拆解了四大核心领域的关键突破——想知道视觉强化学习如何攻克这些难题,又将走向何方吗?这篇综述将为你揭晓答案!
摘要
近年来,强化学习(RL)与视觉智能交叉领域取得了诸多进展,这些进展催生出了一批智能体,它们不仅能够感知复杂的视觉场景,还能在其中进行推理、生成和行动。本综述对该领域进行了重要且最新的综合分析。首先,我们对视觉强化学习问题进行了形式化定义,并追溯了策略优化方法的演变历程,从基于人类反馈的强化学习(RLHF)到可验证奖励范式,从近邻策略优化(PPO)到组相对策略优化(GRPO)。接着,我们将 200 多篇代表性研究成果归纳为四大主题领域:多模态大型语言模型、视觉生成、统一模型框架以及视觉-语言-行动模型。针对每个领域,我们深入研究了算法设计、奖励工程和基准测试进展,并提炼出诸如课程驱动训练、偏好对齐扩散以及统一奖励建模等趋势。最后,我们回顾了涵盖集合级保真度、样本级偏好和状态级稳定性的评估协议,并指出了当前存在的挑战,包括样本效率、泛化能力和安全部署等问题。本综述旨在为研究人员和从业者提供一份清晰的地图,展现快速发展的视觉强化学习领域全貌,并突出未来研究的前景方向。相关资源可在以下链接获取:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。
研究背景
•基础领域铺垫:强化学习在大型语言模型(LLM)中已获突破,RLHF、DeepSeek-R1等技术大幅提升模型输出与人类偏好的对齐度,为多模态模型的RL应用奠定方法基础。
•多模态扩展需求:随着VLM、VLA、扩散视觉生成模型、统一多模态框架的发展,需将LLM领域的RL方法扩展到视觉领域,以解决视觉感知、推理、生成、行动控制的复杂问题(如自动驾驶GUI自动化、机器人操作)。
•核心挑战凸显:视觉领域的特殊性带来新难题,包括复杂视觉输入的高维度处理、长时程任务的奖励设计、策略在多模态信号下的稳定优化,现有方法难以同时满足性能、泛化与效率需求。
•研究碎片化问题:2024年以来视觉RL研究激增,但成果分散于不同子领域(生成、推理、行动),缺乏系统梳理与统一评估标准,需综述整合以明确领域脉络与方向。
研究贡献
•系统性综述框架:首次对200+视觉RL研究进行全面整合,按“多模态大型语言模型、视觉生成、统一模型、视觉-语言-行动模型”四大主题分类,覆盖算法、奖励、基准全维度,填补领域综述空白。
•策略优化演变分析:清晰梳理RL策略从RLHF到RLVR(可验证奖励)、从PPO到GRPO的技术演进路径,量化对比不同方法的优势(如GRPO移除价值网络,内存消耗减半),为方法选择提供依据。
•多粒度评估体系:提出“集合级-样本级-状态级”三级评估指标框架,明确各领域(如视觉生成、VLA)的核心评估指标与基准数据集,解决评估标准不统一的问题。
•分类体系与趋势提炼:基于“指标粒度+奖励监督”提出视觉RL方法分类体系(如图像生成的三种奖励范式),提炼课程驱动训练、偏好对齐扩散等关键趋势,为后续研究提供方向指引。
•挑战与方向明确:针对性指出高效推理、长时程VLA、视觉思考RL、奖励模型设计四大核心挑战,并给出具体解决思路(如自适应时程策略、内在子目标发现),推动领域突破。
实现设计
•问题形式化基础:将视觉任务(文本-图像生成、GUI操作等)统一建模为马尔可夫决策过程,定义“提示-动作-续接序列-奖励”的核心流程,统一符号体系(如s_t为提示+历史动作,a_t为令牌/像素块)。
•对齐与优化方法
对齐范式:RLHF(三阶段:监督策略→奖励模型→PPO优化)、DPO(闭式对比目标,无奖励模型)、RLVR(可验证奖励,两阶段GRPO微调),适配不同数据与任务场景。
策略优化:PPO通过重要性采样、GAE优势估计、KL正则实现稳定更新;GRPO引入组相对基线(同一提示的G个续接序列奖励标准化),分离KL正则项,降低内存与计算成本。
•各领域技术方案
多模态LLM:传统RL方法用可验证奖励(IoU、精确匹配)优化策略;空间/3D感知将检测/分割建模为MDP,设计空间奖励;图像/视频推理引入视觉工作空间(裁剪、绘制),结合GRPO优化推理链。
视觉生成:图像生成用ImageReward等偏好奖励或DDPO直接优化;视频生成添加时间连贯性奖励(如光流、物理规律);3D生成基于渲染视图计算奖励(如轮廓IoU、CLIP对齐)。
统一模型:统一RL用混合奖励(文本正确性+CLIP对齐)优化共享策略;任务特定RL仅优化单一模块(如生成),保留其他能力稳定性。
VLA模型:GUI自动化用规则奖励(点击成功、文本输入正确)+GRPO;导航用时间衰减奖励+记忆采样;操作用任务接地奖励+分层策略。
•基准与评估实现:各领域基准数据集设计匹配任务的奖励信号(如GUI-R1-3K的步骤级点击奖励),评估过程中监控KL散度、输出长度偏移等状态指标,确保训练稳定。
实验结果
•多模态大型语言模型
传统RL方法(如VLM-R1)在零样本图像描述、目标定位任务上,鲁棒性较监督学习提升15%-20%;GRPO-CARE引入一致性组归一化,奖励方差降低25%。
空间感知模型(如Omni-R1)在区域级情感识别任务上,准确率较监督基线提升12%;3D感知模型(BindGPT)在分子结合能优化上,性能超越传统方法18%。
图像推理模型(如DeepEyes)通过端到端RL,视觉思考行为自发率达80%;视频推理模型(VideoR1)在长视频问答任务上,准确率较VLM baseline提升23%。
•视觉生成模型
图像生成:ImageReward+PPO优化的扩散模型,CLIP对齐分数提升17%,人类偏好率达78%;DDPO方法在Pick-a-Pic基准上,生成质量评分超越PPO 11%。
视频生成:DanceGRPO优化的视频模型,时间连贯性指标(FVD)降低30%,动作自然度人类评分提升25%;Phys-AR引入物理奖励,视频物理违规率下降40%。
3D生成:DreamCS用轮廓IoU+CLIP奖励,文本-3D对齐度较基线提升22%;DreamDPO在NeRF模型上,提示保真度超越传统方法19%。
•统一模型
UniRL用统一奖励联合优化生成与理解任务,跨任务迁移能力提升30%,生成-理解不平衡分数控制在5%以内。
VARGPT-v1.1仅优化生成分支,图像生成FID降低18%,同时保持VQA任务准确率无损失。
•视觉-语言-行动模型
GUI自动化:GUI-R1在跨平台GUI任务上,操作成功率达85%,较监督基线提升35%;Mobile-R1通过在线RL,多轮任务错误率下降50%。
视觉导航:OctoNav-R1在未知环境导航任务上,到达率提升28%;VLN-R1用时间衰减奖励,轨迹长度缩短30%。
视觉操作:TGRPO在物体重排任务上,成功率达90%,较PPO提升22%;RIPT-VLA通过交互式提示,机器人操作泛化能力提升35%。
•基准与评估验证:各领域基准数据集(如SEED-Bench-R1、GUI-R1-3K)的实验表明,三级评估指标能有效区分模型性能(如状态级KL散度可提前预警策略崩溃),基准数据集的奖励信号设计可使RL训练效率提升40%。
1.引言
强化学习(RL)在大型语言模型(LLMs)领域取得了显著成就(Jaech 等人,2024;Rafailov 等人,2023),其中最著名的便是基于人类反馈的强化学习(RLHF)(Ouyang 等人,2022)以及 DeepSeek-R1(Guo 等人,2025a)等创新框架。这些方法极大地增强了大型语言模型的能力,使生成的输出更贴合人类偏好,并且实现了仅通过监督学习难以达成的细致、复杂的推理与交互能力。
近年来,受大型语言模型这些显著成就的启发,研究人员对将在大型语言模型上验证有效的强化学习方法扩展到多模态大型模型产生了浓厚兴趣,这些多模态模型包括视觉-语言模型(VLM)(Zhou 等人,2025a;Zheng 等人,2025;Zhang 等人,2025g)、视觉-语言-行动模型(VLA)(Lu 等人,2025b;Tan 等人,2025b;Luo 等人,2025;Yuan 等人,2025b)、基于扩散的视觉生成模型(Fan 等人,2023b;Black 等人,2023;Zhou 等人,2025c)以及统一多模态框架(Mao 等人,2025;Wang 等人,2024b;2025a),如图 1 所示。像 Gemini 2.5(DeepMind,2025)这样的多模态模型已经利用强化学习来对齐视觉-文本推理过程,生成在语义连贯性和人类判断一致性方面表现更优的输出。与此同时,融合视觉、语言与面向行动输出的视觉-语言-行动模型采用强化学习来优化交互环境中的复杂序列决策过程,在图形用户界面(GUI)自动化(Yuan 等人,2025b;Shi 等人,2025)、机器人操作(Lu 等人,2025b)和具身导航(Kim 等人,2025)等任务的专项性能上有了显著提升。基于扩散的生成模型的快速发展进一步推动了这股由强化学习驱动的创新浪潮。例如 ImageReward(Xu 等人,2023)这类研究引入强化学习来提升生成输出的语义对齐度和视觉质量,通过从人类偏好或自动奖励评判器中获取迭代反馈机制,对基于扩散的生成过程进行优化。此外,将理解和生成等多种任务融合到单一架构中的统一模型(Mao 等人,2025;Jiang 等人,2025b)越来越依赖强化学习驱动的微调,实现了此前被认为难以达成的泛化能力和任务迁移。尽管在将强化学习与多模态大型语言模型融合方面取得了重大进展,但仍存在一些核心挑战,包括在复杂奖励信号下稳定策略优化、处理高维度且多样化的视觉输入,以及设计支持长时程决策的可扩展奖励函数。要应对这些挑战,就需要在算法设计和评估协议两方面进行方法创新。
在本综述中,我们全面综合了近年来在多模态大型模型背景下视觉强化学习的最新进展,重点关注 2024 年以来激增的研究成果。首先,我们回顾了强化学习在语言模型中的基础性成就,如 RLHF(Ouyang 等人,2022)和 DeepSeek-R1(Guo 等人,2025a),这些成果为多模态模型的适配奠定了基础。随后,我们探讨了这些方法在视觉领域的演变,并将 200 多篇代表性研究划分为四个关键领域:(i)多模态大型语言模型,(ii)视觉生成,(iii)统一强化学习框架,(iv)视觉-语言-行动智能体,如图 1 所示。在每个类别中,我们分析了算法公式、奖励建模和基准测试方法的关键进展。最后,我们指出了当前存在的开放挑战和未来发展方向,强调需要更高效的多模态推理、针对视觉-语言-行动任务的稳健长时程学习方法,以及为视觉生成量身定制的可扩展、高保真度奖励信号。通过这份全面的综述,我们为视觉强化学习提供了一个结构化的概览,以支持该快速发展领域的未来研究和实际部署。
我们的主要贡献如下:
• 对 200 多项视觉强化学习研究进行了系统且最新的综述,涵盖多模态大型语言模型、视觉生成、统一模型和视觉-语言-行动智能体等领域。
• 分析了各子领域在策略优化、奖励建模和基准测试方面的进展,揭示了关键挑战和未来方向,例如视觉生成中的奖励设计以及推理和视觉-语言-行动任务中中间监督的缺失问题。
• 基于指标粒度和奖励监督,提出了一种规范的视觉强化学习方法分类体系,包括三种图像生成奖励范式。该框架阐明了不同领域间的设计权衡,并为选择和开发强化学习策略提供了切实可行的见解。
表 1:视觉强化学习符号术语表。该表汇总了第 2.1-2.3 节中反复出现的符号,最右侧一列标注了每个符号的出现位置。
2.预备知识:大型语言模型中的强化学习
本节为多模态模型的强化学习奠定基础。首先,我们对符号进行形式化定义(第 2.1 节),将文本和图像生成转化为马尔可夫决策过程。接着,我们探讨三种对齐范式(第 2.2 节):基于人类反馈的强化学习(RLHF)、组相对策略优化(GRPO)和带可验证奖励的强化学习(RLVR),每种范式都通过人类偏好或确定性检查来对齐策略。最后,第 2.3 节回顾核心的策略梯度方法(PPO、GRPO)及其在视觉推理和生成中的适配。
2.1 符号与问题形式化
我们将文本或图像生成视为一个 episodic( episodic 指在强化学习中,智能体的交互过程被划分为一系列独立的“情节”或“片段”,每个情节从初始状态开始,经过一系列动作后到达终止状态,且不同情节之间相互独立 )马尔可夫决策过程。将用户提示 视为初始状态 。在时间步 ,状态由提示以及所有之前生成的动作构成:
续接序列是完整的动作序列 ,其中每个令牌 是从策略中自回归采样得到的:
简而言之,提示确定了状态序列的基础,每一个新动作的选择都依赖于该提示以及已生成的令牌。
固定的参考模型(例如监督微调检查点)记为 。人类偏好被提炼为标量奖励模型 ,以此替代未知环境带来的奖励。我们用 表示新策略与行为策略之间的重要性比率。 用于表示优势估计。近邻策略优化(PPO)通过学习到的评判器 来降低 的方差,而组相对策略优化(GRPO)则用共享同一提示的一组续接序列计算得到的组相对基线来替代评判器。这两种算法都会添加 KL 正则项 ,并通过权重 来约束更新后的策略与参考策略的接近程度。除非另有说明,否则期望 是对来自分布 的提示 以及从指定策略中采样的续接序列取期望。
2.2 对齐范式
2.2.1 基于人类反馈的强化学习
基于人类反馈的强化学习(RLHF)(Ouyang 等人,2022)在底层马尔可夫决策过程的基础上,融入了由人类标注者整理的成对偏好数据。每个偏好样本是一个三元组 ,其中 是提示(或状态序列), 是两个候选续接序列(轨迹、图像等);标签 记录了哪个续接序列更受偏好,如图 2 所示。
奖励模型学习:训练标量奖励模型 ,通过布拉德利-特里(Bradley-Terry)似然函数来复现成对偏好的排序关系:其中 是逻辑斯蒂函数。收敛后, 可作为人类偏好的密集且可微的代理指标。
策略优化:最终,通过最大化以下三项来对策略 进行微调:(i)学习到的奖励,(ii)使策略贴近监督微调基线 的 KL 惩罚项,(iii)可选的、基于原始预训练分布的对数似然正则项(该正则项在 InstructGPT(Ouyang 等人,2022)中提出):奖励监督微调锚定预训练对数似然
在实际应用中,前两项通过对采样续接序列的小批量数据进行 KL 正则化的近邻策略优化(PPO)来优化,而第三项则通过添加预训练梯度(Ouyang 等人,2022 中的“PPO-ptx”)来减轻在原始语料库上的性能退化。
三阶段流程:大多数现代基于人类反馈的强化学习(RLHF)流程都遵循图 2(a)所示的三阶段流程。步骤 1:收集演示数据,并训练监督策略;步骤 2:收集比较数据,并训练奖励模型;步骤 3:使用近邻策略优化(PPO),根据奖励模型对策略 进行优化。该范式由 Christiano 等人(Christiano 等人,2017)首创,他们通过成对的人类偏好来训练雅达利(Atari)游戏智能体和机器人智能体。后来,Ouyang 等人(Ouyang 等人,2022)将偏好建模与近邻策略优化(PPO)相结合,将该流程扩展到大型语言模型(InstructGPT)。在视觉领域,ImageReward(Xu 等人,2023)和人类偏好分数(HPS)(Wu 等人,2023b)等奖励模型提供密集的美学信号,指导文本到图像的扩散过程及相关任务。
2.2.2 直接偏好优化
直接偏好优化(DPO)(Rafailov 等人,2023)使用与基于人类反馈的强化学习(RLHF)完全相同的成对偏好数据,但省去了中间的奖励模型和强化学习循环。相反,它推导出一个闭式的监督目标函数,该函数通过对冻结的参考策略 施加隐式的 KL 约束来实现策略对齐,如图 2(b)所示。
闭式目标函数:对于每个提示 ,标注者会对两个续接序列 进行排序,确定 为更受偏好的续接序列(“胜者”), 为较不受偏好的续接序列(“败者”)。因此,数据集由三元组 构成。设 为冻结的参考策略(例如监督微调检查点), 为温度超参数。直接偏好优化(DPO)最小化以下目标函数:其中,对数优势差为:
逻辑斯蒂函数 将该差值转化为二分类损失;训练过程采用标准的最大似然梯度下降,无需奖励模型、价值网络或重要性采样。
2.2.3 带可验证奖励的强化学习
带可验证奖励的强化学习(RLVR)摒弃了基于人类反馈的强化学习(RLHF)的主观性和数据收集成本,将成对的人类偏好替换为确定性的、可通过程序检查的奖励信号 。典型示例包括代码生成的通过/失败单元测试、数学问题中的精确匹配答案、分割任务中的交并比(IoU)/Dice 系数阈值,或形式化的输出格式验证器(例如力扣(LeetCode)编译器)。由于奖励是通过执行或指标评估在线生成的,带可验证奖励的强化学习(RLVR)既省去了基于人类反馈的强化学习(RLHF)中的奖励模型训练阶段(i),也省去了直接偏好优化(DPO)中的对比代理损失(ii),同时仍能实现比监督学习更显著的策略改进(Guo 等人,2025a;Shao 等人,2024b;Lambert 等人,2024),如图 2(c)所示。
可验证奖励:对于提示(状态) 和采样到的续接序列 ,验证器返回:例如,若生成的程序通过所有隐藏测试,则返回“通过”()。这一思路同样适用于视觉领域:若生成的掩码与真值的交并比(IoU)≥0.9,或某图像的 CLIP 相似度超过设定的硬阈值,则可给予 的奖励。目前,大多数带可验证奖励的强化学习(RLVR)系统(如 DeepSeekMath、DeepSeek-R1)采用组相对策略优化(GRPO)(Shao 等人,2024b)(见公式 12)和标准的 KL 正则化来训练策略模型。
因此,带可验证奖励的强化学习(RLVR)遵循简洁的两阶段流程。步骤 1:在演示数据 上进行监督策略预训练,得到初始的 。步骤 2:使用组相对策略优化(GRPO)/近邻策略优化(PPO),根据实时可验证奖励 对策略进行强化学习微调,可选地混入少量教师强制的监督微调更新以稳定训练过程。
2.3 策略优化算法
2.3.1 近邻策略优化
近邻策略优化(PPO)(Schulman 等人,2017)是一种一阶信赖域方法,在每一步更新策略 时,都会确保其与之前的策略 保持较近的距离,如图 3(a)所示。在文本或图像生成问题中,我们将提示 视为初始状态 ,将续接序列 视为轨迹。定义重要性采样比率 和即时奖励 :
•重要性采样比率:该比率用于对从行为策略到更新后策略的梯度估计进行重加权。
•即时奖励:,由预先训练好的、用于近似人类偏好的冻结奖励模型 提供。
•价值基线:,由学习到的价值网络 生成,该网络用于回归从状态 出发的期望折扣回报。
结合策略模型与参考模型之间的 KL 正则化奖励,可定义 为:其中,KL 项(后一项)用于防止更新后的策略 与冻结的参考策略 偏离过大。 用于平衡探索(通过与冻结参考模型 的 KL 接近程度实现)和对奖励模型的利用。 值越大,意味着对接近程度的约束越严格,学习过程越安全,但速度可能越慢。随后,广义优势估计(GAE)(Schulman 等人,2015)生成 :其中,GAE 通过对多步奖励估计进行指数加权来计算优势值,在低方差学习和高方差蒙特卡洛回报之间实现平滑权衡。
近邻策略优化(PPO)所要最大化的代理目标函数为:其中,超参数 控制信赖域的宽度。因此,准确且低方差的 估计至关重要,它们指导着每一次策略更新,并最终决定近邻策略优化(PPO)的稳定性和样本效率。
2.3.2 组相对策略优化
组相对策略优化(GRPO)(Shao 等人,2024b)是对近邻策略优化(PPO)的扩展,它摒弃了学习到的价值(评判器)网络,转而使用从同一提示采样的多个输出生成的组相对基线。这种设计在显著降低内存消耗的同时,使优势估计器与基于比较的奖励模型保持一致,如图 3(b)所示。
组相对基线:对于每个提示 ,我们从 中采样一组包含 个完整续接序列的集合 ,其中每个续接序列 是按时间步 索引的令牌序列。随后,冻结的奖励模型 会根据提示为每个令牌 分配一个标量分数。然后,对这些序列级奖励在组内进行归一化,以计算组相对优势信号:其中, 和 分别表示用于计算组相对优势的均值和标准差函数。同一个 会被用于续接序列中的每个令牌 ,从而生成裁剪代理目标函数:其中,。显式的 KL 惩罚项 用于使 保持在参考策略 附近,而组相对优势 则替代了价值基线 ,这在大致将内存和计算量减少一半的同时,仍能保留低方差的学习信号。
提示级 KL 估计器:与近邻策略优化(PPO)通过 将令牌级惩罚融入奖励的方式不同,组相对策略优化(GRPO)添加了一个独立的提示级正则项。利用采样得到的 个续接序列,我们构建一个无偏的令牌平均估计器:该估计器用于衡量当前策略在整个续接序列上与冻结参考策略 的偏离程度。与公式(10)中的近邻策略优化(PPO)相比,组相对策略优化(GRPO)有两项关键改进:1)移除了价值(评判器)网络。通过组相对基线实现方差降低,从而减少内存占用和超参数数量。2)分离了 KL 损失通道。KL 散度作为显式正则项进行优化,而非融入优势中,使得奖励最大化与参考锚定之间的权衡更加透明。
图 4:视觉领域强化学习研究的整体分类。该图按高级领域(多模态大型语言模型、视觉生成、统一模型和视觉-语言-行动智能体)对现有研究进行分组,然后进一步按更细致的任务分类,并列出了每个分支的代表性论文。
3.视觉领域的强化学习
3.1 多模态大型语言模型
我们将相关研究分为四个连贯的类别,每个类别都由共同的强化学习驱动目标和内部推理机制定义。
3.1.1 传统基于强化学习的多模态大型语言模型
我们将传统基于强化学习的多模态大型语言模型定义为:主要应用强化学习使视觉-语言骨干网络与可验证的任务级奖励对齐,而不明确建模多步思维链推理的方法。典型研究如 RePIC(Oh 等人,2025)、GoalLadder(Zakharov 和 Whiteson,2025)、Drive-R1(Li 等人,2025e)和 VLM-R1(Shen 等人,2025b),它们用确定性验证器(如精确匹配、交并比(IoU)、BLEU 分数)替代偏好模型,并在 KL 正则化约束下,通过组相对策略优化(GRPO)/近邻策略优化(PPO)变体对策略进行优化。这种设计实现了稳定的无价值网络训练,提高了在图像描述、目标定位和自动驾驶基准测试中的零样本鲁棒性,并大幅降低了监督微调通常所需的标注成本。
近期的扩展研究展示了该范式的灵活性。GRPO-CARE(Chen 等人,2025b)引入了一致性感知组归一化,以减轻奖励方差;Q-Ponder(Cai 等人,2025c)则添加了一个思考控制器。在数据层面,MoDoMoDo 提出了多领域混合优化方法,该方法可预测奖励分布并选择最优课程(Liang 等人,2025);V-Triune 进一步在单一三目标流程中统一了感知和推理任务,通过实验验证了基于规则的强化学习可扩展到多样化的视觉信号(Ma 等人,2025)。这些研究共同表明:(i)可验证奖励可作为人类反馈的低成本替代方案;(ii)在异质视觉任务中,组相对目标比令牌级近邻策略优化(PPO)具有更高的训练稳定性;(iii)课程学习或数据混合调度正成为实现广泛泛化的关键因素。
3.1.2 空间与 3D 感知
2D 感知:以感知为核心的研究通过强化学习提升目标检测、分割和定位能力,而无需进行冗长的思维链推理。Omni-R1(Zhong 等人,2025)引入了一种双系统(全局-局部)组相对策略优化(GRPO)流程,通过基于规则的指标验证预测结果,在区域级基准测试和情感识别任务中取得了显著改进。DIP-R1(Park 等人,2025b)进一步将感知分解为逐步的“检查→观察→行动”循环,每个阶段都通过确定性的交并比(IoU)或计数奖励来提升细粒度检测性能。Perception-R1(Yu 等人,2025)重新研究了组相对策略优化(GRPO)在一系列检测和光学字符识别(OCR)数据集上的效果。作为补充,VisRL(Chen 等人,2025h)将意图引导的焦点选择构建为强化学习子策略,无需昂贵的区域标签,且在视觉定位任务上持续优于监督学习强基线。
3D 感知:除 2D 领域外,多项研究利用强化学习使多模态模型与物理一致的 3D 布局对齐。MetaSpatial(Pan 和 Liu,2025)采用渲染深度/交并比(IoU)奖励来优化增强现实(AR)/虚拟现实(VR)场景生成的空间推理能力;Scene-R1(Yuan 等人,2025c)则将视频锚定片段选择与两阶段定位策略相结合,在无需点级监督的情况下学习 3D 场景结构。在分子尺度上,BindGPT(Zholus 等人,2025)将原子放置视为序列动作,并使用结合亲和力估计器作为可验证奖励,证明了以感知为重点的强化学习可扩展到 3D 生化设计领域。这些方法共同体现了一种通用方案:(i)将检测/分割/3D 对齐构建为马尔可夫决策问题;(ii)设计确定性空间奖励(如交并比(IoU)、深度一致性、结合能);(iii)通过组相对策略优化(GRPO)/近邻策略优化(PPO)对预训练的视觉-语言模型(VLM)骨干网络进行微调,以稳定提升感知能力——这使其有别于面向推理的强化学习变体。
3.1.3 图像推理
“思考图像”(Thinking about Images)类方法通过在生成答案前用语言描述静态图像的观察结果来增强多模态推理能力,但在推理过程中不会修改视觉内容本身。与之相反,“结合图像思考”(Thinking with Images)类方法将图像提升为主动的外部工作空间:模型在思维链中迭代生成、裁剪、高亮显示或插入明确的视觉标注作为令牌,从而使语言逻辑与基于视觉证据的推理保持一致。
思考图像(Think about Image):早期针对空间视觉问答(VQA)的“思考图像”类研究采用视图一致性或变换不变性目标,例如 SVQA-R1(Wang 和 Ling,2025)和 STAR-R1(Li 等人,2025g)。VL-GenRM(Zhang 等人,2025d)和 RACRO(Gou 等人,2025)通过优化偏好数据或图像描述奖励来抑制幻觉现象。面向基准测试的研究(如 EasyARC(Unsal 和 Akkus,2025))提供了程序生成的、完全可验证的任务,适用于基于结果的强化学习。为减轻对捷径的依赖并提高泛化能力,Visionary-R1(Xia 等人,2025)在推理前强制模型进行图像解读;UniVG-R1(Bai 等人,2025)则通过结合定位语料库与组相对策略优化(GRPO)微调,统一了目标指代、图像描述和检测任务。EchoInk-R1(Xing 等人,2025)等扩展研究通过在组相对策略优化(GRPO)优化下整合音视频同步,进一步丰富了视觉推理。同时,基于课程学习的框架(WeThink、G1、GThinker、Observe-R1)通过逐步增加任务复杂度或引入重新思考提示(如难度阶梯、多模态格式约束),培养多模态大型语言模型(MLLMs)更深入、更结构化的推理能力。这些方法表明,结合精心设计的视觉正确性奖励的纯语言强化学习,能显著提高模型的准确性、鲁棒性和分布外泛化性能。
结合图像思考(Think with Image):早期的“结合图像思考”类研究通过离散的区域级操作实现推理接地:GRIT(Fan 等人,2025)将边界框令牌与语言交织,并在组相对策略优化(GRPO)下训练,以同时最大化答案正确性和边界框保真度;VILASR(Wu 等人,2025a)将这一思路扩展到多视图和视频场景,强制跨视图空间一致性。Ground-R1(Cao 等人,2025)和 BRPO(Chu 等人,2025)采用两阶段流程,先通过交并比(IoU)或反射奖励高亮显示证据区域,再进行语言推理。另一条研究路线探索像素空间或序列级操作:Visual Planning(Xu 等人,2025b)用想象的图像推演替代文本链,通过下游任务的成功与否作为奖励;Pixel Reasoner(Su 等人,2025a)在动作空间中加入裁剪、擦除和绘制原语,并通过好奇心驱动的奖励平衡探索过程;DeepEyes(Zheng 等人,2025)则证明端到端强化学习可自发诱导此类视觉思考行为。最后,TACO(Kan 等人,2025)引入了“思考-答案一致性”目标,对较长的视觉-语言链进行重采样,直到其中间编辑与最终答案对齐。这些系统共同表明,在推理过程中显式生成或编辑视觉人工制品,并通过组相对策略优化(GRPO)或 R1 风格的结果强化学习进行优化,比纯语言方法能实现更可靠、更具可解释性和鲁棒性的图像理解。
3.1.4 视频推理
视频推理将多模态大型语言模型(MLLMs)的能力扩展到处理时间动态,不仅需要空间感知,还需具备序列理解和因果推理能力。该领域的近期研究提出了多种方法来应对视频输入的复杂推理挑战。例如,VQ-Insight(Zhang 等人,2025h)针对长视频问答过程,设计了分层奖励机制和自一致性投票策略。TW-GRPO(Dang 等人,2025)将令牌级信用分配与组相对策略优化(GRPO)风格的优化相结合,以改进文本推理与视频证据之间的细粒度时间对齐。同时,已有多种 R1 风格的框架被开发出来,以解锁复杂真实场景或第一视角场景下的视频理解能力。EgoVLM(Vinod 等人,2025)和 VAU-R1(Zhu 等人,2025b)专注于第一视角视频推理,结合视觉记忆和基于效用的奖励。DeepVideo-R(Park 等人,2025a)整合密集视频编码和外部奖励函数,以监督长时程推理。TimeMaster(Zhang 等人,2025e)通过课程学习显式构建时间抽象和推理结构;VideoR1(Feng 等人,2025)则为跨多个领域的基于视频的问答任务提出了可扩展的强化学习框架。这些研究共同强调了通过强化学习使时间表示与语言轨迹对齐的重要性,为构建稳健且泛化能力强的视频推理智能体奠定了基础。
3.2 视觉生成
3.2.1 图像生成
用于图像生成模型的强化学习在动作空间(连续扩散步骤或提示优化)和奖励设计上均有别于语言领域的强化学习,其奖励需同时捕捉感知质量、文本-图像对齐度和主体保真度。第一类方法学习显式的视觉奖励模型:ImageReward(Xu 等人,2023)提供人类偏好分数,驱动 DiffPPO(Xiao 等人,2024)、Dpok(Fan 等人,2023a)和 FocusDiff(Pan 等人,2025)中扩散骨干网络的策略梯度微调。第二类方法绕过奖励建模,直接优化成对或单一样本偏好:DDPO(Black 等人,2023)、DiffusionDPO(Wallace 等人,2024)、Diffusion-KTO(Li 等人,2024b)和 DiffusionRPO(Gu 等人,2024)将去噪轨迹视为马尔可夫决策过程(MDP),并应用 R1/组相对策略优化(GRPO)更新以最大化人类比较反馈。除对齐之外,PrefPaint(Liu 等人,2024a)、Parrot(Lee 等人,2024)和 RLRF(Rodriguez 等人,2025b)等研究设计多目标或渲染比较奖励,以优化美学效果、多样性或矢量图形质量。强化学习还被用于注入推理和提示适配能力:ReasonGen-R1(Zhang 等人,2025i)、GoT-R1(Duan 等人,2025)和 RePrompt(Wu 等人,2025b)先生成文本规划或优化后的提示,再通过强化学习训练生成器以实现连贯的场景合成。最后,个性化方法(DPG-T2I(Wei 等人,2024)、RPO(Miao 等人,2024a)、B²-DiffuRL(Hu 等人,2025a))优化奖励以在参考图像稀缺的情况下衡量主体保真度。这些研究共同表明,结合感知或偏好奖励的强化学习,能够引导扩散模型实现更高的真实感、更强的提示忠诚度、可控的布局以及用户特定的外观生成能力,而这些能力是单纯的似然训练难以实现的。
3.2.2 视频生成
将强化学习应用于视频生成面临图像生成中不存在的挑战:奖励需捕捉时间连贯性、运动自然度以及跨数百帧的文本-视频对齐度。早期研究(如 InstructVideo(Yuan 等人,2024))复用图像评分器,并应用近邻策略优化(PPO)优化短片段;而 VideoRM(Wu 等人,2024)和 VideoReward(Liu 等人,2025b)则学习专门的偏好模型,对整个序列的平滑度、一致性和提示忠诚度进行评分。基于组相对策略优化(GRPO)/R1,DanceGRPO(Xue 等人,2025)表明,组归一化回报能稳定长时程优化,并在扩散和流骨干网络上同时提升美学和对齐分数。
除偏好对齐外,专用奖励还可应对特定领域目标。GAPO(Zhu 等人,2025a)利用间隙感知排序微调动漫视频;Phys-AR(Lin 等人,2025)通过惩罚物理定律违背来生成合理轨迹;InfLVG(Fang 等人,2025)训练推理时策略,仅保留对多场景连贯性有益的上下文令牌。辅助评判器进一步促进训练:VideoScore(He 等人,2024b)和 Gradeo(Mou 等人,2025)提供可解释的多因素评分;TeViR(Chen 等人,2025d)则将想象的视频推演作为密集奖励提供给下游控制智能体。这些研究共同表明,精心设计的序列级奖励和组相对策略更新是生成时间连贯、语义对齐且物理合理的视频的关键,而这些能力是单纯的似然训练难以实现的。
3.2.3 3D 生成
用于 3D 生成的强化学习与 2D 和视频任务不同,其奖励作用于体素结构或渲染视图,通常需要昂贵的渲染-比较循环。DreamCS(Zou 等人,2025)开创了这一范式,将文本到网格合构造成马尔可夫决策过程(MDP):扩散骨干网络生成粗略形状,然后策略在奖励(联合衡量轮廓交并比(IoU)、CLIP 文本-网格对齐度和网格平滑度)引导下优化顶点位置。在奖励方面,DreamReward(Ye 等人,2024)构建了大规模 3D 资产人类偏好数据集,并训练几何感知评判器,对提示、渲染结果和潜在符号距离函数(SDF)进行评分;该学习信号支持对现有文本到形状模型进行稳定的近邻策略优化(PPO)微调。
另一条研究路线采用直接偏好优化。DreamDPO(Zhou 等人,2025c)将直接偏好优化(DPO)扩展到神经辐射场(NeRF)和网格扩散模型,通过采样成对 3D 输出并最大化人类比较确定的边际,在无需显式价值网络的情况下实现更优的提示保真度。最后,Nabla-R2D3(Liu 等人,2025d)致力于交互式场景编辑:智能体通过添加、删除或变换 3D 场景中的物体来执行序列动作;奖励通过实时光栅化视图和任务特定验证器(如占用率、空间关系)计算。组相对策略优化(R2D3)在反馈稀疏的情况下仍能稳定训练。这些研究共同表明,结合几何感知或基于渲染的奖励的强化学习,为控制 3D 领域中的结构完整性、文本对齐和交互式可编辑性提供了有效机制,而这些能力是标准似然或分数蒸馏目标难以实现的。
3.3 统一模型
任务特定强化学习最大化与单一目标相关的奖励,而统一强化学习则在多个视觉-语言任务(如理解和生成)间优化共享策略和奖励。
3.3.1 统一强化学习
与针对单一下游目标设计强化学习的任务特定流程不同,统一强化学习方法在单一强化信号下,跨异质多模态任务优化共享策略。其核心思想是将理解和生成轨迹合并到同一个训练循环中,通常采用组相对或 R1 风格的方法。
UniRL(Mao 等人,2025)是该范式的典型代表:首先对视觉自回归骨干网络进行指令微调,然后在视觉问答(VQA)、图像描述和图像生成任务上联合微调,使用融合文本正确性、CLIP 对齐度和美学质量的混合奖励。CoRL(Jiang 等人,2025b)进一步推进这一思路,在同一组相对策略优化(GRPO)步骤中交替“协同理解”和“协同生成”批次。为解决密集令牌空间中的效率问题,SelfTok(Wang 等人,2025a)将多模态动作离散化为自进化令牌集,并证明单个强化学习头可在添加极少额外参数的情况下控制检索、定位和合成任务。最后,HermesFlow(Yang 等人,2025c)将自回归文本模块与修正流图像解码器在跨任务奖励下结合,表明扩散风格和语言风格的策略可通过统一强化更新实现协调。这些研究共同表明,跨任务共享统一强化学习目标不仅降低训练成本,还能促进孤立的任务特定微调无法实现的跨模态泛化能力。
3.3.2 任务特定强化学习
与第 3.3.1 节的统一方法不同,任务特定强化学习将奖励信号限定于单一下游目标,仅优化一个功能头,而不影响其他能力。VARGPT-v1.1(Zhuang 等人,2025)是该策略的典型示例:尽管其底层视觉自回归模型可同时处理理解和生成任务,但其强化学习阶段仅针对视觉生成任务采用直接偏好优化(DPO)。类似地,Emu3(Wang 等人,2024b)仅在其图像生成分支引入强化学习,利用成对人类偏好进行优化;而对于模型的多模态理解能力(如图像描述、视觉问答(VQA)),则仅通过任务特定微调进行训练。
3.4 视觉-语言-行动模型
3.4.1 图形用户界面自动化
现代图形用户界面(GUI)强化学习研究将屏幕理解和动作预测构建为视觉-语言决策过程,然后采用基于规则或偏好的奖励来闭合感知-行动循环。在桌面和网页界面上,GUI-R1(Luo 等人,2025)引入 R1 风格规则集,将点击成功、文本输入和滚动有效性映射为密集奖励。UI-R1(Lu 等人,2025)添加带有新颖动作特定 KL 项的组相对策略优化(GRPO),以稳定长时程规划;SE-GUI(Yuan 等人,2025b)应用自进化过滤来提炼高保真轨迹。针对轨迹复用,UIShift(Gao 等人,2025b)构建逆动力学目标,使多模态大型语言模型(MLLM)能从未标注图形用户界面(GUI)对中学习动作,再通过强化学习优化。互补的基于偏好的框架包括:LPO(Tang 等人,2025)通过奖励空间接近度实现精确点击;ProgRM(Zhang 等人,2025b)注入程序级逻辑检查;RUIG(Zhang 等人,2023)利用带有强化信号的指令接地。工具特定基线(如 Ui-tars(Qin 等人,2025))提供更大的动作词汇表,但仍依赖规则驱动的强化学习实现稳健执行。
移动场景引入延迟和设备端约束。AgentCPM-GUI(Zhang 等人,2025j)压缩动作空间并进行组相对策略优化(GRPO)微调。MobileGUI-RL(Shi 等人,2025)通过在线强化学习和任务级奖励推进该路线,以在内存有限的情况下改进探索;Mobile-R1(Gu 等人,2025)将交互式多轮强化学习扩展到长任务中的错误级联修正。在推理阶段,GTA1(Yang 等人,2025e)采样多个动作候选,并采用评判模型选择最优动作,通过牺牲计算资源换取更高成功率。此外,Appvlm(Papoudakis 等人,2025)等轻量级模型表明,经过组相对策略优化(GRPO)微调的中等规模多模态大型语言模型(MLLM),可实现具有竞争力的智能手机应用控制精度。为自适应缩短思考长度,TON(Wang 等人,2025b)在监督微调阶段提出“思考丢弃”(thought-dropout)方案,随后通过组相对策略优化(GRPO)自适应跳过不必要的推理过程,以实现高效思考。
这些研究共同表明,图形用户界面(GUI)智能体可从规则可验证奖励、组归一化策略更新和偏好引导定位中获益,在实现可靠的跨平台自动化方面取得了快速进展。
3.4.2 视觉导航
基于强化学习的视觉导航研究目前将大型视觉-语言模型与具身控制相结合,采用组归一化或时间衰减回报来维持长时程稳定性。OctoNav-R1(Gao 等人,2025a)利用带有“行动前思考”能力的混合强化学习流程构建视觉-语言-行动(VLA)模型,然后将第一视角帧转换为低级动作。针对数据集效率,VLN-R1(Qi 等人,2025)构建端到端导航器,并引入时间衰减奖励处理连续轨迹。在系统层面,Flare(Hu 等人,2024a)表明,在模拟环境中通过大规模强化学习微调多任务机器人策略,可泛化到真实世界家庭任务。补充进展包括:More(Zhao 等人,2025)通过内存引导策略蒸馏增强全向输入;RAPID(Kim 等人,2025)整合姿态先验以加速未知布局中的收敛。这些研究表明,将时间奖励、内存采样和环境先验与组相对策略优化(GRPO)/近邻策略优化(PPO)结合,有助于视觉-语言-行动(VLA)智能体更可靠、高效地导航。
3.4.3 视觉操作
视觉操作任务(如物体重定位、工具使用和多步重排)需要细粒度感知和长时程规划。近期研究(Chen 等人,2025g;Shu 等人,2025)将强化学习与视觉-语言模型整合,以提升泛化能力、交互性和策略一致性。TGRPO(Chen 等人,2025g)引入任务接地奖励公式和组归一化更新,以稳定开放式物体操作的训练。RFTF(Shu 等人,2025)应用基于规则的奖励支持交互式桌面任务,并强调在极少人类监督下进行训练。同时,RLVLA(Liu 等人,2025c)和 VLA-RL(Lu 等人,2025b)探索基于课程或渐进式的强化学习方法,用于基于视觉-语言模型(VLM)的机器人智能体,在多样的重排环境中实现高成功率。
在此基础上,ConRFT(Chen 等人,2025e)和 iRe-VLA(Guo 等人,2025b)分别引入一致性感知和指令优化策略,利用强化学习使视觉预测与物理交互结果对齐。RIPT-VLA 专注于操作过程中的交互式提示,通过强化反馈连接大型语言模型(LLM)规划与低级控制(Tan 等人,2025b)。最后,ReinBot(Zhang 等人,2025c)利用多模态推演和基于偏好的更新,提升真实世界操作的鲁棒性(Zhang 等人,2025c)。这些研究共同强调了视觉-语言推理、结构化奖励设计和基于强化学习的优化在推进复杂语言条件下具身操作中的作用。
图 6:视觉强化学习中的指标粒度。(a)集合级指标 :对整个提示集合的单一分数,用于最终评估(如 FID)。(b)样本级指标 :用于训练策略的每个输出奖励(RLHF、DPO)。(c)状态级指标 :训练时信号(如 KL 散度或长度偏移),用于监控稳定性。符号说明:、、 分别表示提示、生成输出和真值。 和 分别表示初始策略模型和第 步策略模型。 表示奖励模型。
4.指标与基准测试
评估大型模型视觉强化学习(RL)既需要传统强化学习指标(Jordan 等人,2020;Agarwal 等人,2021),也需要为复杂开放式输出设计的新指标。累积回报和任务成功率等指标在涉及智能体和环境的任务中仍有用武之地,但它们正越来越多地与基于偏好的评估相结合。在本节中,我们将讨论大型模型强化学习四个主要应用领域的指标和基准测试。
4.1 指标粒度形式化
设 表示固定的提示(输入)集合,生成策略 为每个提示 生成条件输出 (文本、图像、视频等)。如图 6 所示,我们将评估分为三个粒度级别:
任务指标 (集合级):如图 6(a)所示,集合级指标通过比较生成输出分布 与真值输出参考集合 ,在整个测试提示集合 上评估生成策略 。当评估函数无需真值输出(如 CLIPScore(Hessel 等人,2021))时,我们定义:其中 表示应用于每个生成输出的样本级奖励函数。相比之下,许多经典视觉指标(如 IoU(Rezatofighi 等人,2019))依赖参考输出。对于这类情况,集合级评估定义为:其中每个真值输出 表示参考集合中的第 个真值。
奖励/优势指标 (样本级):如图 6(b)所示,奖励和优势指标 作用于单个输入-输出对粒度,是生成场景中强化学习的核心。给定提示 ,策略 生成样本 ,随后通过 为其评分,以计算标量奖励或优势信号。该反馈用于通过强化学习(如 PPO(Schulman 等人,2017)、DPO(Rafailov 等人,2023))优化策略。在基于偏好的学习中,样本级指标通常从人类或 GPT-4 比较中学习(Ouyang 等人,2022;Sun 等人,2023),或通过 CLIPScore(Hessel 等人,2021)、ImageReward(Xu 等人,2023)等评分模型自动推导。当奖励依赖参考(如使用 PSNR(Wang 等人,2004)或 IoU(Rezatofighi 等人,2019))时, 会将生成输出 与真值输出 进行比较。形式上,奖励信号可表示为:或具体取决于奖励模型 是否需要真值输出。在实际应用中,每个样本的分数会转换为逐步优势 (其中 表示生成步骤)。这些优势直接驱动策略更新,支持在单个输出粒度上进行奖励塑造和探索控制。
状态级指标 :如图 6(c)所示,状态级指标在迭代 时监控当前策略 的训练动态。常用指标是与冻结参考策略 的KL散度:
其他诊断指标包括自回归模型的输出长度偏移以及扩散模型的DDIM步骤轨迹方差。通过在优化过程中跟踪,研究人员可以在奖励攻击、模式崩溃或过度策略偏移等问题影响最终性能之前发现它们。
4.2 多模态大型语言模型的评估
任务指标:如表2所示,多模态大型语言模型(MLLM)首先通过外部无强化学习基准进行评估。MME(Fu等人,2023)、SEED-Bench(Li等人,2024a)和MMBench(Liu等人,2024b)等综合推理套件,衡量图像相关的事实问答、常识和多步思维链推理能力。特定领域子集则针对光学字符识别(OCR)(如TextVQA(Singh等人,2019))、数学(如MathVista(Lu等人,2023))、文档(如ChartQA(Lu等人,2023))和多语言定位(如CMMMU(Zhang等人,2024a))等任务进行测试。
奖励指标:训练过程中,每个生成答案都会通过样本级奖励评分。当前主流的奖励来源主要有三类。(i)人类偏好奖励从大型基于人类反馈的强化学习(RLHF)语料库(如InstructGPT(Ouyang等人,2022)、LLaVA-RLHF(Sun等人,2023))中学习,能提供与用户判断高度匹配的密集反馈。(ii)可验证奖励适用于存在确定性检查的子任务,例如CodeRL(Le等人,2022)中的单元测试通过率,或DeepSeekMath(Shao等人,2024b)中的符号精确性;这类奖励无噪声,但适用范围有限。(iii)模型偏好奖励用性能更强的冻结评判器(如CriticGPT(McAleese等人,2024))替代人类,可扩展性强,但可能存在偏差。选定的奖励会转换为优势,并通过近邻策略优化(PPO)、组相对策略优化(GRPO)或直接偏好优化(DPO)进行优化。
模型状态指标:除外部评分外,研究人员还会在整个强化学习更新过程中跟踪轻量级诊断指标。目前广泛采用的两种轻量级诊断指标为:(i)输出长度偏移,即答案长度与监督微调(SFT)基线的偏差——较大的偏移预示着模型可能出现冗余表述或重复生成问题(Rafailov等人,2023);(ii)当前策略与冻结监督微调参考策略之间的KL散度,这一指标在InstructGPT(Ouyang等人,2022)中已被采用。
4.3 视觉生成模型的评估
任务指标:如表2所示,最终质量通过标准无强化学习基准评估,这些基准针对不同维度设计。图像保真度和多样性通过FID(Fréchet Inception Distance)和Inception Score(IS)衡量;像素级重建任务(如超分辨率、图像修复)则采用PSNR(峰值信噪比)或SSIM(结构相似性指数)。在提示对齐方面,CLIP Score和Fréchet CLIP Distance量化语义正确性;视频模型还会额外报告FVD(Fréchet Video Distance)或Video IS,以捕捉时间连贯性。
奖励指标:在强化学习微调过程中,每个生成的图像或视频都会通过样本级奖励评分。ImageReward(Xu等人,2023)和HPS(人类偏好分数)(Wu等人,2023b)等人类偏好奖励提供与美学吸引力高度相关的密集信号。当存在确定性检查器时,研究人员会采用可验证奖励:例如MotionPrompt(Nam等人,2025)和DSPO(Cai等人,2025b)使用光流、目标掩码等无需人工参与即可评估的指标。第三种途径依赖模型偏好奖励,即通过性能更强的冻结评判器(如VideoPrefer(Wu等人,2024)或PARM(Zhang等人,2025f))对样本评分,从而实现可扩展的直接偏好优化(DPO)/近邻策略优化(PPO)训练。
模型状态指标:有两种轻量级诊断指标可用于跟踪训练稳定性。(i)去噪轨迹统计:VARD(Dai等人,2025)和Inversion-DPO(Li等人,2025f)记录每一步的噪声预测或DDIM轨迹;异常峰值可反映早期崩溃问题。(ii)当前扩散策略与其冻结基础模型()之间的KL散度,该指标在DDPO(Black等人,2023)中得到推广,并在VARD中进一步应用。
4.4 统一模型的评估
任务指标:目前广泛采用两类基准测试。GenEval(Ghosh等人,2023)、DPG-Bench(Hu等人,2024b)和ParaPrompts(Wu等人,2025d)等面向生成的任务指标,重点关注提示忠实度生成,测试多目标组合、风格控制和长描述遵循能力。相反,MME(Fu等人,2023)、POPE(Li等人,2023)等面向理解的任务指标,在同一骨干网络上衡量定位、推理和幻觉检测能力。
奖励指标:近期研究针对训练信号探索了两种设计思路。统一奖励(如UniRL(Mao等人,2025)、CoRL(Jiang等人,2025b))将文本正确性、CLIP对齐度、美学质量等多个目标融合为单一标量,驱动跨任务共享策略的优化。与之相反,任务特定奖励将生成头和理解头分开,仅对生成分支应用强化学习,例如Vargpt-v1.1(Zhuang等人,2025)或Emu3(Wang等人,2024b)。前者有助于促进跨模态迁移,后者则能保持感知模块的稳定性。
模型状态指标:统一模型在强化学习过程中还需跟踪细粒度诊断指标。UniRL(Mao等人,2025)提出“生成-理解不平衡分数”——即两类任务批次级奖励的绝对差距,以防止某一模态在更新中占据主导地位。HermesFlow(Yang等人,2025c)则监控当前共享策略与其监督基线在生成和理解提示上的KL散度,将其作为策略崩溃的早期预警信号。这些状态级曲线能帮助研究人员在外部任务评分下降前停止训练或重新调整权重。
4.5 视觉-语言-行动模型的评估
任务指标:在图形用户界面(GUI)自动化任务中,存在多种基准测试,可分为离线和在线场景。在离线场景中,主要包括定位和导航任务。对于定位任务,主要检查点击动作是否落在目标按钮区域;对于导航任务,要求模型根据已知的历史记录预测当前动作,这主要取决于每一步动作类别(点击或输入)的预测准确性。在线场景的挑战性更大,因为它要求模型完整执行多步骤流程,然后检查最终结果是否满足任务要求。这种长流程设置会导致模型评估信号稀疏。
奖励指标:在奖励建模方面,大多数离线强化学习方法借鉴任务指标(如交并比(IoU))作为奖励;而在在线环境中,由于任务成功率信号稀疏,端到端多轮强化学习训练面临重大挑战(Lu等人,2025a),即训练效率低、信息量不足。为解决这一问题,研究人员提出了步骤级奖励,例如开发奖励模型或评判器模型(Bai等人,2024;Chae等人,2024)。
模型状态指标:为全面了解模型行为(而非仅关注任务成功率),轨迹长度成为一项重要指标,它能反映模型解决任务的效率。智能体应能以最少步骤完成任务,这对具备高级规划能力的智能体而言是一项挑战。
4.6 基准测试
一系列新基准专门支持视觉领域基于强化学习的训练和评估(见表3)。针对多模态大型语言模型(MLLM),近期数据集聚焦复杂多跳推理和与人类偏好的对齐。例如,SEED-Bench-R1(Chen等人,2025c)构建了一个分层第一视角视频问答基准,包含5万个训练问题和经过人类验证的验证集。Long Video RL(Chen等人,2025f)则扩展了长视频多步推理任务,提供5.2万个带详细推理标注的问答对。另一项近期基准Ego-R1 Bench(Tian等人,2025)专注于超长(长达一周)第一视角视频;基于强化学习训练的“工具思维链”智能体平均需调用7个连续感知工具才能回答每个查询,这体现了将逐步推理准确性作为核心挑战的设计思路。在图像领域,VisuLogic(Xu等人,2025a)包含1000个精心设计的视觉推理谜题(如空间和逻辑问题),用于评估纯视觉中心推理能力,而目前大多数模型在该基准上的表现仅略高于随机水平。
视觉生成任务的基准主要提供人类偏好数据,作为策略优化的奖励模型。ImageReward(Xu等人,2023)和HPS v1 & v2(Wu等人,2023b;2023a)等数据集收集文本到图像输出的人类排序对,可用于训练标量奖励函数对生成结果评分。这类奖励模型已被用于通过基于人类反馈的强化学习(RLHF)优化文本到图像扩散模型,使输出与人类美学偏好对齐。类似地,Pick-a-Pic(Kirstain等人,2023)和VideoReward(Liu等人,2025b)将这一思路扩展到更广泛的用户偏好(如运动流畅度、文本对齐度)。部分基准还支持对生成式强化学习智能体的泛化能力进行稳健评估。T2I-CompBench(Huang等人,2023)是一个文本到图像组合性测试集,要求模型正确处理属性和目标关系的新组合——这一指标常用于评估基于强化学习训练的生成器的组合泛化能力。此外,特定领域基准将可验证成功标准定义为奖励:StarVector(Rodriguez等人,2025a)提供SVG(可缩放矢量图形)代码生成任务及严格的形状匹配奖励;AnimeReward(Zhu等人,2025a)则通过多维度人类偏好分数(如图像-视频连贯性、角色一致性等),针对动画视频生成的一致性进行优化。
针对视觉-语言-行动(VLA)智能体,众多基准提供专家轨迹和模拟环境,以及明确的奖励信号,用于策略训练和稳健评估。其中许多基准围绕图形用户界面(GUI)和网页交互任务设计,这些任务的成功标准可明确衡量。例如,GUI-R1-3K(Luo等人,2025)汇编了3000多个跨Windows、Linux、macOS、Android和网页平台的图形用户界面操作轨迹,并引入“R1风格”密集奖励方案,将每个正确动作(如点击正确按钮、输入正确文本、有效滚动)映射为正反馈,为智能体提供多步骤图形用户界面任务的逐步强化信号。在此基础上,SE-GUI(Yuan等人,2025b)精选3000个高质量图形用户界面示例,包含接地指令和边界框标注,用于训练采用自模仿强化学习策略的智能体。UI-R1(Lu等人,2025)等面向评估的套件定义了一组未见过的任务(如136个涵盖点击、滚动、滑动、文本输入动作的移动图形用户界面任务),用于测试所学策略的泛化能力。同时,Mind2Web(Deng等人,2023)等网页交互基准提供2000个真实网站任务,并以任务完成与否作为二元奖励。部分数据集强调精确匹配和可复现性:AITZ(Zhang等人,2024b)(基于CoAT推理的Android交互)记录1.8万个屏幕-动作对及相应的工具辅助推理过程,并采用精确动作匹配奖励确保严格遵循指令。另一方面,OmniAct(Kapoor等人,2024)和GUICoURS(Chen等人,2024b)等更广泛的基准则致力于提升智能体在不同领域的通用能力。OmniAct将近1万个脚本化桌面和网页任务整合到单一环境中;GUICoURS则融合多模态资源(1000万个光学字符识别观测结果、6.7万个导航演示),涵盖图形用户界面、网页和聊天界面。这些基准中的奖励结构经过精心设计(从基于规则的指标到偏好分数),既能指导策略学习,又能反映任务目标,使视觉强化学习智能体能从有意义的反馈中学习,且评估不仅关注任务成功与否,还包括与人类推理的对齐程度以及在复杂长时程决策中的表现。
5.挑战与未来方向
5.1 高效推理:平衡深度与效率
视觉强化学习中一个反复出现的挑战是推理校准:过长的视觉或语言思维链会导致延迟增加和误差累积,而过度激进的剪枝则会丢失关键线索。我们预见两个主要研究方向。(i)自适应时程策略:训练终止评判器,同时优化答案质量和计算成本;基于课程学习的奖励塑造可逐步惩罚冗余步骤,同时保留信息量高的步骤。(ii)元推理与少样本自评估:整合轻量级评估器,对部分思维链进行评判(如通过冻结视觉-语言模型),并判断是否需要进一步推理。因此,未来基准测试应同时报告成功率和推理效率指标(平均步骤数、浮点运算次数、延迟),鼓励开发能以“恰到好处”的推理而非“过度”推理实现高准确性的算法。
5.2 视觉-语言-行动模型中的长时程强化学习
长时程视觉-语言-行动(VLA)智能体需执行数十个原子动作(如点击、拖动、文本编辑)后,才能获得最终任务奖励。现有研究(如OS-World(Abhyankar等人,2025)、ARPO(Lu等人,2025a))因此采用每个点击动作的稀疏奖励和任务成功与否的二元标记,但实证结果表明,即使采用组相对策略优化(GRPO),在这种监督方式下性能提升仍有限。未来研究应致力于:(i)发现内在子目标:通过状态变化检测或语言条件聚类对轨迹进行分割,然后为子目标完成分配密集奖励;(ii)学习可用性评判器:训练对比性视觉-语言模型,评估动作对缩小与语言目标差距的贡献,在无需人工标注的情况下提供塑造反馈;(iii)分层或选项式强化学习:将提出语义子任务的高级语言规划器与通过离线强化学习或决策Transformer微调的低级策略相结合;
5.3 面向视觉思考的强化学习
近期视觉规划相关研究(如Chain-of-Focus(Zhang等人,2025g)、Openthinkimg(Su等人,2025b))均将图像视为外部工作空间:智能体在生成下一个语言令牌前,可对图像进行裁剪、绘制、高亮或插入视觉令牌。尽管早期原型依赖监督启发式方法实现这些空间动作,但向强化学习过渡过程中暴露出四个未解决的问题。(i)动作空间设计:裁剪或涂鸦本质上是连续的(如),但强化学习库和GPU内存更倾向于小规模离散集合。BRPO(Chu等人,2025)和VRAG-RL(Wang等人,2025f)中提及的混合方案——先学习可微提议策略,再通过策略梯度微调优化坐标——目前仍未得到充分探索。(ii)信用分配:大多数基准仅奖励最终任务成功(如VILASR(Wu等人,2025a)中的答案正确性);整个视觉思维链共享单一稀疏标量奖励。未来研究应挖掘步骤级代理奖励,例如裁剪后CLIP相似度的提升、学习信念状态的熵减等,以支持引导式或分层强化学习。(iii)数据效率:绘制或插入补丁会触发视觉编码器的额外前向传播,导致朴素的在线强化学习成本过高。Relabeling(DeepEyes(Zheng等人,2025))和基于模型的想象(Pixel Reasoner(Su等人,2025a))为样本高效方法提供了思路,但针对视觉动作的系统性重放和不确定性感知规划器仍有待开发。因此,未来方向包括:通过技能先验强化学习学习结构化视觉技能(裁剪、缩放、绘制);设计跨模态奖励塑造,通过评估每次编辑对简化剩余推理的贡献进行评分;构建不仅关注最终准确性的基准测试指标。
5.4 视觉生成的奖励模型设计
基于强化学习的视觉生成面临的核心障碍是缺乏可扩展且可靠的奖励函数。FID(Heusel等人,2017)等广泛使用的手工设计指标虽能提供便捷的数值信号,但与人类对美学、语义保真度或时间连贯性的判断相关性较弱,尤其当任务超出单帧图像范围时。ImageReward(Xu等人,2023)、HPS(Wu等人,2023b)(针对图像)和VideoReward(Liu等人,2025b)(针对视频)等近期学习型评判器,通过在成对人类偏好数据上训练来弥补这一差距,但每种模型仅针对特定模态,且仅捕捉感知质量的某一方面(如提示对齐或视觉吸引力)。因此,通过近邻策略优化(PPO)或组相对策略优化(GRPO)优化的策略往往会利用单一标量信号的漏洞,生成高对比度伪影、重复纹理或物理上不合理的运动,这些结果虽能“欺骗”评判器,但并未提升实际用户满意度。因此,当前挑战在于设计满足以下条件的奖励模型:(i)整合互补的低级信号(一致性、物理规律、几何结构)与高级人类偏好;(ii)跨图像、视频和3D场景实现泛化;(iii)在防止奖励攻击的同时,保持足够低的更新成本以适应用户偏好的持续变化。
6 结论
视觉强化学习已从孤立的概念验证发展为连接视觉、语言和行动的活跃研究前沿。我们的综述表明,当前进展由三大力量共同推动:(i)可扩展的奖励监督,从劳动密集型的基于人类反馈的强化学习(RLHF)逐步转向组相对和可验证信号流程;(ii)统一架构,通过单一策略联合优化感知、推理和生成能力;(iii)日益丰富的基准测试,不仅衡量任务成功与否,还评估与人类偏好的对齐程度和策略稳定性。
然而,仍存在重大挑战。首先,数据和计算效率亟待提升:现有方法通常需要比监督学习多一个数量级的样本。其次,跨领域、跨视角和跨具身场景的稳健泛化能力仍有限。第三,针对长时程、开放世界任务的奖励设计缺乏系统性指导,存在奖励攻击和不安全行为的风险。最后,评估标准需进一步发展,以涵盖实际效用、伦理对齐和能耗等维度。解决这些问题可能需要更紧密地整合基于模型的规划、自监督视觉预训练、自适应课程学习和安全感知优化。
总之,视觉强化学习有望改变智能系统感知和与周围环境交互的方式。通过整合方法学见解并明确未解决的问题,本综述旨在为研究提供参考,并推动下一代样本高效、可靠且社会对齐的视觉决策智能体的研究浪潮。
参考文献
•标题:Reinforcement Learning in Vision: A Survey
•作者:Weijia Wu、Chen Gao、Joya Chen、Kevin Qinghong Lin、Qingwei Meng、Yiming Zhang、Yuke Qiu、Hong Zhou、Mike Zheng Shou
•单位:1.新加坡国立大学Show实验室(Show Lab, National University of Singapore);2.浙江大学(Zhejiang University);3.香港中文大学(The Chinese University of Hong Kong)
•标签:视觉强化学习、多模态大型语言模型、视觉生成、统一模型框架、视觉-语言-行动模型、强化学习算法(PPO/GRPO)、基准测试与评估
•概述:该文章对视觉强化学习领域进行全面且最新的综述,涵盖问题形式化、策略优化演变、四大主题领域研究、评估协议及挑战,为该领域研究提供结构化参考。
•链接:https://arxiv.org/pdf/2508.08189
本文转载自旺知识,作者:旺知识
