VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型原创精华

发布于 2025-5-7 07:01

浏览

0收藏

摘要

最近，DeepSeek R1 表明，强化学习（RL）可以通过一种简单而有效的设计，大幅提升大语言模型（LLMs）的推理能力。R1 的核心在于其基于规则的奖励公式，它利用具有确定性正确答案的任务，实现精确且稳定的奖励计算。在视觉领域，我们同样观察到，许多视觉理解任务本质上都配备了定义明确的真实标注。这一特性使它们自然地与基于规则的奖励机制兼容。受此启发，我们研究将 R1 风格的强化学习扩展到视觉语言模型（VLMs）中，旨在提升其视觉推理能力。为此，我们开发了 VLM-R1，这是一个专门设计的框架，利用强化学习来提高视觉语言模型在通用视觉语言任务上的性能。通过这个框架，我们进一步探索了强化学习在视觉领域应用的可行性。实验结果表明，基于强化学习的模型不仅在视觉理解任务上表现出色，而且在泛化能力上超过了监督微调（SFT）。此外，我们进行了全面的消融研究，揭示了一系列值得关注的发现，包括目标检测中的奖励作弊现象、“目标检测顿悟时刻” 的出现、训练数据质量的影响，以及强化学习在不同模型规模下的缩放行为。通过这些分析，我们旨在加深对强化学习如何提升视觉语言模型能力的理解，并且希望我们的研究结果和开源贡献能够推动视觉语言强化学习社区的持续发展。我们的代码和模型可在https://github.com/om-ai-lab/VLM-R1上获取。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

图1. VLM-R1提供了一个标准流程，通过强化学习来增强基础视觉语言模型（VLMs）。

1. 引言

OpenAI o1 的推出表明，强化学习（RL）能够让大语言模型（LLMs）直接从对其输出的反馈中学习，从而显著提升它们的推理能力。最近，DeepSeek R1 进一步推进了这一观点，表明简单的基于规则的奖励（无需单独训练的奖励模型）就足以让大语言模型自主获得复杂的推理能力。

这一成功的关键因素在于，基于规则的奖励设计易于应用于具有确定性正确答案的任务，从而实现稳定且可解释的奖励信号。类似地，在视觉领域，存在许多视觉理解任务，这些任务本质上包含精确且客观定义的真实标注。例如，指代表达理解（REC）等任务可以直接采用预测边界框与真实标注之间的交并比（IoU）作为明确的奖励指标。受这些观察的启发，研究类似的强化学习方法是否能同样提升视觉语言模型（VLMs）的推理能力，就变得很自然了。

为此，我们开发了 VLM-R1，这是一个专门设计且可扩展的框架，旨在应用强化学习来提高视觉语言模型在通用视觉语言任务上的性能。VLM-R1 在设计时考虑了灵活性、可扩展性和易于实验性。它支持广泛的配置，专为视觉语言模型背景下基于强化学习的优化研究而定制。VLM-R1 的主要特点包括：

•GRPO 兼容性：完全支持原生的 GRPO 算法，并可对所有超参数进行细粒度控制。

•基于 LoRA 的训练：通过 LoRA 实现高效的参数训练，适用于资源有限的场景。

•多节点训练：支持跨多个 GPU 或服务器节点的分布式训练，以实现可扩展性。

•多图像输入：每个样本支持多个图像，便于处理复杂的多图像推理任务。

•模型灵活性：与多种视觉语言模型兼容，目前支持 QwenVL 和 InternVL。

•自定义数据集支持：轻松集成用户定义的数据集，允许进行特定任务或特定领域的实验。

•混合模态训练：支持在图像文本和纯文本数据集上进行训练，包括混合组合。

通过提供统一、模块化且高度适应性的训练流程，VLM-R1 成为推进强化学习与视觉语言建模交叉领域研究的有力工具。

在本报告中，我们利用 VLM-R1 框架，选择了两个视觉理解任务 —— 指代表达压缩（REC）和开放词汇目标检测（OVD），来探索强化学习在视觉语言模型中应用的可行性和有效性。REC 和 OVD 具有相同的输出格式 —— 边界框，但任务复杂度差异显著。在 REC 中，模型需要根据给定的查询预测单个边界框，而在 OVD 中，模型必须为每个查询目标准确输出相应的边界框。这种对比使我们能够分析具有相似输出结构但难度不同的任务，如何影响强化学习在视觉语言模型中的有效性。此外，我们观察到，在这些任务上，视觉语言模型的表现往往不如专门的视觉模型（例如 Grounding DINO、OmDet）。如表 1 所示，尽管 Qwen2.5-VL-3B 的参数数量是 Grounding DINO 的 10 倍以上，但在 REC 和 OVD 基准测试中，其性能仍落后于后者。这种性能差距引发了一个重要问题：强化学习能否用于提升视觉语言模型在这些具有挑战性的视觉理解任务上的有效性？

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

表 1. Qwen2.5-VL-3B 与 Grounding DINO 在 REC 和 OVD 任务上的性能对比。尽管 Qwen2.5-VL-3B 的参数数量是 Grounding DINO 的 10 倍以上，但在这些评估数据集上仍表现不佳。这显示了视觉语言模型在这些视觉理解任务上的不足。

实验结果表明，与监督微调（SFT）相比，强化学习显著提升了视觉语言模型的视觉理解性能。更重要的是，在复杂的真实世界基准测试中，强化学习在泛化能力上取得了更大的提升。在 REC 任务中，我们的 30 亿参数强化学习模型在域外评估基准 LISAGrounding 上的得分达到 63.16（监督微调模型为 54.82）。在 OVD 任务中，30 亿参数强化学习模型在 COCO 数据集上的平均精度均值（AP）达到 21.1（监督微调模型为 17.8；70 亿参数基线模型为 14.2），在 OVDEval 基准测试中达到了新的最优成绩 31.01 nms-AP（监督微调模型为 26.50；70 亿参数模型为 29.08），在复杂子任务中表现尤为出色。

此外，全面的消融研究进一步揭示了一系列重要发现。例如，我们观察到目标检测中的奖励作弊现象，并通过奖励工程来缓解这一问题，在此过程中模型出现了 “目标检测顿悟时刻”，即先推理目标是否存在，再进行预测。此外，我们还证明了仔细选择训练数据可以提高最终性能，并分析了模型大小的影响。综上所述，我们的研究结果表明，更复杂的任务（如开放词汇目标检测）需要额外的优化才能取得优异的性能，而相对简单的任务（如指代表达理解）则可以通过较少的修改得到有效解决。我们的贡献可以总结如下：

•我们基于 open-r1 开发了 VLM-R1，这是一个专门设计且可扩展的框架，旨在应用强化学习来提高视觉语言模型的性能，注重灵活性、可扩展性、易于实验性，并支持广泛的强化学习配置。

•我们通过训练指代表达压缩和开放词汇目标检测这两个基本的视觉理解任务，证明了强化学习在视觉语言模型中的有效性。使用 VLM-R1 训练的强化学习模型与监督微调模型相比，性能有所提升，尤其是在复杂的真实世界域外基准测试中。

•我们扩展的消融研究揭示了一系列有趣的发现，包括目标检测中奖励作弊现象的存在、“目标检测顿悟时刻” 的出现、训练数据质量的影响，以及强化学习在不同模型规模上的效果。我们报告了这些发现，并分析了如何优化强化学习以提升视觉语言模型的性能。

•我们发布了框架代码库和所有模型权重，希望为视觉语言强化学习的开源社区做出贡献。

2. 相关工作

2.1 视觉语言模型

自大语言模型（LLMs）出现以来，它们在各种语言应用中取得了成功，推动了视觉语言模型（VLMs）的发展，开创性的工作包括 [4, 22, 26]。随后，LLaVA 利用 GPT-4 开发训练数据，并在视觉对话和视觉推理中取得了不错的成绩，激发了一系列专注于视觉指令数据的研究 [8, 13, 29]。然而，当时视觉语言模型的一个关键限制在于其图像输入分辨率受底层视觉编码器能力的制约 [43, 47, 57]。为了克服这一问题，AnyRes 机制被引入，允许灵活处理不同分辨率和宽高比的图像。这一进展提高了视觉语言模型对各种视觉输入的感知能力，并进一步增强了它们的推理能力。如今，一些最广泛采用的开源视觉语言模型系列包括 LLaVA、QwenVL 和 InternVL。

2.2 将 R1 应用于视觉语言模型的尝试

有几项同期研究探索了将 R1 应用于视觉语言模型（VLMs）。同期工作 R1-OneVision 和 R1-V 是这一方向的重要研究。R1-OneVision 提出了一种跨模态推理流程，将图像转换为视觉形式表示，然后通过语言模型构建视觉推理数据集。视觉语言模型首先在该数据集上进行训练，随后通过强化学习阶段进一步提升其推理能力。与此同时，R1-V 将 DeepSeek R1 中的 GRPO 方法引入视觉语言模型训练，针对目标计数任务，使一个 30 亿参数的模型性能超过了一个 720 亿参数的模型。不久之后，VisualThinker-R1-Zero 被提出，它表明将 R1 应用于基础视觉语言模型（而非指令微调模型）可以实现更显著的性能提升，并成功触发了所谓的 “视觉顿悟时刻”。另一项观察到顿悟时刻出现以及模型响应长度增加（类似于 DeepSeek R1 中的现象）的工作是 MMEureka，它将 RLOO 应用于 80 亿参数的指令微调视觉语言模型和 380 亿参数的基础视觉语言模型。与 R1-OneVision 类似，Vision-R1 通过将视觉信息转换为语言格式并输入到语言推理模型中，构建了一个多模态思维链（CoT）数据集。该数据集作为冷启动训练数据，随后通过 GRPO 进一步增强模型的多模态推理能力。此外，Curr-ReFT 提出了一种具有渐进难度奖励的三阶段强化学习方法来优化强化学习训练，LMM-R1 提出了一种两阶段基于规则的强化学习方法，首先采用纯文本数据增强模型的基本推理能力，然后在有限的复杂多模态推理任务上继续进行强化学习。

上述大多数研究主要集中在提高多模态数学任务的性能上 [36, 48, 58]。相比之下，Visual-RFT 将强化学习应用于视觉感知任务，与我们的工作更为相关。然而，我们的研究提供了更全面的调查，不仅仅是监督微调（SFT）和强化学习之间的简单比较。具体来说，我们进一步分析了奖励工程的作用，并系统地研究了仔细选择训练数据的影响，特别是对于复杂任务。

3. VLM-R1 框架

在本节中，我们简要介绍所提出的 VLM-R1 框架。VLM-R1 基于 OpenR1 构建，OpenR1 是一个用于重现 DeepSeek R1 语言推理能力的开源框架。我们将其实现扩展到视觉语言领域。

除了我们的框架，还有其他几个针对视觉语言强化学习的开源框架 [1, 9]。需要注意的是，我们的主要目标是将 R1 风格的方法应用于视觉语言模型（VLMs）。因此，我们目前的实现仅专注于 DeepSeek R1 最初采用的 GRPO 算法。目前，VLM-R1 仅支持 GRPO，计划在未来的工作中集成更多的强化学习算法。接下来，我们首先概述该框架，然后详细描述 VLM 模块，该模块能够无缝支持各种视觉语言模型架构。

3.1 概述

如图 2 所示，VLM-R1 框架由两个主要组件组成：grpo_jsonl.py 和 grpo_trainer.py，它们共同构成了将 GRPO 算法应用于视觉语言模型的完整流程。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

图 2：VLM-R1 框架流程图。此图展示了框架的功能转换。VLM-R1 的关键特性由绿色矩形显示。

在第一阶段（grpo_jsonl.py），作为准备阶段，用户可以灵活定义自定义奖励函数，并根据自己的任务准备训练数据。该框架还通过模块化的 VLM 模块定义支持各种视觉语言模型，这将在 3.2 节中描述。第二阶段（grpo_trainer.py）管理 GRPO 训练过程。它从模型初始化开始，然后根据用户自定义参数确定训练参数。我们支持 LoRA 微调、视觉塔冻结训练和全参数训练，以适应不同的计算资源和任务要求。随后，模型生成多个序列，并使用定义的奖励函数对其进行评分。这些奖励信号用于计算 GRPO 损失，以进行参数优化。

VLM-R1 为 GRPO 训练提供了全面支持，同时在奖励设计、模型选择和优化策略方面提供了灵活性，使其成为基于强化学习的视觉语言研究的通用工具。

3.2 VLM 模块

为了便于将各种视觉语言模型无缝集成到训练过程中，我们设计了一个统一的组件，称为 VLM 模块。该模块封装了通用的视觉语言模型功能，例如检索模型的类名，以及将输入问题格式化为特定模型的聊天模板。通过抽象这些操作，GRPOTrainer 可以通过简单调用 VLM 模块提供的标准化接口与不同的视觉语言模型进行交互，而无需处理特定模型的实现细节。这种设计不仅简化了新模型的集成，还增强了整个框架的模块化和可读性。Trainer 与 VLM 模块之间的交互如图 3 所示。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

图 3：Trainer 与 VLM 模块之间的交互。通过 VLM 模块，GRPOTrainer 可以通过简单调用标准化接口与不同的视觉语言模型进行交互，而无需处理特定模型的实现。

4. 奖励设计

如第 1 节所述，我们选择指代表达理解（REC）和开放词汇目标检测（OVD）作为代表性任务，主要基于两点考虑。首先，这两个任务都具有相同的边界框输出格式，但复杂度不同，为研究强化学习在不同难度任务中的影响提供了合适的设置。其次，专门的视觉模型在这些基准测试中始终优于视觉语言模型，这为评估强化学习是否有助于缩小这一性能差距提供了宝贵的机会。

在本节中，我们首先简要介绍通用的 GRPO 算法，然后介绍为 REC 和 OVD 任务设计的、集成到 GRPO 中的奖励函数。

4.1 GRPO 算法概述

与 PPO 等强化学习算法不同（PPO 需要额外的价值评估模型来估计策略性能），分组相对策略优化（GRPO）直接比较候选响应组，无需单独的价值评估模型。给定一个问题 q，GRPO 从策略\pi_{\theta}中采样 N 个候选响应\{o_{1}, o_{2}, ..., o_{N}\}，并使用奖励函数R(q, o_{i})评估每个响应o_{i}，该函数衡量在给定问题背景下候选响应的质量。为了确定这些响应的相对质量，GRPO 通过计算奖励的均值和标准差对奖励进行归一化，然后得出优势值：

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

其中A_{i}表示候选响应o_{i}相对于其他采样响应的优势值。GRPO 通过使用以下目标更新策略\pi_{\theta}，鼓励模型在组内生成具有更高优势值的响应：

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区图片

如 3.1 节所述，上述公式中的所有超参数都包含在我们提出的 VLM-R1 框架中。

随后，我们将介绍为 REC 和 OVD 任务采用的奖励函数 R。遵循 DeepSeek-R1，我们使用两种类型的奖励：准确率奖励和格式奖励。

4.2 指代表达理解的奖励函数

准确率奖励：指代表达理解（REC）是要求模型识别由指代表达描述的对象的区域边界框的任务。用 q 表示输入问题，b^{*}表示真实边界框，o表示视觉语言模型的输出句子，f_{rec}表示从输出句子中提取边界框的函数。REC 的准确率奖励定义为：

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

其中 IoU 是交并比度量。这个奖励函数旨在鼓励模型生成与真实边界框紧密匹配的边界框。

•格式奖励：REC 的格式奖励检查响应是否遵循指定格式，要求模型在标签中输出 json 格式的响应，并包含一个边界框（...{...[x1, y1, x2, y2] .... }），根据合规情况返回 1 或 0。

4.3 开放词汇目标检测的奖励函数

•准确率奖励：开放词汇目标检测（OVD）要求模型在图像中检测给定的对象标签，并输出相应的边界框和类别标签。这个任务与 REC 具有相似的输出格式，但由于需要同时生成边界框和类别标签，所以更加复杂。在这个任务中，我们促使视觉语言模型输出一个边界框列表以及它们相应的类别标签，这些可以通过一个函数f_{ood}提取为一个组合列表b_{pred }={(b_{1}, c_{1}),(b_{2}, c_{2}), ...,(b_{n}, c_{n})}，其中b_{i}是边界框，c_{i}是类别标签。设q表示输入问题，mAP()表示计算平均精度均值度量的函数，b_{gt}表示真实边界框和类别标签的组合列表，L_{gt}表示真实组合的数量，L_{pred }表示预测组合的数量。OVD 的准确率奖励定义为：

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

其中s_{ovd}是对视觉语言模型冗余预测的惩罚因子，我们的实验表明这个惩罚因子有助于提高 OVD 任务的性能。这个奖励被指定为 odLength 奖励。

•格式奖励：OVD 的格式奖励检查响应是否遵循指定格式，要求模型在标签中输出 markdown 格式的 JSON 响应（... ‘‘‘json...‘‘‘），根据合规情况返回 1 或 0。

5. 实验

5.1 实现细节

•选择的视觉语言模型：我们采用 Qwen2.5VL-3B-Instruct 作为基础模型，因为它在视觉语言理解方面具有很强的潜在性能，有望通过强化学习进一步挖掘。在一些实验中，我们还引入了 Qwen2.5VL-7B-Instruct 和 32B 模型，以研究模型大小的影响。

•超参数设置：在使用强化学习训练 REC 时，我们采用默认的 GRPO 参数设置，将N设置为 8，温度设置为 0.9，迭代次数设置为 1，KL 散度比率（即\beta）设置为 0.04。我们训练模型 2 个 epoch，强化学习和监督微调的学习率均为1e-6。对于 OVD 任务，我们仅将\beta设置为 0，其他参数保持不变。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

•提示模板

◦REC 的问题模板：请提供这句话描述区域的边界框坐标：{query}。

◦OVD 的问题模板：请仔细检查图像并检测以下对象：{目标列表}。以 JSON 格式输出每个检测到的目标的边界框坐标。边界框坐标的格式为：“‘json [”bbox 2d”: [x1, y1, x2, y2], ”label”: ” 目标名称”, ”bbox 2d”: [x1, y1, x2, y2], ”label”: ” 目标名称”]。如果图像中没有这些目标，只需回复 None。

◦思考提示：{问题} 在标签中输出思考过程，在标签中输出最终答案。

5.2 主要结果

5.2.1 指代表达理解

•训练数据集：我们使用 Refcoco/+/g 的训练分割作为训练数据。这些是 REC 任务中使用最广泛的数据集，主要包含基于空间或外观属性的对象描述，不涉及明确的推理信息。我们的目标是研究在这种非推理数据集上训练的模型，能否将通过强化学习过程获得的推理能力泛化到更具挑战性的评估场景中。

•评估数据集：我们选择 Refcoco/+/g 的验证分割进行域内评估，选择 LISA-Grounding 的测试分割进行域外评估。LISA-Grounding 是一个推理密集型数据集，要求模型进行细粒度的视觉感知、对指代表达的精确理解以及对象之间的关系推理，才能正确定位目标边界框。图 4 展示了两个数据集之间差异的示例。对 LISA-Grounding 的评估是对模型将从较少推理需求的域内数据集获得的推理技能，泛化到更具挑战性的域外场景能力的关键测试。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

图 4：REC 任务中域内和域外数据集的差异。域内数据仅描述对象的空间或外观属性信息，而域外数据要求模型利用开放世界知识识别足球守门员的角色，然后进行定位。

•结果：表 2 展示了监督微调（SFT）和强化学习（RL）模型在四个数据集上的性能，图 5 提供了相应的可视化，以便更清晰地进行比较。在域内测试数据中，无论训练步数多少，SFT 模型相对于基础模型（即步骤 0）的改进都很有限，而 RL 模型始终能实现稳定的性能提升（图 5 顶部）。更关键的是，在域外测试数据上，随着训练的进行，SFT 模型的性能略有下降。相比之下，RL 模型有效地将其推理能力泛化到域外设置，保持稳定且优异的性能（图 5 底部）。这些结果清楚地证明了强化学习在提高视觉语言模型在需要密集推理的具有挑战性场景中的泛化能力方面的优势。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

表 2. 监督微调（SFT）和强化学习（RL）在域内和域外评估数据集上的性能比较。所有结果均来自在 Refcoco/+/g 训练分割上训练的 Qwen2.5VL3B-Instruct 模型。步骤 0 表示 Qwen2.5VL-3B-Instruct 模型本身的结果。∆RL−SFT 表示 RL 模型相对于 SFT 模型的改进值。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

图 5：监督微调（SFT）和强化学习（RL）模型的性能比较。与 SFT 模型相比，RL 模型在域外评估数据集上表现出明显更好的泛化能力。

5.2.2 开放词汇目标检测

•训练数据集：我们使用描述检测数据集（D^{3}）作为训练数据，它为训练目标检测模型提供了几个独特的优势：（1）完整的注释覆盖；（2）不受限制的语言描述；（3）实例级注释；（4）支持不存在表达。在训练过程中，我们随机从其他训练样本中引入 1 - 3 个描述作为负样本。

•评估数据集：我们选择COCO_{filtered}和 OVDEval 进行评估。COCO_{filtered}是从 COCO 数据集的实例 val2017.json 文件创建的。由于视觉语言模型在目标检测任务中的召回率通常较低（详见 [21]），我们过滤掉注释框超过 10 个的类别，确保只包含注释框较少的类别。OVDEval 用于评估模型的能力。这是一个专门为开放词汇检测设计的综合基准，它从六个关键语言方面系统地评估模型。它进一步引入了硬负样本以评估模型的鲁棒性，并使用一种新颖的 NMS-AP 度量来解决常见的 “膨胀 AP 问题”，从而提供更准确的 OVD 评估。在计算 AP 时，视觉语言模型生成的所有输出框的置信度分数都设为 1。在 COCO 评估中，{目标列表} 始终设置为所有 COCO 80 个类别。对于 OVDEval 评估，我们保持官方的评估设置。

•结果：表 3 展示了在COCO_{filtered}上的性能。经过强化学习训练的模型相对于监督微调模型有显著改进，平均精度均值（mAP）提高了 2.6 个百分点（21.1% 对 18.5%），贪婪精度提高了 4.42 个百分点（57.57% 对 53.15%），贪婪召回率提高了 4.33 个百分点（43.73% 对 39.4%）。这些在所有指标上的持续改进证明了强化学习卓越的泛化能力。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

表 3. 在COCO_{filtered}上的 OVD 任务结果。基础 3B 表示 Qwen2.5VL-3B-Instruct，基础 7B 表示 70 亿参数模型。GP 和 GR 分别表示贪婪精度和贪婪召回率。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

表 4. 在 OVDEval 上的 OVD 任务结果。基础模型表示 Qwen2.5VL-3B-Instruct，基础 7B 表示 70 亿参数模型。∆RL−SFT 表示 RL 模型相对于 SFT 模型的改进值。我们还列出了当前专门的开放词汇检测领域的最优模型 OmDet 的性能，以进行全面比较。

在更具挑战性和综合性的 OVDEval 基准测试中，从表 4 中可以观察到，强化学习模型在 9 个检测类别中的 7 个上优于监督微调模型，表现出卓越的泛化能力。最值得注意的是，它在需要更深入理解的复杂任务中取得了显著改进：位置检测（提高 9.2 个百分点）、关系检测（提高 8.4 个百分点）和否定处理（提高 3.3 个百分点）。此外，尽管监督微调在名人、标志和地标检测等特定类别中表现出较强的性能，但强化学习在不同的视觉任务中表现出更平衡的改进，表明其在视觉理解方面具有更好的整体泛化能力。

结果表明，虽然监督微调在某些特定任务中可能有效，但强化学习提供了更全面的改进。平均 nms-ap 提高 4.51 个百分点（31.01 对 26.50）表明强化学习具有更强的学习可泛化特征的能力。

•与最优目标检测模型的比较：OmDet：OmDet 代表了当前专门的开放词汇检测领域的最先进水平。然而，我们的 VLM-R1 模型表明，视觉语言模型可以在几个关键方面超越专门的架构。

强化学习模型和 OmDet 之间的性能差距揭示了不同方法的优势和局限性：

•世界知识和实体识别：在名人检测中，VLM-R1 达到了 55.0 的 nms-ap，而 OmDet 仅为 1.8。这种巨大的差异（超过 50 个百分点）展示了视觉语言模型预训练的世界知识的价值，类似的模式也出现在标志和地标检测中，在这些任务中语义理解至关重要。

•细粒度检测：我们注意到 OVDEval 中的属性类别包含许多小物体。在这些小物体检测场景中，OmDet 表现出更强的性能优势（颜色检测：22.9 对 4.5）。这表明专门的架构在细粒度、局部特征检测方面表现出色。

这些比较为未来的研究方向提供了有前景的思路：结合两种方法的互补优势。专门的目标检测架构在细粒度检测和高召回场景中表现出色，而视觉语言模型则带来了丰富的世界知识。未来的研究可以集中在创建混合架构上，利用专门目标检测模型的精确定位能力和视觉语言模型的语义理解能力。

5.3 消融实验和扩展实验

5.3.1 关于 “奖励作弊” 的研究

•什么是奖励作弊：强化学习中的奖励作弊 [5] 是指智能体利用奖励函数中的漏洞，在没有真正完成预期任务的情况下获得高奖励的现象。当奖励函数与设计者的实际目标不一致时，就会发生这种情况，导致智能体采取意外或捷径行为。例如，在一个迷宫导航任务中，智能体每走一步获得 +1 奖励，走出迷宫获得 +100 奖励，智能体可能会学会无限循环行走以积累步数奖励，而不是解决迷宫问题。这种行为在技术

上实现了奖励最大化，但未能达到任务的真正目标。一些文献 [15, 33, 40, 41, 49, 51] 也在大语言模型研究中探讨了这一现象。

•OVD 任务中的奖励作弊：表 5 展示了我们提出的 odLength 奖励相对于原生AP_{50}和mAP奖励的优越性能。经过仔细研究，我们发现了原生AP_{50}和mAP奖励函数的关键局限性。具体来说，我们观察到，在使用官方 COCO 评估 API 计算 AP 值时，给定图像的真实标注中不存在的类别会被排除在评估之外。由于我们的提示设计始终包含所有正类别和几个负类别，模型被激励去预测所有类别以最大化奖励，这就是一种奖励作弊的情况。在对包含所有 COCO 80 个类别的完整数据集进行评估时，这种行为会对精度产生负面影响，因为此时没有类别会被排除。相比之下，我们的 odLength 奖励通过为冗余预测引入额外的惩罚项解决了这个问题。这鼓励模型使预测的对象数量与真实情况一致，从而促使视觉语言模型产生更精确、更可靠的输出。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

表 5. AP_{50}奖励、mAP奖励和 odLength 奖励的性能比较。所有结果均由基于 Qwen2.5VL-3B-Instruct 训练的强化学习模型获得。GP：贪婪精度；GR：贪婪召回率；Cel：名人；Land：地标；Mat：材质；Pos：位置；Rel：关系；Neg：否定。

•完成长度的可视化：图 6 展示了不同奖励设置下输出序列长度的变化。值得注意的是，使用原生AP_{50}奖励训练的模型，尤其是那些没有 KL 正则化的模型，在训练过程中输出长度急剧增加。这一趋势表明存在严重的奖励作弊现象，即模型被激励去枚举过多的对象类别以最大化奖励，导致输出高度冗余。相比之下，使用我们提出的 odLength 奖励训练的模型保持稳定且明显更短的输出，有效地抑制了不必要的预测。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

图 6：OVD 任务中不同奖励设置下完成长度的可视化。可以观察到，使用原生 AP 奖励时，模型总是生成过长的完成内容，表明存在冗余预测的对象。

•OD 顿悟时刻：图 7 展示了有无我们提出的 odLength 奖励的情况对比。没有 odLength 奖励时，视觉语言模型会产生极其冗余的输出，包括正确但重复以及错误但重复的检测结果。尽管检测结果质量很差，但原生mAP仍然给予相对较高的奖励，这表明它容易受到奖励作弊的影响。然而，有了我们提出的 odLength 奖励，视觉语言模型被激励去精确地定位每个对象，展现出一种新兴的推理行为，我们称之为 “OD 顿悟时刻”。面对涉及多个潜在目标（包括硬负样本）的复杂检测任务时，模型会自发地采用两步策略：它首先通过明确的 “思考” 步骤识别哪些对象确实存在，然后进行准确的边界框预测。

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型-AI.x社区

图 7：有无 odLength 奖励的情况对比。左图：没有 odLength 奖励时，模型生成冗余和重复的边界框，但仍从原生 mAP 获得高奖励。每个圆圈表示一个预测的边界框，相同颜色的圆圈表示坐标相同的边界框。右图：有 odLength 奖励时，模型表现出 “OD 顿悟时刻”，先推理对象是否存在，然后生成准确的边界框。

5.3.2 训练数据的选择

表 6 展示了在 COCO 和D^{3}数据集上训练的模型的性能比较。值得注意的是，在D^{3}数据集上训练的模型，即使在与 COCO 训练数据分布一致的域内COCO_{filtered}评估集上，也显著优于在 COCO 数据集上训练的模型。一个关键的区别在于训练查询的语义复杂度：COCO 类别通常很简单，往往由单个单词标签组成（例如，人、汽车），而D^{3}查询在语义上更丰富，通常是完整且含义丰富的句子（示例见图 7）。我们假设这种语义丰富度的差异在观察到的性能差距中起着关键作用。在强化学习的背景下，具有挑战性和语义复杂的数据对于鼓励模型发展更强大的推理链至关重要，最终会带来更优异的任务表现。

5.3.3 强化学习在不同模型规模上的效果

表 7 展示了不同大小模型及其相应强化学习增强版本之间的性能比较。有几个值得注意的发现：

•关系子任务需要推理能力，在所有模型规模上应用强化学习后，其性能都有显著提升（13.1 提升到 21.5，16.2 提升到 20.1，20.6 提升到 27.0），这表明强化学习可以利用视觉语言模型卓越的推理能力。

•另一个推理密集型子任务 —— 否定处理，7B 和 32B 的强化学习模型都实现了性能提升（39.0 提升到 43.1，47.0 提升到 51.7），而 3B 模型则出现了轻微的性能下降（38.7 下降到 37.7）。我们认为这种差异源于基础模型的固有能力。正如 [34] 所表明的，强化学习主要是为了强化正确的推理模式，而不是注入新的知识。鉴于 7B 和 32B 基础模型具有更大的能力，强化学习更有可能有效地利用它们潜在的推理能力。

•在颜色子任务中，7B 和 32B 的强化学习模型比 3B 模型表现出更大的性能提升（2.9 提升到 4.5，而 3.0 提升到 7.8，4.4 提升到 7.8）。鉴于 OVDEval 中的颜色子任务主要涉及小物体，这种比较突出了大型视觉语言模型在细粒度视觉细节方面卓越的视觉感知能力。

•在COCO_{filtered}子集上，所有规模的模型在贪婪精度上的提升都比贪婪召回率更大。这种差异与 odLength 奖励的设计一致，odLength 奖励明确惩罚冗余的边界框预测。虽然这种调整通过抑制过度预测提高了精度，但由于模型在输出预测时更加保守，可能会导致召回率略有下降。

•较大的模型通常表现略好。

6. 讨论

6.1 强化学习与监督微调

在指代表达理解的背景下，强化学习模型不仅在域内任务上实现了稳定的性能提升，还将从非推理训练数据中获得的推理模式泛化到需要更细致理解和复杂推理的域外设置中。这表明强化学习不仅针对已见场景的性能进行优化，还鼓励模型发展可转移的能力，以适用于更具挑战性的未见任务。

此外，在开放词汇目标检测实验中，强化学习模型在复杂的 OVDEval 基准测试的大多数子任务中优于监督微调的对应模型，特别是在一些具有挑战性的子任务中取得了显著的提升。而且，如 5.3.3 节所讨论的，几乎所有规模的模型在这些以推理为重点的任务中都从强化学习中受益，进一步验证了这种训练范式在泛化方面的优势。

这些发现有力地支持了 [12] 提出的结论：“监督微调侧重于记忆，强化学习侧重于泛化”。我们的结果进一步证实了强化学习在增强视觉语言模型泛化能力方面的有效性，尤其是在需要推理模式的场景中。

6.2 通过奖励工程防止奖励作弊

在本报告中，我们揭示了在使用原生 mAP 奖励进行 OVD 任务时出现的奖励作弊现象，并展示了我们提出的 odLength 奖励在缓解这一问题方面的有效性。如图 7 所示，设计不佳的奖励函数会激励模型生成过多且不加区分的预测，以追求更高的奖励值。这种行为会导致在评估基准上的性能下降。相比之下，引入 odLength 奖励显著抑制了这种冗余输出，使奖励信号与评估指标更加一致，更重要的是，出现了 “OD 顿悟时刻”，即模型先推理对象是否存在，然后生成准确的边界框。

这些结果强调了在强化学习流程中精心设计奖励的重要性，特别是对于复杂任务，简单定义的目标可能无法捕捉到期望的模型行为。

6.3 数据在推理和泛化中的作用

我们的发现突出了训练数据在塑造模型性能方面的关键作用。我们观察到，复杂且具有挑战性的训练样本可以有效地激发视觉语言模型的推理行为，这与 [38] 中的观察结果一致。相反，低质量或过于简单的数据可能会阻碍学习，甚至对泛化产生负面影响（表 6）。这些见解强调了仔细选择训练数据的必要性。

同样重要的是评估数据的选择。全面且具有适当挑战性的基准对于准确评估模型的推理和感知能力至关重要。在本研究中，我们选择 LISA-Grounding 和 OVDEval 作为评估数据集，因为它们都旨在探究复杂的语义理解以及在复杂的现实世界场景中的泛化能力。总之，我们的结果强调了高质量训练数据和评估数据对于提升视觉语言模型能力的重要性。

6.4 从简单到复杂：为 OVD 任务适配强化学习

在本报告中，我们探索了将 R1 风格的强化学习框架应用于两个结构相似的任务的可行性：指代表达理解（REC）和开放词汇目标检测（OVD），这两个任务都要求模型根据文本描述输出边界框。尽管它们表面上相似，但我们的对比分析表明，要成功地将强化学习应用于更复杂的 OVD 任务，额外的优化是必不可少的。

首先，虽然简单的奖励函数对于 REC 任务就足够了，但在 OVD 任务中，由于奖励作弊问题，它无法产生有效的训练效果，因此需要设计更强大、定制的奖励，例如我们提出的 odLength 奖励。其次，尽管在相对简单的域内数据集（即 RefCOCO）上训练的模型在 REC 任务中泛化效果良好，但同样的方法在 OVD 任务中却不能有效转移。为了解决这个问题，我们为 OVD 任务精心选择了更合适的训练数据集（即D^{3}），从而取得了更好的结果。

这些发现强调了在将强化学习应用于更复杂场景时，进行特定任务优化的必要性。

7. 结论

在这项工作中，我们引入了 VLM-R1，这是一个统一的框架，将 R1 风格的强化学习引入视觉理解领域。我们的框架是为视觉语言模型量身定制的，支持灵活的数据定义、模型模块化和训练可扩展性。使用 VLM-R1，我们成功地将强化学习应用于两个代表性的视觉理解任务 —— 指代表达理解和开放词汇目标检测，在任务性能和域外泛化方面都取得了显著的提升。除了实证结果，我们还对奖励工程、数据选择和模型缩放提供了实用的见解，这些对于有效地将强化学习应用于复杂的视觉语言任务至关重要。我们的工作为在视觉语言研究中更广泛地应用强化学习奠定了基础。在未来的工作中，我们旨在探索跨任务泛化，并将 VLM-R1 扩展到更具挑战性的多模态场景中。

本文转载自公众号AIRoobt ，作者：Haozhan Shen等

原文链接：https://mp.weixin.qq.com/s/qq2MpQsd9wnf2l5yYrpT6g

标签

VLM-R1

DeepSeek

强化学习

已于2025-5-7 09:35:35修改

51CTO

51CTO博客

51CTO学堂

VLM-R1：一种稳定且具有泛化性的 R1 风格大型视觉语言模型原创精华

摘要

1. 引言