
国内重量级科研团队打造VLM-R3,区域精准定位引爆智能视觉风暴
众所周知,目前的多模态推理系统大多依赖于静态的视觉信息处理方式,即在推理开始时模型提取全局视觉信息,然后完全依靠文本推理进行后续决策。
这种方法存在明显的缺陷。随着推理链的延展,模型往往逐渐丧失对视觉内容的关注,导致最终结论缺乏准确的视觉依据。例如,在处理数学视觉题目或科学图表时,当前模型仅使用一次性的视觉输入,而无法在推理过程中动态调整焦点,这使得许多细节被忽略,推理质量受限。
更进一步,现有的大多数 MLLMs 并没有真正实现自适应视觉交互。大多数方法仍沿用传统的“视觉+文本”拼接模式,而忽视了推理过程中对于视觉区域的精确定位和动态调整。
简单来说,它们“看一遍”图像后便不再返回检查,而许多复杂任务恰恰需要模型在不同推理阶段反复关注关键视觉细节,进行补充信息采集。
近日,来自北京大学国家软件工程研究中心、阿里巴巴集团和 极氪智能科技控股有限公司 的专家研究团队提出了 VLM-R3(Visual Language Model with Region Recognition and Reasoning),一种能够动态定位、采集和优化视觉区域的推理框架。核心思想是让模型不仅能够“看到”图像,还能“再次查看”特定区域,以增强推理的精准度。
这一创新策略针对“视觉信息随推理衰减”的问题做出了重要改进。VLM-R3 赋予模型自主决策能力,使其能够:
- 在推理过程中决定何时需要额外视觉证据;
- 选择哪里进行视觉区域采集;
- 通过动态调整,精准整合视觉内容至推理链中。
这种模式不仅增强了模型的视觉推理能力,还创造了一种更加符合人类思维方式的推理路径。与传统方法相比,VLM-R3 能够反复核查图像细节,提升视觉证据在推理链中的作用,尤其是在复杂视觉任务(如数学、科学问题解答)上的表现尤为突出。
图1:该图直观地展示了传统的基于文本的CoT推理与研究团队提出的VLM-R3方法之间的对比,该方法在交错的视觉文本推理链中集成了区域基础和细化。虽然传统的基于文本的推理在分析需要与特定视觉区域进行动态、迭代和细粒度交互的场景时失败了,但研究团队的方法通过精确识别和关注关键视觉元素(如本例中的“红洞火锅”标志),通过有针对性的视觉推理得出准确的结论,从而取得了成功。
VLM-R3 在多模态推理的基础上做出了三项核心贡献:
引入 Visuo-Lingual Interleaved Rationale(VLIR)数据集。该数据集专门用于训练和评估模型在视觉-语言交错推理任务中的表现,包含显式视觉区域选择、图像裁剪指令以及语义增强提示。这使得模型能够更自然地将图像内容嵌入推理链,而非仅仅在开头进行静态绑定。
构建区域条件强化策略优化(R-GRPO)。这一训练策略允许模型在推理过程中动态选择有信息量的视觉区域,并执行相应的图像转换(如裁剪、缩放),然后将所得视觉上下文整合入推理链。R-GRPO 采用强化学习框架,以奖励机制鼓励模型做出更合理的视觉证据选择,并优化其推理策略。
在多项公开基准上取得了显著性能提升。研究团队在 MathVista、ScienceQA、MMMU、DocQA等多个任务上进行了评估,VLM-R3 在零样本和少样本推理中均优于现有最先进模型,并在涉及复杂空间推理或精细视觉线索提取的任务上表现尤为卓越。
VLM-R3 的研究团队汇集了来自 北京大学国家软件工程研究中心、阿里巴巴集团和 极氪智能科技控股有限公司 的专家,跨学科融合了计算机科学、人工智能、大数据处理以及智能技术等多个领域。他们是Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang,这种跨行业、多学科的合作模式,使得VLM-R3 不仅具备强大的学术支撑,更具备实际落地应用的可行性,为未来智能推理系统的优化和扩展提供了新的可能。
论文链接:https://arxiv.org/pdf/2505.16192
1.VLM-R3 方法详解
当你在分析一张复杂的科学图表或者数学题目,AI 只在推理开始时“瞥了一眼”图像,然后完全依赖文本进行后续推理。这种做法虽然能在一些任务上取得不错的成绩,但当问题涉及空间关系、对象识别、动态信息提取时,它就显得力不从心。这正是 VLM-R3 想要突破的瓶颈:让 AI 不只是“看到”图像,而是能够在整个推理过程中灵活关注关键视觉区域,动态采集细节,并持续优化推理链。
VLM-R3 框架概述:让 AI 在推理过程中“再看一次”
传统的多模态推理模型往往采用静态视觉信息输入,推理链更多围绕文本展开,而视觉数据仅作为初始信息。然而,这种方式使模型在推理过程中无法主动回溯视觉细节,导致信息丢失,尤其是在涉及复杂图像分析的任务上,误判频繁出现。
VLM-R3 重新定义了视觉-语言交互方式,构建了一个由 区域识别(Region Recognition)、推理链构建(Reasoning)与视觉细化(Refinement) 组成的框架:
- 区域识别:模型不再仅仅处理整个图像,而是能够精准定位关键区域,决定哪些部分需要关注和放大。
- 推理链构建:视觉信息被动态融入推理链,使文本和图像交互更加自然,避免视觉证据随推理过程衰减。
- 视觉细化:当模型需要更精确的视觉证据时,它能够“再次查看”图像的特定区域,进行裁剪或增强,优化推理结果。
这一机制让模型能像人类一样,在分析过程中反复“看图”,确保关键视觉细节不会被忽略。
Visuo-Lingual Interleaved Rationale(VLIR)数据集:让 AI学会“看”
任何新架构都需要合适的数据来训练和验证。为了让 VLM-R3 具备交错视觉-文本推理能力,研究团队构建了 VLIR(视觉-语言交错推理数据集),专门用于支持 AI 同时处理视觉区域选择与推理链构建。
VLIR 数据集的设计目标非常明确:训练 AI 学会如何在推理过程中动态调整视觉关注区域,并合理整合到推理链中。这意味着数据集不仅包含标准的文本-图像对,还额外提供:
- 视觉区域选择:AI 在推理过程中能够自主选择关键部分(例如科学图表中的数字区域,数学题目中的公式)。
- 图像裁剪与增强指令:AI 可以根据推理需求,裁剪、缩放或增强部分图像,以获取更清晰的视觉证据。
- 推理链指导:每个问题都提供完整的视觉-文本推理链,确保 AI 在不同推理阶段知道应该如何处理视觉信息。
数据集涵盖多个任务场景,包括:
- 文本理解(如 OCR 任务,需要解析文档结构);
- 科学图表解析(如 InfographicsVQA,理解图表内的数据分布);
- 空间关系推理(如 VSR,分析对象之间的空间布局)。
此外,研究团队采用了严格的数据筛选流程,确保每个裁剪区域都符合语义有效性,并且推理逻辑合理。对于裁剪的图像片段,AI 还需经过模型验证,确保它们确实包含可识别的信息,而不是随机噪声。最终,这些精心整理的数据,成为 VLM-R3 强化推理能力的关键资源。
图2:VLIR数据集的分布:(a)每张图像的作物数量,(b)不同源数据集的样本,以及(c)基于相对大小的作物分类。
区域条件强化策略优化(R-GRPO):让 AI 在推理过程中做“聪明的选择”
单纯的监督学习难以让 AI 形成真正智能的推理策略,因为它往往只会按照预设规则执行操作,而不会主动优化决策。因此,VLM-R3 引入了一种新的训练方法:区域条件强化策略优化(R-GRPO)。
R-GRPO 采用强化学习框架,以奖励机制鼓励 AI 选择正确的视觉区域,并进行合适的推理调整。它基于 组相对策略优化(Group Relative Policy Optimization, GRPO),并引入了“区域条件”概念,即模型的推理策略被显式地绑定到当前视觉状态,从而确保 AI 能够充分利用视觉信息。
策略梯度优化:专门处理文本令牌和边界框命令
在 AI 生成推理链的过程中,部分令牌由模型生成(文本推理、边界框选择指令),而部分令牌(裁剪后的图像)则由环境注入。因此,在计算策略梯度时,需要进行特殊处理:
- 只优化由 AI 生成的文本令牌和边界框命令;
- 屏蔽由环境注入的裁剪图像令牌,避免对模型优化过程造成干扰。
这一精细的策略优化方法,使 AI 能够更好地学习如何执行视觉区域选择。
奖励设计:让 AI 学会高效推理
R-GRPO 采用多层次的奖励机制,以鼓励 AI 在推理过程中进行合理选择:
- 准确性奖励(racc):最终答案正确奖励 1 分,否则为 0。
- 格式遵循奖励(rformat):正确使用 <answer> 标签奖励 1 分,否则为 0。
- 区域有效性奖励(rvalid):每次生成正确且非冗余的边界框命令奖励 0.5 分,每回合最多 0.5 分。
- 推理长度奖励(rlength):文本推理步骤每个字符奖励 0.001 分,每回合最多 0.25 分。
这套奖励机制确保 AI 在学习过程中不仅优化答案准确性,还能增强对视觉信息的利用效率。
2.实验与结果分析
在多模态推理领域,理论上的创新必须经过严格的实验验证,才能真正证明其价值。VLM-R3 作为一项突破性的研究,研究团队在多个公开基准上进行了大规模实验,以评估其推理能力、视觉区域定位效果以及整体推理链优化情况。
实验设置与基准介绍
评估 VLM-R3 的推理能力,研究团队选择了六个具有代表性的公开基准:
- MME & MMMU:用于衡量多模态模型的通用视觉-语言理解能力;
- MathVista & MathVision:专门用于测试模型的数学推理能力,涉及复杂视觉计算任务;
- ScienceQA:科学知识推理,考察模型在结合视觉信息进行科学推理时的表现;
- DocQA:文档理解任务,验证模型对结构化文本和文档视觉信息的处理能力;
- HallucinationBench:用于评估模型的幻觉率,即是否会错误地“捏造”视觉信息。
这些基准涵盖了不同的推理挑战,确保 VLM-R3 在多个场景下的可行性与稳定性。
与此同时,研究团队针对三种不同类别的多模态模型进行了对比:
- 开源基线模型(如 Qwen2.5-VL 7B、InternVL2.5-8B、LLaVA-Next 8B),这些模型没有专门的推理机制,仅依赖于基础的视觉-文本处理能力。
- 闭源非推理模型(如 Gemini-2 Flash 和 GPT-4o),它们具备强大的多模态能力,但不一定针对推理任务进行优化。
- 具备推理模块的模型(如 LLaVA-CoT 11B、Mulberry-Qwen2VL 7B、R1-onevision 7B),这些模型专门针对逻辑推理任务进行了优化,与 VLM-R3 最具可比性。
这种全面的对比方式,确保了实验结果的科学性和可靠性。
VLIR 数据集详细说明
在训练 VLM-R3 时,研究团队构建并使用了 Visuo-Lingual Interleaved Rationale(VLIR)数据集。这是一个专门设计的数据集,旨在培养 AI 在推理过程中主动选择视觉区域,并整合到推理链中。
VLIR 数据集包含 11,810个样本,其数据来源十分广泛,涵盖:
- GQA(4,057 样本):用于多步视觉推理;
- TextVQA(3,267 样本):测试 OCR 文字识别能力;
- DocVQA(1,497 样本):考察文档结构理解;
- InfographicsVQA(1,497 样本):处理图表和信息图任务;
- VSR(1,492 样本):专注于空间关系推理。
此外,研究团队对图像裁剪区域进行了分类,确保不同视觉粒度的内容都得到有效利用:
- 极小裁剪区域(<0.05):5,280 个样本;
- 小裁剪区域(0.05≤比率<0.25):4,043 个样本;
- 中等裁剪区域(0.25≤比率<0.5):1,914 个样本;
- 大裁剪区域(≥0.5):573 个样本。
这一数据集的构建确保 VLM-R3 能够在视觉-文本交互任务中获得充分训练,并具备适应各种推理场景的能力。
主要实验结果解读
VLM-R3 在所有基准上均表现优于其基础模型(Qwen2.5-VL 7B),其中:
在 MathVista提升 2.2%(70.4% vs. 68.2%);
在 MathVision提升 5.1%(30.2% vs. 25.1%);
在 ScienceQA提升 14.33%(87.9% vs. 73.57%)。
这些数据表明 VLM-R3 在涉及数学推理、科学知识推理以及文档结构解析的任务上均有明显提升,尤其是在需要细粒度视觉线索提取的任务上表现卓越。
此外,在HallucinationBench的测试中,VLM-R3 的幻觉率明显低于其他开源推理模型,超过了 Mulberry(62.0% vs. 54.1%),显示其在避免生成错误视觉信息方面更为可靠。
消融研究:拆解关键技术的影响
图3:区域接地精度对三个基准测试中模型性能的影响。每个子图显示了从40%到90%接地精度的性能轨迹,并带有置信区间(阴影区域)。
为了进一步理解 VLM-R3 关键技术的贡献,研究团队进行了消融实验:
- 去除交错推理链(w/o Interleaved CoT):ScienceQA 下降 12.5%,MMMU 下降 2.8%;
- 去除 VLIR 微调(w/o VLIR Fine-tuning):ScienceQA 下降 15.7%,MMMU 下降 5.2%;
- 去除 R-GRPO 强化学习(w/o R-GRPO):ScienceQA 下降 3.3%,MathVista 下降 0.7%。
图4:具有视觉区域定位的交错推理链(顶部)和一般文本推理链(底部)之间的注意力分布模式比较。
可以看到,VLIR 微调的影响最为显著,尤其是在 ScienceQA 任务上,未进行 VLIR 微调的模型表现大幅下降。这意味着数据集的结构化推理支持对于 VLM-R3 的效果至关重要。而 R-GRPO 强化学习则在优化区域选择和推理策略方面发挥了关键作用。
3.创新与展望
VLM-R3 不仅仅是对现有多模态推理技术的一次升级,更是一次理念上的突破。它为 AI 在视觉推理任务中的自主性和灵活性打开了一扇新窗,使得模型能够在推理过程中动态调整视觉焦点,并与文本推理紧密结合,实现更精确的答案推导。这项研究不仅提升了现有模型在复杂视觉-语言任务上的表现,也为未来多模态智能系统提供了新思路。
VLM-R3 在动态视觉推理中的创新点
传统的多模态大语言模型往往是“看看就过”的风格,图像信息在推理初始阶段被解析,然后迅速被文本主导的推理链所覆盖。这导致模型在长推理链中往往遗忘或低估视觉证据的作用。而 VLM-R3 通过区域识别、推理细化和动态视觉关注机制,确保 AI 能够在推理过程中保持对视觉信息的敏锐感知,并在关键时刻“回溯”图像以获取更多细节。
这一方式彻底改变了多模态推理范式,使 AI 在面临复杂的科学问题、数学计算或图表理解任务时,更接近人类的推理方式。它不只是简单地“看”,而是在必要的时候 “再看一眼”,确保推理链中的信息是完整且可靠的。
交错视觉-文本思维链与R-GRPO 强化学习的结合
VLM-R3 的最大亮点之一是 交错视觉-文本思维链,它打破了视觉和文本的单向关系,使 AI 在整个推理链的不同阶段都能主动调用视觉信息。而这一机制的成功,离不开区域条件强化策略优化(R-GRPO) 的支持。
通过强化学习,VLM-R3 学会了何时需要视觉补充,如何定位关键区域,以及如何将视觉信息合理嵌入推理链。相比于简单的监督学习,R-GRPO 允许模型不断优化自身决策,使 AI 在面对不同任务时更加智能。实验结果也印证了这一点:在 ScienceQA 和 MathVista 任务中,使用 R-GRPO 的模型比仅靠监督学习的版本有显著性能提升,尤其是在需要精细视觉推理的任务上效果尤为突出。
更加精细的视觉证据整合
VLM-R3 的成功表明,未来的多模态推理系统不应只是将图像作为背景信息,而应该让 AI 主动去“选择”图像的关键部分,并针对性地进行视觉数据提取。这意味着未来的 AI 可能会更精准地分析图像中的特定区域,而不是对整个图像进行粗略推理;自动调整视角,甚至在推理过程中生成新的视觉焦点,以适应不同任务需求;结合高精度的视觉增强技术,让图像中的微小细节也能对最终推理结果产生关键影响。
这些改进方向将使 AI 在医学影像、自动驾驶、机器人视觉等领域展现更强的智能决策能力。
多步推理与动态视觉交互的潜力
VLM-R3 证明了 多步推理与视觉交互的重要性,未来的 AI 可能会进一步优化这一能力。例如在法律文档分析领域,AI 可以不断回溯合同条款中的关键内容,以提供精准的法律解读;在金融市场预测任务中,AI 能够结合图表、文本和历史数据,进行智能化的市场决策;在科学研究方面,AI 可能会在论文阅读过程中分析实验图表,并动态调整研究假设。
这意味着 AI 将不再只是一个“单向”处理信息的工具,而会成为真正能够自主思考的推理伙伴。
让 AI 更快、更强、更精准
尽管 VLM-R3 在实验中展现了强大的视觉推理能力,但仍有一些值得改进的方向,尤其是在 模型泛化能力、实时性及跨领域应用方面。
模型泛化能力
当前模型仍然依赖于 VLIR 数据集进行训练,而不同任务对视觉信息的需求不同。因此,未来 AI 需要在更广泛的视觉场景下进行训练,提高对不同图像数据的适应性;利用自监督学习 进一步提升对未知任务的推理能力,而不是仅依赖已有的标注数据。
实时性
尽管 VLM-R3 的推理流程已经实现了动态视觉交互,但如果要应用于自动驾驶、实时翻译等任务,推理速度仍然需要优化。未来可能的解决方案包括更高效的视觉信息检索算法,减少计算时间;轻量级模型优化,确保推理在低算力设备上也能流畅运行。
跨领域应用
目前 VLM-R3 主要在科学、数学和文档解析任务上进行测试,而未来它可能被用于更多领域,比如医学影像分析:自动识别病变区域,提供精准诊断建议;工业检测:AI 自动分析生产线视频,定位缺陷产品;社会媒体审核:结合图像和文本,智能识别虚假信息或违规内容。
这些应用场景将推动 AI 推理能力向更加实际、复杂的任务拓展。
让 AI 看得更准,想得更深
VLM-R3 让 AI 的视觉推理能力迈出了重要一步。它不仅优化了现有的视觉-文本交互模式,还通过强化学习增强了 AI 在推理过程中的智能调整能力,使其更像人类的认知思维方式。随着技术的不断进步,我们可以期待 AI 在未来不再只是“看到”世界,而是真正理解并深度推理这个世界。这种智能化的视觉交互模式,或许将成为 AI 发展的新标杆,带领我们进入一个更高阶的智能推理时代。(END)
参考资料:https://arxiv.org/pdf/2505.16192
本文转载自独角噬元兽,作者:FlerkenS
