
通过强化学习让多模态大模型自主决策图像token压缩的新思路-VisionThink实现思路及奖励函数设计 原创
VLMs 性能的持续提升,视觉 token 的消耗呈指数级增长。例如,一张 2048× 1024 的图片在 LLaVA 1.5中需要 576 个视觉 token,而在 Qwen2.5-VL中则需2678 个视觉 token。因此,避免过度使用视觉 token 显得尤为重要。
大多数方法使用预定的Threshold 来修剪或合并固定数量的视觉 Token。然而,不同问题和图像中的冗余程度各不相同。因此,是否真的应该在所有场景中应用统一的 Token 压缩比例?下图探讨了简单地降低了图像分辨率以减少视觉 token 的数量,并评估了 Qwen2.5-VL 的在几个基准上的性能。
结论:
- 左图:在大多数一般场景中,即使将视觉 token 减少四倍,性能下降也微乎其微。然而,在OCR 相关基准上,token 压缩会导致显著的性能下降。
- 右图:VisionThink 在性能和效率上均显著优于之前的工作。
因此,如何让模型自主选择何时进行图像token压缩?VisionThink是一种新的视 觉 token 压缩范式。从下采样图像开始,智能判断其是否足以解决问题。否则,模型可以输出一个特殊 token 以请求更高分辨率的图像。与现有采用固定剪枝比例或阈值压缩 token 的高效 VLM 方法相比,VisionThink 自主决定是否按情况压缩 token。
本文看看VisionThink相关思路,仅供参考。
方法
目标:使VLMs能够自主判断给定图像中的信息是否足以准确回答问题。如下图,pipline首先处理低分辨率图像以最小化计算成本。当降采样图像中的信息不足以回答问题时,它会智能地请求原始高分辨率输入。
VisionThink 的框架: (a) 左图 VisionThink 处理分辨率降低4倍的图像,其中 VLM 直接提供答案。(b) 右图展示了模型检测到信息不足并请求高分辨率图像以回答问题的情况。
从上述可知,强化学习的设计目标变为:使模型能够判断何时需要高分辨率。模型必须学会评估下采样图像是否包含足够的信息来回答问题,或者是否需要原始高分辨率图像。
RL设计
LLM作为评判评估器
传统问题无法解决:rule-base的方法可以通过规则或精确匹配轻松定义和验证真实答案。然而,这种方法在通用 VQA 情景中失效,因为有效答案的多样性和分歧使得基于规则的验证变得不可行。
因此,通过一个LLM作为评判评估器,仅评估模型响应的纯文本准确率。通过比较模型的答案与真实答案来实现。
奖励提示词如下:可以看到,奖励值是离散值0或1.
多轮GRPO算法
前面提到,pipline会首先将问题和下采样图像输入到 VLM 中。如果信息不足以回答当前问题,模型将自主请求更高分辨率的图像并生成新的响应。这一过程本质上是一种多轮交互。因此,将原始的 GRPO扩展为多轮 GRPO:
那么新问题来了,如何触发高分辨率图像进行输入?朴素的方法:改提示词,指示模型输出特定的特殊 token。 提示必须确保模型能够在 zero-shot 情景下的多轮展开中输出所需的特殊 token。
奖励函数设计
总体奖励函数如下,由三部分组成:
- 准确率奖励:LLM-as-Judge 方法,其中 0 表示错误答案,1 表示正确答案。
- 格式奖励:推理过程需包含在“< think>< /think>” 标签内,最终答案置于 “< answer>< /answer>” 标签中,且函数调用需符合规定的 JSON 格式。若其中任一格式有误,则格式化得分为 0。只有当所有格式均正确时,模型才能获得满分的格式化得分 0.5。
- 惩罚控制:由于使用高分辨率图像通常能提升性能,若没有任何惩罚,模型倾向于始终请求高分辨率图像。为防止这种情况,最初遵循 Search-R1对依赖高分辨率图像的正确回答施加了 0.1 的惩罚。然而,这种方法导致模型偏好直接回答,引发模型仅依赖直接回答的崩溃现象,如下图中的紫色线所示。原因在于,即使是模糊的低分辨率图像有时也能让模型猜出正确答案,而 0.1 的惩罚无意中强化了这种直接回答的偏好。引入一个阈值来控制这种现象。当使用低分辨率图像正确回答的概率较低时,对直接答案施加 0.1 的惩罚,以鼓励高分辨率请求;反之,当概率较高时,对高分辨率请求施加 0.1 的惩罚。
实验性能
- 推理模型推理时间成本与基准性能对比。Qwen-RL 和 Qwen-RL (1/4) 分别表示在Qwen2.5-VL-Instruct 模型上利用 LLM-as-Judge 进行全分辨率图像和 1/4 分辨率图像的推理。
- 与传统高效 VLM 方法的比较
- VisionThink 智能地确定高分辨率图像的比率。应用调整大小表示模型自主请求查看原始高分辨率图像,而直接回答则表示模型仅使用 1/4 大小的图像即可回答问题。
参考文献:VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning,https://arxiv.org/pdf/2507.13348repo:https://github.com/dvlab-research/VisionThink
本文转载自大模型自然语言处理 作者:余俊辉
