
多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估 原创
目前多模态在图像分辨率输入上的方法主要有以下几种:
1.上采样方法:通过提升位置编码的分辨率,整合多尺度图像表征。代表:Qwen-VL、S² extension,通过扩展视觉特征的分辨率范围适配高分辨率输入。
2.基于裁剪的方法
围绕图像的预处理,包括归一化、缩放、裁剪、根据宽高比动态处理等操作如下图:预设一个默认分辨率,称之为tile,随后将图片切分成子图,每个子图的shape与tile一致,再在batch维度做拼接。tiling还会将原图也resize到tile的shape,和子图拼接在一起,以保留全局信息。代表:LLaVA-NeXT、InternVL、DeepseekVL2,通过分块处理平衡分辨率与计算成本。
动态分辨率
3.混合视觉编码器:结合高分辨率和低分辨率编码器,对图像进行多分辨率编码。代表:Cambrian-1、Eagle 2,通过融合不同分辨率特征提升细节捕捉能力。
4.原生分辨率编码:使用原生分辨率ViT直接处理动态分辨率图像,保留原始分辨率和宽高比。代表:Qwen-2VL、Kimi-VL、OceanOCR、Seed1.5-VL、NaViT等,是近年新兴的策略,更贴近真实世界图像的多样性。
NaViT
如下图,目前,缺乏一个针对分辨率的评估,因此通过提出 RC-Bench 基准和 NativeRes-LLaVA 框架探索VLMs分辨率敏感性问题。有一些结论可以看看,供参考。
方法
一、RC-Bench
RC-Bench 的生成流水线
针对现有基准的两大缺陷(分辨率分布失衡、忽视任务敏感性),RC-Bench的设计目标是:
- 模拟真实世界的视觉多样性:覆盖极端分辨率(从<100×100到>8K)和宽高比(极宽16:1、极高1:8);
- 通过细粒度任务和指标,揭示分辨率/宽高比对模型精度的具体作用;
- 为原生分辨率编码等策略提供公平的评估工具(如对比裁剪、混合编码器)。
RC-Bench聚焦分辨率中心任务:
- 答案必须通过高分辨率图像细节获取,如:
a.文档场景:提取手写文字、表格数据(图4左下:“GST ID”需识别模糊字体);
b.图表场景:解析坐标轴标签、折线交点数值;
- 包含宽高比变形导致的信息扭曲(如竖版文档压缩为低分辨率后文字重叠);
- 结合文本、图表、符号等混合元素(如图A.5示例:化学方程式需识别酶名称)。
二、模型方法、策略
1、模型架构
NativeRes-LLaVA架构如上图,“视觉编码→特征压缩→模态桥接→语言生成”的端到端框架:
- 原生分辨率视觉编码器:直接处理任意分辨率和宽高比的图像,输出动态长度的视觉特征to'k'ne(visual tokens)。基于原生分辨率ViT(视觉Transformer),采用2D Rotary Position Embedding(2D RoPE)进行位置编码。2D RoPE通过将图像的宽高维度分别映射到旋转矩阵中,使位置编码能自适应不同尺寸的图像(如100×2000的竖版文档或2000×100的宽幅全景图),解决了传统固定位置编码无法适配动态分辨率的问题。
- 压缩模块:减少视觉编码器输出的token数量,平衡细节保留与计算效率。通过2×2邻域平均池化(patch merging)对视觉特征进行压缩。例如,若视觉编码器将336×336图像分割为14×14的patch(生成576个token),压缩模块会将相邻2×2的patch合并为1个,最终输出144个token(576÷4=144),大幅降低后续LLM的输入负担。
- 两层MLP:链接视觉-语言模态。
- LLM:Qwen2-7B-Instruct
2、原生分辨率视觉编码机制
- 动态分辨率适配:视觉编码器原生支持任意分辨率输入(如224×28、260×56、700×1260等),无需裁剪或缩放,完整保留图像的原始宽高比和细节。 对比传统方法(如裁剪会破坏全局结构,上采样会引入冗余信息),原生编码避免了预处理导致的信息丢失。
- 2D RoPE位置编码:传统ViT使用1D位置编码,无法区分图像的宽高维度,导致不同尺寸图像的位置信息混淆。2D RoPE通过将位置(i,j)映射到二维旋转矩阵(其中i为宽度方向坐标,j为高度方向坐标),使位置编码能随图像尺寸动态调整,确保视觉特征的空间关系被准确保留(如竖版文档中文字的上下顺序)。
- 特征压缩与token控制:为避免高分辨率图像生成过多token(导致LLM输入长度超限),通过“patch分割→平均池化”两步压缩:
a.第一步:将图像按14×14的patch分割(如336×336图像生成(336/14)×(336/14)=24×24=576个patch);
b.第二步:对相邻2×2的patch进行平均池化,合并为1个token(576→144个token),既减少计算量,又保留局部特征的聚合信息。
3、多模态序列打包策略
原生分辨率编码会导致视觉token长度随图像尺寸动态变化(如小图标生成少量token,8K图像生成大量token),传统固定长度处理(如填充至最长序列)会引入冗余计算。NativeRes-LLaVA通过以下策略解决这一问题:
- Patch n’ Pack序列拼接:借鉴NaViT的方法,将一个批次(batch)中不同图像的视觉token序列直接拼接为一个连续序列(packed sequence),而非每个图像单独填充至固定长度。例如,批次中包含图像I₁(生成N₁个token)和I₂(生成N₂个token),拼接后总长度为N₁+N₂,避免了(N_max - N₁)+(N_max - N₂)的冗余填充(N_max为批次中最长序列长度)。
- 可变长度闪电注意力:拼接后的序列包含多个图像的token,需确保每个图像的注意力计算独立(避免跨图像干扰)。通过记录每个图像的token长度累积值(如I₁的token范围为[0,N₁),I₂为[N₁,N₁+N₂)),Flash Attention在计算时仅在每个图像的范围内进行自注意力操作,既保证并行计算效率,又维持了单图像特征的完整性。
实验性能
高分辨率消融实验
基于裁剪和原生分辨率策略在 RC-Bench 上的消融研究
视觉编码策略在 RC-Bench 上的比较。该图展示了在 728 × 728 分辨率下,原生分辨 率方法(b)与基于裁剪的方法(a)在准确率上的变化。(c)部分,准确率差异,展示了每个单元中通过从原生分辨率方法的准确率中减去基于裁剪方法的准确率所得到的值(即,(b) –(a))。
- 特定情况下的性能下降:原生分辨率方法在特定配置(NM, B)下表现出显著的性能下降(准确率差异为-0.29)。这表明在此特定任务中,基于裁剪的方法表现明显更优。
- 常见场景下的性能相当:在大多数其他常见分辨率和宽高比组合中,原生分辨率方法与基于裁剪的方法性能基本相当,准确率差异接近于零,如图 6(c) 中众多浅色单元所示。
- 极端场景下的卓越鲁棒性:关键的是,原生分辨率方法在处理具有极端宽高比(例如,BH 行)或极端区域(例如,G 列)的图像时表现出明显优势。图 6(c) 中的深绿色单元(例如,(AH, A) 处的 +0.24 和 (AW, E) 处的 +0.26)为此提供了强有力的证据。这表明,原生分辨率方法在面对多样化和非传统的视觉数据时具有更强的鲁棒性。
参考文献:
- Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models,https://arxiv.org/pdf/2506.12776
- Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution,https://arxiv.org/pdf/2307.06304
本文转载自大模型自然语言处理 作者:llmnlp
