通向高分辨率VLM (11): VILA-HD 原创

发布于 2025-5-8 06:39
浏览
0收藏

4k分辨率的视觉预训练:PS3

通向高分辨率VLM (11): VILA-HD-AI.x社区

Paperhttps://arxiv.org/abs/2503.19903

Demo: ​​https://huggingface.co/spaces/bfshi/VILA-HD-demo​

在之前介绍的高分辨率VLM系列中,我们见证了视觉语言模型,视觉编码器逐渐从224/384的固定低分辨率,通过动态切图/原生动态分辨率方法,逐渐走向了动态的高分辨率图像输入。

想必对于读过该系列的读者,高分辨率在视觉领域的的重要性不用多说。英伟达团队将视觉预训练扩展到了4k分辨率,提出了方法PS3,并基于此构建了一个名为VILA-HD的高分辨率多模态大模型。相比于动态分辨率,其拥有更少的计算复杂度,规避了动态分辨率的transformer方法N方的推理计算复杂度,对高分辨率下的推理速度带来了巨大的提升。

作者以自动驾驶和为案例讲述了高分辨率预训练的重要性:

通向高分辨率VLM (11): VILA-HD-AI.x社区

尽管一些方法可以在没有高分辨率预训练的情况下处理高分辨率图像,但作者发现,高分辨率预训练能够利用大规模预训练数据学习高质量的高分辨率特征,从而提升性能。PS3 在 4K 分辨率上预训练后,明显优于 S2 和 AnyRes 等基线模型。

以往的视觉预训练方法(如 CLIP 和 SigLIP)无法扩展到高分辨率,因为计算成本过高。视觉模型需要对整张图像进行编码,计算复杂度至少是二次的。然而,对于高分辨率图像,通常不需要查看整张图像。例如,在上述例子中,只需要关注停车标志即可回答问题。这意味着,与其对整张图像进行对比学习,不如在局部区域和局部描述之间进行对比学习。这样,模型仍然可以学习高分辨率图像的详细表示,而几乎不需要额外成本。

通向高分辨率VLM (11): VILA-HD-AI.x社区

PS3 的成功关键在于能够根据任何文本提示选择性地处理高分辨率区域。这是通过一种自上而下(即提示感知)的选择机制实现的,该机制允许模型专注于任何给定文本提示最相关的区域,并对低分辨率全局图像和高分辨率局部区域分别进行编码。通过用户的query去选择相关区域,能显著减少无用的细节信息提取。

通向高分辨率VLM (11): VILA-HD-AI.x社区

通向高分辨率VLM (11): VILA-HD-AI.x社区

PS3的预训练方法

数据准备

  • 高分辨率图像数据:收集了7500万张1K到4K分辨率的图像,包括自然图像和文档图像。
  • 局部描述和边界框:为每张图像生成了2.82亿对局部区域的边界框和详细描述。这些描述由MLLM(如Qwen2-VL)生成,确保模型能够学习到高分辨率图像中的细节特征。

模型设计

PS3的模型设计分为三个阶段:

  1. 低分辨率全局特征提取(Low-Res Feature Extraction):使用与SigLIP相同的ViT架构提取低分辨率全局特征。
  2. 自上而下或自下而上的局部区域选择(Top-Down or Bottom-Up Patch Selection):模型根据低分辨率特征和文本提示(或图像显著性)计算每个空间位置的选择分数,并选择重要的局部区域。
  3. 高分辨率多尺度特征提取(High-Res Multi-Scale Feature Extraction):对选定的局部区域进行高分辨率特征提取,并通过低分辨率KV缓存将全局上下文信息融入局部特征中。

预训练算法

PS3的预训练算法包括以下关键设计:

  • 局部对比损失(Localized Contrastive Loss):通过对比局部高分辨率特征和局部描述的文本嵌入来学习详细的视觉表示。
  • 边界框监督(Box Supervision):使用标注的边界框监督模型选择与局部描述相关的图像区域,从而提高选择的准确性。

通向高分辨率VLM (11): VILA-HD-AI.x社区

Building VILA-HD with PS3

作者使用PS3作为视觉编码器,构建了高分辨率MLLM,VILA-HD,可以有效地处理高达4K的分辨率输入。VILA-HD通过首先从PS3和文本query中获取低分辨率特征,然后使用PS3选择性地处理与文本提示相关的高分辨率区域,有效地处理高分辨率图像。可以根据计算预算灵活地决定在VILA-HD中处理多少个高分辨率patch。

通向高分辨率VLM (11): VILA-HD-AI.x社区

通向高分辨率VLM (11): VILA-HD-AI.x社区

VILA-HD 与 PS3 展现出出色的扩展特性:

  • 当分辨率提升且选择每个分辨率的所有块时,VILA-HD 与 PS3 的扩展曲线优于没有高分辨率预训练的基线模型。
  • VILA-HD 与 PS3 可以在不增加额外训练和推理成本的情况下,通过选择固定数量的块来提升分辨率并提高性能。
  • VILA-HD 与 PS3 可以通过选择更多块来权衡更好的性能,从而扩展训练或测试时的计算量。

与 NVILA 和 Qwen2-VL 等顶尖多模态语言模型相比,VILA-HD 在包括图表、文档、OCR 和自然图像理解的所有基准测试中表现出色,并在需要高分辨率感知的基准测试(如 V*bench)上创下新纪录。VILA-HD 还实现了最佳效率,这得益于 PS3 的自上而下的块选择机制。具体来说,在选择相同数量的标记时,PS3 显著提高了 ViT 的效率,同时实现了更好的性能。PS3 也是唯一能够处理 4K 分辨率的方法。

通向高分辨率VLM (11): VILA-HD-AI.x社区

通向高分辨率VLM (11): VILA-HD-AI.x社区

4KPro:4K 分辨率感知Benchmark

  • 以往基准测试不需要 4K 分辨率感知:尽管以往的图像问答基准测试包含高达 4K 分辨率的图像,但这些问题并不真正需要 4K 分辨率感知来回答。我们手动检查了每个问题的最低可识别分辨率(MRR),即回答问题所需的最低分辨率,发现大多数问题只需要不超过 1K 分辨率即可回答。
  • 4KPro 严格要求 4K 分辨率感知:为此,我们提出了 4KPro,这是一个严格要求 4K 分辨率感知的新基准测试。4KPro 包括自动驾驶、家居、游戏和 GUI 理解四个专业领域的 4K 分辨率问答任务。通向高分辨率VLM (11): VILA-HD-AI.x社区
  • VILA-HD 在 4KPro 上实现顶尖性能和效率:VILA-HD 与 PS3 的扩展曲线优于没有高分辨率预训练的基线模型。VILA-HD 还实现了比 Qwen2-VL 等以往多模态语言模型更好的性能和效率通向高分辨率VLM (11): VILA-HD-AI.x社区


本文转载自公众号思源数据科学 作者:思源Source

原文链接:​​https://mp.weixin.qq.com/s/UnmBCkMV6TueeXqrul6gRg​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-5-8 13:48:24修改
收藏
回复
举报
回复
相关推荐