
回复
前期几篇内容介绍了原生分辨率及相关评估:《多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论》和《多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估》,再来看一个关于多模态大模型处理不同分辨率的trick,提到现有多模态大模型在处理高分辨率图像时,因固定划分图像为全局和局部区域导致视觉token数量过多、推理效率低下,且无法根据任务需求自适应调整视觉粒度的问题。因此提出通过视觉粒度缩放器生成多粒度视觉token,并利用视觉粒度路由器结合图像和指令动态选择合适粒度。
AVG-LLaVA模型结构主要在LLaVA-NeXT的基础上新增了两个核心模块:视觉粒度缩放器 和视觉粒度路由器,整体架构如下图:
路由器基于输入图像和指令,从多粒度特征中选择最合适的粒度,结构借鉴MoE,包含三个子层:
各粒度视觉 token 与指令 token连结后,由 LMM 处理以估算相应奖励。视觉粒度路由器依据 LMM 反馈优化粒度选择。
AVG-LLaVA的训练分为两个阶段,采用多阶段训练策略:
AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity,https://arxiv.org/pdf/2410.02745v3
本文转载自大模型自然语言处理 作者:llmnlp