InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝 原创

发布于 2025-8-27 08:02
浏览
0收藏

改进点概述:

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

InternVL3.5系列

  • 缝合最新开源模型:主要是语言模型侧的替换,如:qwen3和GPT-OSS
  • 引入视觉分辨率路由器(ViR)模块,该模块可动态选择视觉 token 的最小分辨率,从而实现更好的推理效率
  • 解耦视觉-语言部署(DvD),提升推理速度
  • 级联强化学习,提升模型性能

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

InternVL3.5模型架构延续了 InternVL 的 “ViT–MLP–LLM” 范式,同时针对性能增强和效率优化目标,衍生出基础版 InternVL3.5 和高效版 InternVL3.5-Flash 两个分支。

本文仅看下这个ViR模块,因为从之前介绍的多个模型如:《​​Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析​​​​》、《​​​Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节​​​》等多模态大模型及《​​​多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估​​​》的结论看,原生分辨率能够有效提升多模态大模型的性能,并广泛得到使用,InternVL3.5仍然使用着动态高分辨率,但这会带来token数量的增加,从而影响推理效率,但这次增加了一个ViR模块,让其可动态选择视觉 token 的最小分辨率,从而实现更好的推理效率。

视觉分辨率路由器(ViR)模块

Visual Consistency Learning(ViCO)是 InternVL3.5 为构建高效变体 InternVL3.5-Flash 设计的核心训练技术,其核心目标是:在将视觉 token 数量减少 50% 的同时,保持模型输出与原始高分辨率模型的一致性(近 100% 性能),为 “Visual Resolution Router(ViR,视觉分辨率路由器)” 的动态压缩策略提供训练支撑。

在 InternVL3.5-Flash 中,ViR 模块需要实现“语义感知的动态token压缩”(如将部分图像patch从256token压缩至64token),但直接引入动态压缩会面临两个关键问题:

  1. 输出不一致:不同压缩率(1/4 vs 1/16)会导致视觉token的语义信息损失差异,若模型对同一图像的不同压缩输入输出差异过大,会直接导致性能下降;
  2. 路由决策无依据:ViR 需判断“哪些patch该高压缩、哪些该低压缩”,但缺乏量化标准(如“语义丰富度”无法直接测量)。

因此,ViCO 目标:

  • 目标1:输出一致性:通过训练让模型对“低压缩率(保留细节)”和“高压缩率(减少冗余)”的视觉输入,生成尽可能一致的输出(如回答、推理结果);
  • 目标2:路由可学习:构建量化指标(语义压缩敏感性),训练 ViR 成为“智能路由器”,精准选择压缩率。
ViCO 的双阶段训练流程

ViCO 分为两个递进的训练阶段,先优化模型输出一致性,再训练 ViR 的路由策略,且两个阶段均基于“冻结主模型+轻量微调”的思路,避免破坏基础模型性能。

第一阶段:一致性训练(Consistency Training)

让 InternVL3.5-Flash 的“Policy Model”对不同压缩率的视觉输入(64token 或 256token),输出分布与“Reference Model”(即原始 InternVL3.5)尽可能一致,最小化因压缩导致的性能损失。具体的:冻结的 InternVL3.5 基础模型,固定使用 1/4 压缩率(将1024视觉token压缩至256token),作为“高保真输出基准”;待训练的 InternVL3.5-Flash 模型,输入图像patch会随机采用 1/4 或 1/16 压缩率(对应256token或64token),目标是让其输出向参考模型对齐。

训练数据复用 SFT 阶段的数据(如多模态问答、OCR、文档理解数据),确保训练场景与主任务一致; 输入构造:对每张图像的每个patch,随机采样压缩率 ξ(ξ ∈ {1/4, 1/16}):

  • ξ=1/4 时,图像 I_ξ 表示为 256 个视觉token;
  • ξ=1/16 时,图像 I_ξ 表示为 64 个视觉token。

损失函数:KL散度最小化:通过 KL 散度约束,强制政策模型无论输入是64token还是256token,输出都与参考模型(256token)保持一致,从而避免压缩导致的语义偏移。

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

训练方式:仅微调政策模型的 MLP投影器 和 LLM的部分层(不微调ViT和ViR),确保视觉编码能力不被破坏,同时高效对齐输出分布;训练过程中,所有图像patch采用随机压缩率,保证模型对两种压缩率都能适应。

第二阶段:路由器训练

训练 ViR 模块(二分类器)学会“语义感知的压缩率选择”——对语义丰富的patch(如文字、图表细节)选1/4压缩率(保留细节),对语义简单的patch(如纯色背景)选1/16压缩率(减少冗余)。ViR 结构:轻量卷积神经网络(CNN),作为二进制分类器(输出0或1);

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

ViR 的训练方式:训练时冻结政策模型的 ViT、MLP、LLM 部分,仅微调 ViR 模块,避免影响已对齐的输出一致性。使用 SFT 阶段中“视觉信息密集”的数据(如 OCR、VQA、图表理解数据),这类数据包含大量语义丰富的patch(如文字、公式),能更精准训练 ViR 的语义判断能力。

InternVL3.5 的训练方案概述

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

InternVL3.5 的训练方案。InternVL3.5 包含三个训练阶段:(1)用于视觉-语言对齐的原生预训 练,(2)用于适配下游任务的监督微调,(3)用于提升推理能力的级联强化学习。InternVL3.5-Flash 是 InternVL3.5 的高效版本,通过一致性训练和路由训练进一步集成了视觉分辨率路由模块(ViR)

加速部署的解决方案:

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

解耦视觉-语言部署概述。DvD 将视觉模型和语言模型分离,并将其部署在不同的服务器上。右 侧展示了流水线的时间消耗迹线。(a) 在原始部署中,ViT、MLP 和 LLM 是顺序执行的。由于它们 在大小和计算模式上存在显著差异,这种串行设计会显著降低推理速度。(b) 使用 DvD 后,ViT 和 LLM 的推理并行且异步地进行。因此,ViT 的计算可以与 LLM 的预填充和解码重叠,减少资源冲突, 提高推理速度。

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency,https://arxiv.org/pdf/2508.18265

本文转载自​​​大模型自然语言处理​​​   作者:llmnlp

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐