InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝原创

大模型自然语言处理

发布于 2025-8-27 08:02

浏览

0收藏

改进点概述：

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

InternVL3.5系列

缝合最新开源模型：主要是语言模型侧的替换，如：qwen3和GPT-OSS
引入视觉分辨率路由器（ViR）模块，该模块可动态选择视觉 token 的最小分辨率，从而实现更好的推理效率
解耦视觉-语言部署（DvD），提升推理速度
级联强化学习，提升模型性能

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

InternVL3.5模型架构延续了 InternVL 的 “ViT–MLP–LLM” 范式，同时针对性能增强和效率优化目标，衍生出基础版 InternVL3.5 和高效版 InternVL3.5-Flash 两个分支。

本文仅看下这个ViR模块，因为从之前介绍的多个模型如：《Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析》、《Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节》等多模态大模型及《多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估》的结论看，原生分辨率能够有效提升多模态大模型的性能，并广泛得到使用，InternVL3.5仍然使用着动态高分辨率，但这会带来token数量的增加，从而影响推理效率，但这次增加了一个ViR模块，让其可动态选择视觉 token 的最小分辨率，从而实现更好的推理效率。

视觉分辨率路由器（ViR）模块

Visual Consistency Learning（ViCO）是 InternVL3.5 为构建高效变体 InternVL3.5-Flash 设计的核心训练技术，其核心目标是：在将视觉 token 数量减少 50% 的同时，保持模型输出与原始高分辨率模型的一致性（近 100% 性能），为 “Visual Resolution Router（ViR，视觉分辨率路由器）” 的动态压缩策略提供训练支撑。

在 InternVL3.5-Flash 中，ViR 模块需要实现“语义感知的动态token压缩”（如将部分图像patch从256token压缩至64token），但直接引入动态压缩会面临两个关键问题：

输出不一致：不同压缩率（1/4 vs 1/16）会导致视觉token的语义信息损失差异，若模型对同一图像的不同压缩输入输出差异过大，会直接导致性能下降；
路由决策无依据：ViR 需判断“哪些patch该高压缩、哪些该低压缩”，但缺乏量化标准（如“语义丰富度”无法直接测量）。

因此，ViCO 目标：

目标1：输出一致性：通过训练让模型对“低压缩率（保留细节）”和“高压缩率（减少冗余）”的视觉输入，生成尽可能一致的输出（如回答、推理结果）；
目标2：路由可学习：构建量化指标（语义压缩敏感性），训练 ViR 成为“智能路由器”，精准选择压缩率。

ViCO 的双阶段训练流程

ViCO 分为两个递进的训练阶段，先优化模型输出一致性，再训练 ViR 的路由策略，且两个阶段均基于“冻结主模型+轻量微调”的思路，避免破坏基础模型性能。

第一阶段：一致性训练（Consistency Training）

让 InternVL3.5-Flash 的“Policy Model”对不同压缩率的视觉输入（64token 或 256token），输出分布与“Reference Model”（即原始 InternVL3.5）尽可能一致，最小化因压缩导致的性能损失。具体的：冻结的 InternVL3.5 基础模型，固定使用 1/4 压缩率（将1024视觉token压缩至256token），作为“高保真输出基准”；待训练的 InternVL3.5-Flash 模型，输入图像patch会随机采用 1/4 或 1/16 压缩率（对应256token或64token），目标是让其输出向参考模型对齐。

训练数据复用 SFT 阶段的数据（如多模态问答、OCR、文档理解数据），确保训练场景与主任务一致；输入构造：对每张图像的每个patch，随机采样压缩率 ξ（ξ ∈ {1/4, 1/16}）：

ξ=1/4 时，图像 I_ξ 表示为 256 个视觉token；
ξ=1/16 时，图像 I_ξ 表示为 64 个视觉token。

损失函数：KL散度最小化：通过 KL 散度约束，强制政策模型无论输入是64token还是256token，输出都与参考模型（256token）保持一致，从而避免压缩导致的语义偏移。

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

训练方式：仅微调政策模型的 MLP投影器 和 LLM的部分层（不微调ViT和ViR），确保视觉编码能力不被破坏，同时高效对齐输出分布；训练过程中，所有图像patch采用随机压缩率，保证模型对两种压缩率都能适应。

第二阶段：路由器训练

训练 ViR 模块（二分类器）学会“语义感知的压缩率选择”——对语义丰富的patch（如文字、图表细节）选1/4压缩率（保留细节），对语义简单的patch（如纯色背景）选1/16压缩率（减少冗余）。ViR 结构：轻量卷积神经网络（CNN），作为二进制分类器（输出0或1）；

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

ViR 的训练方式：训练时冻结政策模型的 ViT、MLP、LLM 部分，仅微调 ViR 模块，避免影响已对齐的输出一致性。使用 SFT 阶段中“视觉信息密集”的数据（如 OCR、VQA、图表理解数据），这类数据包含大量语义丰富的patch（如文字、公式），能更精准训练 ViR 的语义判断能力。

InternVL3.5 的训练方案概述

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

InternVL3.5 的训练方案。InternVL3.5 包含三个训练阶段：（1）用于视觉-语言对齐的原生预训练，（2）用于适配下游任务的监督微调，（3）用于提升推理能力的级联强化学习。InternVL3.5-Flash 是 InternVL3.5 的高效版本，通过一致性训练和路由训练进一步集成了视觉分辨率路由模块（ViR）

加速部署的解决方案：

InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝-AI.x社区

解耦视觉-语言部署概述。DvD 将视觉模型和语言模型分离，并将其部署在不同的服务器上。右侧展示了流水线的时间消耗迹线。(a) 在原始部署中，ViT、MLP 和 LLM 是顺序执行的。由于它们在大小和计算模式上存在显著差异，这种串行设计会显著降低推理速度。(b) 使用 DvD 后，ViT 和 LLM 的推理并行且异步地进行。因此，ViT 的计算可以与 LLM 的预填充和解码重叠，减少资源冲突，提高推理速度。