鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论原创

大模型自然语言处理

发布于 2025-8-6 06:19

浏览

0收藏

传统上，ViT会将输入图像调整为固定的正方形纵横比，然后分割为固定数量的 patches。但这种做法存在局限性，例如可能破坏图像的原始纵横比，影响模型对图像内容的理解，且在训练和推理效率上有提升空间。

前期《多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估》评估结论也通过评估得到，原生分辨率对于多模态大模型有增益，再来看下NaVit的原生分辨率packing策略，该工作由23年提出，但应该是比较早的原生分辨率探索，下面看看。

方法

1、架构上改进

NaViT 是在原始 ViT 的基础上构建的，为了用 Patch n’ Pack，对架构进行了修改：

掩码自注意力和掩码池化：如下图为避免不同图像样本间相互干扰，引入额外的自注意力掩码。同时，在编码器之上使用掩码池化，对每个样本内的token表示进行池化，使序列中每个样本都能得到单一向量表示，以此控制注意力的感受野。

多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论-AI.x社区

分解式和分数位置嵌入：为处理任意分辨率和宽高比的图像，重新设计位置嵌入。传统ViT对分辨率的正方形图像，会学习长度为的1 - D位置嵌入，在高分辨率下训练或评估时需线性插值；Pix2struct引入的2D绝对位置嵌入虽支持可变宽高比，但训练时需看到所有坐标组合。NaViT则引入分解式位置嵌入，将其分解为和坐标的单独嵌入和，再进行组合（如相加）。同时考虑了绝对嵌入（基于绝对patch索引）和分数嵌入（基于相对距离），还探索了简单学习嵌入、正弦嵌入和NeRF中使用的学习傅里叶位置嵌入。

2、训练上改进

连续token丢弃：传统token丢弃是在训练时随机省略输入补丁以加速训练，但通常所有样本丢弃比例相同。NaViT的Patch n’ Pack技术支持连续token丢弃，即每张图像的token丢弃率可变。这既能享受丢弃带来的训练加速，又能保留部分完整图像，减少训练与推理的差异。而且，丢弃率分布可在训练过程中按预定计划变化。
分辨率采样：NaViT可使用图像原始分辨率训练，也能在保持宽高比的同时重采样像素总数。传统ViT在训练时，小图像训练通量高但处理细节和高分辨率图像能力弱，大图像则相反。NaViT更加灵活，可通过从图像尺寸分布中采样，进行混合分辨率训练，既提高通量又能接触大图像，提升模型性能。

多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论-AI.x社区

NaViT 在预训练（左）期间表现出显著的计算效率，这延续到了下游微调（中）。一个 NaViT 可以成功应用于多种分辨率（右），平稳地在性能和推理成本之间进行权衡。

从上图看到，在相同计算预算下，NaViT的性能始终优于ViT。

原因分析：NaViT在固定计算预算内处理的训练样本数量显著增加。分辨率采样和token丢弃的结合，使可变尺寸的图像能高效打包成与原始模型相似的序列长度（例如，NaViT-L/16训练时处理的图像数量是ViT的5倍）。

一些结论：

多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论-AI.x社区

对比固定分辨率与可变分辨率

可变分辨率微调的NaViT性能与单分辨率微调的NaViT相当，优于单分辨率ViT。
低分辨率（64）微调的NaViT在高分辨率评估时仍保持良好性能。

多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论-AI.x社区

偏向较低分辨率直接采样边长能获得最佳整体性能

上图，直接采样边长且偏向低分辨率（如截断正态分布）的策略性能最优，因优先选择短序列提升了throughput。

多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论-AI.x社区

采样较低分辨率可以提高吞吐量，提升性能，并使模型在不同分辨率下的使用更加高效

可变分辨率模型在所有评估分辨率下均优于固定分辨率模型。即使在训练与评估分辨率一致的最佳情况下，可变分辨率模型仍能持平或超越固定分辨率模型
低分辨率图像加速训练 throughput，高分辨率图像保留细节，两者结合兼顾效率与性能。

多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论-AI.x社区

上图结论：

连续token丢弃：从Beta分布采样丢弃率，相比固定丢弃率更优（a）。
分辨率依赖丢弃率：根据图像分辨率动态调整丢弃率（如分辨率高则丢弃率高），进一步提升性能（b）。

参考文献：Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution，https://arxiv.org/pdf/2307.06304

本文转载自大模型自然语言处理作者：llmnlp

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

图像分辨率

已于2025-8-6 06:19:27修改

赞

收藏

回复

举报

回复

相关推荐

无需训练，这个新方法实现了生成图像尺寸、分辨率自由

轻薄滴假象 • 3407浏览 • 0回复
超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

轻薄滴假象 • 3467浏览 • 0回复
高分辨率图像生成扩散外推方法CutDiffusion发布！

angel • 5357浏览 • 0回复
Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN

Aceryt • 3488浏览 • 0回复
2B多模态新SOTA！华科、华南理工发布Mini-Monkey，专治「切分增大分辨率」后遗症

duhorse • 2899浏览 • 0回复
上海交大等联合发布MegaFusion：无须微调的高效高分辨率图像生成方法

angel • 3684浏览 • 0回复
苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪

Aceryt • 3209浏览 • 0回复
苹果重磅开源俄罗斯套娃扩散模型！MDM：多任务高分辨率生成又快又好！

angel • 3075浏览 • 0回复
首次实现8K图像生成！FreeScale让扩散模型解锁更高分辨率！

angel • 3403浏览 • 0回复
从低清到4K的魔法：FlashVideo突破高分辨率视频生成计算瓶颈(港大&港中文&字节)

angel • 3097浏览 • 0回复
高分辨率3D人生成超简单!Pippo:Meta最新工作首次完成1K分辨率一致多视角人物图像生成

angel • 3874浏览 • 0回复
何恺明开辟分形图像生成新范式！计算效率提高4000倍，首次实现高分辨率逐像素生成

Crystalcxt • 2837浏览 • 0回复
通向高分辨率VLM (11): VILA-HD

kede96 • 2384浏览 • 0回复
多模态视觉语言模型FILA-细粒度分辨率融合策略

大模型自然语言处理 • 1994浏览 • 0回复
多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估

大模型自然语言处理 • 1542浏览 • 0回复
多模态大模型中高分辨率处理trick-通过自适应路由选择模块动态选择合适粒度

大模型自然语言处理 • 1104浏览 • 0回复
InternVL3.5多模态大模型改进点及视觉分辨率理由模块技术浅尝

大模型自然语言处理 • 2997浏览 • 0回复
InfGen让图像生成进入“任意分辨率”时代：4K图像7秒生成，速度狂飙10倍！

zhangyannni • 1390浏览 • 0回复
苹果研究院最新成果：FastVLM如何打破分辨率与延迟的矛盾

Halo咯咯 • 1607浏览 • 0回复

大模型自然语言处理

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

万字梳理大模型后训练（Post-Training） 2天前发布
Qwen3VL源码侧改进点及DeepStack核心思想概述 5天前发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

NeurIPS'25 智能体最新技术即时洞察：6大方向、代表论文、发展趋势 0回复

智能体主流框架深度研究报告：功能特性、用户群体、技术架构与商业化路径分析 0回复

阿里通义重磅开源 DeepResearch：让 AI 具备 “人类级研究能力” 的技术架构全景解析 0回复

一文读懂 Go 语言 AI 智能体框架 Eino：灵活高效的大模型应用开发工具 0回复

上一篇：多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估

下一篇：多模态大模型中高分辨率处理trick-通过自适应路由选择模块动态选择合适粒度

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载