简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT

发布于 2025-5-19 08:37
浏览
0收藏

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

文章链接:https://arxiv.org/pdf/2505.10562

亮点直击

  • 提出了一种新的视觉分词器训练范式,以释放视觉分词器在下游自回归任务中的潜力。该视觉分词器能够感知并针对下游训练进行优化。
  • 引入了一种简单而有效的端到端视觉分词器调优方法ETT。ETT利用分词器的码本嵌入而不仅限于离散索引,并应用词级描述损失来优化视觉分词器的表示。
  • ETT显著提升了基于下一词预测范式的下游任务结果,包括多模态理解和生成任务,同时保持了分词器的重建性能。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

总结速览

解决的问题

  • 现有视觉分词器(vision tokenizer)的训练与下游任务解耦,仅针对低层重建(如像素级)优化,无法适应不同下游任务(如图像生成、视觉问答)的多样化语义需求。
  • 分词过程中的信息损失可能成为下游任务的性能瓶颈(例如图像中文本的分词错误导致生成或识别失败)。
  • 现有自回归模型仅使用分词器的离散索引,忽略了视觉嵌入表示的学习,导致视觉-语言对齐困难。

提出的方案

  • 端到端联合优化:将视觉分词器与下游自回归任务(如文本生成)共同训练,同时优化分词器的重建目标和下游任务目标(如描述生成)。
  • 利用词嵌入而非离散索引:引入分词器码本(codebook)的连续视觉嵌入表示,而非仅使用离散索引,增强视觉语义学习。
  • 保持简洁性:无需修改大语言模型(LLM)的原始文本码本或架构,仅通过调整分词器的训练方式提升性能。

应用的技术

  • 多任务联合训练:结合图像重建损失(如VQ-VAE的量化损失)和下游任务损失(如描述生成损失)。
  • 连续嵌入表示:通过分词器的码本嵌入(而非离散token索引)传递视觉信息,改善视觉-语言对齐。
  • 轻量化集成:直接复用现有分词器和LLM的架构,仅通过梯度回传优化分词器的码本表示。

达到的效果

  • 性能提升:在多模态理解(如视觉问答)和视觉生成任务上,相比冻结分词器的基线模型,性能提升2%-6%。
  • 保留重建能力:在优化下游任务的同时,不损害分词器的原始图像重建能力。
  • 通用性与易用性:方法简单易实现,可无缝集成到现有多模态基础模型(如Emu3)中,适用于生成和理解任务。

方法论

视觉分词器

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

端到端视觉分词器调优

从离散索引到码本嵌入。Emu3等类似方法仅在下游任务中使用视觉分词器的离散索引,丢弃了视觉分词器嵌入的丰富表示能力。这些方法仅依赖离散码本索引,阻碍了梯度传播,使得端到端训练无法实现。为解决这一限制,本文提出ETT,直接将视觉分词器的码本嵌入连接到 LLM,有效利用视觉分词器中编码的更丰富特征表示,同时实现端到端训练。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

多模态生成与理解的训练方案

下游多模态感知与生成的完整训练流程包含三个连续训练阶段。采用的训练数据由公开图像数据集构成,并辅以如下表 1 所示的多样化理解和生成指令数据。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

阶段1:对齐学习

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

阶段2:语义学习

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

阶段3:后训练

通过端到端调优获得增强版视觉分词器后,采用标准后训练流程实现多模态理解与生成。本阶段冻结视觉分词器,调优视觉投影层和LLM层,分别训练两个专用模型:

  • ETT-Chat:增强多模态理解中的指令跟随能力,使用SOL-recap、LLaVA-OneVision和Infinity-MM等多源高质量指令数据
  • ETT-Gen:优化文本到图像生成,包含1400万Flux模型生成的AI样本,以及从开源网络数据筛选的1600万图文对(基于图像分辨率和LAION美学评分)

实验结果

训练设置

数据准备。(1)视觉语言预训练&视觉分词器数据集。采用[8]的预处理流程优化SA-1B、OpenImages和LAION,分别得到11M、7M和14M张图像。使用[8]的标题生成引擎产出32M条高质量描述。(2)监督微调数据集。对于理解任务,从Infinity-MM提取31.8M个多任务样本,从LLaVA-OneVision筛选3.5M条优先复杂对话结构的指令数据;对于生成任务,通过Flux模型生成14M个AI创作样本,并从开源网络数据精选16M个图文对,基于图像分辨率和美学评分进行过滤。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

多模态理解评估

在主流视觉语言感知基准上验证ETT,包括:任务专项评估(GQA、TextVQA)、幻觉检测(POPE)、开放域多模态理解(MME、MMBench、SEED-Bench、MM-Vet)以及科学推理(ScienceQA-IMG)。


如下表2所示,ETT在更小模型和数据规模下,持续超越Chameleon、LWM、Liquid等离散方法,凸显端到端调优策略的高效性。相比Show-o,ETT在显著减少训练数据的同时实现更优性能,证明其数据利用策略的有效性。与QwenVL-Chat、EVE、Janus等基于连续编码器的SOTA视觉语言模型相比,ETT在不依赖额外视觉编码器的情况下仍具竞争力,既简化架构又降低计算开销。ETT的成功源于视觉分词器的端到端训练方案,其有效协调了多模态理解与生成的内在冲突。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

视觉生成评估

在GenEval和T2I-CompBench基准上,全面评估文本到图像生成能力,对比基于扩散和自回归的SOTA方法(含专业模型与通用模型)。如下表3所示,在top-k=131,072(视觉词表大小)和top-p=1.0的推理配置下,本文的方法以较少LLM参数和小规模训练数据取得0.63的综合得分,超越SDXL等扩散模型。相比LlamaGen(专业模型)和Chameleon(通用模型)等自回归方法,ETT所需训练数据或参数量更少。结合提示词改写后,其性能逼近DALL-E3和EMU3等领先模型。在T2I-CompBench上,ETT在颜色、形状、纹理三个维度分别取得81.03、58.19和72.14分,与基于扩散的SOTA模型相当。这些结果充分验证了端到端视觉分词器调优方案的有效性。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

下图2展示了ETT生成的定性结果,可见其能准确遵循提示词生成多样化视觉内容。该模型擅长处理不同艺术风格、主体和背景的图像生成,可适应多种构图结构和审美偏好。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

消融实验

为验证ETT对下游多模态生成与理解任务的有效性,本文在多个主流理解基准(如SEEDBench-Img、GQA、TextVQA和MME-Perception)及文本到图像生成评估数据集GenEval上进行了全面消融研究。


端到端调优优势。首先探究ETT对促进多模态下游任务的有效性。为公平验证ETT优化视觉分词器特征表示的潜力,所有理解与生成任务模型均采用SOL-recap训练,理解任务额外使用LLaVA-mix-665K进行监督微调。如下表4所示,相比传统分词器利用方式,引入ETT在理解与生成任务上均带来显著性能提升。未采用端到端调优时,用码本嵌入替换离散索引可部分缓解信息损失问题,在多模态理解基准上带来明显增益;尽管该替换会降低视觉生成性能,但其建立了完全可微的模型架构,为端到端优化奠定基础。在此基础之上,引入视觉分词器的端到端调优相比传统设置(即首行)进一步提升了理解与生成性能,尤其在依赖视觉特征的任务上表现突出(如通用视觉问答↑5%、光学字符识别↑6%)。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

理解与重建的权衡。进一步研究ETT在视觉重建与多模态理解之间的内在任务权衡。如下表5所示,相比未调优基线(首行),调优视觉分词器始终为理解任务带来显著收益,但会以不同程度牺牲重建性能。仅用图像到文本理解任务调优分词器(第二行)在各类理解基准上取得最佳性能,但重建质量大幅下降(ImageNet 256X256设置的rFID从1.033骤降至45.701);引入权重0.25的辅助重建目标后,理解精度略有下降而重建质量显著改善(rFID从45.701提升至1.648),表明联合训练理解与重建任务的重要性;将重建权重α增至1.0可获得最佳重建rFID 1.500,但会导致感知能力最弱。因此本文选择α=0.25作为默认重建损失权重以平衡两项任务。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

下图3可视化对比了引入ETT前后的重建结果。经ETT调优的视觉分词器在保持与原模型相当的低级视觉细节同时,增强了文本渲染等特定方面,表明ETT既能保留丰富的底层细节,又能改善高层语义表征。

简单却强大!端到端视觉Tokenizer调优让多模态任务性能飙升!智源&卢湖川团队等发布ETT-AI.x社区

结论

本研究致力于解决多模态学习中视觉分词器的表征瓶颈问题,提出了一种简单而有效的端到端视觉分词器调优方法ETT。该方法通过采用码本嵌入替代纯离散索引,并施加分词级标题损失来实现分词器与下游训练的联合优化。实验表明,ETT在几乎保持分词器重建能力(甚至提升文本渲染等特定方面的重建性能)的同时,显著提升了纯解码器架构下的多模态理解与生成能力。

局限性与未来方向

当前工作的主要局限在于:端到端微调的数据规模和模型容量仍有扩展空间,以进一步提升视觉表征与下游任务性能。此外,现有方法聚焦于通过优化现有视觉分词器的视觉特征(利用LLM的语义能力)来构建简单有效的框架,而非从头设计兼具理解与生成能力的视觉分词器。虽然ETT证明了LLM驱动的语义反馈对增强视觉分词的有效性,但其仍依赖于对已有分词器的微调而非从零开发。因此,未来本文将探索从零开始端到端训练视觉分词器,以构建更全面、适应性更强的多模态表征方案。另外,突破图像与文本模态的局限(如引入视频与音频)也是值得探索的前沿方向。本文希望这一简单有效的方法能为超越视觉生成与理解的多模态基础模型发展提供启示。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/RgGPwLLzENKlF7Ds6Y1QXA​

收藏
回复
举报
回复
相关推荐