自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!

发布于 2025-6-27 09:19
浏览
0收藏

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

论文链接:https://arxiv.org/pdf/2506.15564 
Git链接:https://github.com/showlab/Show-o 

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

亮点直击

  • 提出了一种改进的原生统一多模态模型,无缝整合自回归建模与流匹配技术,能够跨(交错)文本、图像及视频实现广泛的多模态理解与生成任务。
  • 基于3D因果VAE空间,通过语义与低维特征的双路径时空融合机制,构建了可扩展至多模态理解与生成、图像与视频模态的统一视觉表示。
  • 设计了一种两阶段训练流程,高效学习统一多模态模型,既能保留语言知识,又无需海量文本语料即可支持模型规模的有效扩展。
  • 所提模型在多模态理解与视觉生成基准测试中达到领先性能,各项指标均超越现有方法。

效果展示

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

图生视频

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

总结速览

解决的问题

  • 多模态统一建模的局限性:现有统一多模态模型(UMMs)主要关注文本和图像,缺乏对文本、图像和视频多模态的统一处理能力。
  • 视觉表示与生成的分离:许多方法采用分离的视觉表示(如CLIP理解+VAE生成),导致语义与低维特征割裂,难以兼顾理解与生成。
  • 生成能力的缺失:基于语言模型的多模态系统通常缺乏原生的视觉生成能力,需依赖外部适配器或额外模型组装。

提出的方案

  • Show-o2模型架构
  • 3D因果变分自编码器(3D Causal VAE)空间:统一处理图像和视频的隐空间表示,支持时空融合。
  • 双路径视觉表示:通过语义层、投影器和空间(-时序)融合,构建同时包含高层语义和低维结构的统一视觉表示。
  • 多模态统一建模
  • 语言头(Language Head):基于自回归建模预测文本token。
  • 流头(Flow Head):基于流匹配(Flow Matching)生成图像/视频,实现文本到视觉的端到端生成。
  • 两阶段训练策略
  • 第一阶段:预训练流头,学习跨文本、图像、视频的生成能力。
  • 第二阶段:全模型微调,结合高质量多模态理解与生成数据。

应用的技术

  • 3D Causal VAE:扩展传统VAE至视频模态,支持时序建模。
  • 流匹配(Flow Matching):替代扩散模型,提升生成效率和质量。
  • 双路径融合机制:结合语义层(理解)与低维特征(生成),实现多模态对齐。
  • 自回归与流匹配协同:语言头(自回归)处理文本,流头(流匹配)处理视觉,共享语言模型基座。

达到的效果

  • 多模态统一能力
  • 支持文本、图像、视频的理解与生成任务,如视觉问答、文本到图像/视频生成。
  • 在3D VAE空间实现跨模态时空融合,视频生成中保持时序一致性。
  • 性能优势
  • 在多项多模态理解与生成基准测试中超越现有方法(如Chameleon、Transfusion等)。
  • 流匹配技术提升生成速度和质量,两阶段训练保留语言模型知识的同时高效学习视觉生成。
  • 扩展性:模型设计支持更大规模训练,为未来多模态统一框架提供可扩展基础。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

基于视觉表示类型的选择性统一多模态模型比较分析,以及用于多模态理解和生成的统一建模

方法论

本节介绍整体框架,包含两个关键组件:i) 适用于图像和视频的多模态理解与生成的统一视觉表示设计,ii) 多模态理解与生成能力的原生学习。随后,提出两阶段训练流程,旨在渐进式学习并有效扩展统一多模态模型。

整体框架

总体架构

本文提出的统一模型概览如下图1所示。给定(交错的)文本、图像或视频,文本分词器与嵌入层以及3D因果VAE编码器分别将其处理为连续的文本嵌入和视觉隐空间表示。随后,视觉隐空间表示经过双路径时空融合提取以构建统一视觉表示。这些表示被组织为序列,输入至配备语言头和流头的语言模型中,分别通过自回归建模和流匹配进行序列建模。最终,文本反分词器与3D因果VAE解码器联合解码输出。接下来将深入探讨统一视觉表示和流头背后的基础设计原则。

统一视觉表示

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

训练方案

现有统一多模态模型(如Show-o、Janus-Pro、Transfusion、Chameleon和Emu3)通常基于大型语言模型(LLMs)、大型多模态模型(LMMs)或从头开始训练。这些方法旨在培养视觉生成建模能力,同时保持语言建模能力。然而,该过程通常依赖于网络规模的高质量文本语料库,其收集成本极高。因此,缺乏此类资源会导致语言知识和建模性能的退化。为解决这一挑战,我们采用两阶段训练方案(如下表2所示),在无需海量文本语料的情况下,有效保留语言知识的同时发展视觉生成能力。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

第一阶段

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

第二阶段

随后使用900万高质量多模态理解指令数据(来自Densefusion-1M和LLaVA-OneVision)以及从6600万图文对中筛选的1600万高质量视觉生成数据,对完整模型进行微调。

规模化扩展

在完成约15亿参数的LLM小规模模型训练后,我们将预训练的流头迁移至70亿参数的LLM大模型中,并引入轻量级MLP变换对齐隐藏层维度,使其快速适配大模型并收敛。

实验

实验设置

数据集

  • 整理的约6600万图文对包含分辨率至少为512×512的图像,筛选自CC12M、COYO、LAION-Aesthetic-12M及AI合成数据(合成数据除外,其余图像均通过ShareGPT4-V重新标注)。
  • 900万高质量多模态理解指令数据来自Densefusion-1M和LLaVA-OneVision。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

在蒸馏过程中,公式(1)仅在最后20K次迭代中以0.3的概率应用于视觉潜变量。通过配置3D因果VAE编码器的输入图像分辨率为432×432,并采用2×2的块嵌入层,最终获得729个(27×27)视觉潜变量,与SigLIP提取的潜变量维度匹配。经蒸馏后,语义层S(·)能够从干净和含噪的视觉潜变量中提取丰富的语义特征。统计数据显示,在精选的6600万图文数据集上,S(·)从干净视觉潜变量提取的特征与原始SigLIP提取特征的余弦相似度已收敛至约0.9。当处理其他图像/视频分辨率时,本文采用双三次插值模式对位置嵌入进行插值。

本文的模型基于两种大语言模型变体:Qwen2.5-1.5B-Instruct和Qwen2.5-7B-Instruct。采用Wan2.1提出的3D因果VAE架构,空间和时间压缩率分别为8倍和4倍。


第一阶段训练中,首先在6600万精选图文数据(分辨率432×432)上,使用AdamW优化器(恒定学习率0.0001)对15亿参数模型进行150K次迭代训练。单图文对的上下文长度设为1024,多模态理解与生成任务的批大小分别为128和384。公式(4)中的α设为0.2。对于视觉生成数据,以0.1概率随机丢弃标题以实现分类器无关引导。该训练过程使用64块H100 GPU耗时约1.5天。随后将生成数据替换为1600万高质量数据(从6600万图文对中筛选),继续训练40K次迭代。


第二阶段参照LLaVA-OneVision策略,使用约900万多模态指令数据和1600万高质量生成数据对15亿模型进行总计约35K次迭代训练,此时式(4)中α设为1.0,耗时约15小时。对于混合模态和视频生成能力的模型,我们在第一阶段逐步加入视频文本和交错数据。视频数据采用随机采样策略:从每段视频中抽取2秒480p或432×432的17帧片段,帧间隔为3帧,此时上下文长度设置为7006。第二阶段加入高质量视频文本和交错数据以增强视频和混合模态生成能力。为提升图像生成和文本渲染质量,进一步在小规模模型上训练更高分辨率图像(512×512和1024×1024)并引入TextAtlas的文本密集图像子集。


在基于70亿参数大模型的训练中,复用15亿模型预训练的流预测头,对新初始化的空间(-时序)融合模块、投影器和MLP变换层进行3K次迭代训练(含2K步热身)以实现隐层尺寸对齐,随后联合训练空间(-时序)融合模块、投影器、MLP变换层和流预测头。之后按照15亿模型的相同流程进行第一、二阶段训练。整个70亿模型训练过程使用128块H100 GPU耗时约2.5天。由于巨大计算成本和训练时长,大规模模型训练阶段未包含交错和视频数据。

多模态理解

定量结果

下表3展示了本文的模型在多模态理解基准测试中的性能表现,评估指标包括MME、GQA、SEED-Bench、MM-Bench、MMU、MMStar和AI2D。如表所示,1.5B和7B模型变体在多数指标上均优于当前最优模型。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

对于参数量相近的模型(1.5B),本文的模型在MME-p和MMU-val基准上取得最高分,同时在GQA和SEED-Bench指标上保持竞争力。与约7B参数的更大模型相比,本文的模型在MME-p、GQA、MMMU-val、MMStar和AI2D等指标上超越了Janus-Pro等先进模型,甚至显著优于14B参数的TokenFlow-XL模型,而在SEED-Bench和MM-Bench上保持竞争性表现。这些结果验证了统一视觉表示的强大感知能力。

定性结果

下图2展示了本文模型的多模态理解能力。该模型在回答关于图像的通用问题时表现优异。它能够提供图像的详细描述、统计物体数量并识别图像中的文字。此外,模型还能结合其世界知识,为制作牛油果奶昔等日常饮品提供分步指导,并支持双语问答功能,充分体现了其实用性和多功能性。更重要的是,我们的模型同时支持中英文多模态理解,实现了双语交互能力。

视觉生成

图像生成

在GenEval和DPG-Bench基准测试中(下表4和表5),本文的模型超越了TokenFlow-XL、Show-o、Emu3和Transfusion等多数方法。与使用1.44亿图文对训练的Janus-Pro相比,仅用6600万数据即取得可比结果。在DPG-Bench评估中,本文的模型相比SD3-Medium等纯生成模型及Emu3-DPO等统一模型获得最高综合分数。上图2的生成样例显示模型可生成高质量逼真图像。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

视频生成在文本/图像到视频生成任务中(下表6和表7),我们的20亿参数模型性能优于60亿参数的Show-1、Emu3和VILA-U,并与CogVideoX和Step-Video-T2V竞争。图2中部展示了文本/图像到视频生成样例,模型能根据文本提示或输入图像生成动作合理的连续视频帧(如微笑女孩、海浪和浮云)。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

混合模态生成

如前图2所示,我们使用下游任务视觉叙事数据集验证模型的混合模态生成能力。微调时,给定交错图文序列,以0.3概率对所有图像添加噪声,否则随机保留序列中部分早期图像仅对后续图像加噪。基于3.节所述通用交错序列格式,模型可预测[BOI]令牌开始生成图像。检测到[BOI]令牌后,将向序列追加噪声逐步生成图像,已生成的文本令牌和图像将作为上下文继续生成后续输出。图2展示两个案例,证明模型能交错生成连贯文本与图像以生动叙述故事。

消融实验

下表8的预研实验验证了空间(-时序)融合对多模态理解与生成性能的影响。实验采用LLaMA-3.2-1B作为基础语言模型,仅使用约100万多模态理解数据和ImageNet-1K生成数据。相同训练设置下,MME-p、GQA和FID-5K等指标均有提升,表明融合机制中的语义与低维特征对多模态生成和理解能力具有协同增强作用。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

下表9展示分类器无关引导(CFG)和推理步数对1.5B模型性能的影响。增大CFG引导系数和推理步数(合理范围内)可提升GenEval和DPG-Bench分数,但当CFG引导超过5.0时GenEval分数提升不显著。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

下表10说明两阶段训练对生成性能的影响。第二阶段训练持续显著提升GenEval和DPG-Bench指标,验证其必要性。

自回归+流匹配完美融合!Show-o2:语言模型一键生成高清图/视频,多模态理解也封神!-AI.x社区

结论

原生统一多模态模型Show-o2,通过整合3D因果VAE、自回归建模和流匹配技术,实现多模态理解与生成、图像与视频模态的统一建模。空间(-时序)双路径融合机制构建了同时包含高低层特征的统一视觉表示,两阶段训练方案有效学习多模态能力,使模型可处理多模态理解和图像/视频生成等多样化任务。大量实验证明该模型在多项基准测试中达到最先进性能。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/4XtfXlWljpwzvEyeq_bFXQ​


已于2025-6-27 09:24:39修改
收藏
回复
举报
回复
相关推荐