VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025) 原创

发布于 2025-5-19 09:12
浏览
0收藏

摘要

VILA-U 是一个统一基础模型,融合了视频、图像和语言的理解与生成能力。传统的视觉语言模型(VLMs)在处理视觉内容的理解和生成任务时,使用独立的模块,这可能导致模块间的不协调和模型复杂度的增加。相比之下,VILA-U 采用单一的自回归下一个标记预测框架来处理这两项任务,避免了使用如扩散模型等额外组件的需求。这种方法不仅简化了模型结构,还在视觉语言理解和生成任务中取得了接近当前最优水平的性能。VILA-U 的成功主要归因于两个关键因素:一是统一的视觉塔,它在预训练过程中将离散的视觉标记与文本输入对齐,从而增强了视觉感知能力;二是在高质量数据集上进行训练时,自回归图像生成能够达到与扩散模型相似的效果。这使得 VILA-U 能够在使用完全基于标记的自回归框架的情况下,与更为复杂的模型表现相媲美。我们的代码已在​​https://github.com/mit-han-lab/vila-u​​开源。

1、引言

近年来,大语言模型(LLMs)在各种语言任务中展现出卓越的能力。它们具有遵循指令、零样本泛化和少样本上下文学习等吸引人的特性,这激发了研究人员将其与视觉模型相结合,构建用于多模态任务的视觉语言模型(VLMs)。该领域的许多研究(Dai 等人,2024;Liu 等人,2024b;Lin 等人,2023)在视觉语言理解方面取得了显著成果。在这些工作中,视觉输入通过像 CLIP(Radford 等人,2021)这样的视觉模型映射到 LLMs 的语义空间中,通过包含文本 - 图像对齐目标来弥合两种模态之间的差距。

除了视觉理解,结合视觉和语言模态的另一个重要研究方向是视觉生成。目前,文本引导的图像生成主要有两种流行方法。一种方法是使用扩散模型(Rombach 等人,2022a),这是一种在各种生成任务中都表现强大的工具。另一种方法则是通过向量量化(VQ)将视觉内容转换为离散标记,然后利用自回归变压器进行高质量、多样化的生成(Esser 等人,2021;Yu 等人,2021;Lee 等人,2022;Tian 等人,2024b;Sun 等人,2024)。

随着视觉理解和生成技术的迅速发展,将这些技术统一到一个单一的多模态框架中成为一种新兴趋势。在 VILA-U 之前,实现这种统一主要有两种方法:(1)一种方法(Liu 等人,2024a;Yu 等人,2023a;Xie 等人,2024)利用基于 VQGAN(Esser 等人,2021)的分词器将视觉输入转换为离散标记,并使用自回归模型进行理解和生成。然而,Xie 等人(2024)指出,基于 VQGAN 的编码器生成的视觉标记缺乏语义信息,这通常会导致在下游视觉理解任务中性能严重下降。(2)另一种方法(Zhan 等人,2024;Ge 等人,2023b;Jin 等人,2023)利用码本对像 CLIP 这样的预训练视觉模型产生的特征进行量化。由于 CLIP 特征编码了丰富的语义信息,这些方法通常在理解任务上取得明显更好的性能。但是,这些分词器缺乏解码能力,需要外部视觉生成模型(如扩散模型),以生成的视觉标记作为条件来产生视觉输出。这种方法增加了基础设施设计的复杂性。现有的大规模基础模型训练管道和部署系统已经针对基于下一个标记预测的语言建模进行了高度优化。设计和维护一个额外的堆栈来支持扩散模型将带来巨大的工程成本。

在这项工作中,我们提出了 VILA-U,这是一个端到端的自回归框架,具有统一的下一个标记预测目标,适用于视觉和文本输入。它能够在视觉语言理解和生成任务中实现有竞争力的性能,而无需像扩散模型这样的外部组件的帮助。我们确定了统一视觉和语言模态的两个关键原则:(1)现有的统一端到端自回归视觉语言模型无法实现具有竞争力的视觉理解性能,因为离散的 VQGAN 标记仅在图像重建损失上进行训练,并未与文本输入对齐。因此,在 VQ 视觉塔预训练期间引入文本对齐以增强感知能力至关重要。(2)如果在足够规模的高质量数据上进行训练,自回归图像生成可以达到与扩散模型相似的质量。受这些见解的启发,VILA-U 采用了统一的基础视觉塔,通过向量量化将视觉输入转换为离散标记,并使用对比学习将这些标记与文本输入对齐。VILA-U 的多模态训练在一个小尺寸的高质量图像 - 文本语料库上,利用统一的下一个标记预测目标对视觉和文本标记进行训练。

我们在常见的视觉语言任务上对 VILA-U 进行了评估,包括图像 - 语言理解、视频 - 语言理解、图像生成和视频生成。VILA-U 显著缩小了端到端自回归模型与连续标记视觉语言模型在视觉理解性能上的差距,同时引入了具有竞争力的原生视觉生成能力。

2、相关工作

2.1 大语言模型(LLMs)

基于预训练大规模变压器(Vaswani 等人,2017)的大语言模型彻底革新了自然语言处理领域。凭借巨大的模型规模和预训练数据语料库,大语言模型在各种语言任务中取得了显著的性能。开源大语言模型的发展,如 LLaMA(Touvron 等人,2023a)、Mixtral(Jiang 等人,2024)和 Vicuna(Chiang 等人,2023),进一步推动了关于如何将大语言模型应用于复杂语言任务的研究。除了在不同领域具有出色的零样本泛化能力外,大语言模型通常还在定制数据集上进行微调,以在特定任务中获得更好的性能。指令调整(OpenAI,2023;Chung 等人,2024;Ouyang 等人,2022)也是在应用大语言模型时获得更好输出的关键步骤。在这项工作中,我们采用 LLaMA-2-7B(Touvron 等人,2023a)模型作为我们的基础大语言模型。

2.2 视觉语言模型(VLMs)

在这个大语言模型时代,计算机视觉和自然语言处理的结合催生了视觉语言模型。在视觉语言模型中,研究人员利用诸如 CLIP(Radford 等人,2021)、BLIP(Li 等人,2022)和 CoCa(Yu 等人,2022)等视觉基础模型来提取视觉特征,与文本对齐,并将其输入到大语言模型中,以实现文本和视觉内容之间的跨模态理解。在这些进展的基础上,许多视觉语言模型(Alayrac 等人,2022;Li 等人,2023b;Liu 等人,2024b;Lin 等人,2023;Luo 等人,2024;Tian 等人,2024a)已经在广泛的视觉语言数据上进行设计和训练,以在视觉理解和推理任务中取得显著的性能。在这项工作中,我们旨在开发一种视觉语言模型,其视觉理解能力与先前的工作相当,同时还具备新的视觉生成能力。

2.3 统一视觉语言模型

人们已经做出了许多努力来开发能够生成文本以及视觉内容(包括图像和视频)的统一视觉语言模型。在视觉语言模型中,生成视觉内容主要有两种主流方法。许多工作(Sun 等人,2023b;a;Jin 等人,2023;Ge 等人,2023b;Li 等人,2023c;Ge 等人,2024;Jin 等人,2024;Ge 等人,2023a)将视觉语言模型与像 Stable Diffusion(Rombach 等人,2022a)这样的扩散模型相结合,以实现高质量的图像生成。其他工作(Liu 等人,2024a;Yu 等人,2023a;Lu 等人,2023;Team,2024;Xie 等人,2024)采用基于 VQGAN 的视觉编码器,将视觉输入转换为离散标记,并让大语言模型学习预测这些标记。关于我们的方法与其他统一视觉语言模型之间区别的更多细节,请参见附录 A。

3、方法

这项工作提出了一个多模态框架,旨在有效地统一视觉和语言模态。实现这种统一的关键组件是一个统一的基础视觉塔,它将视觉输入转换为与文本对齐的离散标记,以及一个统一的多模态生成训练过程。图 1 展示了我们框架中主要的多模态训练和推理过程的概述。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

图1:我们框架的多模态训练和推理过程概述:视觉输入被标记化为离散标记,并与文本标记连接形成多模态标记序列。所有标记都参与我们的下一个标记预测过程,实现统一的训练目标。在推理过程中,输出标记由我们的文本去标记器或视觉塔解码器解码,以生成多模态内容。

3.1 统一基础视觉塔

为了支持多样化的视觉理解和生成任务,我们首先构建了一个统一的基础视觉塔,以提供合适的视觉特征。我们建议在视觉塔训练中纳入文本 - 图像对比损失和基于 VQ 的图像重建损失,赋予视觉塔文本对齐和离散标记化的能力。如图 2 所示,从图像中提取的特征主要通过残差量化进行离散化。然后,在一条路径中,离散的视觉特征被输入到解码器中以重建图像并计算重建损失;在另一条路径中,我们计算离散视觉特征与文本编码器提供的文本特征之间的文本 - 图像对比损失。通过这个训练过程,视觉塔学习提取适用于我们视觉语言模型中理解和生成任务的离散特征。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

图2:我们统一基础视觉塔概述:给定输入图像,视觉编码器提取的特征通过残差量化进行离散化。然后,离散的视觉特征同时输入到视觉解码器中以重建图像,并用于执行文本 - 图像对齐。在此过程中,计算重建损失和对比损失以更新视觉塔,使其能够生成与文本对齐的离散视觉特征。

统一训练方法

从头开始使用两个目标训练统一视觉塔是困难的,因为对齐和重建任务分别需要高级语义特征和低级外观特征。同时使用这两个目标从头开始训练整个视觉塔可能会导致目标冲突。在实践中,我们观察到,使用图像重建和对比损失从头开始训练向量量化的视觉塔,在经过几个训练周期后,在 ImageNet(Deng 等人,2009a)上的零样本图像分类的 Top-1 准确率仅为 5%。

为了解决这个问题,我们尝试了不同的训练方法(失败的方法列在附录 C 中),并发现以下解决方案最为有效。我们建议不要同时学习两个目标,而是首先赋予模型文本 - 图像对齐能力,然后在保持对齐能力的同时学习重建能力。我们使用来自 CLIP 模型的预训练权重初始化视觉编码器和文本编码器,以确保良好的文本 - 图像对齐。接下来,我们冻结文本编码器,并使所有视觉组件在对比损失和重建损失下保持可训练状态。对比损失保持对齐能力,而重建损失培养重建能力。这种方法收敛迅速,并产生强大的性能。预训练的 CLIP 权重包含已学习的高级先验知识,从头开始学习这些知识既困难又计算成本高昂。使用这些权重进行初始化,使视觉编码器能够更快、更易于处理地结合低级和高级特征。通过这种方法,我们可以训练出一个既具有良好文本对齐能力又具有图像重建能力的视觉塔。我们使用加权和来组合文本 - 图像对比损失和基于 VQ 的图像重建损失:

L_{total} = w_{contra}L_{contra} + w_{recon}L_{recon} (1)

在我们的实验中,我们选择w_{contra}=1和w_{recon}=1。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

残差向量量化

我们的视觉特征被离散量化,因此它们的表示能力在很大程度上取决于我们在量化器中使用的码本大小。由于我们希望它们同时包含高级和低级特征,我们需要在其向量特征空间中拥有更多的容量,这使得更大的码本大小对于下游任务的良好性能是必要的。然而,每个图像的码本数量过多会导致在视觉生成过程中,大语言模型需要生成的标记过多,从而产生大量延迟。因此,为了在增加向量特征容量的同时,为大语言模型保持合理数量的标记,我们采用了一种基于 RQ-VAE(Lee 等人,2022)的残差向量量化方法,将向量z离散化为D个离散码:

\mathcal{R} \mathcal{Q}(z ; \mathcal{C}, D)=\left(k_{1}, \cdots, k_{D}\right) \in[K]^{D}

 (2)

其中\mathcal{C}是码本,K = |\mathcal{C}|,k_{d}是z在深度d处的码。从r_{0}=z开始,我们通过以下方式递归地执行向量量化:

\begin{aligned} k_{d} & =\mathcal{Q}\left(r_{d-1}, \mathcal{C}\right), \\ r_{d} & =r_{d-1}-e\left(k_{d}\right), \end{aligned}

对于每个深度d = 1,2,\cdots,D,其中e是码本嵌入表,\mathcal{Q}是标准向量量化:

\mathcal{Q}(z ; \mathcal{C})=\underset{k \in[K]}{arg min }\| z-e(k)\| _{2}^{2}

 (4)


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

z的量化向量是在深度维度上的求和:\widehat{z}=\sum_{i=1}^{D} e(k_{i})。直观地说,在每个深度我们选择一个码来减少量化误差。因此,与标准向量量化方法相比,我们有D个码来量化一个向量,允许更精细的逼近和更大的特征空间。在多模态训练和推理过程中,大语言模型只需要预测码本嵌入,不同深度的码由一个深度变压器依次生成,该变压器以码本嵌入作为初始输入,如我们将在 3.2 节中介绍的。因此,通过这种残差量化,我们可以在几乎不增加延迟的情况下增强视觉塔的表示能力。

3.2 统一多模态生成预训练

图 1 展示了我们统一多模态预训练过程的概述。我们的视觉塔编码器按顺序处理视觉输入,生成一维标记序列。然后,这个序列与文本标记连接,形成一个多模态序列。为了区分不同模态并实现视觉内容生成,我们插入特殊标记:在图像标记的开头和结尾分别插入和 < image_end>,在视频标记的开头和结尾分别插入 < video_start > 和 < video_end>。视频标记是多帧图像标记的直接连接。

预训练数据形式

在统一预训练数据方面,我们利用文本和视觉标记之间的不同连接形式来促进理解和生成。我们使用 [图像,文本]、[文本,图像] 和 [文本,视频] 的形式,仅在每对中的后一个模态上添加监督损失,以避免无条件的内容生成并促进模态对齐。我们还采用交错的文本和图像连接形式来增强理解,仅在文本上应用监督损失。值得注意的是,出于效率原因,我们在预训练期间排除了 [视频,文本] 的形式,因为我们发现在有监督的微调期间纳入它可以有效地产生出色的视频理解能力。

训练目标

由于视觉标记和文本标记都是离散的,我们可以使用通用的语言建模下一个标记预测目标来训练我们的大语言模型。然而,由于对视觉标记使用了残差量化,文本和视觉标记的训练目标略有不同。对于文本标记,负对数似然损失计算为:

\mathcal{L}_{text }=-\sum_{i=1}^{T} log P_{\theta}\left(y_{i} | y_{     <i}\right)< span>      </i}\right)<>


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区图片

其中T是多模态序列的长度,i仅在文本标记出现在位置i时计数。对于视觉标记,残差量化在每个视觉位置j引入了代码的深度堆叠结构。为了解决这个问题,我们利用了 RQ-VAE(Lee 等人,2022)中引入的深度变压器。具体来说,给定大语言模型为视觉位置j的视觉标记生成的代码嵌入h_{j},深度变压器自回归地预测D个残差标记((k_{j1}, ..., k_{jD}))。在训练过程中,深度变压器在深度d的输入v_{jd}定义为直到深度d - 1的代码嵌入之和,即当d>1时:

v_{j d}=\sum_{d'=1}^{d-1} e\left(k_{j d'}\right)

并且v_{j1}=h_{j}。因此,深度变压器基于之前直到d - 1的估计来预测下一个代码,以更精细地估计特征\hat{z}_{j}。然后,视觉标记的负对数似然损失为:

\mathcal{L}_{visual }=-\sum_{j=1}^{T} \sum_{d=1}^{D} log P_{\delta}\left(k_{j d} | k_{j,     <d}\right)< span>      </d}\right)<>

其中T是多模态序列的长度,j仅在视觉标记出现在位置j时计数。在多模态预训练期间,深度变压器的权重被随机初始化,并与大语言模型一起更新。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

4、实验

在本节中,我们介绍了全面的实验,以评估我们的方法在各种视觉理解和生成任务上的性能。首先,我们概述了实验设置,包括模型架构、训练数据集和评估基准。随后,我们评估了统一基础视觉塔的性能。然后,我们将我们的方法与其他流行的视觉语言模型在各种视觉理解和生成基准上进行比较。最后,我们给出了一些定性结果。

4.1 实验设置

在我们的实验中,我们采用 LLaMA-2-7B(Touvron 等人,2023b)作为基础语言模型。对于视觉塔,我们选择 SigLIP-Large-patch16-256 / SigLIP-SO400M-patch14-384(Zhai 等人,2023)作为视觉编码器架构,并采用 RQ-VAE(Lee 等人,2022)中的残差量化器、深度变换器以及解码器架构。量化器码本大小为 16384。所有图像和视频都被调整为 256×256 / 384×384 的分辨率,每个图像或视频帧通过深度为 D = 4 / D = 16 的残差量化转换为 16×16×4 / 27×27×16 的代码。我们在 COYO-700M(Byeon 等人,2022)上训练视觉塔,并在 ImageNet(Deng 等人,2009b)上评估其零样本分类和重建性能。对于视觉理解,我们利用来自 ShareGPT4V(Chen 等人,2023)的 100 万对 [图像,文本] 数据,以及来自 MMC4(Zhu 等人,2024)的 600 万对交错文本和图像数据。对于视觉生成,我们纳入了从我们内部数据集精心挑选的 1500 万对高质量 [文本,图像] 数据,以及来自 OpenVid(Nan 等人,2024)数据集的 100 万对 [文本,视频] 数据。在视觉生成中采用无分类器引导(Ho & Salimans,2022),CFG 值设为 3。

为检验视觉理解能力,我们在广泛使用的基于零样本图像的视觉语言基准测试上评估模型,这些基准包括 VQAv2(Goyal 等人,2017)、GQA(Hudson & Manning,2019)、TextVQA(Singh 等人,2019)、POPE(Li 等人,2023d)、MME(Fu 等人,2024)、SEED(Li 等人,2023a)、MM-Vet(Yu 等人,2023b);以及基于视频的视觉语言基准测试,如 ActivityNet(Caba Heilbron 等人,2015)、MSVD(Chen & Dolan,2011)、MSRVTT(Xu 等人,2017)、TGIF(Li 等人,2016)。

为评估视觉生成能力,我们使用 MJHQ-30K(Li 等人,2024)和 GenAI-Bench(Lin 等人,2024)进行图像生成评估,使用 VBench(Huang 等人,2024)进行视频生成评估。MJHQ-30K 通过生成图像与 3 万张高质量图像之间的 FID 分数来反映图像生成的整体能力。GenAI-Bench 是一个具有挑战性的图像到文本生成基准,用于反映图像生成模型的综合生成能力。Vbench 是一个全面的视频生成模型基准套件,它将生成质量分解为多个明确的维度,以便进行细粒度和客观的评估。

4.2 统一基础视觉塔

我们在表 1 中展示了常用的指标 —— 重建 FID(rFID)和在 ImageNet 上零样本图像分类的 Top-1 准确率,以此来衡量统一基础视觉塔的重建能力和文本对齐能力。定性的重建结果请参考附录 B.1。我们的模型比 VQ-GAN 取得了显著更好的重建结果。在使用相同代码形状的情况下,我们的 rFID 略逊于 RQ-VAE。这是意料之中的,因为在训练过程中引入对比损失旨在增强图像理解,这导致了重建质量的下降。对于文本对齐能力,我们的统一视觉塔在 256 / 384 分辨率下实现了 73.3 / 78.0 的 Top-1 准确率。这证明了我们统一视觉塔卓越的文本对齐能力。然而,值得注意的是,视觉塔的 rFID 和 Top-1 准确率都只是一个中间指标。由于统一视觉塔是整个自回归模型的一个组成部分,我们认为它在下游任务(如视觉理解和生成)中的表现更具意义。

表1:我们统一视觉塔在ImageNet上的重建FID(rFID)和零样本图像分类的Top-1准确率

    - 模型:列出不同模型,如VQ - GAN、RQ - VAE、本文提出的模型(Ours)。

    - 预训练权重:各模型使用的预训练权重情况。

    - 分辨率:模型处理图像时的分辨率,如256×256、384×384。

    - 代码形状:视觉特征量化后的代码形状,如16×16、8×8×4、16×16×4、27×27×16。

    - rFID:反映模型重建图像质量的指标。

- Top-1准确率:衡量模型在零样本图像分类任务中的性能指标。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

4.3 定量评估

视觉理解任务

表 2 和表 3 分别总结了我们的方法与其他领先的视觉语言模型在图像 - 语言和视频 - 语言基准测试上的比较结果。与像 CLIP 这样的基础模型生成的连续视觉标记这一主流选择相比,基于 VQGAN 的离散视觉标记与文本的对齐性较差,从而损害了视觉语言模型在视觉理解任务上的性能。借助我们的统一基础视觉塔,即使使用离散视觉标记,我们的模型也能达到接近领先视觉语言模型的性能。

表2:与领先方法在基于图像的视觉语言基准测试上的比较。即使使用离散视觉标记类型,在相同的大语言模型(LLM)规模下,我们的性能接近领先的视觉语言模型(VLMs),并在很大程度上超越了许多方法。表示在视觉语言模型训练期间观察到了这些数据集中训练分割的图像:对比了不同方法在VQAv2、GQA、TextVQA、POPE、MME、SEED、MM - Vet等基于图像的视觉语言基准测试中的性能,涉及的方法包括LLaVA - 1.5、VILA、Unified - IO 2等,展示了不同方法使用的大语言模型、视觉标记类型、分辨率以及在各基准测试中的得分情况。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

表3:与领先方法在基于视频的视觉语言基准测试上的比较。即使使用离散视觉标记类型,在相同的大语言模型(LLM)规模下,我们的方法性能接近最先进的视觉语言模型(VLMs),超越了许多方法:呈现了不同方法在MSVD - QA、MSRVTT - QA、TGIF - QA、Activity Net - QA等基于视频的视觉语言基准测试中的结果,对比了如Unified - IO 2、Emu、Video - LLaMA等方法使用的大语言模型、视觉标记类型、分辨率以及在各基准测试中的得分情况。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

视觉生成任务

如表 4 所示,VILA-U 在 FID 指标上优于其他自回归方法,并且与一些基于扩散模型的方法性能相当。这一结果表明了我们的方法在视觉生成方面的可行性。表 5 总结了我们的方法与其他视觉生成方法在 GenAI-Bench 上的定量结果。尽管我们的方法不如那些在数十亿级图像 - 文本对上进行训练的基于扩散模型的视觉生成方法,但在高级提示下,即使训练数据量少了几个数量级,我们的方法与 SD v2.1(Rombach 等人,2022b)和 SD-XL(Podell 等人,2023)的性能差距也相对较小。这进一步表明,VILA-U 能够通过我们的统一训练框架有效地学习视觉和文本模态之间的相关性。对于视频生成,我们在 VBench(Huang 等人,2024)上评估我们的方法,并与 Open-Sora(Zheng 等人)、CogVideo(Hong 等人,2022)和 CogVideoX(Yang 等人,2024)进行比较。表 6 中的结果表明,我们的方法性能优于 CogVideo,与 Open-Sora 相当,突出了我们方法的有效性。

表4:与其他视觉生成方法在MJHQ - 30K评估基准上的比较:比较了不同视觉生成方法在MJHQ - 30K评估基准上的表现,列出了方法类型(如Diffusion、Autoregressive)、训练图像数量(部分未列出)以及FID指标得分,涉及的方法有SD v2.1、SD - XL、PixArt、Playground v2.5、LWM、Show - o、本文提出的模型(Ours)等。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

表5:与其他视觉生成方法在GenAI - Bench上的比较。结果表明,我们的方法优于以前的自回归视觉生成方法。对于需要更好的文本跟随能力才能生成的高级提示,即使训练数据少得多,我们的方法与基于扩散的方法之间的性能差距也相对较小:展示了不同视觉生成方法在GenAI - Bench图像生成基准上的定量结果,对比了如SD v2.1、SD - XL、Midjourney v6、DALL - E 3、LWM、Show - o、本文提出的模型(Ours)等方法在属性、场景、关系、空间、动作、部分、总体等方面的得分情况。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

表6:与其他视觉生成方法在VBench(Huang等人,2024)上的比较:呈现了不同视觉生成方法在VBench视频生成基准上的性能对比,列出了方法(如Open - Sora、CogVideo、CogVideoX、本文提出的模型(Ours))以及对应的总分数、质量分数、语义分数。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

4.4 定性评估

视觉理解

为了验证 VILA-U 在综合视觉理解任务中的有效性,我们将其应用于多个理解和推理任务,图 3 和图 4 展示了一些示例。从结果中可以看出,VILA-U 在包括视觉描述和视觉问答在内的各种任务中具有通用性。此外,我们的模型继承了 VILA(Lin 等人,2023)的一些重要能力,如多图像理解、上下文学习,如图 5 和图 6 所示。更多可视化结果可在附录 B.2 和 B.3 中找到。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

图3:VILA-U能正确描述视频并涵盖所有细节,这得益于我们视觉编码器的文本对齐功能:提示:<视频>\n详细阐述视频中的视觉和叙事元素。VILA-U(我们的模型):视频中一个人穿着蓝色T恤、卡其裤和帽子,在混凝土路上进行一系列霹雳舞动作。背景中有晴朗的天空、一座桥和一列驶过的火车。舞者的动作很有活力,有旋转、翻转和倒立。光线明亮,表明是白天,阴影显示太阳位置较高。舞者的着装很休闲,场景似乎是一条安静、车辆稀少的道路。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

图4:VILA-U具有良好的视觉问答能力。图像和问题来自VQAv2数据集的测试集

    - 输入图像:展示了不同场景的图片。

    - 问题:如“能看到水吗?”“天空中有什么在飞?”“图片中有多少辆摩托车?”等。

- 输出:对应问题的正确回答,如“是”“风筝”“2”等。

图5:VILA-U具有良好的上下文学习能力。我们将两个图像 - 文本对和第三张图像作为上下文输入,以提示视觉语言模型

    - 输入少量示例 + 目标图像:展示了不同的图像 - 文本对,如“是骆驼的栖息地”对应沙漠场景图像,“是北极熊的栖息地”对应雪地场景图像等,以及一张目标图像。

    - 输出:根据输入的上下文和目标图像进行的合理回答。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

图6:VILA-U可以正确地对多幅图像进行推理

    - 提示:如“Image 1:\nImage 2:\n两张图片的共同点和不同点是什么?”

    - VILA-U(我们的模型)输出:以两张包含熊猫的图片为例,回答“两张图片的共同点是都有一只熊猫。不同点是图片1中的熊猫躺在岩石上,而图片2中的熊猫躺在木头上”;以两张包含树木的图片为例,回答“两张图片的共同点是都有树,但两张图片的不同之处在于阳光的角度。在图片1中,阳光透过树木照耀,营造出明亮活泼的氛围。相比之下,图片2中看不到太阳,呈现出更黑暗、更柔和的森林场景”。

视觉生成

我们在图 7 中展示了一些视觉生成结果的示例。即使在相对较小的数据集上进行训练,我们的模型也能够应用于图像生成和视频生成。在给定的示例中,我们的方法能够根据用户输入生成美观的图像和连贯的视频。更多可视化结果可在附录 B.4 中找到。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

图7:VILA-U可以根据文本输入生成高质量的图像和视频:展示了一系列文本提示及其对应的生成图像示例,如“快乐的梦幻猫头鹰怪物坐在树枝上,周围有彩色闪烁的粒子,森林背景,羽毛细节丰富”“一只可爱的橙色小猫从蓝色滑梯上滑下,开心又兴奋。色彩鲜艳,水溅到镜头上”等文本对应的生成图像。

5、消融研究

5.1 对比损失对视觉理解的影响

我们在视觉塔训练中纳入对比损失,赋予其文本对齐能力。在多模态训练过程中,这种文本对齐能力对于增强模态融合以及在下游视觉语言任务中的性能至关重要。我们通过分别在有和没有对比损失的情况下训练视觉塔,来验证这种对齐的重要性,并评估其对视觉语言理解性能的影响。在这个消融实验中,我们从 COYO-700M 中随机抽取 2500 万数据来训练视觉塔。对于多模态训练,我们使用 ShareGPT4V 和 MMC4,但不包含文本 - 图像和文本 - 视频数据。表 7 前两行的结果展示了文本对齐在实现强大的视觉语言理解性能中的关键作用。将数据集规模从 2500 万扩展到 7 亿进一步提升了性能,这突出了在大规模数据集上学习文本对齐的重要性。

表7:对比损失对视觉理解的影响:展示了在不同预训练权重、数据规模和损失类型下,模型在视觉语言理解任务中的性能表现,包括Top - 1准确率以及在VQAv2、POPE、MME、SEED、MM - Vet等基准测试中的得分情况,以验证对比损失对视觉理解性能的影响。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

5.2 对比损失对视觉生成的影响

我们进行了两个实验来展示对比损失对生成性能的影响。为提高效率,我们仅进行文本到图像的预训练,并使用 Sheared-LLaMA-1.3B(Xia 等人,2023)代替 LLaMA-2-7B 作为大语言模型。在第一个实验中,我们使用 RQ-VAE 作为视觉塔,其 rFID 为 1.30。在第二个实验中,我们采用我们的统一视觉塔。结果如表 8 所示。在 MJHQ-30K 上,我们的统一视觉塔产生的 FID 结果略逊于 RQ-VAE,这可能是由于对比损失导致其 rFID 较差。

表8:对比损失对视觉生成的影响:对比了使用不同视觉塔(RQ - VAE和本文提出的统一视觉塔)和大语言模型(Sheared - LLaMA - 1.3B)时,在256×256分辨率下的rFID和FID指标,以探究对比损失对视觉生成性能的影响。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

5.3 无分类器引导的影响

我们在视觉内容生成过程中采用无分类器引导。我们研究了 CFG 值对我们 256 分辨率模型的影响。表 9 中的结果表明,CFG 值为 3.0 时可获得最佳 FID 分数。

表9:无分类器引导(CFG)的影响:展示了不同CFG值(1.0、2.0、3.0、5.0)对模型在视觉生成任务中FID指标得分的影响。


VILA-U:融合视觉理解与生成的统一基础模型(ICLR2025)-AI.x社区

6、结论与局限

我们提出了 VILA-U,这是一种新颖的统一视觉语言模型,它将视频、图像和语言的理解与生成任务集成到一个自回归下一个标记预测框架中。我们的方法比大多数为统一视觉生成和理解而利用扩散模型等额外组件的视觉语言模型更加简洁,并且证明了自回归方法可以达到与当前最先进的视觉语言模型相媲美的性能。我们相信 VILA-U 可以作为多种视觉语言任务的通用框架。

如 5.2 节所示,对比损失的引入影响了视觉塔的重建能力。在统一视觉塔中平衡这两种能力是一个有趣且复杂的挑战,需要进一步探索。此外,我们目前尚未观察到理解和生成任务之间存在显著的协同作用或相互增强效果。未来,我们旨在研究和探索更有效的方法,使这些任务能够相互补充和强化,从而充分实现统一视觉语言模型尚未开发的潜力。

本文转载自AIRoobt ,作者:Yecheng Wu等

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐