VARGPT：视觉自回归多模态大语言模型中的统一理解与生成原创

发布于 2025-5-7 07:00

浏览

0收藏

摘要

我们提出了 VARGPT，这是一种新颖的多模态大语言模型（MLLM），能够在单一自回归框架内统一视觉理解和生成。VARGPT 采用下一个 token 预测范式进行视觉理解，并采用下一个尺度预测范式进行视觉自回归生成。该模型创新性地扩展了 LLaVA 架构，在多模态大语言模型中实现了高效的按比例自回归视觉生成，同时在单一模型框架内无缝处理混合模态输入和输出。VARGPT 在专门构建的数据集上经历了三阶段统一训练过程，包括预训练阶段和两个混合视觉指令微调阶段。统一训练策略旨在实现视觉和文本特征的对齐，增强理解和生成的指令跟随能力，并提高视觉生成质量。尽管基于 LLaVA 架构进行多模态理解，VARGPT 在各种以视觉为中心的基准测试中显著优于 LLaVA-1.5，例如视觉问答和推理任务。值得注意的是，VARGPT 自然支持自回归视觉生成和指令到图像合成能力，展示了其在视觉理解和生成任务中的多功能性。Project Page: https://vargpt-1.github.io/

1. 引言

近年来，多模态人工智能在理解和生成这两个核心领域取得了重大突破。多模态大语言模型（MLLMs）[2, 5, 9, 48, 94]借助大语言模型（LLMs）强大的通用性[2, 85, 86]，在理解多模态数据方面展现出卓越的能力。与此同时，去噪扩散概率模型（DDPMs）[24, 62]为图像生成领域带来了显著进展，在文本到视觉模态的生成任务中表现优异。此外，受自回归大语言模型（如缩放定律[23, 29]）优势特性的启发，许多研究通过预测下一个词元（token）或下一个尺度来探索自回归视觉生成，例如Emu3[87]、VAR[84]、LlamaGen[76]、HART[79]和Infinity[22]等，均取得了显著成果。鉴于在视觉理解和生成方面取得的这些成就，近期的研究开始探索能够处理理解和生成任务的统一模型，为此设计了各种统一架构来实现这一目标（如图3所示）。近期的一些研究[18, 90, 91]尝试将来自这两个不同领域（如大语言模型和去噪扩散概率模型）的模型组合起来，形成一个能够处理多模态理解和生成的统一系统（如图3（3）所示）。例如，NExT-GPT[90]和SEEDX[18]可能依赖预训练的扩散模型进行图像生成。此外，LWM[53]、Chameleon[81]和Janus[88]探索了纯粹的下一个词元预测统一模型（如图3（4）所示），而Dual Diffusion[46]研究了使用两个扩散模型分别进行理解和生成。TokenFlow[64]探索了统一的图像分词器，但生成模型和理解模型是分开的。Show-o[91]提出在单个Transformer中结合自回归和扩散模型范式（如图3（4）所示）。Liquid[89]在同一空间中学习图像和文本嵌入，并使用预测下一个词元的范式实现自回归视觉理解和生成。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

图 3：不同模型架构的比较，其中 “AR” 代表自回归，“VAR” 表示视觉自回归。我们对仅用于理解任务、仅用于生成任务以及统一理解和生成的架构，与我们提出的 VARGPT 模型进行了对比分析。VARGPT 被设计为纯自回归多模态模型，通过下一个 token 预测实现视觉理解，通过下一个尺度预测实现视觉生成。

在这项工作中，我们致力于在视觉自回归多模态大语言模型中统一视觉生成和理解，使其自然地支持混合模态的输入和输出。与现有的所有统一模型不同，我们提出在一个统一模型中将理解和生成建模为两种不同的范式：分别通过预测下一个词元进行视觉理解，通过预测下一个尺度进行视觉生成，并训练了一个名为VARGPT的新型统一模型。具体而言：

1. 模型架构方面：VARGPT的核心结构借鉴了LLaVA-1.5-7B，同时我们额外引入了一个视觉解码器和两个用于视觉生成的额外视觉特征投影仪。这些投影仪用于生成的视觉特征和文本特征之间的相互映射。VARGPT采用自回归方法预测下一个文本词元，以进行视觉理解和问答。当预测到用于视觉生成的特殊词元时，模型会自回归地预测下一个尺度的词元，并通过视觉解码器获得最终的输出图像。所提出的架构使VARGPT能够在视觉自回归多模态大语言模型中实现统一的理解和生成。

2. 训练方法方面：我们采用统一的指令微调方法来学习视觉理解和视觉生成。具体来说，我们通过将视觉词元预测构建为指令跟随格式，将指令微调扩展到视觉生成，并将构建的视觉生成指令数据集与来自LLaVA-1.5[49]的多轮对话指令数据集相结合进行混合训练。通过所提出的统一指令微调，我们同时赋予多模态大语言模型理解和生成的能力。我们将训练过程分为三个阶段，包括一个预训练阶段和两个指令微调阶段。在第一阶段的预训练中，模型学习文本和视觉空间之间的特征映射。在第二和第三阶段的指令微调中，VARGPT分别增强其在视觉问答和指令到图像生成方面的能力。

3. 训练数据集方面：为了高效地训练模型，我们构建并收集了128万个用于第一阶段预训练的数据，118万个用于第二阶段混合视觉理解和生成指令微调的数据，以及140万个用于第三阶段视觉生成指令微调的数据。通过统一的指令跟随格式，我们在混合视觉指令微调中统一了理解和生成的训练。大量实验表明，我们的VARGPT能够实现显著的视觉理解能力（如图1所示），并赋予多模态大语言模型视觉生成能力，自然地支持混合模态输入和输出（如图2所示）。据我们所知，VARGPT是第一个支持在理解任务中预测下一个词元、在生成任务中预测下一个尺度的统一模型，同时在理解能力方面超越了许多规模相当的多模态大语言模型和统一模型。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

图 1：多个视觉理解与生成基准测试中各类多模态大语言模型的对比分析。CLIP 分数用于衡量文本到图像的视觉生成，其余指标源自标准视觉问答基准和多模态理解基准。值得注意的是，我们的 VARGPT 模型在所有理解基准测试中均显著优于对比基线。此外，它还展现出卓越的指令到图像生成能力，从而提升了其在各类视觉语言任务中的通用性和适用性。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

图 2：VARGPT 在 ImageNet 上训练生成的部分 256×256 样本。VARGPT 支持用户的文本和图像指令，并同时输出文本和图像混合模态数据。

2. 相关工作

2.1 视觉生成

扩散模型 [25,74,75] 将图像生成视为从噪声到图像的反向扩散过程。扩散模型的进展主要集中在采样方法 [4,55] 和架构设计 [26,63] 上，催生了如 [57,63] 等令人印象深刻的模型。在扩散模型取得重大进展的背景下，基于流的生成模型 [1] 作为简化框架出现，推动了高级视觉生成模型的发展。自回归模型 [14,97] 采用类似 GPT [65] 的技术来预测序列中的下一个 token。像 [12,15,67,76,77,87] 等工作利用类似 VQGAN [36] 的视觉 tokenizer 将图像转换为离散 token，实现了视觉数据的 token 化，并采用类似 GPT 的预测方法。最近，另一类基于预测下一个尺度的自回归模型，如 VAR [84]、HART [79] 和 Infinity [22]，引起了关注，并已被验证可能具有与缩放定律 [23,29] 一致的特性。在这项工作中，我们的统一自回归框架通过预测下一个尺度的范式来完成图像生成任务。

2.2 多模态大语言模型

LLM [85,86] 的进步推动了 MLLM 的发展。MLLM 使用预训练的 LLM 作为文本解码器，通过连接器 [35,43] 将文本和图像与视觉编码器连接起来进行集成。LLaVA [49] 使用各种任务（如视觉问答和图像描述）的数据以指令格式对模型进行微调，使模型能够理解新指令并泛化到未见任务。LLaVA-1.5 [50] 和 LLaVA-NeXT [39,40,42,52,101] 系列通过更多样和更高质量的数据集进一步提升了视觉理解性能。随着架构优化、创新训练范式和多样化数据的引入，一系列先进的 MLLM 应运而生，如 Qwen-VL [2]、mPLUG-Owl2 [95]、InternVL [7]、InstructBLIP [9]。

2.3 视觉理解与生成的统一模型

近年来，研究人员致力于在单个模型中统一理解和生成能力 [13,80,93]。大多数现有方法 [17,78,90] 尝试将预训练的扩散模型与现有系统集成。然而，这些系统本质上是将扩散模型视为外部工具，而非将其作为 MLLM 的内在生成能力。Show-o [92] 通过结合自回归和（离散）扩散建模，能够自适应处理各种混合模态的输入和输出。Li 等人 [46] 采用跨模态最大似然估计框架，显著改进了现有的基于扩散的多模态模型。[3,83] 探索了使用自回归方法将图像生成集成到大型语言模型（LLM）中，取得了显著成果。例如，LWM [53] 和 Chameleon [82] 利用 VQ tokenizer [14,84] 对图像进行编码，实现了对多模态理解和生成的同时支持。Janus [88] 通过将视觉编码解耦为独立路径，进一步提高了模型的灵活性和性能，而 Dual Diffusion [46] 则研究了使用两个扩散模型进行理解和生成。Liquid [89] 在同一空间中学习图像和文本嵌入，并使用预测下一个 token 的范式实现自回归视觉理解和生成。与所有现有统一模型不同，我们提出在统一模型中将理解和生成建模为两种不同的范式：视觉理解采用下一个 token 预测，视觉生成采用下一个尺度预测。

3. 方法

3.1 模型架构

我们的 VARGPT 统一了视觉理解和生成，其架构如图 4 所示。我们的架构遵循下一个 token 预测范式进行理解和问答，遵循下一个尺度预测范式进行图像生成。

图 4：VARGPT 框架示意图，它由（1）一个大语言模型、视觉编码器和用于视觉理解的投影仪；（2）一个视觉解码器和双生成投影仪，用于视觉生成。VARGPT 在大语言模型主干中使用因果注意力机制，在视觉解码器中使用块因果注意力机制。

3.1.1 通过下一个 token 预测实现视觉理解

在视觉理解方面，我们的模型架构参考了 LLaVA-1.5 [50] 的结构，使用 Vicuna-7B-v1.5 [102] 作为 LLMθ，并采用 CLIP [66] 的视觉编码器（ViT/14）作为视觉编码器，同时使用两层线性网络作为投影仪。最初，用于视觉理解的图像 X^img 经过视觉编码器处理生成嵌入 H^img，然后通过接口（如线性层）进行调整，以与通过查询 X^query 获得的文本嵌入 H^txt 对齐。组合后的数据作为输入提供给 LLM，LLM 以自回归方式生成文本输出 Y^txt，如下所示：

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

其中，Ytxt_t 表示 Ytxt 的第 t 个 token，Ytxt_

3.1.2 通过下一个尺度预测实现视觉生成

在视觉生成方面，我们遵循 VAR [84] 的大部分设置，采用多尺度图像 tokenizer 进行视觉 token 编码和解码。我们构建了两个图像生成投影仪，用于在 LLM 的输入和输出端转换用于生成的视觉特征。此外，我们构建了一个额外的 2B 视觉解码器 ϕ，包含 30 层 Transformer，用于解码视觉特征，这在一定程度上可以避免文本解码器中的知识与图像生成知识之间的冲突。通过视觉解码器获得的图像特征将进一步通过多尺度 VAE 解码器解码，生成可用的图像。与文本解码器（即 LLM）不同，视觉解码器使用遵循 VAR [84] 中块因果注意力的注意力机制，以支持预测下一个尺度的 token。此外，在将用于视觉生成的特征输入视觉解码器之前，我们添加绝对位置编码，以进一步区分视觉 token 的位置信息。

形式上，我们将图像的多尺度特征图定义为通过多尺度 tokenizer 获得的 (R1,R2,⋯,RK)。因此，下一个尺度的图像 token 将以自回归方式生成：

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

3.1.3 混合模态生成的提示模板

为了区分用于文本生成的 token 和用于图像合成的 token，我们设计了一些特殊的 token 标记。具体来说，我们使用用于图像生成 token 的位置填充，表示图像生成 token 的开始，表示生成结束。当 VARGPT 生成 < image_gen_start>token 时，与 < image_gen>token 相关的特征将通过投影仪处理，然后输入视觉解码器，以获取图像生成所需的特征。在视觉理解任务中，我们使用token 作为输入图像的表示。我们在附录 7 中总结了 VARGPT 使用的提示模板。

3.1.4 无分类器引导（CFG）

CFG 显著增强了生成扩散模型生成高保真样本的能力。该方法将条件生成模型与同时训练的无条件模型的分布估计相结合，从而提高了整体生成质量。受 DALL-E 2 [68]、VAR [84] 和 VAR-CLIP [100] 的启发，我们使用高斯噪声作为输入来模拟无条件生成。随后，我们通过从条件生成的 logits 分布中减去无条件生成的概率，得到视觉输出的最终分布。更多细节见附录 7。

3.2 训练

对于 VARGPT 模型训练，我们提出了一阶段预训练过程和两阶段指令微调过程，如图 5 所示。

3.2.1 阶段 1：预训练

我们使用 ImageNet [11] 中的图像作为图像源，构建用于预训练两个图像生成投影仪的训练数据。我们将预训练数据组织成 128 万单轮对话数据（具体数据构建见第 4 节）。该预训练阶段的主要目的是训练投影仪，使图像生成特征与文本特征初步对齐。在预训练期间，除了两个用于图像生成的投影仪外，我们冻结所有参数，如图 5 所示。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

图 5：VARGPT 的三个训练阶段，包括第一阶段预训练、第二和第三阶段指令微调。

3.2.2 阶段 2：视觉理解的监督微调（SFT）

在第二阶段，我们解冻语言模型和视觉编码器特征输出的投影仪，并使用我们精心构建的多轮对话和理解数据集进行训练。该阶段的主要目的是确保 VARGPT 保持出色的多轮对话、视觉理解和问答能力。此外，在该阶段，我们从构建的 Imagenet-Instruct 数据集中引入 5K 样本，使 VARGPT 能够区分视觉理解和视觉生成任务。当用户输入生成指令时，VARGPT 可以通过输出特殊 token准确响应，开始自回归视觉生成。阶段 2 训练数据集的组成见第 4 节。

3.2.3 阶段 3：视觉生成的监督微调（SFT）

与第二阶段相比，第三阶段主要通过监督微调提高 VARGPT 的指令到图像能力。在该阶段，我们解冻视觉解码器和两个用于视觉生成的投影仪，同时冻结其他参数进行 SFT，如图 5 阶段 3 所示。第三阶段的训练数据包括从 ImageNet 构建的 140 万指令对（详细信息见第 4 节）。

4. 统一指令跟随数据

在本节中，我们将详细介绍三个不同训练阶段所使用的训练数据集的来源，以及各类数据在其中的占比情况。值得注意的是，我们引入了图像生成指令跟随数据集（如图8a所示），并阐述了其来源，以及利用大语言模型生成该数据集所采用的方法。通过这种方式，我们将视觉理解和生成的训练方法统一为视觉指令微调。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

图8：我们构建和收集的数据分布，包括：（a）三个训练阶段的数据比例分解；（b）第二阶段指令微调期间使用的混合指令数据分布。我们用于第二阶段训练的复合数据集源自LLaVA-1.5、LLaVA-OneVision和ImageNet-Instruct-130K。

4.1 生成指令跟随数据集

我们构建了两个图像生成指令跟随数据集：ImageNet-Instruct-130K和ImageNet-Instruct-1270K。以ImageNet-Instruct-130K的构建为例，图6展示了该数据集的一个样本。

图6 ImageNet-Instruct-130K图像生成指令跟随数据集的一个样本，其图片说明文字是一个人淹没在水下。代表用于填充图像生成token位置的特殊token。

- **ImageNet-1K-VL-Enriched**：我们采用ImageNet-1K-VL-Enriched数据集[34]作为基础数据集。ImageNet-1K-VL-Enriched是ImageNet数据集的增强版本，其中的图像描述是使用BLIP2[44]图像字幕模型生成的。

- **通过Deepseek-LLM构建ImageNet-Instruct-130K**：为构建用于指令微调数据集的问答格式，我们利用Deepseek-V3 Chat LLM[10]（以下简称LLM）生成提示和答案的种子格式（Prompt_limit_seeds和Answer_limit_seeds）。如图7(a)所示，Prompt_limit_seeds有效地模拟了用户请求，而Answer_limit_seeds则模拟了VLLM与用户之间的对话。我们从种子池中随机选择prompt_limit_seed、image_cap_limit_seed和answer_limit_seed，作为LLM调用模板中的元素。

- **LLM调用模板**：我们从基础数据集中随机选择4个图像描述样本，作为4-shot示例，引导大模型生成相应的对话样本。如图7(b)所示，我们对生成的提示和答案添加了相关约束，以确保输出尽可能合规且多样。我们随机采样了130K个图像描述数据样本，从而创建了用于ImageNet[11]图像生成指令微调数据集的130K个样本，并将其命名为ImageNet-Instruct-130K。附录8中提供了关于数据集构建的更多详细信息。

图7 所提出的图像生成指令跟随样本生成的示意图，包括(a)种子生成：我们利用大语言模型生成用于约束指令跟随数据集创建的种子；(b)指令跟随样本生成：指令跟随数据集的提示模板。

4.2 三个训练阶段的数据构成 -

**阶段1**：用于阶段1预训练的ImageNet-Instruct-class数据集包含128万个单轮对话样本，源自ImageNet，专注于学习类别与图像之间的对应关系。假设类别是“鱼”，格式如下：{‘prompt’: ‘请为我生成一张鱼的图像。’, ‘answer’: ‘生成的鱼的图像如下}。

- **阶段2**：我们在阶段2使用的混合指令微调数据集来自LLaVA-1.5[51]、LLaVA-OneVision[41]和ImageNet-Instruct-130K。各部分组成如图8b所示。

- **LLaVA-1.5-665K**：LLaVA-1.5的指令跟随数据集包含视觉问答（VQA）[20, 27, 60, 70]、光学字符识别（OCR）[61, 72]、区域级视觉问答[30, 31, 58]、视觉对话[49]和语言对话[71]数据。我们将所有665K个指令跟随样本都纳入阶段2的训练中。

- **LLaVA-OneVision**：LLaVA-OneVision的视觉指令微调数据整合了LLaVA-1.5及后续多个LLaVA-NeXT版本[39, 40, 42, 52, 101]的数据，并从互联网上收集了开源数据集，通过设置特定格式的提示来整合数据并避免冲突。最终形成了一个320万个样本的高质量单图像数据集。在去除K12 Printing子集中的样本后，我们从该数据集中随机采样508K个样本，纳入阶段2的训练（值得注意的是，我们只采样了5K个纯文本问答对）。

- **ImageNet-Instruct-130K**：我们从ImageNet-Instruct-130K数据集中随机采样5K个样本，纳入阶段2的训练。

- **阶段3**：在阶段3，除了构建的ImageNet-Instruct-130K数据集外，我们还创建了一个更大的图像生成指令跟随数据集ImageNet-Instruct-1270K。与ImageNet-Instruct-130K相比，它拥有更多样化的提示和答案模板（多达400个）。提示和答案的构建涉及模板与图像描述的直接连接。

5. 实验

实验细节：对于用于图像生成任务的图像，我们将它们统一调整大小并裁剪为256x256像素，随后应用与VAR [84] 中一致的预处理技术。对于用于视觉理解任务的图像，我们遵循LLaVA-1.5框架中建立的预处理协议。我们的语言模型、视觉编码器和视觉特征映射器使用LLaVA-1.5-7B-hf架构进行初始化。视觉解码器使用VAR-d30参数进行初始化，包含大约20亿模型参数。VARGPT中用于视觉生成的特征映射器进行随机初始化，并在第一阶段的预训练中初步更新。我们采用类似于VAR [84] 的多尺度VQVAE [14] 进行图像标记化，以支持按比例预测范式。表2全面总结了我们模型在三个训练阶段的训练细节。在图像生成过程中，我们模型的VARGPT的top-k和top-p采样参数分别设置为900和0.95。此外，CFG（分类器自由引导）尺度参数配置为1.5。

评估基准：按照常见设置 [51, 52, 103]，我们在一系列学术任务导向基准测试和最近为指令跟随型MLLMs专门提出的基准测试中评估我们VARGPT在视觉理解方面的有效性，总共包括11个基准测试：（1）五个多模态基准测试，用于指令跟随型MLLMs，包括MMbench-dev（en）[54]、SEED-bench [38]、MMMU [98]、POPE [45]和MME [16]基准测试。对于POPE基准测试，我们在随机、流行和对抗性设置中进行评估，以准确率作为评估指标；（2）六个视觉中心问答基准测试，包括GQA [28]、TextVQA [73]、VQAv2 [19]、SciQA-img [56]、OKVQA [59]和VizWizQA [21]。对于视觉理解基准测试，我们使用lmmseval [99]中的设置以实现统一评估。对于视觉生成评估，我们构建了一个包含50,000条文本指令的评估数据集，以评估模型的生成能力。我们采用CLIPscore来评估文本指令与生成图像之间的CLIP分数。此外，我们还使用Fréchet Inception Distance（FID）指标来评估我们VARGPT模型在ImageNet-1K数据集上训练生成的图像样本的质量。

基线对比：我们对我们的VARGPT模型进行了对比分析，对比对象是其他用于视觉理解的多模态大型语言模型，这些模型与我们模型的规模相近。对比包括LLaVA1.5 [48]、MiniGPT-4 [5]和mPLUG-Owl2 [94]等杰出模型，以及InstructBLIP [9]和Qwen-VL [2]。此外，我们的对比研究还扩展到包括Chameleon [82]、SEEDLLaMA [17]、Show-o [91]和VILA-U [91]在内的统一模型。这一全面的对比使我们能够评估VARGPT与该领域多种先进模型的关系。

5.1 主要结果

5.1.1 多模态基准评估

我们进行了零样本多模态评估，并将 VARGPT 与各种用于视觉理解的多模态模型进行了比较，结果如表 1 所示。基于这些结果，我们有几个详细的观察：（1）可以看出，我们的方法在视觉理解方面显著优于大多数现有的 MLLM 基线，包括 LLaVA-1.5 [48]、MiniGPT-4 [5]、InstructBLIP [9] 和 Qwen-VL [2]。我们的 VARGPT 在所有基准和一些视觉幻觉评估基准（如 POPE）上均取得了更高的性能，这表明了我们方法在视觉生成中的优越性和泛化性。（2）尽管我们的视觉理解核心架构与 LLaVA-1.5 相似，但我们的方法取得了显著更好的性能，并且在单个大型模型中支持视觉生成。（3）与支持生成和理解的其他统一模型（例如SEEDLLaMA [17]和VILA-U [91]）相比，我们的模型自然支持混合模式输出（在对话中连续输出文本和图像），并且在视觉理解方面取得了显著更好的性能。此外，我们在LLaVA-Bench基准测试上进行了样本分析，部分结果展示在表6中。观察结果表明，与LLaVA-1.5相比，我们的方法在图像理解能力方面表现出更高的水平，并且在识别和分析图像中的幽默元素方面表现出更强的能力。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

表6：VARGPT展示了理解和解释视觉内容中幽默元素的能力。

5.1.2 视觉问答任务评估

我们将各种视觉问答任务与现有方法进行了比较，结果如表 3 所示。如表 3 所示，我们有以下观察：（1）VARGPT 在大多数理解基准上始终取得最佳结果，超越了相同参数规模的用于视觉理解的 MLLM。这进一步证明了 VARGPT 的有效性；（2）除了取得显著的理解能力（如在 SciQA-img 基准上比 LLaVA-1.5 高 12.2%）外，与这些基线相比，VARGPT 还支持视觉生成能力。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

5.1.3 指令到图像任务评估

为了评估 VARGPT 的视觉生成能力，我们构建了一个包含 5 万个样本的基于指令的问答生成评估数据集。该数据集中的指令描述来自 ImageNet-1K 图像描述，每个类别限制 50 个样本，以确保类间平衡表示。为了定量评估 VARGPT 的指令跟随能力，我们评估了两个关键指标：（1）5 万张生成图像与 ImageNet-1k 数据集之间的 FID 分数，（2）通过 CLIP 模型计算的指令与生成图像之间的 CLIP 分数。评估结果如表 4 所示。此外，我们在图 9 中提供了 VARGPT 生成的图像和对话的可视化。观察分析表明，VARGPT 能够生成高度符合给定指令的高质量图像。值得注意的是，VARGPT 展示了在单个对话中无缝集成文本描述和图像生成的能力，使用单个统一模型处理多模态输入和输出。这种能力进一步凸显了 VARGPT 在统一视觉生成和理解任务中的独特优势。VARGPT 中使用的图像生成数据集（128 万 ImageNet）与其他统一模型（如 Show-1：3600 万，VILA-U：1500 万，Liquid：3000 万图像）相比，规模显著更小且质量更低。因此，VARGPT 的图像生成性能目前落后于这些方法。然而，通过数据缩放提高质量的潜力为未来的研究和发展提供了有希望的途径。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

图9：我们的VARGPT在ImageNet-1K上训练生成的部分256×256样本。VARGPT支持用户文本命令输入，并同时输出文本和图像模态数据。

5.2方法分析

我们从模型参数、训练设置和数据效率等方面对我们的VARGPT进行了消融实验，以详细评估各个组件的有效性。具体来说，我们通过移除特定设置来评估组件的有效性，如表4和表5所示。

训练策略对生成的影响：如表4所示，省略我们训练协议中的任何一个阶段或阶段组合，都会导致我们模型的视觉生成性能显著下降。值得注意的是，省略第三阶段（涉及指令微调）会导致生成图像的质量和模型遵循给定指令的能力大幅下降。这些发现强调了三个训练阶段在提高模型视觉生成质量和文本到图像能力方面的重要作用。此外，我们还进行了额外的实验，在第三阶段训练中选择性地冻结映射器和视觉解码器的参数。我们的观察结果表明，如果在第三阶段训练中不微调这些组件，也会导致性能下降。这些结果共同为我们的三阶段训练策略的有效性提供了有力证据。在各种消融场景中观察到的一致性能下降进一步强化了每个提议组件和阶段的重要性。

训练策略对理解的影响：为了评估我们的训练策略对视觉理解能力的有效性，我们通过在第二阶段训练中选择性地冻结组件进行了消融研究。具体来说，我们在第二阶段进行指令微调时，分别进行了冻结映射器或LLM骨干的实验。如表5所示，我们在两种情况下都观察到了显著的性能下降。这些结果进一步验证了我们的训练策略在增强视觉理解能力方面的有效性。这一实证证据强调了允许映射器和LLM骨干在指令微调阶段进行适应的重要性，突显了我们提出的训练方法对模型整体视觉理解能力的协同效应。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

数据效率对理解的影响：此外，我们还对我们在第二阶段训练中使用的混合数据集进行了实验。结果如表5所示。我们可以观察到，移除任何一个理解数据集（502K或665K）都会对模型的理解性能产生负面影响。相反，当我们进一步纳入我们构建的用于生成的指令数据集时，它增强了模型区分理解指令和生成指令的能力，并准确提高了VARGPT输出用于视觉生成的特殊标记（即、和）的能力，而不会显著影响其理解性能。

训练损失曲线可视化：我们进一步展示了我们模型在第二阶段和第三阶段训练过程中的损失曲线，如图10所示。这些损失曲线的趋势显示出合理且一致的下降，为我们的学习策略的有效性提供了实证支持。对这些曲线的分析表明，训练损失随时间呈现出有原则的下降趋势，这在相当程度上证实了我们提出的学习方法的有效性。此外，对第三阶段损失曲线的仔细检查表明，模型的视觉生成能力仍有很大的优化潜力。这一观察结果表明，延长训练时间和扩大训练数据集可能会在第三阶段带来进一步的视觉生成性能提升。

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成-AI.x社区

6. 结论、局限性与未来工作

6.1 结论

本文介绍了 VARGPT，这是一种新颖的 MLLM，成功地在统一自回归框架内集成了视觉理解和生成。通过采用创新的下一个 token 和下一个尺度预测范式，VARGPT 将传统 MLLM 的能力扩展到包括高效的视觉自回归生成。该模型的三阶段训练管道利用专门构建的数据集，实现了视觉和文本特征的有效对齐，增强了理解和生成能力。与 LLaVA-1.5 等现有模型相比，VARGPT 在各种以视觉为中心的任务上表现出卓越性能。此外，它在自回归视觉生成和文本到图像合成方面表现出非凡的熟练度。这些成就凸显了 VARGPT 的多功能性和推动多模态人工智能领域发展的潜力，为统一多模态模型的未来研究提供了有意义的探索。

6.2 局限性

（1）由于我们的视觉生成数据集主要来源于 ImageNet，VARGPT 与某些扩散模型（如 SDv2.1 [69] 和更先进的模型如 FLUX [33]）之间存在明显的质量差距，这些模型在大规模高质量图像数据集上进行了预训练。这种差异主要归因于训练数据的不同。此外，在整个训练过程中，生成图像的分辨率始终设置为 256×256 像素。因此，当前版本的 VARGPT 仅支持该分辨率的自回归图像生成。（2）尽管 VARGPT 在指令理解和指令到图像生成方面表现出初步的熟练度，在大多数情况下能够有效跟随用户输入指令，但在某些情况下，指令中的细微细节可能无法在生成的图像中得到充分体现。这种局限性在某些情况下会表现出来，表明模型在全面捕捉和渲染复杂指令细节的能力上仍有改进空间。

6.3 未来工作

（1）为了实现更高质量的图像生成并支持更高分辨率的输出，我们计划改进下一个尺度预测模型架构，扩展图像数据集，提高图像质量，并实现动态分辨率能力。（2）在后续版本的 VARGPT 中，我们打算探索支持统一自回归视频理解和生成。

本文转载自公众号AIRoobt ，作者：Xianwei Zhang等

原文链接：https://mp.weixin.qq.com/s/PnzscA1LwdY0lDyX4v6njQ

标签

VARGPT

多模态

大模型

已于2025-5-7 07:00:42修改

51CTO

51CTO博客

51CTO学堂

VARGPT：视觉自回归多模态大语言模型中的统一理解与生成原创

摘要

1. 引言