
Emu3:仅需下一令牌预测 原创
摘要
尽管下一令牌预测被视为通往通用人工智能的一条有前途的道路,但它在多模态任务中一直难以取得优异成绩,目前多模态任务仍由扩散模型(如 Stable Diffusion)和组合方法(如 CLIP 与大语言模型相结合)主导。在本文中,我们介绍 Emu3,这是一套全新的最先进的多模态模型,仅通过下一令牌预测进行训练。通过将图像、文本和视频标记化到离散空间中,我们在多模态序列的混合数据上从头开始训练一个单一的 Transformer。Emu3 在生成和感知任务上优于多个成熟的特定任务模型,超越了 SDXL 和 LLaVA-1.6 等旗舰模型,同时无需使用扩散或组合架构。Emu3 还能够通过预测视频序列中的下一令牌来生成高保真度的视频。我们将焦点汇聚于令牌,简化了复杂的多模态模型设计,在训练和推理过程中释放了巨大的扩展潜力。我们的结果表明,下一令牌预测是构建超越语言的通用多模态智能的一条有前途的途径。我们开源了关键技术和模型,以支持这一方向的进一步研究。
图1:Emu3通过单个Transformer在视频、图像和文本令牌的混合数据上进行训练,以预测下一个令牌。与成熟的特定任务模型相比,Emu3在生成和感知任务中均达到了最先进的性能。
- 该图展示了Emu3的训练机制,即利用单个Transformer处理由视频、图像和文本构成的混合令牌数据来预测下一个令牌。同时表明在生成任务(如根据文本生成图像、视频等)和感知任务(如图像分类、视觉 - 语言理解等)方面,Emu3与已有的特定任务模型相比,性能处于顶尖水平。
图2:与开源旗舰模型在视觉生成和感知方面的比较- 此图对Emu3与开源的旗舰模型(如SDXL、LLaVA - 1.6 - 7B、OpenSora - 1.2)在视觉生成(如图像生成、视频生成)和视觉 - 语言感知(如理解图像与文本之间的关系、回答基于图像和文本的问题)这两个领域的性能进行对比。Emu3仅依靠下一令牌预测的方式,在这两方面均展现出优势,且完全不依赖扩散模型和CLIP技术。在图像生成任务中,通过基于英文提示的人工评估分数来对比;在视觉 - 语言理解任务中,依据十二个基准测试(SEEDBench - Img、OCRBench等)的平均分数进行比较;在视频生成任务中,则以VBench基准测试的结果作为对比依据。
1、引言
下一令牌预测彻底改变了语言模型领域,推动了 ChatGPT 等突破的出现,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,这一范式在多模态模型中的适用性仍不明确,其在不同任务中实现有竞争力的性能的有效性证据有限。
在多模态模型领域,视觉生成一直由复杂的扩散模型(如 Stable Diffusion)主导,而视觉 - 语言感知则由 CLIP 与大语言模型(如 LLaVA)等组合方法引领。尽管早期有统一生成和感知的尝试,如 Emu 和 Chameleon,但这些努力要么依赖于将大语言模型与扩散模型连接起来,要么在性能上无法与专为生成和感知设计的特定任务方法相媲美。
在这项工作中,我们提出 Emu3,这是一套全新的、完全基于下一令牌预测的最先进多模态模型,完全摒弃了对扩散或组合方法的需求。我们将图像、文本和视频标记化到离散空间中,并在多模态序列的混合数据上从头开始联合训练一个单一的 Transformer。
Emu3 在生成和感知任务上与成熟的特定任务模型相比,达到了最先进的性能。在人工评估和 MSCOCO-30K、GenEval、T2I-CompBench 和 DPG-Bench 等公开的文本到图像基准测试中,Emu3 的表现均优于旗舰模型 Stable Diffusion(即 SDXL)。在视觉 - 语言理解方面,Emu3 在一系列公开的视觉 - 语言基准测试中,包括 SEED-Bench、RealWorldQA、OCRBench 等,与流行的视觉 - 语言模型 LLaVA-1.6 展开竞争。
Emu3 能够生成视频。与使用视频扩散模型从噪声生成视频的 Sora 不同,Emu3 通过预测视频序列中的下一令牌,以因果方式生成视频。该模型可以模拟物理世界中环境、人物和动物的某些方面。在给定视频上下文的情况下,Emu3 可以扩展视频并预测接下来会发生什么。根据用户的提示,该模型可以生成符合文本描述的高保真视频。Emu3 在 VBench 基准测试的文本到视频生成任务中脱颖而出,与其他视频扩散模型展开竞争。
我们开源关键技术和模型,以促进这一方向的未来研究。值得注意的是,我们提供了一个强大的视觉标记器,能够将视频和图像转换为离散令牌,这在以前是无法公开获取的。我们还展示了下一令牌预测框架的多功能性,表明直接偏好优化(DPO)可以无缝应用于自回归视觉生成,使模型与人类偏好保持一致。我们的结果有力地证明,下一令牌预测可以作为多模态模型的强大范式,超越语言模型,在多模态任务中实现最先进的性能。通过简化复杂的模型设计并仅专注于令牌,它在训练和推理过程中释放了巨大的扩展潜力。我们相信,下一令牌预测为构建通用多模态智能提供了一条有前途的途径。
2、方法
2.1 数据
Emu3 在语言、图像和视频数据的混合数据上从头开始训练。
•语言数据:我们使用与 Aquila 相同的语言数据,这是一个高质量的语料库,包含中文和英文数据。
•图像数据:我们整理了一个大规模的图像 - 文本数据集,包括开源网络数据、人工智能生成的数据和高质量的内部数据。过滤过程包括几个关键步骤:1)应用分辨率过滤器,丢弃分辨率低于 512×512 像素的样本。2)使用 LAION-AI 美学预测器评估每个图像的美学质量,排除得分低于 5.5 的图像,以确保整体美学质量。3)对于未通过美学过滤器的图像,我们采用文本检测和颜色过滤,保留非单色图像和文本最少的图像,提高对开放世界图像的过滤召回率。4)此外,我们为图像理解准备补充数据。通过遵循 DenseFusion 中的数据处理流程,我们从各种开源网络数据中提取了数百万个具有代表性的图像,涵盖广泛的类别,包括图表、表格、富含文本的内容等。
为了注释过滤后的数据集,我们开发了一个基于 Emu2 的图像字幕模型,以构建密集的合成字幕。我们利用带有详细提示的 GPT-4V 生成约 100 万个图像 - 字幕对。然后,使用这个注释数据集对 Emu2-17B 模型进行微调,作为我们的图像字幕生成器。此外,我们使用开源的 vLLM 库来加速标记过程。
•视频数据:我们收集了涵盖广泛类别的视频,如风景、动物、植物、游戏和动作。这些视频通过一个复杂的流程进行预处理,包括以下四个阶段:1)我们使用 PySceneDectect 将视频分割成场景,分别使用 ContentDetector 和 ThresholdDetector 来识别内容变化和淡入 / 淡出事件。2)使用 PaddleOCR 进行文本检测,并删除文本覆盖过多的片段。为了降低计算成本,我们以 2FPS 对视频帧进行采样,并将较短的边缘调整为 256 像素。3)我们进一步计算光流,以消除运动极小或极大的片段。与上一步一样,为了提高效率,我们对视频帧进行采样和调整大小。光流得分定义为所有像素的平均光流幅度与较短边缘的比率。我们排除光流得分超出可接受范围的片段。4)最后,我们使用 LAION-AI 美学预测器评估每个片段的美学质量。我们对每个片段采样三帧并获得三个分数,丢弃最低分数小于 5 的片段。
我们使用基于图像字幕生成器训练的视频字幕生成器为过滤后的视频片段添加字幕。训练数据最初由 GPT-4V 标记。对于每个视频片段,我们采样八帧,并为 GPT-4V 创建一个详细的提示,以描述这些帧内的内容和运动。部分标记数据经过人工修订。然后,我们在这些标记数据上对图像字幕生成器进行微调,以开发视频字幕生成器。为了大规模部署,我们使用 vLLM 加速字幕生成。对于短于 20 秒的片段,使用 12 个均匀采样的帧进行字幕生成,而较长的片段则被分割成 10 - 20 秒的子片段,每个子片段独立进行字幕生成。
2.2 视觉标记器
我们基于 SBER-MoVQGAN 训练视觉标记器,它可以将 4×512×512 的视频片段或 512×512 的图像从大小为 32768 的码本中编码为 4096 个离散令牌。我们的标记器在时间维度上实现 4 倍压缩,在空间维度上实现 8×8 压缩,适用于任何时间和空间分辨率。在 MoVQGAN 架构的基础上,我们在编码器和解码器模块中都融入了两个带有 3D 卷积核的时间残差层,以增强视频标记化能力。该标记器在 LAION-High-Resolution 图像数据集和 InternVid 视频数据集上使用 L2 损失、LPIPS 感知损失、GAN 损失和承诺损失的组合目标函数进行端到端训练。
定性结果如图 3 所示。我们在表 2 中报告了使用来自 Pexels 的 3172 个视频的评估数据集计算的 LPIPS(由 AlexNet 特征计算)、PSNR 和 SSIM 分数。视频在保持宽高比的情况下重建 5 秒。在评估期间,原始视频和重建视频根据较短的边进行调整大小和裁剪,并以 12FPS 均匀采样 8 帧。
图3:重建样本- 该图呈现了视觉标记器对数据处理后的重建效果。左图展示了分辨率为540×960的原始视频以及经过处理后的重建视频,以每秒30帧的帧率选取8帧展示,用于观察视频在重建前后的细节差异。右图展示了分辨率为512×512的原始图像和重建图像,可通过放大图像查看细节,以此评估视觉标记器对图像信息的保留和重建能力。
表1:Emu3视觉标记器配置 - 该表详细列出了Emu3视觉标记器的各项配置参数。包括预训练权重(采用SBER - MoVQGAN - 270M 5)、码本大小(为32768)、潜在大小(是4)、压缩率(4×8×8 ,表示在时间和空间维度上的压缩比例)等信息,这些参数共同决定了视觉标记器对视频和图像进行编码和解码的方式及性能。
表2:视频压缩指标 - 此表展示了不同分辨率(128×128、256×256、512×512、720×720)下视频压缩后的相关指标数据。这些指标包括LPIPS(用于衡量图像之间的感知差异)、PSNR(评估图像质量的峰值信噪比)、SSIM(结构相似性指数,衡量图像之间的结构相似度),通过这些指标可以量化不同分辨率下视频压缩后的质量变化和相似程度,帮助评估视频压缩效果。
2.3 架构
Emu3 模型保留了 Llama-2 等成熟大语言模型的架构框架,主要修改是扩展嵌入层以适应离散视觉令牌。我们使用 RMSNorm 进行归一化,使用 GQA 作为注意力机制,同时采用 SwiGLU 激活函数和旋转位置嵌入(RoPE)。去除 qkv 和线性投影层中的偏差。此外,实施 0.1 的随机失活率以提高训练稳定性。我们使用 QwenTokenizer 对多语言文本进行标记化。详细配置见表 3。
表3:模型配置- 该表给出了Emu3模型的详细架构配置信息。涵盖参数数量(80亿)、层数(32层)、隐藏层大小(4096)、中间层大小(14336)、头数(32个)、KV头数(8个)、词汇表大小(184622)、RoPE基准(1000000 ,与旋转位置嵌入相关的参数)、上下文长度(131072)等参数,这些配置参数决定了Emu3模型的结构和性能特点,影响其在多模态任务中的表现。
2.4 预训练
•数据准备:在预训练期间,我们首先定义多模态数据格式。与依赖外部文本编码器的扩散模型不同,Emu3 原生集成了用于图像 / 视频生成的文本条件信息。我们在保持宽高比的情况下将图像 / 视频重新缩放到面积接近 512×512 的大小,然后使用视觉标记器生成视觉令牌。然后,我们引入五个特殊令牌来合并文本和视觉数据,为训练过程创建类似文档的输入。生成的训练数据结构如下:[BOS]{caption text}[SOV]{meta text}[SOT]{vision tokens}[EOV][EOS]。
其中,[BOS] 和 [EOS] 是文本标记器中的原始特殊令牌,[SOV] 标记视觉输入的开始,[SOT] 标记视觉令牌的开始,[EOV] 表示视觉输入的结束。此外,[EOL] 和 [EOF] 被插入到视觉令牌中,分别表示换行符和帧分隔符。“meta text” 包含图像的分辨率信息,对于视频,它包括分辨率、帧率和持续时间,均以纯文本格式呈现。我们还将数据集中一部分的 “caption text” 字段移动到 [EOV] 令牌之后,从而构建针对视觉理解任务的数据。
•训练目标:由于 Emu3 中的视觉信号完全转换为离散令牌,我们只需要使用标准交叉熵损失进行下一令牌预测任务的训练。为了防止视觉令牌主导学习过程,我们对与视觉令牌相关的损失应用 0.5 的权重。
•训练细节:Emu3 模型在预训练期间利用广泛的上下文长度来处理视频数据。为了便于训练,我们采用张量并行(TP)、上下文并行(CP)和数据并行(DP)的组合。我们同时将文本 - 图像数据打包到最大上下文长度,以充分利用计算资源,同时确保在打包过程中完整的图像不会被分割。预训练过程分两个阶段进行。在第一阶段,不使用视频数据,从文本和图像数据开始从头训练,上下文长度为 5120。在第二阶段,引入视频数据,采用 131072 的上下文长度。两个阶段都使用5×10^{-5}的学习率,并采用余弦退火将学习率降至零。
2.5 后训练
2.5.1 视觉生成
•质量微调:在预训练阶段之后,我们对视觉生成任务进行后训练,以提高生成输出的质量。我们使用高质量数据进行质量微调(QFT)。模型继续使用标准交叉熵损失进行下一令牌预测任务的训练;然而,监督仅应用于视觉令牌。对于 QFT 中的图像数据,我们选择多样的高质量数据源,并根据 HPSv2.1、MPS 和 LAION 美学分数这三个流行偏好分数的平均值进行过滤。在 QFT 期间,我们将训练数据分辨率从 512 像素提高到 720 像素,以提高生成质量。对于视频数据,我们从高质量源中采样,并应用严格的分辨率和光流过滤器以确保质量。此外,在训练结束时,我们使用退火策略将学习率线性衰减至零。
•直接偏好优化:直接偏好优化(DPO)是一种使模型更好地与人类偏好保持一致的有效方法。我们将 DPO 技术应用于自回归多模态生成任务,利用人类偏好数据来提高模型性能。我们将数据集构建分为三个步骤:1)使用质量微调后的模型对每个用户收集的提示(p)进行 8 - 10 次推理,创建初始数据池(x)。2)每个提示由三个评估人员进行评估,重点关注视觉吸引力和提示匹配度。3)根据分数,选择得分最高的样本,拒绝得分最低的样本,与提示一起形成三元组(p_{i}, x_{i}^{chosen}, rejected),用于进一步训练。具体来说,数据构建过程中的令牌被存储起来,以便在未来的训练阶段直接使用。这种策略消除了重新标记化导致的重建差异。Emu3-DPO 通过最小化 DPO 损失和下一令牌预测交叉熵损失来对 QFT 模型进行微调。
2.5.2 视觉 - 语言理解
预训练模型在视觉 - 语言理解方面要经过两阶段的后训练过程:1)图像到文本训练,2)指令调整。在第一阶段,我们的方法将图像理解数据与纯语言数据相结合,同时忽略与视觉令牌相关的损失,仅进行文本预测。每个图像在保持原始宽高比的情况下调整为约 512×512 的分辨率。在第二阶段,我们从 [44] 中采样一部分问答对,以增强视觉指令跟随能力。分辨率低于 512×512 或高于 1024×1024 的图像将分别调整为较低或较高的分辨率限制,同时相应地保持宽高比,而其他图像则保持其原始分辨率。
3、主要结果
3.1 图像生成
3.1.1 自动指标评估
我们通过在流行的文本到图像基准测试(MSCOCO-30K、GenEval、T2I-CompBench 和 DPG-Bench)上进行自动指标评估,展示 Emu3 的性能。表 4 展示了 Emu3 与扩散方法、自回归扩散方法和基于自回归的方法在这四个基准测试中的比较结果。我们的方法在图像 - 文本对齐评估中优于自回归扩散方法,并且与最先进的基于扩散的模型相当,尽管我们没有使用任何预训练的语言模型。
表4:与最先进模型在文本到图像基准测试中的比较
- 该表在MSCOCO - 30K、GenEval、T2I - CompBench和DPG - Bench这四个用于评估文本到图像生成能力的基准测试中,对Emu3与当前最先进的模型进行性能对比。带†的结果是经过重写后的结果,通过对比不同模型在这些基准测试中的各项指标(如图像 - 文本对齐度、生成图像质量等),可以清晰地看出Emu3在文本到图像生成任务中的优势和竞争力。
在使用重写器扩展短提示后,我们报告 GenEval 和 T2I-CompBench 的结果。由于 Emu3 在训练过程中使用了大量的合成标签,在密集字幕方面比短提示表现更优。然而,GenEval 和 T2I-CompBench 中的评估提示过于简短,无法准确反映模型的真实性能。遵循 DALL-E 3,我们也报告使用 GPT-4V 作为重写器的评估结果。GenEval 总体得分结果表明,Emu3 显著优于多模态自回归模型 Chameleon,以及最新的自回归扩散方法 Show-O 和 Transfusion。此外,Emu3 超过了 SDXL,并与包括 DALL-E 3 在内的最先进的扩散模型性能相匹配。附录 B.1 中提供了所有维度的详细比较,包括原始提示的结果。
为了进一步评估最先进的文本到图像方法,特别是扩散模型,我们使用 T2I-CompBench 评估生成图像与文本条件之间的对齐情况。Emu3 与基于扩散的最先进模型相比,表现出有竞争力的性能。此外,我们在 DPG-Bench 上比较我们的模型与最先进的模型,该基准测试具有更长的提示,包含更详细的评估信息。我们的 Emu3-DPO 总体得分达到 81.6,超过了 SDXL 和 PixArt-alpha,与 DALL-E 3 相当,进一步证明了该模型遵循长提示的能力。在比较 Emu3 和 Emu3-DPO 时,我们观察到应用 DPO 后评估结果略有下降,这可能归因于我们的 DPO 数据集中强调整体美学质量的偏好,这与自动评估模型的领域不同,使得仅通过自动评估得出的结论变得复杂。因此,我们在 3.1.2 节中引入了人工评估。
3.1.2 人工评估
我们进行了一项人工评估,比较不同模型的文本到图像生成能力。收集了一组 100 个多样的用户提示,每个提示由三个独立的评估人员进行评估。评估主要集中在两个方面:视觉质量和提示跟随度,综合得分反映整体性能。如图 5 所示,我们展示了当前封闭和开放生成式图像模型的人工偏好比较。结果表明,Emu3 在总体得分上超过了 SDXL,与 DALL-E 3 和 MJ-v5.2 相当。此外,图 6 展示了通过 DPO 微调的对齐效果,有效提高了视觉质量和提示跟随度。
图片
图5:封闭和开放生成式图像模型在中英文提示下的人工评估总体得分比较
- 该图比较了不同类型(封闭和开放)的生成式图像模型在中文和英文提示下的表现。通过收集大量用户给出的中英文提示,由人工从视觉质量(如图像的清晰度、色彩、构图等)和提示跟随度(生成图像与提示内容的匹配程度)等方面进行评估打分,最终得到每个模型的总体得分,从而对比不同模型在处理中英文提示时生成图像的综合能力。
图6:DPO对视觉质量和提示对齐的提升 - 此图主要展示直接偏好优化(DPO)技术应用于Emu3模型后产生的效果。重点体现DPO在提升生成图像的视觉质量(如使图像更清晰、更具美感)以及增强提示对齐(生成图像更符合给定的文本提示内容)方面的作用,突出DPO对模型性能优化的具体表现。
3.1.3 定性结果
图 4 展示了 Emu3 生成的 25 张图像,以展示其能力。Emu3 支持灵活的分辨率和宽高比,并且能够处理各种风格。
图4:Emu3文本到图像生成的定性结果- 此图展示Emu3将文本转换为图像的生成效果,从定性的角度(如生成图像的风格多样性、对文本描述的还原程度、图像的美观度等方面)呈现Emu3在文本到图像生成任务上的成果,帮助直观感受Emu3在该任务上的表现。
3.2 视频生成
与训练阶段一致,Emu3 原生支持以 24FPS 生成 5 秒视频,并可以通过自回归方法无限扩展。图 7 展示了视频生成的定性示例,从开头 3 秒中提取了 6 帧进行展示。
我们对 Emu3 与 13 个性能最佳的开源和专有文本到视频模型进行了定量比较。使用的基准测试是 VBench,这是一个用于评估视频生成性能的综合工具包,它在 16 个维度上评估每个模型的质量和语义能力。除了 Emu3 是自回归模型外,所有其他公开可比的方法都是扩散模型。尽管如此,如表 5 所示,Emu3 在总体得分上与其他最先进的模型相比,表现出极具竞争力的结果。具体来说,虽然它略逊于 Kling 和 Gen-3 等最先进的专有模型,但它优于大多数开源文本到视频模型。这些结果突出了 Emu3很强的视频生成能力。
图7:Emu3文本到视频生成的定性结果- 该图呈现Emu3在文本到视频生成任务中的成果,从定性方面(如生成视频的内容连贯性、与文本提示的契合度、视频的视觉效果等)展示Emu3根据文本生成视频的能力。通过从生成的视频中选取开头3秒并提取6帧进行展示,让观察者直观感受Emu3生成视频的质量和特点。
表5:与最先进文本到视频模型在VBench基准测试中的比较 - 此表在VBench基准测试环境下,对Emu3与其他最先进的文本到视频模型进行比较。从VBench的16个评估维度中选取11个维度(如运动平滑度、动态程度、美学质量等)以及最终综合分数进行展示。除Emu3是自回归(AR)模型外,其他可对比的公开方法均为扩散(Diff)模型,且指标数值越高代表对应模型在该维度的表现越好,以此全面评估Emu3在文本到视频生成任务中与其他模型的差异和优势。
3.3 未来预测
Emu3 可以通过预测未来帧来扩展视频。在图 8 中,我们展示了视频扩展的定性示例,将 2 秒、24FPS 的视频标记为离散视觉令牌作为上下文。Emu3 以相同的离散视觉令牌形式预测随后 2 秒的内容,这些令牌可以被解标记以生成未来预测的视频。这些示例表明,仅使用下一令牌预测就可以实现视频的时间扩展,包括预测人类和动物的动作、与现实世界的交互以及三维动画的变化。此外,通过以这种方式扩展视频时长,我们的方法能够迭代生成超过其上下文长度的视频。我们已经观察到,以 2 秒的视频数据作为上下文成功扩展未来视频帧 8 秒是可行的。
图8:Emu3视频扩展的定性结果- 此图展示Emu3在视频扩展任务中的表现。以2秒、24帧每秒的视频作为初始上下文,Emu3预测并生成后续2秒的视频内容。图中每秒采样3帧进行显示,通过这些展示的帧,可直观评估Emu3在视频时间维度上的拓展能力,以及对视频内容未来发展的预测准确性和合理性。
3.4 视觉 - 语言理解
为了评估在 2.5.2 节中微调后的 Emu3 的视觉 - 语言理解能力,我们在各种公开的视觉 - 语言基准测试中对模型进行了测试。主要结果详见表 6,比较了两类方法:1)基于编码器的方法,利用预训练的 CLIP 视觉编码器;2)无编码器的方法,无需预训练编码器。Emu3 作为一种纯粹的无编码器方法脱颖而出,在多个基准测试中显著超越了其同类方法。这一成就的取得没有依赖专门的预训练大语言模型和 CLIP,凸显了 Emu3 在多模态理解方面的内在能力和巨大潜力。
表6:在视觉 - 语言基准测试中的比较- 该表收集了多个视觉 - 语言基准测试(SEEDB即SEEDBench - Img、OCRB即OCRBench等)的评估数据,用于对比Emu3与基于编码器的方法(这类方法依赖预训练的CLIP视觉编码器)和无编码器的方法在这些测试中的表现。带的表示在训练过程中观察到了相关训练数据集的图像,通过对比不同模型在各个基准测试中的分数,评估Emu3在视觉 - 语言理解任务方面的能力和水平。
4、相关工作
视觉 - 语言理解
CLIP 通过在大规模图像 - 文本对上进行对比学习,学习可迁移的视觉表示,在图像分类任务中实现了令人瞩目的零样本结果。Flamingo 通过将预训练的语言模型和类似于 CLIP 的视觉编码器连接起来,首次展示了有前景的少样本多模态理解能力。随着大语言模型的日益普及和发展,将预训练的视觉编码器与大语言模型融合,已成为训练广泛的视觉 - 语言模型(VLMs)的常用方法。BLIP 系列、MiniGPT4 和 LLaVA 通过将视觉编码器与大语言模型连接,并在图像 - 文本对和视觉指令调整数据上进行训练,展现出了令人鼓舞的结果。通过精心策划的数据集和改进的训练策略,LLaVA 系列及其他优秀作品在性能上有了进一步提升。虽然像 Fuyu 和 EVE 等模型引入了无编码器的视觉 - 语言架构,将图像补丁输入到大语言模型中,但它们在与最先进的视觉 - 语言模型竞争时仍面临挑战。Emu3 首次证明,仅在下一代令牌预测上训练的仅解码器模型,能够取得与基于编码器的视觉 - 语言模型相当甚至更优的性能。这为这种架构的进一步改进开辟了道路。
视觉生成
最近,视觉生成领域的进展在很大程度上由扩散模型主导。这些模型在通过扩散过程生成高分辨率图像方面展示出了令人印象深刻的能力。Stable Diffusion 系列的开源发布,推动了这一方向的广泛研究和发展。另一条研究路线是训练自回归模型,通过预测序列中的下一个令牌来生成图像,如 DALL-E、CogView 和 Parti。VideoGPT 和 VideoPoet 也在视频领域采用自回归方法。然而,它们要么在性能上无法与扩散模型相媲美,要么依赖级联 / 组合方法,例如 VideoPoet 使用两阶段的生成和细化框架以及额外的文本编码器。在这项工作中,Emu3 通过单个 Transformer 解码器展示了最先进的图像和视频生成能力。值得注意的是,我们开源了相关技术,以支持这一方向的进一步研究和发展。
统一理解与生成
早期有一些统一视觉理解和生成的尝试,在图像和文本数据上探索各种生成目标。Emu 和 Emu2 引入了统一的自回归目标:通过回归视觉嵌入或分类文本令牌来预测下一个多模态元素。CM3Leon 和 Chameleon 在混合的图像和文本数据上训练基于令牌的自回归模型。最近的方法如 TransFusion 和 Show-o 试图结合扩散和自回归方法来提升性能。然而,这些模型在视觉生成和理解方面,仍落后于像 SDXL 和 LLaVA-1.6 这样的特定任务架构。Emu3 首次证明,跨图像、视频和文本的下一个令牌预测可以超越这些成熟的模型,而无需依赖组合方法。
5、结论
在本文中,我们介绍了 Emu3,这是一系列新的多模态模型,通过下一个令牌预测在多模态生成和感知方面表现卓越。通过将图像、文本和视频标记为离散空间,并从头开始训练单个 Transformer,Emu3 不仅消除了对扩散和组合方法的依赖,还超越了 SDXL 和 LLaVA-1.6 等已有的特定任务模型的性能。我们的结果有力地证明,下一个令牌预测可以作为多模态模型的强大范式,超越语言模型,在包括具有挑战性的视频生成在内的各种任务中提供最先进的性能。我们相信,下一个令牌预测在追求通用多模态智能的过程中不仅可行,而且具有优势,使我们更接近通用人工智能的实现。
本文转载自AIRoobt ,作者:Emu3 Team
