首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA! 精华

zhangyannni

发布于 2025-9-26 09:41

浏览

0收藏

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

文章链接：https://arxiv.org/pdf/2509.19244

亮点直击

第一个多模态 MDM，在文本生成图像、图像编辑和定位任务中实现了SOTA性能，超越了现有的 MDMs、自回归模型和连续扩散模型。
为大规模掩码图像生成模型和统一多模态模型提出了若干高效且有效的训练和推理技术，如Elastic-MoT 架构、通用文本条件和分层采样，显著推动了相关领域的发展。
引入了一种新范式，明确利用统一模型的理解能力，通过规划和自我反思来改进其生成能力。

总结速览

效果一览

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

文本到图像生成的定性示例。在各种提示中提供了其他文本到图像生成输出的示例

解决的问题

现有多模态扩散语言模型（如 MMaDa 和 Muddit）仅支持简单的图像级理解任务和低分辨率图像生成，无法有效处理复杂的对象定位、图像编辑和高分辨率图像合成任务。

提出的方案

开发 Lavida-O，这是一种统一的多模态掩码扩散模型，能够执行图像理解和生成任务。它利用模型的理解能力，通过规划和迭代自我反思来改进图像生成和编辑结果。

应用的技术

引入弹性Transformer混合架构（Elastic Mixture-of-Transformer）、通用文本条件（universal text conditioning）和分层采样（stratified sampling）等新技术，以实现高效的训练和采样。

达到的效果

Lavida-O 在多个基准测试中实现了最先进的性能，如 RefCOCO 对象定位、GenEval 文本生成图像和 ImgEdit 图像编辑，超越了现有的自回归和连续扩散模型（如 Qwen2.5-VL 和 FluxKontext-dev），并在推理速度上显著提升。

方法

模型架构

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

弹性Transformer混合架构（ElasticMoT）

本文目标是找到一种有效且高效的方法，使仅具备理解能力的扩散模型 LaViDa 具备视觉生成能力。然而，正如在前文中描述的两种现有常用选择——密集模型和 MoT——都非常昂贵。密集模型在理解和生成任务中使用相同的参数集，需要在训练期间混合使用理解和生成数据以防止灾难性遗忘，这并不高效。而 MoT 设置允许冻结理解分支，仅训练用于图像生成的生成分支，但其架构使总参数数量翻倍，导致相当大的计算开销。此外，给定一个 80 亿参数的基础理解模型，这两种设置都需要从头开始训练至少 80 亿参数用于生成任务，这在成本上是不可接受的。

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

类似地，对于理解任务，活跃参数数量为 80 亿，对于需要同时理解和生成的任务（例如交错生成），活跃参数数量为 104 亿。Elastic-MoT 的完整设计如下图 3 所示。

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

模态感知掩码

在为 MDMs 适应 MoT 架构时，其中一个挑战是路由——确定每个 token 应激活哪个分支的机制。这对于统一的自回归 MoT 模型来说是简单的，模型可以学习生成一个特殊 token （例如，[img start]）来指示下一个 token 应使用生成分支。当图像的最后一个 token 生成后，模型会自动切换回理解分支继续文本生成。然而，这种方法对于 MDMs 来说不可行，因为 MDMs 并行解码 token，必须预先决定哪些掩码 token 应路由到理解分支，哪些应路由到生成分支。一个简单的解决方案是让用户指定文本和图像 token 的数量和位置，但这对于交错生成（如带有自我反射的图像生成）来说很困难。为了解决这个问题，本文设计了一种模态感知掩码过程。

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

任务特定设计

在本节中，本文描述了一些额外的技术创新，以提高新纳入任务（如图像生成、图像编辑和基础）的有效性和效率。

通用文本条件。 提高文本生成图像模型质量的常见方法是微条件，它将图像生成过程基于额外的参数，如原始图像分辨率、裁剪坐标和图像质量分数。这通常通过专门的嵌入或调制层实现。然而，由于统一模型具有强大的语言理解和推理能力，本文可以简单地将这些条件作为普通文本（例如，“SCORE: 5.40”）附加到用户提示的末尾。除了常见条件之外，本文还将图像亮度和对比度作为微条件纳入。这种简单而有效的设计不仅通过引导生成朝向高评分分布来提高图像质量，还为用户提供了对输出的更精细控制。

分层随机采样。 现有的 MDMs 大多在推理时采用基于置信度的采样，其中高置信度分数的 token 优先被去掩码。然而，这种设计对于图像生成来说并不理想，因为每一步需要解码许多 token 。特别是，高置信度 token 往往聚集在已去掩码 token 相邻的小空间区域。这对图像质量产生负面影响，因为相邻 token 高度相关，而 MDMs 独立采样所有去掩码 token，并假设它们的联合分布完全分解。为了解决这个问题，本文旨在通过最大化它们的空间距离来最小化每一步去掩码 token 之间的相关性。本文通过分层随机采样过程实现这一目标，确保去掩码 token 在图像中均匀分布。具体而言，本文首先将图像划分为2x2的正方形区域，并在每个区域内随机去掩码一个 token 。然后本文将每个区域再细分为 4 个子区域，总共 16 个。四个已经包含一个去掩码 token ；本文从剩余的 12 个中随机去掩码一个 token 。本文重复此过程，直到所有 token 都被去掩码。此过程如上图 4b 所示。

规划和推理。 虽然现有的统一 MDMs 将图像理解和生成任务与单一扩散目标整合在一起，但它们并未包含利用理解来改善生成的机制，除了假设联合训练对两项任务都有益。为了解决这个问题，本文引入了两个利用理解来改善生成的明确机制：规划和反思。通过规划，模型首先生成由边界框表示的图像布局，然后相应地创建实际图像。对于图像编辑任务，它首先识别所需的编辑区域，然后生成编辑后的图像。通过反思，模型利用其理解能力评估自己的生成，判断其是否满足用户的请求。如果检测到不一致，模型会生成一个新图像以纠正错误。示例如下图 1 所示。

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

实验

设置

从 LaViDa 开始，这是一个仅用于理解的 80 亿参数的扩散模型，并使用前文中描述的 ElasticMoT 架构扩展出一个 24 亿参数的图像生成分支。训练包括三个阶段：

阶段 1：本文继续在对象定位和图像级理解任务上使用 1200 万样本训练基础模型。在此阶段，生成分支未激活。
阶段 2：本文使用 2 亿个图文对对 24 亿参数的图像生成分支进行文本生成图像任务的预训练。在此阶段，本文使用第 3.1.1 节中描述的 ElasticMoT 设计加载 24 亿 + 40 亿参数。本文冻结理解分支，仅训练生成分支，从而避免需要包括理解数据以防止遗忘。为了进一步提高训练效率，本文从 256 分辨率开始，并在训练过程中逐步增加到 512 和 1024。
阶段 3：在最后阶段，本文对整个 24 亿 + 80 亿模型进行端到端联合训练，涵盖图像级理解、文本生成图像、图像编辑和交错生成任务，如规划和自我反思。除了前几个阶段使用的数据外，本文还加入了 150 万图像编辑样本和 300 万交错生成样本。

图像理解

在下表 2 中报告了图像理解任务的性能。Lavida-O 在 MMMU、MME和 MMB上相较于之前的最先进统一扩散模型 MMaDa 取得了显著的优势。与基础模型 LaViDa 相比，Lavida-O 在大多数基准测试上实现了显著的改进，如 ChartQA 、DocVQA、ScienceQA和 MathVista，这得益于训练数据的扩展。

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

文本生成图像

本文在 GenEval 和 DPG 基准测试上报告了文本生成图像的结果，并在 MJHQ 数据集的 30k 个提示上报告了 FID 分数。本文与包括 Flux-dev 、SD3-Medium 、Meissonic 和 DALLE-3 在内的文本生成图像模型进行比较，以及包括 BAGEL 、Show-o 、MMaDa 和 Muddit 在内的统一模型。Lavida-O 显著超越了最先进的掩码图像生成模型 Meissonic，以及统一模型如 MMaDa 和 Muddit。规划和反思进一步增强了对提示的跟随性能。由于 MJHQ 的规模较大且 FID 不反映提示跟随能力，本文未在 MJHQ 上启用规划和反思。

目标定位

本文在RefCOCO 指代表达理解 (REC) 任务中评估了 Lavida-O 的目标定位能力，报告了 Precision@0.5 指标。Lavida-O 超越了自回归视觉-语言模型，如 Qwen2.5-VL-7B 和 InternVL3-8B，以及专用模型如 Grounding-DINO-L和 SegLLM-7B。

图像编辑

下表 5 中报告了图像编辑基准测试的性能。Lavida-O 超越了最先进的统一模型如 BAGEL 和专用模型如 FluxKontext-dev。最值得注意的是，Lavida-O 甚至在替换和移除对象方面超越了最先进的闭源模型 GPT4-o，这需要对图像进行局部化理解。这凸显了 Lavida-O 在整合目标定位能力方面的设计有效性。

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

训练和推理速度

在下图 5 中，本文对 Lavida-O 在三个任务上的推理效率进行了基准测试：文本生成图像、目标定位和数学推理。本文测量了每幅图像的端到端延迟（以秒为单位）。Lavida-O 显著快于自回归模型。值得注意的是，在目标定位任务上，本文比 Qwen2.5-VL-7B快了 6.8 倍。本文还报告了通过每步延迟测量的训练效率，并将本文的 Elastic-MoT 设计与 BAGEL 风格的标准 MoT 设计进行比较，Elastic-MoT 提高了 3.17 倍的训练速度。

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!-AI.x社区

结论

Lavida-O，这是第一个多模态掩码扩散模型，在文本生成图像、图像编辑和定位任务上实现了SOTA性能，与最佳的专用模型和自回归统一模型具有竞争力。本文还引入了一种新颖的交错生成范式，通过规划和自我反思，明确利用理解能力来改善统一多模态模型中的生成结果。

在开发 Lavida-O 的过程中，本文提出了几种高效的训练和推理技术，包括 ElasticMoT 架构、通用文本条件和分层随机采样，为未来的掩码扩散模型和统一多模态系统提供了宝贵的见解。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/JWh_OATlgp3xrWYeAeIpFA

标签

模型

图像生成

51CTO

51CTO博客

51CTO学堂

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA! 精华

总结速览

效果一览

解决的问题

提出的方案

应用的技术

达到的效果

方法

模型架构

弹性Transformer混合架构（ElasticMoT）

模态感知掩码

任务特定设计

实验

设置

图像理解

文本生成图像

目标定位

图像编辑

训练和推理速度

结论

目录