
48块GPU训练对标千亿参数SOTA!达摩院等发布基于LLM的自回归视频生成模型Lumos-1
文章链接:https://arxiv.org/pdf/2507.08801
项目链接:https://github.com/alibaba-damo-academy/Lumos
Lumos-1 生成的示例可视化。Lumos-1 支持文本到图像、图像到视频和文本到视频任务
亮点直击
- MM-RoPE创新:首次在视频生成中优化3D RoPE的频谱分配与位置缩放,兼顾文本与视频模态的兼容性。
- AR-DF训练策略:通过时域管状掩码解决帧间信息冗余问题,实现平衡的帧级损失与高质量推理。
- 轻量高效架构:仅需最小LLM修改,无需外部文本编码器,以48块GPU实现对标千亿参数模型的性能。
总结速览
视频生成效果
解决的问题
- 架构兼容性:现有自回归视频生成模型与标准LLM架构不兼容,或依赖外部文本编码器,或因逐令牌解码导致高延迟。
- 时空相关性建模:视频数据具有强时空相关性,现有方法(如1D RoPE)未能有效建模,且3D RoPE存在频谱范围不平衡问题。
- 训练效率与质量:视频帧间空间信息冗余导致帧间损失不平衡,随机掩码预测效率低下,影响生成质量。
提出的方案
- Lumos-1模型:基于LLM架构的轻量修改,实现高效自回归视频生成,无需外部文本编码器。
- MM-RoPE:改进的3D旋转位置编码,保留文本RoPE的同时优化视频时空建模,平衡频谱范围与模态位置缩放。
- AR-DF(自回归离散扩散强制):通过时域管状掩码(temporal tube masking)解决帧间损失不平衡问题,训练与推理策略一致,避免质量退化。
应用的技术
- 3D RoPE扩展:将RoPE从1D扩展到3D以建模时空相关性,诊断频谱不平衡后提出MM-RoPE。
- 令牌依赖策略:帧内双向依赖+帧间时序因果依赖,贴合视频数据特性。
- 内存高效训练:阶段式训练与GPU内存优化技术,仅用48块GPU预训练模型。
达到的效果:
- 性能对标SOTA:在GenEval、VBench-I2V/VBench-T2V基准上媲美EMU3、COSMOS-Video2World和OpenSoraPlan。
- 架构统一性:保留LLM架构,支持多模态(文本+视频)生成与理解。
- 高效生成:通过AR-DF和MM-RoPE提升训练效率与生成质量,避免高延迟。
Lumos-1
Lumos-1的设计理念:首先介绍MM-RoPE,它使LLM能够更好地感知时空以建模视觉数据。接着介绍AR-DF,它实现了有效的训练和推理。最后介绍实现Lumos-1的关键技术,包括架构、内存友好技术等。
通过MM-RoPE注入时空相关性
3D RoPE的初步探索。首先将3D RoPE引入自回归视频生成进行初步探索。由于验证损失与评估指标强相关,用它来观察效果。默认使用交叉熵损失(C-Loss),遵循标准LLM训练目标。如下图2所示,比较了原始LLM RoPE与三种方案:
- 方案1将前1/2通道分配给全局位置编码(即全局序列索引),后1/2通道以2:3:3比例分配时间、高度和宽度位置。文本标记仅使用前半通道编码全局位置以保证语言建模能力,视觉标记仅使用后半编码3D位置;
- 方案2扩展方案1,利用视觉标记前半通道额外编码全局位置;
- M-RoPE使用视觉标记全部通道编码3D位置。
下图3(a)显示:
- 通过比较原始RoPE与方案1,时空相关性注入显著提升模型拟合能力;
- 为视觉标记注入光栅扫描顺序位置信息(方案2的全局位置)会降低性能;
- 全通道利用(M-RoPE)优于部分通道利用(方案1)。因此,在此生成模型中注入此类先验具有前景。
剖析3D RoPE及其局限性。尽管3D RoPE实践有效,但其设计仍非最优。图3(b)可视化频率如何分配给时间、高度和宽度维度:时间通道主导高频段,而高度和宽度通道被分配至近零频率。对于正弦函数,相对位置τ(当τ≥0)不应超过一个周期以避免歧义,因为超过2π弧度会导致函数模式重复。超出此范围,模型无法区分细粒度位置差异。低索引通道的嵌入旋转速度显著快于高索引通道(图3(c)),导致加速混叠和嵌入唯一性丧失;高索引通道旋转过慢,缺乏足够分辨率建模细微局部变化。此外,高度和宽度虽对称重要,却占据不成比例的小且不同的频段,削弱其捕捉空间细节的能力。
MM-RoPE:分布式缩放3D RoPE机制。为优雅解决上述限制,本文提出MM-RoPE——分布式3D RoPE机制。相比视觉语言模型广泛采用的M-RoPE,MM-RoPE核心思想是为所有3D信息在全面频谱范围内编码相对位置。如前面图2(b)所示,MM-RoPE中文本标记的RoPE遵循标准LLM设计,而视觉标记的RoPE由多个元MM-RoPE组件构成。每个元MM-RoPE内保持3D信息比例与3D RoPE相同(即2:3:3),同时最小化总维度以维持分布式设计。具体而言,我们首先分配时间信息通道,然后对称交错高度和宽度通道建模空间信息。首个元MM-RoPE的注意力计算可表述为:
其中每个元MM-RoPE组件包含16个通道;其他组件类似定义,共同构成视觉标记的RoPE策略。
此外,对于联合处理文本和视觉标记的模型,两种模态间的相互作用对确保视觉-语言对齐至关重要。然而,表示文本或视觉数据的位置范围往往不同。尽管视觉数据的潜在分辨率较低(例如448×256×25的视频经过8×8×4压缩后变为56×32×7),当代视觉生成系统通常使用极长描述性标题进行训练。为平衡两种模态,本文提出缩放3D位置以确保均衡学习。具体而言,我们通过乘以压缩比将潜在3D位置经验性地缩放至RGB空间,如下图5(a)所示。这一简单缩放操作从另一角度通过略微加快旋转速度提升了视觉标记的RoPE分辨率。实验部分证明其有效性,从而表明从RoPE角度平衡两种模态的重要性。
然而鉴于视频的自回归生成特性,这种缩放可能并非最优解。更先进的解决方案留待未来工作。
自回归离散扩散强制
最朴素的生成范式(即下一标记预测)存在生成效率低下的问题,使其不适用于自回归视觉生成。本文采用离散扩散技术生成视觉内容,并结合时序因果依赖实现时序自回归生成范式。但由于Lumos-1的自回归特性,原始随机掩码(全局随机掩码)或时序独立掩码(扩散强制)均会导致显著的损失不平衡——后期帧的视觉标记往往具有更低损失。由于在充足历史帧上下文条件下预测帧的任务难度远低于根据文本提示预测首帧或根据首帧预测第二帧,模型会倾向于优化更简单任务,导致时序学习退化。
实现
架构Lumos-1架构遵循Llama,默认集成RMSNorm和SwiGLU。为稳定训练,本文采用Chameleon的查询-键归一化(QK-Norm)。模型包含三个规模(0.5B/1B/3B),架构细节见附录。注意快速消融研究使用0.5B版本。
标记器为统一视觉与文本标记处理,采用Cosmos标记器的离散版本,实现8×8×4的时空压缩率。文本标记保留Chameleon的文本标记器。因此Lumos-1总码本大小为129,536(65,536文本标记+64,000视觉标记)。
序列格式化视觉标记与文本标记在序列中间隔排列,文本标记指定元数据(包括文本提示、视频分辨率、帧率及帧数)。借此设计,本文无需调整尺寸即可训练不同宽高比的图像和视频。
GPU内存友好实现
默认使用Flash Attention加速注意力计算,降低Lumos-1训练和推理时的内存开销。此外,观察到大型码本训练时GPU内存消耗显著,因此取消语言相关损失(如文本的下一标记预测),将最终logit矩阵尺寸缩减至仅匹配视觉标记。虽然文本标记嵌入(将文本索引映射为嵌入)仍可训练,此举使模型聚焦视频生成。若目标为支持语言模态的统一模型,可重新添加该损失。最后,针对129K标记类型的损失计算存在极高内存消耗(易引发内存溢出),采用分块交叉熵损失:通过上转型并逐块计算softmax logits,保持完整softmax精度。默认分块大小为2,000,显著降低峰值内存使用。
分阶段训练
鉴于Lumos-1的自回归特性,视频生成训练可分为两项能力:1) 文本到图像;2) 单图/多图到视频。尽管AR-DF训练大幅缓解学习不平衡问题,仍观察到后者任务相对更易。因此需分阶段训练确保视频生成成功:
- 专用文本到图像训练(256p分辨率)
- 图像-视频联合训练(256p分辨率)
- 联合训练(384p分辨率视觉数据)
实验
实验细节
数据集:
- 图像数据集:6,000万张(保留原始宽高比)
- 视频数据集:1,000万段(剪辑为25帧/段)
视觉生成对比
文本到图像生成(下表1):
- 优于同规模扩散模型(如SD-XL),媲美FLUX
- 自回归模型中媲美EMU3,且离散扩散推理效率显著更高
- 在位置/属性绑定任务中表现优异,证明无需文本预训练即可实现卓越语言理解与视觉-语言对齐
图像到视频生成(下表2):
- 未专门训练该任务,但通过指定首帧实现
- 超越VideoCrafter-I2V,媲美数据量(1亿>1千万)和算力(1万张H100>48张H20)远超的COSMOS-Video2World
文本到视频生成(下表3):
- 尽管采用离散标记器,仍媲美OpenSoraPlan等扩散模型(且无需笨重预训练文本编码器)
- 自回归特性通过首帧质量保障视频质量,在物体中心指标(物体类别与颜色)上表现突出
分析与消融研究
定性视觉对比
本文在下图6中将Lumos-1与主流视频生成方法进行对比。对于文本到视频(T2V),我们的384p视频在视觉质量上不逊色于LTX-Video的512p视频。在提供的案例中,Lumos-1生成了更自然的运动(水波)且更贴合提示词(穿红色衣服的滑雪者和波浪)。对于图像到视频(I2V),Lumos-1在多物体(示例1中的多个漂浮热气球)和细粒度运动(示例3中海岸线周围的细微涟漪)处理上显著优于Stable Video DiffusionSVD),后者仅生成全局相机运动。在示例2中,SVD产生了明显模糊,而Lumos-1实现了物体的平滑动画。更多可视化结果见附录。
MM-RoPE的有效性。下图7(b)展示了0.5B模型在四种RoPE设置下的验证损失。需注意,M-RoPE表示两种设计均被移除。可以观察到,MM-RoPE始终收敛更快且稳定在最低损失,证实了其对细粒度时空信息建模的优势。尽管单独移除任一组件均会提高损失,但移除分布式设计的负面影响大于移除缩放位置设计,表明全面的频率分配是主导因素。同时移除两种增强会导致最慢收敛和最高平台期,说明这两种机制在高效视频生成中具有互补性。
MM-RoPE中元MM-RoPE数量的影响。MM-RoPE将嵌入通道划分为若干元组。更多元组意味着某一类信息(时间、高度或宽度)能获得更广谱的频率建模。下图9(a)绘制了0.5B模型在四种设置下的验证损失:
- 无分布式设计:沿用此前设计,将前2/8通道分配给时间建模,3/8通道分别分配给高度和宽度建模;
- 元MM-RoPE数量=1:配置一个64通道的元MM-RoPE,同时保持时间、高度和宽度建模的比例(2:3:3)。此变体通过交错高度和宽度通道提升了两个空间维度的频谱范围;
- 元MM-RoPE数量=2:配置两个32通道的元MM-RoPE,进一步扩展时间、高度和宽度信息的频谱范围;
- 元MM-RoPE数量=4(默认设计):每个元MM-RoPE保持最小通道数(16通道),使时间、高度或宽度维度的频谱覆盖最全面。
结果证实,通过增加元MM-RoPE数量拓宽各维度频谱,能显著提升时空建模和整体训练效率。
MM-RoPE的推理开销分析。与M-RoPE类似,MM-RoPE需定位视觉标记起始位置后应用RoPE机制,需少量计算。表4对比了使用标准1D RoPE、M-RoPE和MM-RoPE生成图像和视频的推理速度。可观察到:1)相比1D RoPE,引入3D先验仅增加3.5%-4.1%推理延迟;2)相比M-RoPE,MM-RoPE未引入额外延迟。
CFG缩放的敏感性分析。前面图7(c)使用1B模型研究了引导缩放对GenEval的影响。发现缩放值在13至16(默认值)区间内效果良好。
对宽高比的鲁棒性。尽管训练数据宽高比多为7:4,但表5显示Lumos-1 1B因统一码本设计能很好适应不同宽高比的视觉生成。
结论
Lumos-1,一种利用LLM架构的自回归视频生成模型。本文提出MM-RoPE以改进时空动态建模,并提出AR-DF以在考虑帧内双向性和帧间时序因果性的前提下实现高效训练与推理。期待Lumos-1成为构建基础统一模型的重要一步。
本文转自AI生成未来 ,作者:AI生成未来
