
ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成
文章链接:https://arxiv.org/pdf/2507.15728
项目链接:https://vicky0522.github.io/tokensgen-webpage/
亮点直击
- TokensGen,通过压缩视频Token桥接短片段生成与长程一致性。
- To2V模型(片段级内容控制),基于预训练骨干网络(CogVideoX)构建的视频Tokenizer,将短片段编码为高语义密度的压缩Token。
- T2To模型(长程一致性控制),创新性设计视频Token扩散Transformer,直接从文本提示生成分钟级视频的完整Token序列。
- 自适应FIFO-Diffusion(片段间平滑过渡),解决传统FIFO-Diffusion中因填充或帧复制导致的边界失真问题,实现影院级过渡效果。
- 工业级扩展性:方案支持分钟级生成,为影视/虚拟现实提供新工具。
根据文本提示,TokensGen 可生成长达 2 分钟的长视频,保持一致的动作和内容。此外,TokensGen 支持零拍摄提示引导的长视频到视频编辑。
总结速览
解决的问题
- 内存瓶颈:传统扩散模型生成长视频时计算开销大,难以处理分钟级内容。
- 长期一致性不足:现有方法(如自回归或分层生成)易导致内容漂移、运动不连贯。
- 片段过渡生硬:短片段直接拼接易出现边界伪影,缺乏平滑性。
提出的方案
- 两阶段框架:
- To2V模型:基于文本和视频Token生成高质量短片段,通过视频Tokenizer(Video Tokenizer)压缩语义信息。
- T2To模型:扩散Transformer一次性生成全局一致的分钟级视频Token,确保长期逻辑连贯。
- 自适应FIFO-Diffusion:对角去噪策略无缝衔接相邻片段,消除边界伪影。
应用的技术
- 视频Tokenizer:将短片段压缩为高语义密度Token,降低计算复杂度。
- 扩散Transformer(Diffusion Transformer):在Token空间建模长视频的时空分布。
- 对角去噪(Diagonal Denoising):改进FIFO-Diffusion,动态融合片段间重叠区域。
达到的效果
- 长期一致性:T2To模型全局规划内容,人物/场景保持稳定。
- 高效生成:Tokenizer表示减少内存占用(相比帧级建模)。
- 平滑过渡
- 兼容性:可集成其他短片段控制技术(如多提示词组合)。
TokensGen 长视频生成
概述
CogVideoX 架构
To2V模型:片段内内容控制
本文设计了一种条件式短视频生成模型 To2V,通过文本和视频提示引导,实现短视频生成的精确内容控制。To2V 基于预训练的文本引导视频生成模型 CogVideoX,并包含两个关键组件:
- 视频Tokenizer(Video Tokenizer):将输入视频片段编码为紧凑的语义Token。
- 交叉注意力分支(Cross-Attention Branch):与CogVideoX集成,实现语义Token与噪声潜在表示(noisy latents)之间的交叉注意力。
视频Tokenizer视频Tokenizer由以下部分组成(如上图3右侧所示):
- 3D因果变分自编码器(3D-VAE)
- 分块模块(Patchify Module)
- 重采样器(Resampler)
交叉注意力分支为有效将语义Token与 CogVideoX 结合添加了一个独立的交叉注意力分支来处理新增的语义条件。该分支包含:
- 语义Token自适应层归一化(Sem AdaLN)
- 3D交叉注意力模块(3D Cross-Attention Module)
流程如下:
T2To模型:长期内容一致性
片段间时间一致性
为解决这一问题,本文提出改进版 自适应FIFO(adaptive-FIFO),在去噪过程开始时采用自适应填充策略:
通过更好地对齐初始填充与模型学习到的分布,并确保部分填充分区的连续性,该方法实现了更平滑的片段过渡和更高的帧质量。
训练策略
对于 To2V模型,固定基础模型预训练模块的权重,仅训练视频Tokenizer的 重采样器(Resampler) 和 交叉注意力分支(Cross-Attention Branch)。对于 T2To模型,我们用基础模型的权重初始化,并训练所有模块。
本文采用与 CogVideoX 相似的训练策略,包括:
- 多分辨率帧打包(Multi-Resolution Frame Pack)
- 显式均匀采样(Explicit Uniform Sampling)
对于 T2To模型,我们将不同时长的视频打包到同一批次中,并应用注意力掩码(attention mask)标记有效帧,同时计算损失时也使用注意力掩码,以确保注意力模块聚焦于输入噪声潜在表示的正确区域(类似 Patch’n Pack 的方法)。对于 To2V 和 T2To模型,均采用显式均匀采样策略选择时间步(timesteps)。
实验结果
实现细节
基线对比
定性比较。本文将所提方法与多种近期多提示长视频生成方法对比,包括 Video-Infinity、DiTCtrl、Kling ,以及一个在 CogVideoX 上采用 FIFO-Diffusion并搭配自适应填充策略的基线。对于多提示方法,使用 GPT-4o 将提示分割为 24 段以指导每段生成。FIFO 和本文的方法使用相同文本提示(缩写为:“一个人骑马沿小径走向宁静的河流”)。结果如下图 5 所示。Video-Infinity 主要通过背景变化实现转场,但未能捕捉有意义的前景运动,人物和马在每段中基本静止,导致吸引力不足且叙事漂移。DiTCtrl 展示了间歇对齐的关键帧,但片段间转场生硬,造成突兀场景切换和情节断裂。Kling 生成视觉一致的帧,但存在异常运动(如主体突然转向)和偶尔的场景构图不连续,破坏观看体验并偏离故事主线。FIFO(CogVideoX 上带自适应填充)随着视频延长出现逐渐过饱和及外观或色彩方案的突变,在生成复杂场景的数百帧时尤为明显。相比之下,本文的方法实现了更平滑的运动转场和主体表现,在整个分钟级序列中始终贴合提示。
定量比较
本文在 MiraData测试集中随机选取 100 条提示进行定量对比研究。如下表 1 所示,本文的方法在 VBench 的 Motion Smoothness 和 Dynamic Degree 指标上均获得最高分。注意到 VBench 中部分指标(如 Subject and Background Consistency 和 Temporal Flickering)可能对动态性较弱的视频评分更高,因此我们进一步开展用户研究以全面评估。用户研究中,为每种方法生成 12 个时长 1-2 分钟的视频结果,涵盖人物、车辆、自然场景等类别,所有视频均发布于项目网页。为确保无偏反馈,将视频随机排序后交由 24 名参与者评估,从文本-视觉对齐度、运动与内容一致性两个维度打分。如表 1 右侧所示,本文的方法在两项指标上均显著优于基线,体现了其长程控制能力。这些结果表明,本文的方法能有效保持与文本提示的语义对齐,同时在长序列中维持平滑运动与稳定内容。
消融实验
FIFO 消融。本文对比三种变体:(1) 完全禁用 FIFO,(2) 使用 FIFO 但无自适应填充,(3) 完整方案(FIFO+自适应填充)。下图 7 显示,禁用 FIFO 会导致片段间场景突变,出现主体瞬移或背景跳变;移除自适应填充则会在视频初始帧引入严重伪影(因模型依赖偏离训练分布的重复帧),这些伪影会传播至后续帧。而我们的自适应填充策略使填充帧符合模型分布,有效消除片段边界的不连续现象。
长视频编辑
除生成全新内容外,本文的方法可灵活适配多种长视频编辑场景。To2V 模型能够将文本提示与源视频数据结合,在保留原始素材核心结构的同时注入新语义。如下图 8 所示,直接将目标文本提示与源视频作为输入条件生成编辑后的长视频。更多结果详见项目网页。
结论与讨论
TokensGen——一个两阶段框架,通过 To2V 模型生成文本和视频提示引导的短视频片段以捕捉细粒度运动与内容,T2To模型利用压缩语义token保持片段间长程一致性,结合自适应 FIFO-Diffusion 策略维持时序连续性,从而解决长视频生成中的片段语义控制、长程连贯性与平滑过渡等关键挑战。该流程可高效扩展预训练短视频模型至长视频场景,实现可扩展、灵活且资源高效的生成方案。
尽管 TokensGen 能有效保持长程一致性,但仍存在细粒度细节流失问题:聚焦高层语义的 token 可能导致长序列中前景对象的渐进变化(详见附录)。复杂场景中,其捕捉精细时空线索的能力可能不足,需探索超越免调参 FIFO 的细粒度 token 化与短期一致性策略。当前框架仅在游戏画面和自然景观数据集上验证,但可扩展至更大规模数据。未来工作可探索多尺度 token 化或混合表示,在保持可扩展性与资源效率的同时增强细粒度可控性。
本文转自AI生成未来 ,作者:AI生成未来
