ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成
文章链接:https:arxiv.orgpdf2507.15728项目链接:https:vicky0522.github.iotokensgenwebpage亮点直击TokensGen,通过压缩视频Token桥接短片段生成与长程一致性。To2V模型(片段级内容控制),基于预训练骨干网络(CogVideoX)构建的视频Tokenizer,将短片段编码为高语义密度的压缩Token。T2To模型(长程一致性控制),创新性设计视频Token扩散Transformer,直接从文本提示生成分钟级视频的完整Token序列。自适应FIFODiffusio...