
AI生成电影新革命!字节&港中文等提出Captain Cinema,当「无限记忆」打破〈盗梦空间〉的第四面墙
由约翰霍普金斯大学、字节跳动,斯坦福大学、香港中文大学联合提出的 Captain Cinema旨在创作具有专业电影级品质的多场景电影,同时 通过超长上下文记忆保持角色和场景的一致性。你可以成为导演,用您的想法、场景和角色重新制作任何电影。
创建你自己的宇宙
Captain Cinema可以将故事线分支成截然不同的路径,每条路径都保持着内在的一致性,同时又能探索不同的创意想象。
这部电影短片讲述了布鲁斯·韦恩、小丑和阿尔弗雷德·潘尼沃斯在宇宙中史诗般的星际之旅。根据叙事字幕,我们的模型首先渲染一致的关键帧场景,然后进行交错条件视频生成,最终输出 一部具有卓越视觉一致性的无缝多场景影片。
一致、稳健、流畅的电影生成
Captain Cinema将静态生成和运动任务分开,使我们的视频生成模型专注于运动合成,从而实现更一致、更稳健、 更流畅的电影生成。
关键帧级创意控制
Captain Cinema配备强大的图像编辑模型,将每个关键帧变成完全可编辑的画布 - 让您可以精确控制重新设计服装、完善角色或 品牌物体,然后将这些编辑完美地传播到整个镜头中。
论文名:Captain Cinema: Towards Short Movie Generation
相关链接
- 论文:https://arxiv.org/pdf/2507.18634
- 项目:https://thecinema.ai
论文介绍
Captain Cinema 是一个用于短片生成的生成框架。给定电影故事情节的详细文本描述,该方法首先生成一系列关键帧,概述整个叙事,以确保故事情节和视觉外观(例如场景和角色)的长距离连贯性。论文将此步骤称为自上而下的关键帧规划。然后,这些关键帧作为支持长上下文学习的视频合成模型的调节信号,以生成它们之间的时空动态。此步骤称为自下而上的视频合成。为了支持稳定高效地生成多场景长篇叙事电影作品,论文引入了一种针对多模态扩散变换器 (MM-DiT) 的交错训练策略,该策略专门针对长上下文视频数据进行了调整。 模型在一个由交错数据对组成的专门策划的电影数据集上进行训练。实验表明,Captain Cinema 在高质量、高效地自动创作视觉连贯且叙事一致的短片方面表现出色。
方法概述
Captain Cinema:“我可以拍一整天!” Captain Cinema 将自上而下的交错关键帧规划与自下而上的交错调节视频生成连接起来,向首个多场景、整部电影的生成迈进了一步,并在场景和身份识别方面保持了高度的视觉一致性。这里的所有电影帧都是生成的。
从整部电影中学习。这是一个从完整电影中处理的交错数据样本。数据流水线提取了跨场景的结构化叙事和视觉信息。每一帧都标注了详细的视觉描述,并标注了电影中的主要<角色名称>。
方法概述。 Captain Cinema 将自上而下和自下而上的交叉方法结合起来,实现单阶段多场景电影生成。它引入了一种混合注意力掩蔽策略,并结合 GoldenMem 上下文压缩,从而高效地学习和生成长电影。GoldenMem 标记的数量(指编码图像潜伏信息的短边)是展示逆斐波那契下采样的一个例子。
GoldenMem 压缩了上下文长度。 x 轴表示图文对的数量,y 轴表示 token 总数。初始分辨率为 400×800(高×宽)。
面向语义的上下文检索。在历史上下文检索方面,CLIP 文本转图像功能优于 T5 文本转文本功能。
实验结果
定性结果。从叙事提示“与布鲁斯·韦恩、小丑和阿尔弗雷德·潘尼沃斯的星际之旅”出发,Gemini 2.5 Pro 创作了镜头级描述,引导我们自上而下的关键帧生成器,最终生成如上所示的故事板面板。每个文本-关键帧对随后会调节我们自下而上的视频模型,该模型会合成完整的多场景影片。图中突出显示了 24 个代表性镜头,展现了整个制作过程中持续的叙事连贯性、人物保真度和视觉风格。
定量评估与用户研究。采用自动指标和平均人工排序 (AHR) 进行评估。“一致性”表示主体和背景一致性的平均得分。*:大多数视频片段的时间动态性较低,但在 VBench 指标上被评估为具有较高的时间一致性。
长上下文压力测试。 论文进行了长上下文压力测试,以测试长上下文生成的稳健性。使用 Gemini 2.5 Flash 从多个方面评估生成质量,并且使用 VBench 2.0 中引入的自动身份一致性指标。我们与 GoldenMem 的交错方法可以生成高质量的长上下文,并保持角色和场景的强一致性。
长上下文压力测试。尽管上下文长度变得很长,但该方法即使在延长的上下文长度下仍然保持了良好的视觉一致性、高视觉质量、多样性和叙事连贯性。
结论
Captain Cinema模型是基于自上而下的交错关键帧规划和自下而上的多关键帧条件化视频合成,用于生成短片。利用 GoldenMem 压缩视觉上下文、渐进式长上下文微调和动态步幅采样训练策略,该模型在保持全局叙事连贯性的同时,还能在整个长片中保留局部视觉保真度。Captain Cinema模型还展现了其在创意场景生成和跨电影角色交换方面的泛化能力。尽管存在上述局限性,但是Captain Cinema代表着朝着完全自动化、故事驱动的电影生成迈出的具体一步,并将启发未来的电影研究。
本文转载自AIGC Studio,作者:AIGC Studio
