Vidu官方论文来了!媲美Sora的国产视频生成器背后技术探秘 精华
文章链接:https://arxiv.org/pdf/2405.04233
开源地址:https://www.shengshu-ai.com/vidu
Vidu是中国首个长视频生成AI大模型,由清华大学与生数科技联手发布,前段时间就已经发布了很多效果展示,非常惊艳,这次新挂出来的一篇解读文章,对Vidu使用的技术进行了一个介绍,在这里和大家一起学习下。
本文引入了 Vidu,一个高性能的文本到视频生成器,能够在单次生成中生成长达 16 秒的 1080p 视频。Vidu 是一个扩散模型,其骨干是 U-ViT,这使其具备了处理长视频的可扩展性和能力。Vidu 具有很强的连贯性和动态性,并且能够生成逼真和富有想象力的视频,以及理解一些专业摄影技术,与 Sora——最强大的报告过的文本到视频生成器相当。最后,对其他可控视频生成进行了初步实验,包括边缘检测到视频生成、视频预测和主体驱动生成,展示了有希望的结果。
介绍
扩散模型在生成高质量图像、视频和其他类型的数据方面取得了突破性进展,超越了自回归网络等替代方法。以前,视频生成模型主要依赖于具有 U-Net 骨干的扩散模型,并专注于像 4 秒这样的单一有限时长。本文的模型,Vidu,证明了一个以 U-ViT 为骨干的文本到视频扩散模型可以通过利用transformer的可扩展性和长序列建模能力打破这种持续时间限制。Vidu 能够在单次生成中生成长达 16 秒的 1080p 视频,以及单帧图像作为视频。
此外,Vidu 具有很强的连贯性和动态性,能够生成逼真和富有想象力的视频。Vidu 还初步理解了一些专业摄影技术,如过渡效果、摄像机移动、光影效果和情感表现。在某种程度上,Vidu 的生成性能与目前最强大的文本到视频生成器 Sora 相当,远远优于其他文本到视频生成器。最后,对其他可控视频生成进行了初步实验,包括边缘检测到视频生成、视频预测和主体驱动生成。所有这些都展示出了有希望的结果。
文本到视频生成
Vidu 首先采用视频自编码器来减少视频的空间和时间维度,以实现高效的训练和推断。在此之后,Vidu 使用 U-ViT 作为噪声预测网络来建模这些压缩表示。具体来说,如下图 1 所示,U-ViT 将压缩视频分割成 3D patch,将所有输入(包括时间、文本条件和嘈杂的 3D patch)视为token,并在transformer的浅层和深层之间使用长跳越连接。通过利用变长序列处理的transformer的能力,Vidu 可以处理持续时间不同的视频。
Vidu 在大量的文本-视频对上进行训练,但是由人类标注所有视频是不可行的。为了解决这个问题,首先训练了一个针对理解视频中动态信息进行优化的高性能视频标题生成器,然后使用这个标题生成器自动标注所有的训练视频。在推断过程中,应用了重新标题技术将用户输入重新表述为更适合模型的形式。
生成不同长度的视频
由于 Vidu 是在各种长度的视频上进行训练的,因此它可以生成长达 16 秒的所有长度的 1080p 视频,包括单帧图像作为视频。在下图2中呈现了示例。
3D一致性
Vidu 生成的视频展现出强大的3D一致性。随着摄像机的旋转,视频呈现出同一对象在不同角度的投影。例如,如下图3所示,随着摄像机的旋转,生成的猫的头发自然地被遮挡。
生成切换
Vidu 能够生成包含切换的视频。如下图4所示,这些视频通过切换摄像机角度呈现同一场景的不同视角,同时保持场景中主题的一致性。
生成过渡效果
Vidu 能够在单次生成中生成带有过渡效果的视频。如下图5所示,这些过渡效果可以以引人入胜的方式连接两个不同的场景。
摄像机运动
摄像机运动涉及在拍摄过程中对摄像机的物理调整或移动,增强了视觉叙事,传达了场景内不同的视角和情感。Vidu 从数据中学习了这些技术,增强了观众的视觉体验。例如,如图6所示,Vidu 能够生成包括变焦、平移和摄影机在内的摄像机运动的视频。
光影效果
Vidu 能够生成带有令人印象深刻的光影效果的视频,这有助于增强整体氛围。例如,如下图7所示,生成的视频可以唤起神秘和宁静的氛围。因此,除了视频内容中的实体外,Vidu 还具有传达一些抽象情感的初步能力。
情感刻画
Vidu 能够有效地描绘角色的情感。例如,如下图8所示,Vidu 能够表达诸如快乐、孤独、尴尬和喜悦等情感。
想象力
除了生成现实世界的场景外,Vidu 还具有丰富的想象力。如下图9所示,Vidu 能够生成在现实世界中不存在的场景。
与 Sora 的比较
Sora目前是最强大的文本到视频生成器,能够生成高清晰度的视频,并具有很高的一致性。然而,由于 Sora 不是公开可访问的,通过直接将 Sora 发布的示例提示插入到 Vidu 中来进行比较。下图10和图11描述了 Vidu 和 Sora 之间的比较,表明在某种程度上,Vidu 的生成性能与 Sora 相当。
其他可控视频生成
还在 512 分辨率上进行了其他可控视频生成的几个初步实验,包括边缘检测到视频生成、视频预测和主体驱动生成。所有这些都展示了有希望的结果。
边缘检测到视频生成
Vidu 可以通过使用类似于 ControlNet的技术来添加额外的控制,如下图12所示。
视频预测
如下图13所示,Vidu 可以根据输入图像或几个输入帧(用红色框标记)生成后续帧。
主体驱动生成
令人惊讶的是,我们发现 Vidu 可以通过仅在图像而非视频上进行微调来执行主体驱动的视频生成。例如,我们使用 DreamBooth技术将学到的主题指定为特殊符号 <V> 进行微调。如下图14所示,生成的视频忠实地再现了学到的主题。
结论
Vidu,一个高清文本到视频生成器,展示了在各个方面的强大能力,包括生成的视频的持续时间、连贯性和动态性,与 Sora 相当。在未来,Vidu 仍有改进的空间。例如,细节方面偶尔会出现缺陷,视频中不同主体之间的交互有时偏离了物理规律。相信通过进一步扩展 Vidu,这些问题可以得到有效解决。
本文转自 AI生成未来 ,作者:Fan Bao等