Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘精华

发布于 2024-5-9 09:47

浏览

0收藏

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

文章链接：https://arxiv.org/pdf/2405.04233
开源地址：https://www.shengshu-ai.com/vidu

Vidu是中国首个长视频生成AI大模型，由清华大学与生数科技联手发布，前段时间就已经发布了很多效果展示，非常惊艳，这次新挂出来的一篇解读文章，对Vidu使用的技术进行了一个介绍，在这里和大家一起学习下。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

本文引入了 Vidu，一个高性能的文本到视频生成器，能够在单次生成中生成长达 16 秒的 1080p 视频。Vidu 是一个扩散模型，其骨干是 U-ViT，这使其具备了处理长视频的可扩展性和能力。Vidu 具有很强的连贯性和动态性，并且能够生成逼真和富有想象力的视频，以及理解一些专业摄影技术，与 Sora——最强大的报告过的文本到视频生成器相当。最后，对其他可控视频生成进行了初步实验，包括边缘检测到视频生成、视频预测和主体驱动生成，展示了有希望的结果。

介绍

扩散模型在生成高质量图像、视频和其他类型的数据方面取得了突破性进展，超越了自回归网络等替代方法。以前，视频生成模型主要依赖于具有 U-Net 骨干的扩散模型，并专注于像 4 秒这样的单一有限时长。本文的模型，Vidu，证明了一个以 U-ViT 为骨干的文本到视频扩散模型可以通过利用transformer的可扩展性和长序列建模能力打破这种持续时间限制。Vidu 能够在单次生成中生成长达 16 秒的 1080p 视频，以及单帧图像作为视频。

此外，Vidu 具有很强的连贯性和动态性，能够生成逼真和富有想象力的视频。Vidu 还初步理解了一些专业摄影技术，如过渡效果、摄像机移动、光影效果和情感表现。在某种程度上，Vidu 的生成性能与目前最强大的文本到视频生成器 Sora 相当，远远优于其他文本到视频生成器。最后，对其他可控视频生成进行了初步实验，包括边缘检测到视频生成、视频预测和主体驱动生成。所有这些都展示出了有希望的结果。

文本到视频生成

Vidu 首先采用视频自编码器来减少视频的空间和时间维度，以实现高效的训练和推断。在此之后，Vidu 使用 U-ViT 作为噪声预测网络来建模这些压缩表示。具体来说，如下图 1 所示，U-ViT 将压缩视频分割成 3D patch，将所有输入（包括时间、文本条件和嘈杂的 3D patch）视为token，并在transformer的浅层和深层之间使用长跳越连接。通过利用变长序列处理的transformer的能力，Vidu 可以处理持续时间不同的视频。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

Vidu 在大量的文本-视频对上进行训练，但是由人类标注所有视频是不可行的。为了解决这个问题，首先训练了一个针对理解视频中动态信息进行优化的高性能视频标题生成器，然后使用这个标题生成器自动标注所有的训练视频。在推断过程中，应用了重新标题技术将用户输入重新表述为更适合模型的形式。

生成不同长度的视频

由于 Vidu 是在各种长度的视频上进行训练的，因此它可以生成长达 16 秒的所有长度的 1080p 视频，包括单帧图像作为视频。在下图2中呈现了示例。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

3D一致性

Vidu 生成的视频展现出强大的3D一致性。随着摄像机的旋转，视频呈现出同一对象在不同角度的投影。例如，如下图3所示，随着摄像机的旋转，生成的猫的头发自然地被遮挡。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

生成切换

Vidu 能够生成包含切换的视频。如下图4所示，这些视频通过切换摄像机角度呈现同一场景的不同视角，同时保持场景中主题的一致性。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

生成过渡效果

Vidu 能够在单次生成中生成带有过渡效果的视频。如下图5所示，这些过渡效果可以以引人入胜的方式连接两个不同的场景。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

摄像机运动

摄像机运动涉及在拍摄过程中对摄像机的物理调整或移动，增强了视觉叙事，传达了场景内不同的视角和情感。Vidu 从数据中学习了这些技术，增强了观众的视觉体验。例如，如图6所示，Vidu 能够生成包括变焦、平移和摄影机在内的摄像机运动的视频。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

光影效果

Vidu 能够生成带有令人印象深刻的光影效果的视频，这有助于增强整体氛围。例如，如下图7所示，生成的视频可以唤起神秘和宁静的氛围。因此，除了视频内容中的实体外，Vidu 还具有传达一些抽象情感的初步能力。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

情感刻画

Vidu 能够有效地描绘角色的情感。例如，如下图8所示，Vidu 能够表达诸如快乐、孤独、尴尬和喜悦等情感。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

想象力

除了生成现实世界的场景外，Vidu 还具有丰富的想象力。如下图9所示，Vidu 能够生成在现实世界中不存在的场景。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区

与 Sora 的比较

Sora目前是最强大的文本到视频生成器，能够生成高清晰度的视频，并具有很高的一致性。然而，由于 Sora 不是公开可访问的，通过直接将 Sora 发布的示例提示插入到 Vidu 中来进行比较。下图10和图11描述了 Vidu 和 Sora 之间的比较，表明在某种程度上，Vidu 的生成性能与 Sora 相当。

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘-AI.x社区