优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!

发布于 2025-5-9 08:41
浏览
0收藏

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

文章链接:https://arxiv.org/pdf/2505.04512 
项目链接:https://hunyuancustom.github.io/ 

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

亮点直击

  • 多模态条件融合: 首次实现图像、音频、视频、文本四模态联合驱动的定制视频生成,突破传统单模态(如图像)限制。
  • 身份一致性强化: 通过时序拼接和跨帧特征增强,显著提升生成视频中主题的ID一致性,优于开源和商业模型。
  • 模块化条件注入: 提出AudioNet和视频Patchify对齐等独立模块,实现多模态条件的高效解耦与融合,兼顾灵活性与性能。

效果速览

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

总结速览

解决的问题

  • 身份一致性不足:现有视频生成方法在生成特定主题视频时难以保持身份(ID)一致性。
  • 输入模态单一:多数方法仅支持图像驱动,缺乏对多模态(如音频、视频、文本)条件的灵活支持。
  • 可控性受限:现有模型在细粒度定制(如多主题生成、多模态对齐)上表现不佳,限制了实际应用。

提出的方案

基于HunyuanVideo的多模态定制视频生成框架,支持图像、音频、视频和文本条件输入。

  • 文本-图像融合模块:基于LLaVA实现多模态理解,增强文本与图像的交互。
  • 图像ID增强模块:通过时序拼接强化跨帧身份特征。
  • 多模态条件注入机制
  • AudioNet:通过空间交叉注意力实现分层音频-视频对齐。
  • 视频驱动模块:通过隐空间压缩和特征对齐网络整合条件视频。

应用的技术

  • 多模态理解:LLaVA-based文本-图像融合模块。
  • 时序建模:图像ID增强模块利用视频模型的时间序列信息传输能力。
  • 跨模态对齐
  • 音频-视频:AudioNet的层级特征对齐。
  • 视频-隐空间:基于VAE的压缩和Patchify特征对齐网络。

达到的效果

  • 身份一致性:在单主题和多主题场景中均显著优于现有方法(如ConsisID、VACE等)。
  • 多模态支持:支持图像、音频、视频、文本的灵活组合输入,生成高质量视频。
  • 下游任务鲁棒性:在音频驱动、视频驱动等任务中表现优异,适用于广告、虚拟试穿等实际场景。

方法

概述

HunyuanCustom是一个以主体一致性为核心的多模态定制生成模型,基于Hunyuan视频生成框架构建。如下图2所示,它能够根据文本、图像、音频和视频输入生成主体一致的视频。具体而言,HunyuanCustom引入了基于LLaVA的图像-文本融合模块,促进图像与文本的交互,使图像中的身份信息能有效融入文本描述。此外,还提出了身份增强模块,该模块沿时间轴拼接图像信息,并利用视频模型的高效时序建模能力来增强视频中的主体身份。为支持音频和视频的条件注入,HunyuanCustom为每种模态设计了独立的注入机制,这些机制与图像级身份条件模块有效解耦。最终,HunyuanCustom实现了对图像、音频和视频条件的解耦控制,在面向主体的多模态视频定制中展现出巨大潜力。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

多模态任务

HunyuanCustom支持来自文本、图像、音频和视频的条件输入。所有任务均建立在生成ID一致性视频的能力基础上。任务可分为以下4类:

  • 文本驱动视频生成:文本到视频的生成能力源自基础模型HunyuanVideo,支持生成与给定文本提示对齐的视频;
  • 图像驱动视频定制:HunyuanCustom的核心能力是接收输入图像、提取身份信息,并在文本描述引导下生成与该身份对应的视频,从而实现定制化视频生成。HunyuanCustom同时支持人类和非人类身份,并进一步允许多身份输入,实现多主体交互生成;
  • 音频驱动视频定制:在主体定制基础上,HunyuanCustom将音频作为附加模态。给定人类身份、文本提示和对应音频,系统可使主体在文本描述的上下文中执行与音频同步的动作(如说话、演奏、唱歌)。这通过允许指定身份在任意场景和动作中自由表现,显著增强了可控性,扩展了传统音频驱动的人体动画;
  • 视频驱动视频定制:HunyuanCustom还支持视频到视频生成,通过基于身份定制的对象替换或插入实现。给定源视频和指定目标身份的图像,系统可将视频中的对象替换为指定身份。此外,它还能根据文本引导将身份插入背景视频,实现灵活的对象添加。

多模态数据构建

本文的数据经过严格的处理流程,以确保高质量的输入从而提升模型性能。实验结果表明,高质量数据在主体一致性、视频编辑和音频驱动视频生成等任务中起着关键作用。虽然不同任务可能遵循各自特定的数据处理步骤,但初始处理阶段是共通的,关键差异在于后续步骤。鉴于此,本节将深入探讨视频数据准备的详细方法,重点关注共享的预处理技术以及为不同任务设计的特定后处理方案。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

本文的数据来源多样,为确保严格遵守《通用数据保护条例》(GDPR)框架的原则,我们采用数据合成和隐私保护计算技术来规范数据收集过程。原始数据涵盖广泛领域,主要包括八大类别:人类、动物、植物、景观、车辆、物体、建筑和动漫。除自行收集的数据外,我们还严格筛选并处理了开源数据集(如OpenHumanvid),显著扩展了数据分布的多样性并提升了模型性能。实验结果证实,引入高标准数据对实现模型性能的显著提升至关重要。


数据过滤与预处理。由于我们的数据集分布广泛且包含开源数据,视频的时长、分辨率和质量存在显著差异。为解决这些问题,本文实施了一系列预处理技术。首先,为避免训练数据中的转场,使用PySceneDetect将原始视频分割为单镜头片段。针对视频中的文本区域,采用textbpn-plus-plus过滤掉文本过多的片段,并裁剪包含字幕、水印和标识的视频。由于视频尺寸和时长分布不均,进行了裁剪和对齐,将短边标准化为512或720像素,并将视频长度限制为5秒(129帧)。最后,考虑到PySceneDetect无法检测渐变转场且textbpn-plus-plus对小文本检测能力有限,同时为确保美学质量、运动幅度和场景亮度,使用koala-36M模型进一步优化。然而,由于koala-36M的训练数据与我们的数据集存在差异,且其缺乏对美学质量和运动幅度的细粒度评估,我们建立了自己的评估标准,针对数据集设定0.06的koala阈值以进行精细过滤。实验结果证实了我们的数据选择和处理方法对提升模型性能的重要性。

主体提取
单主体提取:为从视频中提取主要主体,首先使用Qwen7B模型标注每帧中的所有主体并提取其ID。随后,采用聚类算法(如并查集)计算每个ID在帧中的出现频率,选择出现次数最多的ID作为目标主体。必要时可选择多个ID;但如果所有ID的出现次数均低于预设阈值(如50帧),则丢弃该视频。接着,我们使用YOLO11X进行人体分割以获取边界框,并利用InsightFace检测人脸位置并生成人脸边界框。若人脸边界框在人体边界框中的占比小于0.5,则认为YOLO11X的检测结果有误,并丢弃相应边界框。


非人类主体提取:对于非人类主体,使用QwenVL从视频中提取主体关键词,并采用GroundingSAM2基于这些关键词生成掩码和边界框。若边界框尺寸小于源视频尺寸的0.3倍,则将其丢弃。为确保训练数据的类别分布均衡,我们使用QwenVL将主体分类为八大预定义类别之一:动物、植物、景观、车辆、物体、建筑和动漫,随后对这些类别进行平衡采样以实现公平分布。


多主体提取:针对多主体场景,使用QwenVL从单人数据集中筛选涉及人与物体交互的视频。由于需要将视频描述中的主体关键词与图像中的关键词对齐,直接使用QwenVL重新提取主体关键词可能导致与视频提示中的关键词错位。因此,采用Florence2提取视频描述中所有提及主体的边界框,随后使用GroundingSAM2对这些边界框区域进行主体提取。接着应用聚类算法移除不包含所有主体的帧。为解决硬拷贝问题,使用视频前5秒进行模型训练,后续15秒用于主体分割。


视频分辨率标准化。首先基于所有主体边界框计算联合边界框,并确保裁剪区域至少包含联合边界框面积的70%。为使模型支持多分辨率输出,本文定义了多种宽高比,包括1:1、3:4和9:16。


视频标注。本文采用HunYuan团队开发的结构化视频标注模型对视频进行标注。该模型提供详细的描述信息,包括视频的长描述、短描述、背景风格和镜头运动描述。在训练过程中,这些结构化标注用于增强视频描述,从而提升模型的鲁棒性和性能。


掩码数据增强。在视频编辑中,直接使用提取的主体掩码进行训练可能导致对不同类型或形状的物体替换过拟合。例如,将无耳朵的玩偶替换为有耳朵的玩偶时,生成的视频可能仍显示无耳朵的玩偶,这与预期结果不符。因此,在训练过程中,我们采用掩码膨胀或将掩码转换为边界框等技术以软化掩码边界。这些方法有助于在最终视频中实现更真实且符合预期的编辑效果。通过此类增强策略,我们旨在缓解过拟合问题,并确保编辑后的视频更贴近预期。这一方法提升了模型在不同物体类型和形状上的灵活性与适用性。


音频数据处理。首先,利用LatentSync评估片段中音频与视频的同步性。丢弃同步置信度分数低于3的视频,并将音视频偏移调整为零。同时,计算hyperIQA质量分数,并移除分数低于40的视频以确保数据高质量。最后,使用Whisper提取音频特征,这些特征将作为后续模型训练的输入。

图像驱动的视频定制

HunyuanCustom的核心任务是基于输入图像I(代表特定身份)和文本描述T生成视频。关键挑战在于使模型有效理解图像中嵌入的身份信息,并将其与文本上下文结合以实现交互式理解。为此,HunyuanCustom引入了基于LLaVA的文本-图像交互模块,促进视觉与文本输入的联合建模,从而增强模型对身份及伴随描述的理解。此外,还引入了身份增强模块,将图像衍生的特征沿视频序列传播,利用视频模型的时序建模能力强化生成视频中的身份一致性。


基于LLaVA的文本-图像交互。在视频定制任务中,有效整合图像-文本信息是此前定制方法的关键难点。这些方法要么缺乏对图像与文本交互理解的设计,要么依赖额外训练的分支网络实现交互。HunyuanCustom利用Hunyuan Video在LLaVA文本空间中训练的文本理解能力,结合LLaVA固有的多模态交互理解能力,通过将HunyuanVideo的原始文本输入扩展为图像与文本双输入,基于LLaVA出色的多模态理解能力实现有效的图文交互理解。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区


身份增强。LLaVA模型作为多模态理解框架,旨在捕捉文本与图像的相关性,主要提取类别、颜色、形状等高层次语义信息,但常忽略文本、纹理等细节。然而在视频定制中,身份高度依赖这些图像细节,仅靠LLaVA分支难以保持身份一致性。为此,我们提出身份增强模块:通过在时间轴上拼接视频隐变量与目标图像,并利用视频模型在时间维度的高效信息传递能力,有效增强视频身份一致性。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

模型能力扩展

为使模型具备更广泛的表征能力并学习更复杂的模式,我们对预训练视频生成模型和LLaVA模型的权重进行全参数微调,充分释放其潜力以提供更优的视频定制效果。

多模态主体中心视频生成

现有视频定制方法主要聚焦主体身份保持,缺乏对主体驱动生成的深入探索。我们进一步研究以多模态音视频信息为条件、围绕主体身份实现图像-音频-视频联合驱动的特定主体生成。

音频驱动视频定制

音频是视频生成不可或缺的组成部分。现有音频驱动人体动画模型通常以人物图像和音频为输入,使图像人物说出对应语音。但这种图像-视频范式导致生成视频中人物的姿势、服饰和场景与输入图像完全一致。借助HunyuanCustom对角色身份信息的有效捕获与保持,我们整合音频输入实现文本描述场景中角色说话的视频生成,称为音频驱动视频定制。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

视频驱动视频定制

实际视频创作中,编辑常涉及修改视频主体的外观与运动,这与HunyuanCustom的主体生成能力天然契合。视频蕴含丰富的时空信息,对内容提取与生成模型集成提出双重挑战。现有方法如VACE通过适配器模块注入视频条件,导致计算成本翻倍;而[Bai et al., 2025a]将条件视频与生成片段隐变量沿时间轴拼接,引发序列长度倍增与注意力计算平方增长。HunyuanCustom采用更高效的视频条件注入策略:先通过预训练因果3D-VAE压缩条件视频,经特征对齐后直接加至噪声视频隐变量,实现高效视频条件融合。

视频隐变量特征对齐

条件视频作为无噪声输入,其特征通过预训练因果3D-VAE编码器提取,经HunyuanVideo视频分词器压缩序列化后,由四层全连接网络映射至隐空间,与噪声视频隐变量对齐。

身份解耦视频条件注入

我们探索两种注入策略:(1) 沿token维度拼接条件视频特征与视频隐变量后降维;(2) 沿时间轴逐帧直接相加。实验表明加法策略能更有效保留内容信息。得益于特征对齐预处理,条件视频特征与视频隐变量高度匹配,支持轻量化高效注入。

实验

实现细节

评估指标

  • 身份一致性:使用Arcface计算参考人脸与生成视频各帧嵌入的平均余弦相似度
  • 主体相似度:通过YOLOv11检测人体区域,计算DINO-v2特征相似度
  • 文本-视频对齐:采用CLIP-B评估文本提示与生成视频的匹配度
  • 时序一致性:基于VBench,用CLIP-B计算帧间相似度
  • 动态程度:参照VBench计算物体运动量

单主体视频定制对比实验

基线方法

与当前最优视频定制方法对比,包括商业产品(Vidu 2.0、Keling 1.6、Pika、Hailuo)和开源方法(Skyreels-A2、VACE)。每组生成100个人类身份视频和100个非人类身份视频以全面评估方法通用性。

定性对比

下图4-5显示:Vidu、Skyreels A2与我们的方法在提示对齐和主体一致性上表现较好,但得益于基础模型Hunyuanvideo-13B的优异生成能力,我们的视频质量更优。商业产品中,Keling存在首帧复制粘贴(图4第2行)和主体移动模糊问题(图5第2行);Pika一致性差且易出现字幕异常;Hailuo仅能保持面部ID一致性。开源方法VACE无法保持ID一致性(图4第7行)。HunyuanCustom在保持身份一致性的同时兼具高质量与多样性。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

定量对比

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

多主体视频定制实验与应用

定性对比

下图6显示:Pika存在主体消失(男子)或动作失败(女子开门)问题;Vidu 与VACE丢失非人类物体细节;SkyReels A2帧不稳定且出现芯片变形。HunyuanCustom能同时保持人类与非人类主体身份,生成符合提示的高质量稳定视频。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

虚拟人广告应用

虚拟人体广告。利用我们的多主题定制能力,混元定制技术实现了以前方法无法实现的应用。一个重要的应用是虚拟人体广告,混元定制技术将人体图像和产品图像作为输入,生成相应的广告视频。结果如下图 7 所示,表明混元定制技术有效地保持了人体的身份,同时保留了目标产品的细节,包括其上的文字。此外,人与产品之间的互动看起来很自然,视频紧密地遵循给定的提示,突出了混元定制技术在生成广告视频方面的巨大潜力。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

音频驱动视频定制化实验

音频驱动的单主体定制。现有音频驱动人体动画方法需输入人物图像和音频,生成视频中人物的姿态、服饰及环境均与输入图像保持一致,无法生成其他姿态和场景的视频,限制了应用范围。相比之下,我们的HunyuanCustom支持音频驱动的人物定制,能够根据文本描述的场景和姿态生成人物口型与输入音频同步的视频,实现更灵活可控的音频驱动人体动画。如下图8所示,HunyuanCustom生成的视频既严格遵循文本提示,又完美保持人物身份特征。该系统可有效实现与其他物体(第3-4行)或人类(第5-6行)的交互,这一特性将显著提升其在直播和广告领域的应用价值。此外,模型能生成多样化场景和姿态的视频:例如明朝背景场景(第7行)中人物自动穿着符合时代特征的服饰而无需显式提示,第8行则展示了与输入图像神态迥异但生动逼真的女性表情。这证明了HunyuanCustom强大的世界建模和泛化能力。综上,音频驱动HunyuanCustom可在保持身份特征的前提下,根据文本提示生成涵盖多样场景和姿态的高差异化视频。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

音频驱动虚拟试穿。基于其多主体定制能力,HunyuanCustom还支持音频驱动的多主体视频定制,具有广泛的应用前景。本文进一步探索其在文本和音频双驱动下的虚拟试穿生成能力。下图9结果显示,该系统成功将虚拟试穿与音频驱动视频生成相结合,在自然呈现指定服饰的同时完美保持目标人物身份特征,并与给定音频实现生动口型同步,彰显了其多模态视频定制能力的优越性。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

视频驱动视频定制化实验

视频主体替换。依托强大的主体一致性保持能力,HunyuanCustom还支持视频驱动的视频编辑,可应用于多种场景。我们在视频主体替换任务上对比了HunyuanCustom与VACE和Keling的性能,该任务需要输入源视频、指定替换区域的物体掩码以及目标主体图像。如下图10所示,VACE因严格遵循输入掩码导致边界伪影,使得主体形状不自然且运动连续性断裂;Keling则呈现"复制-粘贴"效应,主体直接叠加在视频上导致背景融合生硬。相较之下,HunyuanCustom有效避免了边界伪影,实现与视频背景的无缝融合,并保持优异的主体身份特征——这证明了其在视频编辑任务中的卓越性能。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

消融实验

本文在主体定制任务上进行了消融研究,对比三个变体模型:(1)去除LLaVA的模型;(2)去除身份增强模块的模型;(3)采用通道级拼接而非时序拼接进行身份增强的模型。下图11结果显示,去除LLaVA的模型身份保持能力显著下降,表明LLaVA不仅传递提示信息,更能提取关键身份特征——该变体完全未能捕获目标图像的重要细节。保留LLaVA但去除身份增强的模型虽能捕捉全局身份信息,却丢失细节特征,印证了身份增强模块对细节优化的有效性。最后,采用通道拼接替代时序拼接的模型生成质量较差:虽能保持身份特征,但初始帧存在严重模糊效应(与Vidu的结果类似),这说明时序拼接能通过强时序建模先验有效捕获目标信息,同时最小化对生成质量的影响。综上,我们的模型在确保高生成质量的同时,成功捕获全局和局部身份细节,充分验证了设计有效性。

优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!-AI.x社区

结论

本研究提出HunyuanCustom——一种新型多模态定制视频生成模型,攻克了主体一致性视频生成的关键技术难题,实现了以身份特征为核心的多模态视频定制。通过将图像、音频和视频模态与文本驱动条件机制相结合,HunyuanCustom构建了一个可生成高保真身份特征视频的鲁棒框架。该模型整合了文本-图像融合模块、图像身份增强模块以及高效的音视频特征注入流程,确保生成视频既严格遵循用户需求,又兼具高度真实性与灵活性。


大量实验表明,HunyuanCustom在单主体/多主体生成、音频驱动/视频驱动视频定制等任务中均超越现有方法。其在身份一致性、真实度及视频-文本对齐等方面的卓越表现,确立了其作为可控视频定制领域领先解决方案的地位。本工作为可控视频生成的后续研究开辟了新路径,进一步拓展了人工智能生成内容(AIGC)在创意产业等领域的应用潜力。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/fLhq8CetSDiG25kmj8vdow​

已于2025-5-9 08:43:06修改
收藏
回复
举报
回复
相关推荐