
碾压SOTA!腾讯HunyuanVideo-Foley开源:让视频自动生成电影级音效,沉浸感拉满! 精华
文章链接:https://arxiv.org/abs/2508.16930
项目链接:https://szczesnys.github.io/hunyuanvideo-foley/
亮点直击
- 提出了一种高效的TV2A数据pipeline,能够自动整理包含10万小时级别文本-视频-音频对的大规模高质量数据集。
- 引入了一种REPA损失函数,利用预训练音频特征为音频建模过程提供语义和声学指导,有效提升音频生成质量与稳定性。
- 提出了HunyuanVideo-Foley,一种新颖的TV2A框架,能够从视频和文本输入生成高质量、语义和时序对齐的音频。本方法缓解了模态不平衡问题,显著增强了视觉-语义对齐能力,同时保持文本-语义对齐性能,实现了SOTA表现。
总结速览
解决的问题
- 多模态数据稀缺:现有公开数据集(如VGGSound)规模小、质量低,缺乏高质量的视频-音频-文本多模态数据,限制了模型的泛化能力。
- 模态不平衡:现有方法过度依赖文本模态,忽视视频语义,导致生成的音频与视频内容在细节上不一致(如忽略画面中的脚步声、鸟鸣等)。
- 音频质量不足:现有方法生成的音频存在背景噪声和语义不一致的伪影,无法达到专业级音效标准。
提出的方案
HunyuanVideo-Foley,一个端到端的文本-视频-音频生成框架,主要包括:
- 构建大规模多模态数据集:通过自动化标注和过滤流程,构建了一个约10万小时的高质量文本-视频-音频数据集。
- 表示对齐策略(REPA):使用自监督音频特征对齐隐空间扩散模型的隐藏表示,提升音频质量和生成稳定性。
- 多模态扩散Transformer(MMDiT):设计双流音视频融合模块和文本语义注入机制,解决模态竞争问题,增强多模态对齐。
应用的技术
- 自动化数据pipeline:用于大规模多模态数据集的标注、清洗和构建。
- 自监督音频特征提取:使用预训练模型(如Li, Shao, and Li 2023)提取高质量音频表示,用于REPA对齐损失。
- 多模态扩散Transformer(MMDiT):
- 双流自注意力机制 + 旋转位置编码(RoPE)加强音视频时序对齐;
- 跨注意力机制注入文本语义。
- 增强型自编码器(基于DAC改进):将离散token改为连续128维表示,提升音频重建能力。
- 流匹配(flow-matching)训练范式:用于端到端的多模态音频生成。
达到的效果
- 音频保真度高:生成的音频质量显著提升,背景噪声减少,语义一致性增强。
- 多模态对齐能力强:
- 语义对齐:音频与视频内容细节一致(如同时生成海浪、脚步声、鸟鸣);
- 时序对齐:音频与视频动态精确同步。
- 生成稳定性提升:通过REPA损失和增强自编码器,提高了生成过程的稳定性和重建质量。
- 综合评估表现优异:在音频保真度、视觉-语义对齐、时序对齐和分布匹配等方面达到新的SOTA性能。
方法
TV2A数据pipeline
TV2A任务提出了一个复杂的多模态生成挑战,需要大规模、高质量的文本-视频-音频数据集来生成稳健且可泛化的音频。然而,当前开源数据集缺乏必要的质量和规模来充分支持这一高要求任务。为弥补这一差距,我们开发了一个全面的数据pipeline,旨在系统性地识别并排除不合适的内容。
如下图1所示,本文的多阶段过滤过程首先消除缺少音频流的视频。随后,采用场景检测算法对原始视频进行分割,然后将其切分为8秒间隔的片段。这些片段经过静音比率分析,超过80%静音阈值的片段将被丢弃。鉴于互联网平台上普遍存在严重压缩和质量下降的内容,实施带宽检测以确保音频质量,仅保留有效采样率超过32 kHz的样本。
音频质量是生成式音频任务中的关键因素。使用劣质设备捕获的视频通常表现出大量背景噪声和环境干扰,使其不适合生成影院级质量的音频。为解决这一问题,采用AudioBox-aesthetic-toolkit进行音频质量评估。此外,信噪比(SNR)测量作为补充指标。使用这些参数,凭经验设计了一个标准来过滤并仅保留高质量的音频片段。V2A领域的另一个挑战是确保音频-视频对齐,包括语义和时序对齐。利用ImageBind和AV-align分别处理语义和时序对齐。
经过上述过滤过程后,使用语音-音乐检测和音频分类模型对剩余视频片段进行标注。这些标注为每个片段提供类别标签,从而实现有效的类别分布管理并确保训练数据集中具有平衡的表征。随后,使用GenAU为每个片段生成音频字幕,提供音频内容的简明描述。利用此数据pipeline,构建了一个高质量的TV2A数据集,包含约10万小时的文本-视频-音频材料,为模型训练提供了稳健支持。
TV2A框架概述
为实现模态平衡和高质量的TV2A生成,引入了HunyuanVideo-Foley框架。如下图2所示,HunyuanVideo-Foley采用混合架构,包含N1个多模态Transformer块(视觉-音频流)和紧随其后的N2个单模态Transformer块(仅音频流)。在训练过程中,视频帧通过预训练的视觉编码器编码为视觉特征,而文本字幕通过预训练的文本编码器处理以提取语义特征。同时,原始音频经过音频编码器产生隐空间表示,这些表示受到加性高斯噪声的扰动。时序对齐机制利用源自Synchformer的帧级同步特征,通过门控调制路径协调生成过程。
模态平衡的MMDiT架构
交错RoPE确保模型能够有效捕获音频隐空间表示和视觉特征之间的固有时序结构,从而在生成过程中提高生成质量和时序一致性。
同步特征调制。该模型实现了一种结合调制和门控层的动态条件调节方案。条件信号c被表述为同步特征和流时间步嵌入的总和,如公式(2)所示:
该条件调节机制确保在多模态交互和单模态处理阶段均保持时序一致性。
REPA训练策略
通过最大化预训练表示与DiT层内部表示之间的余弦相似度,REPA损失能够在音频生成建模过程中提供更有效的语义和声学指导,从而增强语义对齐性和生成音频的质量。
实验
实验设置
自编码器。在自编码器框架中,我们开发了DAC-VAE,通过将DAC中的残差向量量化(RVQ)块替换为变分自编码器架构。该方法在隐空间采用高斯分布建模,并用KL散度正则化替代量化损失,从而实现连续编码。我们的DAC-VAE使用32个NVIDIA H20 GPU,批次大小为256,在约10万小时的音频数据上训练了70万步。采用AdamW优化器,学习率为1e-4进行优化。实现的系统工作在48kHz采样率下,隐空间向量维度为128,潜在速率为50Hz。
实现细节。HunyuanVideo-Foley包含18个MMDiT层和36个单模态音频DiT层,隐藏维度为1536,12个注意力头。训练在128个H20 GPU上进行,有效批次大小为2048,在我们提出的数据pipeline构建的10万小时级别TV2A数据集上训练20万步,使用AdamW优化器,学习率为1e-4。我们对每种模态应用了0.1的分类器无关引导(CFG)丢弃率。为进行评估,在Kling-Audio-Eval、VGGSound测试集和MovieGen-Audio-Bench上对HunyuanVideo-Foley与现有SOTA模型进行了客观指标比较。此外,在MovieGen-Audio-Bench上进行主观测试,通过人工评估来感知质量。
评估指标。为进行全面评估,采用多维度指标套件,评估关键维度:使用PANNs和PaSST作为特征提取器,通过Fr`echet 距离(FD)和Kullback-Leibler散度(KL)进行分布匹配;通过使用PANNs分类器计算的Inception Score(IS)以及包含制作质量(PQ)、制作复杂度(PC)、内容享受度(CE)和内容有用性(CU)的AudioBox-Aesthetics来测量音频质量;通过ImageBind(IB)量化视觉-语义对齐性,测量输入视频与生成音频嵌入之间的余弦相似度;通过Synchformer预测的DeSync评估时序对齐性;通过LAION-CLAP分数(Wu等人2024)评估文本-语义一致性。对于主观评估,我们采用平均意见得分(MOS)来评估音频质量(MOS-Q)、语义对齐性(MOS-S)和时序对齐性(MOS-T)。在音频重建方面,我们采用语音质量感知评估(PESQ)、短时客观可懂度(STOI)、尺度不变信号失真比(SI-SDR)和梅尔距离。
主要结果
文本-视频-音频生成。下表1展示了在Kling-Audio-Eval数据集上的客观评估结果。与基线相比,HunyuanVideo-Foley在多个指标上表现出优越性能,包括分布匹配(FD、KL)、音频质量(PQ)、视觉-语义对齐(IB)和时序同步(DeSync)。与当前最先进模型MMAudio相比,HunyuanVideo-Foley在IS、CE和CLAP分数上表现稍逊,但在FD(9.01到6.07)、KL(2.17到1.89)和IB(0.30到0.38)分数上实现了显著改进。
下表2显示了在VGGSound-Test上的客观评估。值得注意的是,HunyuanVideo-Foley在分布匹配指标(FD、KL)上表现不如某些基线,但在音频质量指标(IS、PQ)上领先。这种差异可能源于VGGSound中的大多数音频样本使用非专业设备录制,导致音频质量普遍较差,与HunyuanVideo-Foley的输出存在显著分布差距。尽管如此,本文的模型在IB分数上保持SOTA性能,同时在DeSync和CLAP指标上取得了可比结果。
下表3展示了在MovieGen-Audio-Bench上的客观和主观评估结果。HunyuanVideo-Foley展现出卓越的生成质量,在几乎所有客观指标和所有主观评估中均优于基线。与强基线MMAudio相比,本文的模型在音频质量(PQ)、时序对齐(DeSync)和视觉-语义对齐(IB)方面表现出显著改进,同时在文本-语义对齐(CLAP)方面保持相当性能。
在所有三个数据集上的综合评估表明,HunyuanVideo-Foley在视觉-语义对齐(IB)方面相比所有基线均实现了实质性改进。本文的模型还在音频质量(PQ)和时序对齐(DeSync)方面领先,同时保持具有竞争力的文本语义对齐(CLAP)。在分布匹配方面,HunyuanVideo-Foley在Kling-Audio-Eval数据集上实现了最佳性能。这些结果共同证明HunyuanVideo-Foley在TV2A生成中确立了新的最先进性能。
音频重建。对于音频重建,在DAC与Stable Audio Open采用的连续VAE之间进行了比较研究。评估涵盖三个不同领域:用于一般声音的AudioSet、用于音乐的Song Describer和用于语音场景的LibriTTS-Clean测试集。如下表4所示,提出的DAC-VAE在三个评估集的所有指标上均实现了优越性能。这些实验验证了DAC-VAE在不同音频领域提供稳健的重建性能,确立了其作为通用音频重建框架的有效性。
消融研究
为深入研究不同模型架构对性能的影响并验证所提出设计的有效性,我们在MovieGen-Audio-Bench上进行了细致的消融实验。消融研究主要关注MMDiT中的多模态条件调节方法、单模态音频DiT的有效性以及表示对齐的最佳实现策略。
模型架构。对于MMDiT的架构,设计了两个替代实验:(1) 采用联合自注意力进行文本-音频-视频三流模态对齐;(2) 使用并行交叉注意力分别对齐音频-文本和音频-视频模态。所有配置保持相同的实验设置,排除REPA并采用单模态DiT。如下表5所示,所提出的方法(首先通过联合注意力实现音频-视频对齐,然后通过交叉注意力将文本特征注入到音频-视频序列中)在大多数指标上优于替代方案,特别是在时序对齐(DeSync)方面表现出显著改进。此外,当用传统RoPE策略替换交错RoPE时,我们观察到各项指标性能下降,证实交错RoPE有效增强了音频-视频模态对齐。为验证单模态Transformer的有效性,我们进一步用音频-视频双流DiT替换单模态DiT。结果显示,仅音频Transformer相比替换方法实现了更优性能。
表示对齐。对于表示对齐,比较了两种广泛使用的预训练音频自监督模型:EAT和ATST。表6显示使用ATST可获得最佳结果,在音频质量、时序对齐和文本-语义对齐方面均有明显改进。值得注意的是,结合EAT和ATST会导致大多数指标性能下降,这归因于两个模型间特征分布的差异,使其无法在表示对齐过程中提供稳健指导。此外,研究了在不同阶段和层应用REPA的效果。下表7中的结果显示,当在单模态DiT中应用REPA时可获得最佳性能,其他观察表明当应用于单模态块的较浅层时效果更好。
讨论
平衡的视觉与文本语义。HunyuanVideo-Foley的结构创新源于其对视觉和文本特征注入采用差异化注意力机制的战略性使用。该方法有效解决了生成音频过度依赖文本语义而忽视视频语义的问题。实验表明,HunyuanVideo-Foley在视觉-语义对齐(IB)方面实现了卓越性能,同时保持了具有竞争力的文本-语义对齐,这表明联合注意力对于对齐与音频具有强时序对应关系的视频特征特别有效,而分离的交叉注意力则能更好地处理传达全局上下文信息的文本特征。
通过REPA策略和数据集扩展增强音频保真度。HunyuanVideo-Foley通过引入REPA训练策略显著提高了基于扩散的生成质量。该方法有效地将DiT的隐藏表示与稳健的自监督特征对齐。此外,本文提出的数据pipeline促进了高质量数据集的可扩展构建,进一步提升了模型性能。
结论
HunyuanVideo-Foley,一种带有REPA策略的新型TV2A框架,能够实现高保真音频生成,并平衡视觉动态与文本上下文的对齐。同时,提出了一种高效的数据pipeline,为TV2A数据扩展提供了稳健支持。综合实验结果表明,HunyuanVideo-Foley在文本-视频-音频生成中实现了新的SOTA性能,特别是在视频-语义对齐、时序同步和音频质量方面表现优异。
本文转自AI生成未来 ,作者:AI生成未来
