
一张照片,秒变专属电影!字节最新Lynx黑魔法护航高保真个性化视频生成
论文链接:https://arxiv.org/pdf/2509.15496
Git链接:https://byteaigc.github.io/Lynx/
亮点直击
介绍了Lynx,一个高保真的个性化视频生成框架,旨在从单个输入图像中保留身份。Lynx 采用基于适配器的设计,具有两个专用组件:ID-adapter 和 Ref-adapter。ID-adapter 利用交叉注意力从单个面部图像中注入提取的身份特征。具体来说,面部嵌入使用面部识别模型获得,并通过感知器重采样器转换为一组紧凑的身份 token ,从而实现丰富且高效的表示学习。为了进一步增强细节保留,Ref-adapter 结合了从预训练的 VAE 编码器(继承自基础模型)中提取的参考特征。这些特征通过扩散骨干的冻结副本获得所有 DiT 块的中间激活,然后通过交叉注意力融合到生成过程中。
在训练中,采用多阶段渐进策略,并设计了一个时空帧打包方案,以有效处理不同纵横比和时间长度的图像和视频数据。
在一个精选的基准上评估了 Lynx,该基准包含 40 个多样化的主体和 20 个以人为中心的无偏见提示,总共产生了 800 个测试案例。面部相似性使用三个专业的面部识别模型进行评估。为了评估提示跟随和视频质量,本文构建了一个自动化Pipeline,使用 Gemini-2.5-Pro API 指导模型评分美学质量、动作自然性、提示对齐和整体视频质量。Lynx 在身份保留方面持续超越了最新的个性化视频生成方法,同时在提示对齐和整体视频质量上也表现出色。
总结速览
解决的问题
Lynx 旨在解决个性化视频生成中的身份保留问题。传统方法在生成视频时难以保持主体的身份一致性,而 Lynx 提供了一种从单一输入图像生成高保真个性化视频的解决方案。
提出的方案
Lynx 引入了两个轻量级适配器:ID-adapter 和 Ref-adapter。ID-adapter 使用 Perceiver Resampler 将 ArcFace 派生的面部嵌入转换为身份 token 以进行条件输入,Ref-adapter 则通过交叉注意力将冻结参考路径中的密集 VAE 特征整合到所有 transformer 层中,确保细节保留。
应用的技术
- Diffusion Transformer(DiT):作为基础模型,为视频生成提供高质量和可扩展性。
- Perceiver Resampler:用于将面部嵌入转换为身份 token,以实现高效的身份表示。
- 交叉注意力:用于将参考特征整合到生成过程中,增强细节保留。
达到的效果
Lynx 在一个包含 40 个主体和 20 个无偏见提示的基准上进行评估,生成了 800 个测试案例,表现出卓越的面部相似性、竞争力强的提示跟随能力和出色的视频质量,超越了现有的个性化视频生成方法。
架构与训练策略
模型架构
本文采用最新开源的视频基础模型之一 Wan2.1 作为本文的基础模型。Wan 构建于 DiT 架构之上,并结合了 Flow Matching 框架。每个 DiT 块首先对视觉 token 应用时空自注意力,从而能够联合建模空间细节和时间动态,然后通过交叉注意力来结合文本条件。
本文没有重构和微调整个模型,而是引入了两个适配器模块,即 ID-adapter 和 Ref-adapter,以在基础模型之上注入身份特征并实现个性化视频生成。整体架构和适配器设计如下图 3 所示。
ID-adapter。先前的工作在诸如 Stable Diffusion 的文本生成图像模型中结合了面部识别特征以实现个性化生成。这些方法通常附加额外的适配器层并引入额外的交叉注意力模块以在生成中条件化身份特征。具体来说,面部图像通过面部特征提取器传递以获得特征向量。为了将该向量转换为适合交叉注意力的序列,训练了一个 Perceiver Resampler(也称为 Q-Former)将其映射为固定长度的 token 嵌入表示。本文采用相同的范式。给定一个维度为 512 的面部特征向量,重采样器生成一个维度为 5120 的 16 个 token 嵌入的序列。 token 嵌入与 16 个额外的寄存器 token 连接,并与输入视觉 token 进行交叉注意。生成的表示然后被添加回主分支。
Ref-adapter。一些最近的方法使用 VAE 特征来增强在参考注入期间的细节保留,利用了 VAE 编码器生成的空间密集表示。为了补充 ID-adapter,本文的设计还结合了 VAE 密集特征以增强身份保真度。与直接将特征图放在噪声潜变量前面以类似图像到图像生成方式的先前方法不同,本文通过基础模型的冻结副本处理参考图像(噪声水平为 0,文本提示为“image of a face”),类似于 ReferenceNet 的设计。这允许参考图像的空间细节在所有层中被捕获。与 ID-adapter 一样,本文在每一层应用单独的交叉注意力以整合相应的参考 token。
训练策略
本文在此描述用于大规模训练的策略。由于训练视频(和图像)在空间分辨率和时间长度上都存在差异,本文采用 NaViT 方法来高效地批处理异构输入。多个视频或图像被打包成一个长序列,并应用注意力 mask 以分隔样本。训练遵循渐进式课程,从图像预训练开始,利用大量的图像数据,然后扩展到视频训练以恢复时间动态。
时空帧打包
传统的图像域训练通常依赖分桶来处理多分辨率输入。图像被裁剪并调整为一组预定义的纵横比和分辨率,在训练期间,数据加载器从单个桶中采样,以便批次中的图像共享相同的尺寸。虽然这种策略对图像有效,但对视频不太适用,因为额外的时间维度(帧长度)增加了复杂性。按分辨率和持续时间分桶减少了灵活性,并限制了模型对任意纵横比和视频长度的泛化能力。
为了克服这一限制,受 Patch n’ Pack 的启发,本文将每个视频的补丁化 token 连接成一个长序列,将集合视为一个统一的批次。注意力 mask 确保 token 仅在其自身的视频内进行注意,防止跨样本干扰。对于位置编码,本文独立地对每个视频应用 3D 旋转位置嵌入 (3D-RoPE)。这种设计在保留空间和时间一致性的同时,实现了异构图像和视频的高效批处理。
渐进式训练
图像预训练。 由于有大量可用的图像数据,本文从图像预训练开始。为了确保训练阶段的一致性,每张图像被视为单帧视频,并应用上述相同的帧打包策略。在本文的实验中,从头开始训练 Perceiver Resampler 产生了不理想的结果:即使经过大量训练,也没有观察到面部相似性,这表明模型要么无法收敛,要么需要极长的训练时间。相反,本文发现从图像域预训练的检查点(例如 InstantID)初始化 Resampler 可以显著加速收敛。通过这种初始化,仅经过 10k 次迭代后就出现了可识别的面部相似性,而完整的第一阶段运行了 40k 次迭代。
视频训练。 仅进行图像预训练往往会产生较为静态的视频,因为模型主要学习保持外观而不是捕捉动作。为了恢复时间动态,第二阶段需要让模型接触大规模视频数据。这个阶段使网络能够学习运动模式、场景转换和时间一致性,同时保留并增强在图像预训练期间建立的强身份条件。训练持续进行 60k 次迭代。
数据 Pipeline
本文的数据Pipeline目标是构建高质量的人物–文本–视频三元组。虽然可以通过字幕生成模型(例如 Qwen 2.5-VL)轻松获取文本提示,但主要挑战在于建立可靠的人物–视频对,即将人物图像作为身份 (ID) 条件与同一人物的目标视频配对。
本文的原始数据包括从公开可用的数据集和内部来源收集的图像和视频。这些数据可以分为四种类型:(1) 单个图像;(2) 单个视频;(3) 同一人物的多场景图像集合;(4) 同一人物的多场景视频集合。为了构建图像–图像和图像–视频对,其中一个图像作为 ID 条件,另一个图像或视频作为生成目标,一个简单的方法是直接从图像或视频中裁剪面部。然而,这通常导致表情和光照的过拟合。同时,多场景数据对于稳健训练至关重要,但本质上稀缺。
为了解决这些限制,本文采用了两种增强策略,如下图 4 所示:
- 表情增强。本文使用 X-Nemo 编辑源面部以匹配目标表情,从而丰富表情多样性(下图 4a)。
- 人像重光。本文应用 LBM 在不同光照条件下重新照明面部并替换背景,以增强对光照变化的鲁棒性(下图 4b)。
增强后,本文使用人脸识别模型进行身份验证,并丢弃相似度低的对,以确保高质量的 ID 一致性。相似度过滤也适用于未增强的原始多场景数据。
最终,本文的Pipeline共构建了 5020 万对,包括 2150 万单场景对、770 万多场景对和 2100 万增强的单场景对。对于直接从目标中裁剪条件图像的单场景对,本文额外通过分割人物主体并替换背景来应用背景增强。在训练过程中,通过加权采样检索这些不同类型的对,以平衡数据多样性。
实验
基准测试和指标
本文构建了一个评估基准测试,包括 40 个主体和 20 个无偏见的文本提示,总共生成 800 个测试视频。主体集由以下组成:(1) 10 位名人照片,(2) 10 个 AI 合成肖像,以及 (3) 20 张涵盖多样化人口群体的内部授权照片,以捕捉种族和民族多样性。文本提示使用 ChatGPT-4o 生成,经过精心设计的上下文示例指导,并明确避免在种族、年龄、性别、动作和其他属性上的偏见。
本文从三个关键维度评估 Lynx:面部相似性、提示遵循度和视频质量。
面部相似性。 为了测量身份保真度,本文使用三个独立的特征提取器计算余弦相似度。这些包括两个公开可用的 ArcFace 实现,facexlib 和 insightface,以及本文内部的人脸识别模型。使用多个提取器可以减少对单一特征空间的依赖,并提供更可靠的身份保留评估。
提示遵循度和视频质量。 为了评估语义对齐和感知质量,本文构建了一个基于 Gemini-2.5-Pro API 的自动化评估Pipeline。在此Pipeline中,Gemini 被指示使用特定任务提示在四个维度上进行评分:(1) 提示对齐度,评估生成视频与输入文本描述之间的一致性,(2) 美学质量,衡量视觉吸引力和构图,(3) 动作自然度,捕捉时间动态的流畅性和现实感,以及 (4) 综合视频质量,提供一个整合多方面感知保真度的总体判断。该评估框架允许对生成视频进行超越传统专家模型指标的可扩展和多方面的评估。
定性结果
下图 5 展示了 Lynx 与最新基线方法的定性比较。如图所示,现有方法经常在身份保留方面表现不佳,生成的面部偏离参考主体或丢失细节(第 1 行示例 1,第 3 行示例 2)。此外,它们常常生成不真实的行为(第 1 行示例 2)、背景的复制粘贴效果(第 4 行示例 2)或光照问题(第 5 行示例 2)。相比之下,Lynx 在多样化提示下成功保持了强大的身份一致性,同时实现了自然的动作、连贯的视觉细节和高质量的场景整合。这些结果表明,本文的模型在身份保留、提示对齐和视频真实性之间有效地达到了平衡,在保真度和可控性方面优于现有方法。
定量结果
下表 1 报告了在人脸相似性、提示遵循度和视频质量方面的定量比较。在身份保留方面,Lynx 始终优于所有基线,在 facexlib、insightface 和本文内部的人脸识别模型下取得了最高的相似性得分。SkyReels-A2 在身份相似性上排名第二,但其对复制粘贴生成的依赖引入了视觉伪影,导致语义对齐较弱,如下表 2 所示,其提示遵循性能较差。Phantom 展示了强大的提示对齐能力,但以牺牲身份保真度为代价,这表明在语义一致性和主体保留之间存在权衡。相比之下,Lynx 实现了最佳的平衡,结合了卓越的身份保真度和有竞争力的提示对齐,突显了本文基于适配器设计的优势。
上表 2 进一步使用 Gemini-2.5-Pro 评估Pipeline评估了提示遵循度、美学质量、动作自然度和整体视频质量。Lynx 在五个指标中的四个中表现最佳,包括提示对齐、美学和整体视频质量,这表明本文的输出具有感知质量。VACE 在动作自然度上获得最高分,反映了其强大的时间建模能力,而 Phantom 和 Stand-In 在大多数维度上表现竞争,但在整体视频质量上落后。这些结果表明,Lynx 不仅更有效地保留了身份,还生成了语义准确、视觉吸引力强且感知质量高的视频。
下图 1 提供了这些比较的视觉总结,其中 Lynx 在身份相似性和感知质量维度上表现出一致的优越性,同时在动作自然度上保持竞争力。多个评估者的综合证据强调了本文方法的稳健性,并确立了 Lynx 作为个性化视频生成的新标准。
结论
Lynx,一个用于个性化视频生成的高保真框架,可以从单个参考图像中保留主体身份。该模型包含两个轻量级适配器:ID-adapter,用于编码从 ArcFace 派生的身份 token,以及 Ref-adapter,通过冻结的参考路径集成基于 VAE 的密集特征。这些组件共同实现了在保持动作自然性和视觉连贯性的同时,提供强大的身份保真度。本文在一个精心策划的基准上评估了 Lynx,该基准包含 40 个主体和 20 个无偏见提示,总计 800 个测试案例,涵盖多样的身份和场景,发现其在人脸相似性方面达到了最先进的性能,同时在提示遵循度和视频质量上也表现出色。总的来说,Lynx 通过一个可扩展的基于适配器的框架推进了个性化视频生成,实现了身份保留、可控性和真实性之间的平衡,并为未来向多模态和多主体个性化的扩展奠定了基础。
本文转自AI生成未来 ,作者:AI生成未来
