
AI合影毫无违和感!复旦&阶跃星辰重磅开源WithAnyone:可控、高保真多身份生成SOTA!
论文链接:https://arxiv.org/pdf/2510.14975
项目链接:https://doby-xu.github.io/WithAnyone/
亮点直击
- MultiID-2M:一个包含50万张包含多个可识别名人的团体照片的大规模数据集,每个名人有数百张参考图片,展现各种多样性以及额外的150万张未配对的团体照片。这一资源支持多身份生成模型的预训练和评估。
- MultiID-Bench:一个综合性基准测试,提供标准化评估协议用于身份定制,能够系统地和内在地评估多身份图像生成方法。
- WithAnyone:一种基于FLUX构建的创新身份定制模型,达到了SOTA性能,能够生成高保真的多身份图像,同时减少复制粘贴伪影并提升视觉质量。
总结速览
解决的问题
身份一致性生成在图像生成研究中非常重要,但由于大规模配对数据集的稀缺性,现有的方法通常采用基于重建的训练方式。这种方式易导致“复制粘贴”故障,即模型直接复制参考面孔,不能在姿势、表情或光照的自然变化中保持身份的一致性,从而削弱了生成的可控性和表现力。
提出的方案
- 构建一个大规模配对数据集MultiID-2M,为每个身份提供多样化的参考图片,特别适用于多人的场景。
- 引入MultiID-Bench,综合基准测试量化“复制粘贴”伪影以及身份保真度与变化之间的权衡。
- 提出一种新的训练范式,利用对比身份损失结合配对数据以平衡保真度和多样性。
应用的技术
- WithAnyone模型:一个基于FLUX构建的创新身份定制模型,采用扩散模型来实现高效生成。
- 对比身份损失:利用大规模配对数据集优化模型的训练过程,以增强生成的控制能力和表现力。
达到的效果
- 有效减轻了“复制粘贴”伪影问题,生成过程能够适应姿势和表情的变化,提高了可控性。
- 在多身份图像生成中达到了高保真度,提高了视觉质量。
- 用户研究验证了该方法在保持高身份保真度的同时,支持表现力丰富的可控生成。
MultiID-2M: 多人配对数据集构建
MultiID-2M 是通过一个四阶段流水线构建的大规模多人数据集:(1)从网络收集单一ID的图片,并通过聚类 ArcFace嵌入构建一个干净的参考库,得到大约 100 万张参考图片,涉及约 3000 个身份(平均每个身份 400 张);(2)通过多姓名和场景感知查询检索候选团体照片,并检测面部;(3)通过将 ArcFace 嵌入与单一ID聚类中心进行余弦相似度匹配(阈值为 0.4)来分配身份;(4)进行自动过滤和标注,包括识别任何东西,审美评分,基于 OCR 的水印/标志移除,以及基于LLM的字幕生成 [1]。最终的数据集包含约 50万张已识别的多ID图片,这些图片与参考库中的参考图片匹配,还包括约 150 万张用于重建训练的未识别多ID图片,涵盖约 25000 个独特身份,具有多样的国籍和种族。
MultiID-Bench: 综合身份定制评估
MultiID-Bench 是一个用于团体照片(多ID)生成的统一基准。它对稀有、长尾身份进行采样,与训练数据无重叠,共有435个测试案例。每个案例由一个包含1-4人的真实(GT)图像、相应的1-4张参考图像作为输入以及描述GT的提示组成。
本文定义角距离为 (单位球上的测地距离)。复制粘贴度量由以下公式给出:
其中 是一个用于数值稳定的小常数。因此,该度量捕捉了 相对于参考 和真实值 的相对偏向,并通过 和 的角距离进行标准化。得分为 1 意味着 完全与参考一致(完美的复制粘贴),而得分为 则表示完全与真实值一致。
本文还报告了身份混合、提示保真度(CLIP I/T)和美学。
WithAnyone:可控且身份一致的生成
基于 MultiID-2M 的规模及配对参考监督,本文设计训练策略和定制目标,以超越重建,达到稳健的、条件于身份的合成。这种丰富的、标记身份的监督不仅大幅提升了身份保真度,还抑制了简单的复制粘贴伪影,并提供了对多身份组合的更精细控制。受到这些优势的启发,本文引入了 WithAnyone ——一个面向可控、高保真多身份生成的统一架构和训练方案。架构图和实现细节见下图4。
训练目标
带有扩展负样本的身份对比损失。 为了进一步加强身份保真性,引入了一种身份对比损失,该损失通过在面部嵌入空间中将生成的图像明确地拉近其参考图像,同时将其推远其他身份。该损失遵循 InfoNCE公式:
训练 pipeline
复制粘贴伪影主要源于仅依赖重建的训练,这会鼓励模型复制参考图像,而不是学习稳健的身份条件生成。利用本文的配对数据集,采用一个四阶段的训练流程,逐步将目标从重建过渡到可控的身份保真合成。
阶段 1:使用固定提示的重建预训练。 从重建预训练开始初始化骨干网络,因为该任务比完整身份条件生成简单,可以利用大规模未标记的数据。在前几千步中,标题固定为一个常量占位符提示(例如,“两个人”),以确保模型优先学习身份条件路径,而非偏向文本条件样式。此阶段使用完整的 MultiID-2M,通常持续约 20k 步,此时模型在身份相似性方面达到令人满意的水平。为了进一步增强数据多样性,还引入了 CelebA-HQ、FFHQ和 FaceID-6M的一部分。
阶段 2:使用完整标题的重建预训练。 此阶段将身份学习与文本条件生成对齐,持续额外的 40k 步,此期间模型达到身份相似性的顶峰。
阶段 3:配对调优。 为抑制简单的复制粘贴行为,将训练样本中的 50% 替换为从 MultiID-2M 50 万标记图像中抽取的配对样本。对于每个配对样本,不再使用相同的图像作为输入和目标,而是随机选择一个身份参考集中的参考图像,另选一张同一身份的不同图像作为目标。此扰动打破了直接复制的捷径,促使模型依赖高层次的身份嵌入,而非低层次的复制。
阶段 4:质量调优。 最后,在一个精选的高质量子集上进行微调,该子集增添了生成的风格化变体,以(i)增强感知保真度和(ii)提高风格的稳健性和可转移性。此阶段细化了纹理、光照和风格适应性,同时保持早期阶段建立的强身份一致性。
实验
对基线和本文的 WithAnyone 模型在提议的 MultiID-Bench 上进行了全面评估。
基线。 评估了两类基线方法:通用定制模型和面部定制方法。通用定制模型包括 OmniGen、OmniGen2、Qwen-Image-Edit、FLUX.1 Kontext、UNO、USO、UMO 和本机 GPT-4o-Image。面部定制方法包括 UniPortrait、ID-Patch、PuLID (在本文中指其 FLUX 实现)和 InstantID。所有模型均在基准的单人子集上进行评估,而仅支持多 ID 生成的模型还在多人子集上进行测试。
定量评估
定量结果见下表 1 和 2。本文观察到面部相似性与复制粘贴伪影之间的明显权衡。如下图 5 所示,大多数方法与一个回归曲线密切对齐,其中较高的面部相似性通常与更强的复制粘贴一致。这表明许多现有模型通过直接复制参考面部特征来提高测量的相似性,而不是合成身份。相比之下,WithAnyone 显著偏离这一曲线,在相对于 GT 的面部相似性方面达到最高,并保持明显较低的复制粘贴得分。
WithAnyone 也在 OmniContext 基准测试上获得了 ID 特定参考模型中的最高分。然而,VLMs 展现了有限的区分个体身份的能力,而更强调非身份属性,如姿势、表情或背景。尽管通用定制和编辑模型在 OmniContext 上通常表现优于面部定制模型,WithAnyone 在面部定制模型中仍表现最佳。
定性比较
为补充定量结果,下图 6 展示了本文的方法、最先进的通用定制/编辑模型以及面部定制生成模型之间的定性比较。
结果表明,身份一致性仍是通用定制或编辑模型的一大弱点,这与本文的定量发现一致。许多基于 VAE 的方法,如 FLUX.1 Kontext 和 DreamO,将参考图像通过 VAE 编码,往往生成的面部要么表现出复制粘贴伪影,要么显著偏离目标身份。一种可能的原因是 VAE 嵌入强调低级特征,而将高级语义理解留给扩散骨干,该骨干可能没有为这一任务进行预训练。ID 特定参考模型也在处理复制粘贴伪影时遇到困难。例如,当参考图像为中性时,它们无法让主体微笑,且通常无法调整头部姿势甚至眼睛视线。相比之下,WithAnyone 生成灵活、可控的面孔,同时忠实地保留身份。
消融及用户研究
为了更好地理解 WithAnyone 各组件的贡献,对训练策略、GT 对齐的 ID 损失、基于 InfoNCE 的 ID 损失和本文的数据集进行了消融研究。由于篇幅限制,本文在此仅报告关键结果。
如下表 3 所示,配对数据微调阶段在减少复制粘贴伪影的同时,不会降低与真实值的相似性,而在 FFHQ 上训练的效果显著差于在本文精心策划的数据集上进行训练的效果。下图 7 进一步表明,GT 对齐的 ID 损失在低噪声水平下降低了去噪误差,并在高噪声下产生更高方差、信息更丰富的梯度,从而增强身份学习能力。通过消融扩展的反例,只留下批次中的 63 个负样本(最初扩展到 4096 个),ID 对比损失的效果显著降低。
本文进行了一项用户研究来评估感知质量和身份保留。招募了 10 名参与者,并要求他们根据四个标准对 230 组生成的图像进行排名:身份相似性、复制粘贴伪影的存在、提示的遵循和美学。结果如下图 8 所示,表明本文的方法在所有维度上始终获得最高的平均排名,展示出了更强的身份保留和卓越的视觉质量。此外,复制粘贴指标与人类判断呈现适度的正相关性,表明其捕获了具有感知意义的伪影。
结论
复制粘贴伪影是身份定制方法的常见限制,而脸部相似性指标通常通过隐性奖励直接复制来加剧这一问题。本工作通过 MultiID-Bench 确定并正式量化了这种失效模式,并提出了针对性的解决方案。策划了 MultiID-2M,并开发了明确拒绝简单复制的训练策略和损失函数。实证评估表明,WithAnyone在显著减少复制粘贴伪影的同时,保持并在许多情况下提高了身份相似性,从而打破了忠实度与复制之间的长期权衡。这些结果突显了一条实现更忠实、可控和稳健的身份定制的实际路径。
本文转自AI生成未来 ,作者:AI生成未来
