盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图! 精华

发布于 2025-8-8 09:42
浏览
0收藏

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

文章链接:https://arxiv.org/pdf/2508.04559 
项目链接:https://onemodelforall.github.io/ 

亮点直击

  • OMFA,首个在单一架构中统一执行虚拟试穿(try-on)和试脱(try-off)的框架,支持跨个体和双向的服装迁移。
  • 提出了一种新颖的部分扩散机制,选择性地对服装相关区域施加噪声,实现高效、局部化的建模,无需依赖分割掩码或模板服装。
  • 结合了基于SMPL-X的姿态条件,支持从单张肖像图像生成任意姿态和多视角的试穿效果,提升了试穿合成的真实性和可控性。

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

与试用方法的比较

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

总结速览

解决的问题

  • 依赖展示服装和分割掩码:现有方法需要干净的展示服装(exhibition garments)和分割掩码,限制了实际应用。
  • 姿态灵活性不足:生成的试穿结果通常受限于参考图像的姿态,无法支持用户自定义姿态。
  • 试穿与试脱任务分离:现有方法将试穿(try-on)和试脱(try-off)视为独立任务,缺乏统一框架。
  • 3D数据稀缺:基于3D的方法受限于高质量3D数据的不足,难以生成高分辨率、逼真的结果。

提出的方案

  • 统一框架:提出OMFA,一个支持试穿和试脱的扩散模型框架,无需展示服装或分割掩码。
  • 部分扩散策略(Partial Diffusion):选择性对输入的不同部分(如服装、人物图像、面部)施加噪声和去噪,实现动态子任务控制。 -双向建模:在单一架构中建模服装-人物双向变换,提高效率。
  • 姿态自由化:结合SMPL-X 姿态条件,支持多视角和任意姿态试穿,仅需单张输入图像。

应用的技术

  • 扩散模型(Diffusion Model):基于扩散框架实现高质量图像生成。
  • 部分扩散机制:对输入的不同组件分别处理,提升可控性。
  • SMPL-X 姿态建模:利用参数化人体模型支持任意姿态合成。
  • 无掩码设计:无需分割掩码,仅需单张肖像和目标姿态即可生成。

达到的效果

  • 更实用的试穿体验:用户可直接将一张图片中的服装转移到另一人身上,并支持自由姿态调整。
  • 高质量生成:在试穿和试脱任务上均达到SOTA 效果,减少边界伪影和变形问题。
  • 计算高效:部分扩散策略减少冗余计算,提升生成效率。
  • 广泛适用性:适用于电商、社交媒体等真实场景,支持单图输入、多姿态输出。

方法

预备知识:隐空间扩散模型

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

部分扩散

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

试穿与试脱的统一模型

如下图2所示,本文提出的OMFA框架同时支持试穿流程和试脱流程,能够从源人物移除服装并转移到目标人物。为了实现高保真度的纹理保留,先前的研究引入了额外的ReferenceNet来提取服装特征。

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

然后,在空间维度上沿宽度分割输出隐空间表示,并使用VAE解码器D对分割后的隐空间表示进行变换,以获得相应的着装人物或服装。

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

基于SMPL-X的结构条件化

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

基于SMPL-X的结构条件化(续)

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

实验

实验设置

数据集。本文在两个公开可用的时尚数据集上训练和评估本文的模型:VITON-HD和DeepFashion-MultiModal数据集。VITON-HD包含13,679张正面半身模特图像及对应上装图像,其中11,647张用于训练,2,032张用于测试。DeepFashion-MultiModal数据集的每个样本不仅包含人物和服装图像,还包含两幅不同姿态的目标图像。我们选择约40,000个样本用于训练,1,100个样本用于测试。为准备输入数据,我们采用SCHP获取不同身体区域的语义分割图。

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

对比方法。针对试穿任务,与七种先进方法比较:LADIVTON、StableGarment、StableVTON、OOTDiffusion、IDM-VTON、CatVTON和MV-VTON。在模板服装不可得的现实假设下,通过以下方式适配这些方法的输入流程:(1)使用分割后的服装图像,或(2)直接利用着装人物图像。针对多姿态试穿任务,与基线方法IDM-VTON比较。针对试脱任务,与两种最新方法对比:TryoffDiff和TryoffAnyone。实验采用官方仓库提供的预训练检查点进行比较。


评估指标。对于配对设置,采用四种广泛使用的指标评估合成图像与真实图像的相似性:SSIM、LPIPS、FID和KID。对于非配对设置,除计算FID和KID外,还计算分割服装区域与参考服装间的CLIP-I和DINO相似度以评估服装级语义一致性。为与基于掩码的方法公平比较,本方法采用不可知图保持未编辑区域不变(类似CatVTON)。此外,给定人物和服装图像,使用GPT-4o-mini对试穿结果进行0-10分的综合评分。针对服装生成任务,额外报告DISTS——一种衡量生成服装图像与真实图像间结构和纹理保真度的感知相似性指标。

虚拟试穿

人物到人物虚拟试穿。下表1展示了在VITON-HD数据集上的虚拟试穿结果。在配对设置中,本文的方法取得了可比的整体指标。虽然某些基线方法报告了略高的SSIM分数,但这可以归因于输入变形服装已与目标良好对齐,使模型更容易保持真实的服装外观。得益于重建服装的能力,本文的方法在更具挑战性的非配对试穿设置中表现显著更好,特别是在CLIP-I和DINO相似性方面。下图3展示了本文方法与多种先进方法在VITON-HD数据集上的定性比较,突出了其在人物到人物试穿场景中的明显优势。现有方法在服装遮挡、变形或姿态错位情况下缺乏有效泛化能力,常导致纹理丢失、伪影或轮廓失真。相比之下,无掩码且统一的试脱-试穿框架能够生成高保真结果。

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

多姿态虚拟试穿。进一步探索多姿态试穿任务。下表2显示OMFA在所有指标上均超越基线方法,证实了其对姿态和视角变化的灵活性。如下图5所示,IDM-VTON生成图像的姿态主要由未掩码区域决定,不一致的姿态输入会导致错误的服装变形。相比之下,本文的无掩码方法在生成过程中利用3D人体表示,实现了更灵活的姿势迁移和尺寸感知的服装适配。

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

虚拟试脱

下表3展示了虚拟试脱的定量比较。本文的方法在所有五个指标上均优于先进方法,在细节保留、结构与纹理一致性以及语义对齐方面显示出显著优势。下图4展示了本文方法与其他试脱方法在VITON-HD数据集上的服装重建结果对比。具体而言,TryOffDiff往往仅捕获服装的粗粒度结构和颜色,无法恢复图案的细粒度细节。虽然TryOffAnyone能够处理复杂不规则图案,但仍存在文本元素模糊或缺失的问题。相比之下,本文的方法在细节保留方面展现出明显且一致的优势,特别是在文本轮廓和图案边界的清晰度上。

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

消融实验

本文通过消融实验验证所提出的部分扩散机制和统一生成策略在人物到人物试穿场景中对试穿/试脱任务的有效性。在基线设置中,本文按照IDM-VTON训练并行UNet,该方法使用ReferenceNet编码服装图像并将服装特征注入去噪UNet。如下图6所示,当使用变形服装作为输入时,该方法常导致纹理丢失和服装结构不准确。随后我们用单个UNet替代ReferenceNet,并采用提出的部分扩散机制处理空间联合输入,有效提升了性能并降低了计算成本。最终,使用单一UNet统一试穿和试脱任务(标记为"One Model For All"),实现了更清晰的纹理恢复和更完整的服装轮廓。下表4的定量结果进一步验证了所提方法的有效性。

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

盗梦空间级AI试衣!中山等发布OMFA:一键“脱衣”换装,姿势任意摆,告别展平图!-AI.x社区

结论

OMFA——一个基于扩散的虚拟试穿/试脱统一框架,克服了现有方法对服装模板、分割掩码和固定姿态的依赖等关键限制。OMFA引入了新颖的部分扩散机制,通过细粒度子任务控制实现高效的服装-人物双向转换。该框架完全无需掩码,仅需单张肖像和目标姿态,具有实际应用价值。结合基于SMPL-X的姿态条件,OMFA能够从单张图像实现灵活的多视角试穿。大量实验证实了其在两项任务中的有效性和泛化能力。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/gWYsGbp4TC6EFBda9y-sSw​

收藏
回复
举报
回复
相关推荐