从频率到细节:ConsisID实现无缝身份一致的文本到视频生成
文章链接:https:arxiv.orgabs2411.17440项目链接:https:pkuyuangroup.github.ioConsisID亮点直击提出了ConsisID,一个基于DiT的免调优(tuningfree)身份保持IPT2V模型,通过频率分解的控制信号来保持视频主角的身份一致性。提出了一种分层训练策略,包括粗到细的训练过程、动态Mask损失(dynamicmaskloss)以及动态跨脸损失(dynamiccrossfaceloss),共同促进模型训练并有效提升泛化能力。大量实验表明,受益于我们的频率感知...