
统一图像编辑框架,达到闭源一流水平;高分辨率自回归图像生成;高低层次特征联合的图像生成;视频试穿框架
Step1X-Edit: A Practical Framework for General Image Editing
2025-04-24|StepFun, |🔺55
http://arxiv.org/abs/2504.17761v1
https://huggingface.co/papers/2504.17761
https://github.com/stepfun-ai/Step1X-Edit
研究背景与意义
- 领域现状与挑战近年来,图像编辑技术迅速发展,尤其是在多模态大模型(如GPT-4o、Gemini2 Flash)推动下,实现了基于自然语言的高质量图像编辑。这些闭源模型在理解复杂编辑指令和保持图像一致性方面表现优异,但其封闭性限制了学术界和开源社区的研究与应用推广。相较之下,现有开源图像编辑算法在泛化能力、编辑准确度和生成图像质量上仍存在显著差距。
- 研究目标本论文旨在缩小开源与闭源图像编辑模型间的性能差距,提出一个开源的通用图像编辑框架Step1X-Edit,兼具闭源模型的高性能和开源模型的透明性。为此,作者构建了大规模、高质量的图像编辑数据集,并设计了一个融合多模态大语言模型(MLLM)与扩散模型的统一编辑架构,同时推出了真实用户驱动的评测基准GEdit-Bench,推动图像编辑技术向实用化迈进。
研究方法与创新
- 数据生成与标注创新论文提出了覆盖11大类编辑任务的规模化数据生成管线,利用多模态大语言模型和自动化工具结合人工审核,构建了超过1百万高质量图像-指令-目标三元组数据集,显著超越现有开源数据集规模与多样性。数据标注采用多轮递归增强策略,结合中英双语注释,提升语义一致性和跨语言适用性。
- 模型架构设计Step1X-Edit将多模态大语言模型(如Qwen-VL)与基于Transformer的扩散模型(DiT)深度集成。编辑指令与参考图像首先由MLLM解析,生成语义丰富的编辑嵌入;接着通过轻量级连接模块精炼特征,替代传统文本编码器的嵌入,作为扩散模型的条件输入。训练时,模型采用目标图像与参考图像的融合视觉特征,优化编辑准确度和图像质量,实现语义理解与视觉生成的紧密耦合。
- 创新点与优势
- 统一框架:打破传统模块化设计,紧密结合语言理解与图像生成,支持多轮交互和细粒度编辑。
- 语义引导的视觉条件:利用MLLM强大的语义推理能力,提升编辑指令的准确执行,尤其对复杂、组合性编辑表现优异。
- 大规模高质量数据支撑:数据多样性和规模保障模型泛化能力,推动实际应用。
- 跨语言支持:支持中英文编辑指令,拓宽应用场景。
- 训练策略:采用预训练权重初始化,稳定且高效地提升模型性能。
实验设计与结果分析
- 实验设置
- 构建了真实用户编辑指令驱动的GEdit-Bench评测集,包含606个多样化编辑任务,涵盖11大类编辑场景,确保评测的真实性和全面性。
- 对比对象涵盖多个开源模型(Instruct-Pix2Pix、MagicBrush、AnyEdit、OmniGen)及闭源顶尖模型(GPT-4o、Gemini2 Flash、Doubao)。
- 采用自动化多指标评价(语义一致性SQ、感知质量PQ、整体评分O)和主观用户偏好测试,保证评测的客观与主观双重维度。
- 结果表现
- Step1X-Edit在GEdit-Bench上全面超越所有开源基线,提升幅度显著,接近甚至部分任务超越闭源模型。特别在风格转换、颜色调整等细节编辑上表现优异。
- 在中文编辑指令评测中,Step1X-Edit同样表现稳定,超过Gemini2和Doubao,显示出强大的跨语言适应能力。
- 用户研究表明,Step1X-Edit编辑结果在视觉质量和符合用户意图方面获得较高认可,主观评分与闭源模型相当,体现了良好的用户体验。
- 多场景验证
- 论文展示了丰富的编辑示例,涵盖从物体添加、替换、移除,到材质修改、风格迁移、文本编辑等多种任务,验证模型的通用性和实用性。
- 对比图示清晰展示了Step1X-Edit在细节保留、语义理解和图像美学上的优势。
结论与展望
- 总结贡献
- Step1X-Edit作为首个开源且性能接近闭源顶尖水平的通用图像编辑模型,填补了开源社区与工业闭源模型之间的空白。
- 数据生成管线和GEdit-Bench基准的开放,为后续研究提供了宝贵资源和评价标准。
- 模型架构创新实现了多模态语义理解与扩散生成的深度融合,推动图像编辑技术向更智能、更交互的方向发展。
- 局限性分析
- 尽管性能优异,某些复杂多轮交互和极端细节编辑仍有提升空间。
- 模型训练和推理成本较高,对硬件资源要求较大,限制了部分应用场景。
- 安全策略导致部分编辑指令被拒绝响应,影响模型的开放性和灵活性。
- 未来展望
- 进一步优化模型架构,提升多轮交互和细节编辑能力,实现更自然的用户反馈循环。
- 探索轻量化和加速推理技术,降低模型部署门槛,扩大实际应用范围。
- 拓展多语言、多文化背景下的编辑能力,增强模型的全球适用性。
- 深化隐私保护和安全策略,兼顾开放性与合规性,促进模型的广泛应用。
总体而言,Step1X-Edit开创了开源图像编辑模型的新纪元,其高质量数据、创新模型设计和严谨评测体系,为图像编辑领域的研究与应用提供了坚实基础和广阔前景。
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
2025-04-24|NEU, Meta GenAI, Meta FAIR, NUS, CUHK, U Washington|🔺8
http://arxiv.org/abs/2504.17789v1
https://huggingface.co/papers/2504.17789
研究背景与意义
- 研究背景自然语言处理领域中,自回归(Autoregressive, AR)模型通过预测序列中下一个token取得了巨大成功。近年来,AR模型逐渐被应用于图像生成,尤其是在多模态大语言模型(Multimodal Large Language Models, MLLMs)中。然而,AR模型在图像生成中面临的主要瓶颈是需要大量的视觉token,导致训练和推理效率低下,且限制了生成图像的分辨率。
- 研究意义现有AR模型难以高效生成高分辨率图像(如2048×2048),而扩展视觉token数量则带来计算成本的指数级增长。相比之下,扩散模型虽然在高分辨率生成上表现优异,但AR模型具有统一的多模态生成潜力。解决AR模型中视觉token数量过多的问题,有助于提升AR模型在高分辨率图像生成中的实用性和性能,推动多模态生成技术的发展。
- 挑战与目标
- 挑战:视觉token数量庞大,Transformer计算复杂度呈二次方增长,限制了分辨率提升。
- 目标:设计简洁有效的方法减少视觉token数量,提升计算效率,同时保持甚至提升生成图像的质量和分辨率,实现AR模型高效高分辨率图像生成。
研究方法与创新
- 核心方法——Token-Shuffle本文提出了Token-Shuffle,一种利用视觉词汇表维度冗余的轻量级操作。该方法通过将空间邻近的视觉token在通道维度上融合(token-shuffle),显著减少输入Transformer的token数量;随后通过token-unshuffle操作恢复空间结构,保证输出图像的空间一致性。
- 维度冗余的发现与利用视觉编码器生成的低维视觉token被直接映射到高维语言词汇空间,导致维度冗余。实验表明,视觉词汇的维度可以压缩8倍而不显著影响生成质量。Token-Shuffle正是借助这一冗余,将多个空间token融合为一个复合token,减少计算量。
- 技术细节
- 融合与解耦机制:融合操作通过MLP压缩维度并合并s×s邻域token,解耦操作则逆向恢复。
- 训练与推理一致性:Token-Shuffle不改变原有的自回归预测范式,而是将下一token预测扩展为下一组复合token预测,提升效率。
- 无须额外预训练文本编码器,直接联合训练文本和视觉token,实现统一的多模态生成框架。
- 创新优势
- 显著减少视觉token数量,降低Transformer计算复杂度,提升训练和推理速度。
- 支持最高2048×2048分辨率的文本到图像生成,打破AR模型生成分辨率瓶颈。
- 保持甚至提升生成图像质量和文本对齐度,超越现有AR模型及部分扩散模型。
- 与现有方法对比传统方法或通过压缩视觉token,或牺牲分辨率与质量,Token-Shuffle则通过融合邻域token利用维度冗余,兼顾效率与质量,避免复杂架构改动,易于集成。
实验设计与结果分析
- 实验设计
- 模型基础:基于2.7B参数的LLaMA自回归Transformer。
- 训练策略:分三阶段训练,分辨率从512×512逐步提升至2048×2048,后两阶段引入Token-Shuffle。
- 数据与优化:使用授权数据集,长文本提示重写以提升细节表达,采用z-loss稳定高分辨率训练。
- 评测指标:自动评测采用GenAI-Bench的VQA Score和GenEval,人工评测关注文本对齐、视觉缺陷和美观度。
- 主要实验结果
- 自动评测:Token-Shuffle模型在GenAI-Bench“hard”提示上整体得分0.77,较LlamaGen提高0.18,超越DALL-E 3等扩散模型。
- 人工评测:在文本对齐、视觉缺陷和美观度三项指标上均优于主流AR模型和部分扩散模型,体现了优越的生成质量。
- 效率提升:Token-Shuffle通过减少约75%的视觉token,训练和推理计算量显著降低,实现高分辨率图像生成的同时保持高效。
- 消融实验
- Token-Shuffle设计选择:增加MLP层数、添加位置编码等改动未显著提升性能,证明默认设计合理。
- 不同融合窗口大小:窗口越大,计算效率越高,但生成质量略有下降,窗口大小为2时取得较好平衡。
- 与其他融合方法对比:Token-Shuffle优于简单线性融合和改良Re-sampler,显示其设计的有效性。
结论与展望
- 研究贡献总结本文提出的Token-Shuffle方法创新性地利用视觉词汇维度冗余,通过空间token融合与解耦操作,显著减少视觉token数量,提升自回归Transformer在图像生成中的计算效率。该方法首次实现了2048×2048高分辨率文本到图像生成,且在生成质量和文本对齐度上超越现有主流AR模型及部分扩散模型,推动了AR模型在多模态生成领域的边界。
- 局限性分析
- Token-Shuffle在极大融合窗口下生成质量有所下降,存在效率与质量的权衡问题。
- 相较于扩散模型,视觉缺陷指标稍逊,提示进一步优化空间。
- 训练高分辨率模型仍需稳定性改进,如z-loss的引入表明训练过程仍存在挑战。
- 未来展望
- 探索更优的token融合策略,减小质量损失,提升更大窗口融合的可行性。
- 结合扩散模型优势,探索混合模型架构,改善视觉缺陷表现。
- 扩展Token-Shuffle至更多模态和任务,推动统一高效的多模态大语言模型发展。
- 优化训练稳定性和推理效率,推动工业级高分辨率多模态生成应用。
综上,Token-Shuffle为高效、高分辨率自回归图像生成提供了创新思路和实践路径,具备广泛应用前景和研究价值。
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
2025-04-22|Archimedes,AthenaRC, NTUA, valeo.ai, IIT,NCSR"Demokritos", UoC, IACM-Forth|🔺5
http://arxiv.org/abs/2504.16064v1
https://huggingface.co/papers/2504.16064
https://github.com/zelaki/ReDi
研究背景与意义
- 研究背景:高质量图像生成领域,潜变量扩散模型(LDMs)已成为主流,其通过变分自编码器(VAE)将图像压缩为潜在表示,再用扩散模型学习这些潜变量的分布,取得了显著成果。然而,现有LDMs在融合低层次图像细节与高层次语义特征方面存在挑战,尤其是在同时保持精细重建和语义表达的平衡上表现不足。
- 研究意义:本研究针对如何有效结合表示学习与生成建模提出新方案,通过联合建模低层图像潜变量与高层语义特征,旨在提升图像生成质量和训练效率,推动生成模型在语义感知方面的能力,填补了现有方法在这一领域的空白。
研究方法与创新
- 技术描述:提出ReDi框架,利用扩散模型同时对VAE潜变量和预训练自监督编码器(如DINOv2)提取的语义特征进行联合建模。具体通过将两种表示在扩散过程中进行噪声添加与联合去噪,模型学习两者的联合分布,实现图像与语义特征的同步生成。
- 创新点:
- 联合扩散过程:区别于先前通过蒸馏对齐特征的间接方式,ReDi直接在扩散模型中联合建模两个模态,简化训练流程,避免额外蒸馏目标。
- 轻量架构改动:仅对现有Diffusion Transformer架构做最小改动,采用两种token融合策略(通道合并与序列拼接),兼顾表达能力与计算效率。
- Representation Guidance推理策略:利用训练得到的语义特征引导推理过程,通过调整噪声预测引导图像生成更符合语义特征,显著提升生成效果。
- 理论基础对比:相较于REPA等方法通过蒸馏提升语义质量,ReDi的联合建模更直接且高效,理论上能够更好地捕获图像与语义特征间的复杂依赖关系。
实验设计与结果分析
- 实验设计:在ImageNet 256×256数据集上,采用DiT和SiT两种扩散框架,训练不同规模模型,比较ReDi与基线(含REPA)在有无条件生成、分类条件生成下的性能差异。对比指标包括FID、sFID、IS、Precision和Recall,采样步骤固定为250。
- 结果分析:
- ReDi显著提升生成质量,DiT-XL/2模型400k步训练即可达到8.7 FID,远优于7M步基线模型,体现出极大加速收敛能力(最高23倍快于DiT基线)。
- 在与REPA比较中,ReDi在相同或更少训练迭代下均取得更优FID分数,证明联合建模策略优于蒸馏对齐。
- Representation Guidance进一步提升性能,特别是在无条件生成中,FID从51.7降至22.6,缩小无条件与条件生成的性能差距。
- 维度压缩(PCA)对视觉特征有效,8个主成分为性能与模型容量的最佳平衡点。
- 两种token融合策略均有效,但通道合并方式在保持性能的同时显著降低计算成本。
- Classifier-Free Guidance更适合仅对VAE潜变量应用,避免对语义特征的过度引导,提高生成稳定性。
结论与展望
- 贡献总结:本文提出的ReDi方法通过联合扩散模型同时生成图像潜变量与高层语义特征,显著提升了生成图像的质量和训练效率。Representation Guidance的引入为推理阶段提供了语义引导,进一步增强了生成效果。实验证明该方法在多个模型架构和条件设置下均表现优异,且训练更为简洁高效。
- 局限分析:当前方法依赖于预训练的语义编码器(如DINOv2),其性能受限于编码器的表达能力和维度压缩策略。融合方式虽已优化,但在更大规模模型或更复杂多模态任务中的扩展性仍需验证。
- 未来展望:未来工作可探索更丰富的语义特征集成策略,结合多模态数据(如文本、视频)扩展联合建模框架;进一步优化推理引导机制,提升生成多样性与细节表现;以及研究联合训练中语义特征与潜变量的动态权重调节,以实现更灵活高效的生成模型。
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models
2025-04-24|Alibaba DAMO, Alibaba Group, Hupan Lab, ZJU|🔺4
http://arxiv.org/abs/2504.17414v1
https://huggingface.co/papers/2504.17414
https://2y7c3.github.io/3DV-TON/
研究背景与意义
- 问题定义与现状视频试穿技术旨在将视频中人物所穿服装替换为目标服装,实现虚拟试衣。传统方法多依赖基于流的变形技术,虽然能对服装几何进行形变适配,但在复杂姿态、遮挡及多样服装纹理场景下,往往产生时间一致性差、细节丢失和伪影等问题。近年来,基于扩散模型的生成方法提升了视觉质量,但依然难以兼顾纹理细节与动态一致性。
- 挑战现有视频试穿模型过度关注外观还原,忽视运动连贯性,导致动态视频中服装纹理与人体动作不匹配,产生运动伪影和纹理漂移。缺乏有效的时空一致性引导是主要瓶颈。
- 研究目标本文旨在提出一种新颖的基于扩散模型的视频试穿框架3DV-TON,通过引入带纹理的可动画3D人体网格作为显式的帧级引导,解决动态服装纹理一致性问题,实现高保真且时间连贯的视频试穿效果。
研究方法与创新
- 技术描述3DV-TON框架核心创新在于采用生成的可动画纹理3D人体网格作为时空一致性的显式引导。具体流程包括:
- 自适应选择关键帧进行2D图像试穿,生成初始试穿图像。
- 基于人体姿态重建与纹理映射,构建与视频人体动作同步的纹理3D网格。
- 利用该3D网格动画序列提供稳定的服装纹理运动参考,指导扩散模型生成视频帧,确保纹理与动作一致。
- 创新点详解
- 纹理3D引导的提出:区别于仅用几何信息的传统SMPL模型,本文引入带纹理的3D人体网格,显式建模服装纹理随人体动作的时空变化,有效缓解了传统模型在动态场景中的纹理漂移和运动伪影。
- 扩散模型与3D引导融合:设计了融合服装图像、试穿图像和纹理3D引导的多通道输入,通过空间自注意力机制实现纹理感知的特征融合,提升细节还原与时序一致性。
- 动态矩形掩码策略:创新掩码方法防止人体动作导致的服装信息泄露,确保试穿区域的准确性和视觉连贯性,提升模型鲁棒性。
- 无需额外训练的3D引导生成:通过单帧图像重建和视频姿态同步,动态生成纹理3D引导,无需针对新数据集额外训练,增强方法泛化能力。
- 理论基础与优势基于SMPL及SMPL-X参数化人体模型,结合单图像3D人体重建技术,确保人体网格与视频中人体姿态高度一致。纹理映射与动画保证了服装纹理在三维空间的连续性,扩散模型借助这一显式引导克服了像素级重建目标对时间一致性的限制,实现了视觉质量与运动连贯性的平衡。
- 与现有方法对比传统基于流的试穿方法受限于变形模块,难以处理复杂服装形变和遮挡。纯扩散模型虽提升图像质量,但缺乏有效时空引导,导致动态不连贯。3DV-TON通过纹理3D引导显著提升了动态纹理一致性和细节表达,获得更自然真实的试穿视频。
实验设计与结果分析
- 实验设计
- 数据集:训练采用多种高分辨率图像和视频数据集,包括VITON-HD、DressCode及ViViD,测试时引入新建的高分辨率视频试穿基准HR-VVT,涵盖多样服装类型和复杂动作场景。
- 对比方法:选取当前最先进的ViViD、CatV2TON等公开代码方法进行定量和定性比较。
- 评估指标:采用SSIM、LPIPS衡量图像质量,视频Frechet Inception Distance(VFID)衡量视频生成的真实性和时序一致性,同时进行用户主观偏好测试。
- 消融实验:验证纹理3D引导、SMPL几何引导和掩码策略对性能的贡献。
- 结果分析
- 定性表现:3DV-TON在复杂动作和多视角场景下,能准确还原服装纹理细节,保持纹理运动连贯,避免了其他方法常见的模糊、伪影和纹理漂移。
- 定量指标:在所有关键指标上,3DV-TON均优于对比方法,特别在VFID指标上显著领先,说明生成视频的时序一致性和视觉真实性得到大幅提升。
- 消融验证:纹理3D引导对提升纹理一致性和细节恢复贡献最大,SMPL几何引导辅助人体结构准确,掩码策略有效防止服装信息泄露,保障了试穿区域的视觉真实性。
- 用户研究:主观评价显示用户对3DV-TON生成视频的视觉质量和动态连贯性更为满意,偏好率明显高于现有方法。
- 运行效率优化后的SMPL拟合过程约需30秒,32帧视频生成耗时约35秒,具备实用性。
结论与展望
- 研究贡献总结本文提出了基于纹理3D人体网格引导的扩散模型视频试穿框架3DV-TON,成功解决了传统视频试穿中服装纹理动态不一致的问题。通过融合几何与纹理显式引导,实现了高保真、时序连贯的试穿视频生成,并构建了高分辨率多样化视频试穿基准HR-VVT,推动了该领域的评测标准建设。
- 局限性分析当前方法在极端复杂遮挡和超大范围服装变形场景下,3D重建与动画仍存在一定误差,可能影响最终试穿效果的自然度。此外,模型推理时间仍需进一步优化以满足实时应用需求。
- 未来展望
未来可探索结合物理仿真与动态纹理建模,进一步提升服装运动的真实感和细节表现;同时,优化3D重建与动画算法,缩短推理时间,实现更高效的视频试穿系统;此外,扩展至多人物、复杂交互场景的试穿应用,将拓展该技术的实用边界。
本文转载自AI研究前瞻,作者:胡耀淇
