图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏

发布于 2025-10-24 00:16
浏览
0收藏

PICABench: How Far Are We from Physically Realistic Image Editing?

2025-10-20|SJTU, Shanghai AI Lab, CUHK MMLab, Krea AI, BUAA, Alibaba Tongyi Lab, USTC, HKU|🔺53

http://arxiv.org/abs/2510.17681v1​​
​​https://huggingface.co/papers/2510.17681​​
​​https://picabench.github.io

研究背景与意义

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

随着指令驱动的图像编辑技术迅速发展,现代模型已能较好地理解复杂编辑指令并生成语义连贯的图像。然而,当前主流研究和基准测试主要关注编辑的语义正确性和视觉一致性,忽视了物理真实性这一关键维度。物理真实性涉及编辑后图像中光照、阴影、反射、折射、物体变形及状态变化等物理效应的合理呈现,这对提升图像编辑的自然感和真实感至关重要。现有模型尚未有效处理诸如物体移除时阴影和反射的同步消失,或物体变形的物理合理性等问题,导致生成结果常显不自然。基于此,本文提出了PICABench,一个涵盖光学、力学和状态转变三大维度、细分八个子维度的物理真实性评测基准,系统评估图像编辑的物理一致性,填补了现有评测在物理层面上的空白。

研究方法与创新

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

本文的核心创新在于构建了一个物理感知的图像编辑评测体系——PICABench,并设计了配套的评估协议PICAEval及合成训练数据集PICA-100K。具体方法包括:

  1. 物理真实性维度细分:将物理一致性划分为光学(光传播、反射、折射、光源效应)、力学(变形、因果关系)和状态转变(全局与局部状态变化)三大类八个子维度,明确具体可检验的物理规则,便于细粒度诊断模型表现。
  2. 数据构建与指令设计:通过丰富的关键词体系检索多样化场景图像,人工筛选后配以多层次(浅显、中等、明确)物理相关编辑指令,利用GPT-5扩展指令表达,确保评测覆盖现实应用中常见且具挑战性的物理编辑场景。
  3. PICAEval评估协议:采用区域标注结合基于视觉语言模型(VLM)的问答机制,针对编辑区域设计具体的物理真实性判断问题,减少VLM评估时的幻觉和误判,显著提升评测的准确性和解释性。
  4. 合成训练数据集PICA-100K:基于文本到图像和图像到视频生成模型,自动合成10万条具有物理变化的视频剪辑和对应的编辑指令,生成高质量、时序连贯的编辑样本,用于提升模型对物理规律的学习能力。
  5. 模型微调策略:采用LoRA技术在大型扩散变换器模型(FLUX.1-Kontext)上进行微调,验证了基于视频生成的物理编辑数据对提升模型物理真实性的显著效果。

实验设计与结果分析

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

实验涵盖11个主流闭源及开源图像编辑模型,使用PICABench基准和PICAEval协议进行评测。主要发现包括:

  • 整体表现偏低:所有开源模型物理真实性评分均低于60%,仅少数闭源模型略超此门槛,表明当前模型仍难生成物理一致的编辑结果。
  • 理解与物理真实性脱节:统一多模态模型虽具较强视觉语言理解能力,但未能显著提升物理一致性,提示单纯理解能力不足以解决物理真实性问题。
  • 提示词细节提升表现:随着编辑指令从浅显到明确,模型物理真实性得分显著提升,说明更详细的物理描述有助模型捕捉物理约束,但增益有限,反映模型对物理知识的内在掌握仍不足。
  • 视频合成数据有效性:基于PICA-100K数据集微调的模型在整体准确率上提升约1.7%,物理一致性指标也有所改善,验证了视频驱动的合成数据能有效增强模型的物理编辑能力。
  • 真实视频数据效果不佳:相比之下,使用真实视频构建的数据集(MIRA400K)未能带来性能提升,凸显了合成数据在可控性和标注一致性上的优势。
  • 评测协议与人类评价高度一致:PICAEval的问答式评估与人类偏好评价的相关系数高达0.95,表明该协议能有效反映人类对物理真实性的判断。

结论与展望

本文系统揭示了当前图像编辑技术在物理真实性方面的显著不足,提出了一个细粒度、多维度的物理感知评测框架(PICABench),并辅以精准的问答评估协议(PICAEval)和大规模视频驱动的合成训练数据集(PICA-100K),为推动物理一致性图像编辑奠定了坚实基础。实验验证了视频合成数据对提升模型物理编辑能力的有效性,同时指出现有方法在全局状态变化和因果一致性等方面仍存在挑战。未来工作将聚焦于扩展数据规模与多样性,探索强化学习等后训练策略,以及引入多图像、多条件输入以增强模型对复杂物理环境的适应能力,推动从语义编辑向物理真实编辑的跨越。

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

2025-10-19|TU Denmark, Pioneer Center for AI|🔺18

http://arxiv.org/abs/2510.16751v1​​
​​https://huggingface.co/papers/2510.16751

研究背景与意义

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

  • 研究背景:近年来,大规模语言模型(LLMs)通过推理阶段的搜索和计算扩展显著提升性能,显示出推理时计算(inference-time scaling)对模型表现的重要性。然而,将这一范式成功迁移至图像生成领域,尤其是连续潜空间的扩散模型,效果有限,传统扩散模型的搜索策略往往不优于简单随机采样。
  • 研究意义:本文提出视觉自回归模型(Visual Autoregressive Models)在离散序列空间中生成图像,结构上类似语言模型,天然适合应用高效的搜索算法,如束搜索(beam search)。通过系统性实验,验证了视觉自回归模型在推理时间扩展上的潜力,挑战了“规模即性能”的传统认知,强调模型架构对推理优化的关键影响。

研究方法与创新

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

  • 技术描述

采用最新的视觉自回归模型Infinity,利用“多尺度逐步生成”策略,将图像分解为13个尺度的离散token序列,每个尺度的token同时生成,极大减少决策点。

结合多种验证器(ImageReward、CLIPScore、Aesthetic Score及LLaVA-OneVision视觉语言模型)进行多维度质量评估,确保搜索过程的有效引导。

设计并比较三种搜索策略:随机搜索、贪心令牌优化(GTO)和束搜索,重点分析束搜在搜索空间剪枝和计算复用方面的优势。

  • 创新点

首次系统性地将树搜索算法应用于视觉自回归图像生成,充分利用离散token空间的结构优势,实现高效的推理时间扩展。

通过多验证器集成,解决搜索过程中“验证器劫持”问题,平衡视觉质量与语义准确性。

详细定义并采用功能评估次数(NFE)作为计算预算指标,精确衡量搜索策略的计算效率。

  • 优势解释

离散token空间允许早期剪枝和前缀缓存,显著降低计算复杂度,相较于连续潜空间的扩散模型,搜索效率和效果均有质的飞跃。

束搜索在探索多样性与计算可控性间取得平衡,避免贪心策略易陷局部最优的问题。

  • 对比现有方法

相较于扩散模型中搜索策略效果有限,视觉自回归模型结合束搜索在多个基准测试中表现出更高的图像质量和推理效率。

模型参数量仅为12B扩散模型的六分之一,仍能实现超越,突出架构与搜索算法协同优化的优势。

  • 理论基础

结合语言模型推理时间扩展的成功经验,验证视觉生成中离散序列结构与搜索算法的兼容性,提出架构设计应与推理优化策略协同考虑。

实验设计与结果分析

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

  • 实验设计

基于DrawBench、T2I-CompBench++及GenEval等多样化基准,涵盖语义准确性、视觉美学及复杂组合任务。

采用不同搜索策略和验证器组合,评估搜索效率与生成质量的权衡,重点关注束搜索的计算资源利用率(NFEs)与性能提升。

对比12B参数扩散模型在相同或更高计算预算下的表现,验证架构优势。

  • 结果分析

所有验证器均显示生成质量与计算预算呈对数增长,随机搜索存在显著边际效用递减,支持采用更高效搜索策略。

束搜索显著优于随机搜索和贪心优化,能以低于随机搜索一半的计算资源达到更高的图像奖励分数。

验证器选择影响搜索效果:轻量级ImageReward适合属性绑定任务,重型LLaVA-OneVision在空间推理和计数等复杂任务中表现更佳。

在T2I-CompBench++和GenEval的组合任务中,束搜索提升幅度明显,尤其在空间关系和计数任务上提升超过20%,表明搜索策略显著增强了模型的组合推理能力。

与12B扩散模型对比,2B参数的视觉自回归模型通过束搜索实现更高的综合性能,且计算效率提升超过50%,验证了架构与搜索协同的优越性。

结论与展望

  • 总结贡献

本文首次系统验证视觉自回归模型在推理时间扩展上的结构优势,证明离散token空间结合束搜索能有效提升图像生成质量和推理效率。

通过多验证器策略缓解搜索过程中的验证器劫持,确保生成图像在语义和视觉质量上的均衡提升。

结果挑战了“规模决定性能”的传统观念,强调架构设计与推理算法协同优化的重要性。

  • 分析局限

验证器的计算成本和能力差异限制了在不同任务中的通用性,重型视觉语言模型验证器计算开销较大,影响实际部署效率。

当前研究主要聚焦于静态图像生成,尚未扩展至视频或更复杂动态内容生成。

  • 方法展望

未来可探索更高效且泛化能力强的验证器设计,提升推理时间扩展的实用性与多样性适应能力。

结合自回归模型与扩散模型的混合架构,探索连续与离散空间搜索的协同优化。

推广至多模态生成任务,结合语言理解与视觉生成,进一步挖掘推理时间扩展的潜力。

深入研究动态计算预算分配策略,实现更智能的推理时间管理,提高计算资源利用率与生成质量的平衡。

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

2025-10-19|PKU(SZ), Rabbitpre AI|🔺15

http://arxiv.org/abs/2510.16888v1​​
​​https://huggingface.co/papers/2510.16888​​
​​https://github.com/PKU-YuanGroup/UniWorld-V2

研究背景与意义

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

  • 图像编辑领域的挑战:近年来,扩散模型在文本生成图像(T2I)领域取得了巨大进展,但将其应用于图像编辑时,模型需要在精准执行指令的同时保持未编辑区域的完整性。传统的监督微调(SFT)方法容易陷入过拟合,导致模型难以泛化和执行复杂指令。
  • 现有方法的不足:SFT依赖大规模但多样性不足的数据,导致模型对训练分布外的任务表现不佳。此外,基于策略优化的强化学习(RL)方法虽有潜力,但现有基于似然估计的策略优化存在偏差和采样效率低的问题。
  • 研究目标:提出一种高效的后期训练框架,解决模型泛化能力不足和奖励信号缺乏通用性的难题,提升指令驱动图像编辑模型的表现和稳定性。

研究方法与创新

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

  • Diffusion Negative-aware Finetuning(DiffusionNFT):采用DiffusionNFT作为策略优化方法,直接在扩散过程的正向流匹配目标上进行优化,避免了传统策略梯度方法中的似然估计偏差,实现训练与采样的解耦,支持使用高阶采样器,提高训练效率和多样性。
  • 多模态大语言模型(MLLM)训练免费奖励模型:创新性地利用预训练的MLLM输出的token logits作为连续、细粒度的奖励信号,避免了复杂的链式思考(CoT)推理和采样带来的计算开销及偏差,提升奖励的解释性和稳定性。
  • 低方差组过滤机制:针对奖励归一化中低方差组带来的噪声放大问题,设计了基于奖励均值和方差的过滤策略,剔除高均值低方差的样本组,稳定训练过程,防止奖励信号的误导。
  • 通用且模型无关的框架设计:Edit-R1框架适用于多种基模型(如UniWorld-V2、Qwen-Image-Edit、FLUX-Kontext),通过策略优化与MLLM评分的结合,实现了跨模型的性能提升和良好的泛化能力。

实验设计与结果分析

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

  • 数据集构建:整合LAION、LexArt和UniWorld-V1数据,构建包含九种编辑任务的多样化指令式图像编辑数据集,涵盖调整、替换、移除、文本编辑等任务,支持在线学习且无需高质量编辑结果图像。
  • 评测基准:采用ImgEdit和GEdit-Bench两个权威多任务编辑基准,结合GPT-4.1自动评测与人类偏好测试,全面评估模型的指令遵循度和图像质量。
  • 性能提升显著

在ImgEdit上,Edit-R1使FLUX.1-Kontext[Dev]得分由3.71提升至4.02,超越官方Pro版本;Qwen-Image-Edit[2509]从4.35提升至4.48,达到开源模型顶尖水平,甚至优于部分闭源模型。

在GEdit-Bench上,所有基模型均表现出明显提升,UniWorld-V2以8.39分刷新了该基准最高纪录。

  • 人类偏好实验:用户在指令对齐性和图像质量两个维度均更倾向于Edit-R1微调后的模型输出,尤其在指令遵循方面表现突出。
  • 消融研究:验证了DiffusionNFT和组过滤机制的核心作用,奖励模型规模的扩大显著提升了策略模型性能,有效缓解了奖励欺骗现象。
  • 奖励信号分析:基于MLLM的logit评分方法与人类判断的相关性最高(74.74%准确率),优于采样和CoT方法,且在多任务中表现稳定。

结论与展望

  • 主要贡献总结

提出Edit-R1框架,结合DiffusionNFT与训练免费MLLM奖励模型,实现了指令式图像编辑模型的高效后期训练。

通过连续细粒度的奖励信号和低方差过滤策略,显著提升模型的泛化能力和训练稳定性。

在多种基模型和权威基准上均取得了领先性能,验证了方法的广泛适用性和优越性。

  • 局限性分析

虽然奖励模型规模扩大带来性能提升,但对计算资源要求较高。

奖励信号仍依赖于MLLM的理解能力,未来需进一步提升奖励的多样性和鲁棒性。

  • 未来展望

探索更高效的奖励模型设计,降低计算成本。

拓展框架至更多复杂编辑任务和多模态交互场景。

深入研究奖励信号的动态调整机制,进一步抑制奖励欺骗,提升模型的长期稳定性和用户体验。

ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

2025-10-20|HKUST, THU, IDEA, HKUST(Guangzhou), HKUST, HKUST(Guangzhou)|SIGGRAPH Asia 2025|🔺11

http://arxiv.org/abs/2510.17803v1​​
​​https://huggingface.co/papers/2510.17803​​
​​https://zxyin.github.io/ConsistEdit

研究背景与意义

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

近年来,基于生成模型的图像与视频编辑技术得到了迅速发展,尤其是训练自由(training-free)的注意力控制方法,为文本引导的图像和视频编辑提供了极大灵活性和效率。然而,现有方法在保持编辑区域结构一致性与非编辑区域内容完整性之间存在显著矛盾,尤其在多轮编辑和视频编辑场景中,视觉错误的累积严重影响了编辑质量。此外,传统基于U-Net架构的注意力控制方法难以适配新兴的多模态扩散变换器(MM-DiT),限制了编辑的细粒度控制能力和多区域编辑的灵活性。针对这些挑战,本文提出了一种专门针对MM-DiT架构设计的训练自由注意力控制方法——ConsistEdit,旨在实现高精度、多轮次、多区域且结构一致的视觉编辑,同时兼顾编辑强度与非编辑区域的内容保真。

研究方法与创新

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

ConsistEdit的核心创新在于深刻解析并利用了MM-DiT模型中视觉与文本信息融合的自注意力机制,提出了三大关键操作:

  1. 视觉部分专属注意力控制:仅对视觉token的注意力进行调整,避免文本token干扰生成稳定性,确保编辑过程的鲁棒性和一致性。
  2. 预注意力掩码融合(Pre-attention Mask Fusion):在注意力计算前融合编辑与非编辑区域掩码,实现空间上对编辑区域的精准控制,支持多区域单次编辑。
  3. 查询(Q)、键(K)、值(V)三者的差异化控制:分别对Q和K应用结构一致性控制,对V应用内容编辑控制,细粒度地平衡结构保持与内容变化。

该方法通过对所有推理步骤和注意力层的全覆盖控制,避免了传统方法需手动选择步骤和层带来的不稳定性,显著提升了编辑的可靠性和一致性。此外,ConsistEdit支持结构一致与不一致编辑任务,允许渐进式调整结构一致性强度,满足不同应用需求。该方法首次解锁了MM-DiT架构在视觉编辑上的全部潜力,兼容多种生成模型和任务,包括图像和视频编辑。

实验设计与结果分析

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

图像编辑物理真实性评估;视觉自回归推理时扩展;图像编辑后训练框架,奖励信号稀疏-AI.x社区

实验部分基于StableDiffusion3 Medium和CogVideoX-2B两种纯MM-DiT架构的模型,采用PIE-Bench数据集进行多种编辑任务评测。实验设计涵盖:

  • 结构一致性编辑:改变颜色和材质,保持编辑区域结构不变。
  • 结构不一致编辑:添加、删除或改变对象,允许结构变化。
  • 多轮次多区域编辑:连续多次编辑不同区域,测试累积误差控制。
  • 视频编辑:验证方法在时间维度上的一致性与稳定性。

评测指标包括基于Canny边缘的结构相似度(SSIM)、非编辑区域的PSNR和SSIM,以及CLIP相似度用于语义对齐。结果显示,ConsistEdit在结构保持和内容保真方面均显著优于现有最先进方法(如DiTCtrl、FireFlow、RF-Solver等),尤其在高一致性强度条件下表现更为稳定。定性分析也证实了其在真实图像和视频上的优越表现,能够精准控制编辑强度和区域,实现细粒度的颜色、纹理及形状调整,同时避免非编辑区域的内容漂移和结构破坏。

结论与展望

本文提出的ConsistEdit方法通过深入理解和利用MM-DiT的注意力机制,成功解决了训练自由视觉编辑中结构一致性与内容变化的矛盾,实现了高精度、多轮次、多区域的训练自由编辑。该方法不仅在图像编辑任务中取得了显著性能提升,还拓展到了视频编辑领域,展示了极佳的泛化能力和实用潜力。

未来工作可进一步探索:

  • 在更大规模、多模态数据集上的适应性和鲁棒性提升。
  • 结合用户交互设计,实现更直观的编辑控制界面。
  • 扩展到三维场景和实时编辑应用,推动生成模型在工业和娱乐领域的广泛应用。

ConsistEdit为训练自由视觉编辑技术的发展提供了重要理论依据和实践范式,具有广阔的应用前景和研究价值。

本文转载自​AI研究前瞻​,作者:胡耀淇

已于2025-10-24 15:23:38修改
收藏
回复
举报
回复
相关推荐