零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成

发布于 2025-3-24 00:57
浏览
0收藏

Efficient Personalization of Quantized Diffusion Model without Backpropagation

2025-03-19|SNU, INMC&IPAI|🔺18

​http://arxiv.org/abs/2503.14868v1​​​
​​​https://huggingface.co/papers/2503.14868​​​
​​​https://ignoww.github.io/ZOODiP_project/​

研究背景与意义

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

当前扩散模型在图像生成领域表现出色,但其训练、微调和推理过程需要大量的计算和内存资源。尽管量化技术成功减少了推理时的内存使用,但训练和微调这些量化模型仍需大量内存,这主要归因于反量化以精确计算梯度及反向传播所需的内存。个性化任务通常需要在边缘设备上用少量用户提供的图像对扩散模型进行微调,这对内存受限的设备提出了重大挑战。本文提出了一种基于零阶优化的扩散模型个性化方法(ZOODiP),它通过量化模型、子空间梯度优化和定制的时间步采样策略,显著降低了内存需求。

研究方法与创新

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

ZOODiP的核心在于结合零阶优化与量化模型,从而避免了反向传播及其相关的内存开销。具体而言,该方法利用以下三个关键观察点:首先,零阶优化能够有效处理不可微的目标函数;其次,文本反转中的标记主要在一个低维子空间内变化,通过主成分分析发现初始和个性化标记主要更新在这个子空间内;最后,基于先前工作,不同时间步在扩散模型中扮演不同角色,因此可以识别出有效的个性化时间步区间。基于这些观察,ZOODiP引入了子空间梯度(SG)来加速训练,并通过投影过去标记的历史构建子空间以消除噪声梯度维度。此外,还提出了部分均匀时间步采样(PUTS),专注于特定的有效时间步,进一步提升效率。

实验设计方面,ZOODiP采用随机梯度估计(RGE)来估算量化模型上的梯度,同时利用PCA分析标记轨迹以确定低方差特征向量,从而从估计的梯度中投影出噪声维度。这种方法不仅显著减少了内存使用,还通过聚焦于低维子空间和有效时间步提升了训练速度和性能。

实验设计与结果分析

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

为了验证ZOODiP的有效性,研究者进行了定量和定性的对比实验。定量结果显示,ZOODiP在CLIP-I和DINO等指标上取得了与现有方法相当甚至更优的表现,同时将训练内存需求降至2.37GB,比DreamBooth减少了87.8%的内存消耗。定性结果表明,ZOODiP生成的图像高度忠实于提示词和参考图像,展现出强大的文本-图像对齐能力。此外,消融研究表明,子空间梯度和部分均匀时间步采样对性能有显著提升作用。

结论与展望

ZOODiP通过结合零阶优化、量化模型、子空间梯度和部分均匀时间步采样,成功实现了在内存受限环境下的扩散模型个性化。未来工作可进一步探索更高效的优化策略和时间步采样方法,以适应更多应用场景。此外,虽然ZOODiP在当前实验中表现优异,但在某些极端情况下仍可能存在性能波动,这需要后续研究加以改进。

LEGION: Learning to Ground and Explain for Synthetic Image Detection

2025-03-19|SJTU, Shanghai AI Lab, BUAA, SYSU, SenseTime|🔺8

​http://arxiv.org/abs/2503.15264v1​​​
​​​https://huggingface.co/papers/2503.15264​​​
​​​https://opendatalab.github.io/LEGION​

研究背景与意义

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

随着生成技术的快速发展,合成图像检测成为一项兼具挑战性和社会意义的任务。当前方法往往缺乏对图像伪造细节的解释能力,并且过于关注图像操纵检测,而忽略了全合成图像中的复杂伪影分析。此外,现有数据集通常存在生成器过时、标注粗糙等问题,难以支持深入研究。

SynthScars 数据集的引入旨在解决这些问题。它包含 12,236 张高质量全合成图像,涵盖多样内容类型和精细标注,包括像素级分割、详细文本解释及伪影类别标签。LEGION 框架则进一步通过多模态大语言模型(MLLM)实现了伪影检测、分割与解释的集成,不仅作为防御者检测伪造图像,还作为控制器指导生成更高质量的图像。

这项研究的意义在于推动合成图像检测技术的发展,同时探索其在图像生成领域的潜在应用价值,为生成式 AI 的可控发展提供了新思路。

研究方法与创新

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

LEGION 框架的核心在于结合 MLLM 的强大推理能力和视觉任务的具体需求,实现从伪影检测到图像优化的全流程覆盖。以下是其主要创新点:

  1. 双层标注体系SynthScars 数据集采用像素级掩码与文本解释相结合的方式,提供更精确的伪影定位和语义理解。这种细粒度标注方式显著提升了模型的学习效率和泛化能力。
  2. 多任务框架设计LEGION 集成了伪影检测、分割和解释三个子任务,通过全局图像编码器、LLM、接地图像编码器和像素解码器四个核心组件协同工作。具体而言:
  • 全局图像编码器提取输入图像特征。
  • LLM 根据视觉信息生成自然语言解释。
  • 接地图像编码器用于伪影区域的精确定位。
  • 像素解码器输出二值掩码以标识伪影位置。
  1. 迭代优化策略LEGION 不仅能检测伪影,还能通过反馈机制指导图像生成模型逐步消除伪影。例如,在图像再生过程中,LEGION 提供的解释被用于修订初始提示词;在图像修复中,LEGION 输出的掩码和解释引导逐区域选择性优化。
  2. 跨领域适配能力实验表明,LEGION 在多个基准测试中表现出色,尤其在 SynthScars 数据集上超越了第二强的传统专家模型 3.31% 的 mIoU 和 7.75% 的 F1 分数。这得益于其强大的泛化能力和对复杂伪影的理解深度。

这些创新点共同构成了 LEGION 的独特优势:既能精准定位伪影并提供可解释结果,又能有效指导生成模型提升输出质量。

实验设计与结果分析

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

实验部分验证了 LEGION 在伪影定位、解释生成和图像优化方面的性能。以下是关键结果:

  1. 伪影定位评估使用 SynthScars 数据集的训练集进行训练,并在测试集上评估。此外,还测试了模型在 LOKI 和 RichHF-18K 等未见领域上的泛化能力。结果显示,LEGION 在所有三个数据集上均达到 SOTA 性能,尤其在 SynthScars 上表现突出。
  2. 解释生成评估通过 ROUGE-L 和 CSS 指标衡量生成文本与真实标注的一致性。LEGION 在这两个指标上分别达到 39.50 和 72.60(归一化后),显著优于其他多模态模型。
  3. 图像优化评估在图像再生和修复任务中,LEGION 引导生成模型逐步改进输出质量。实验使用 Human Preference Score (HPS) 衡量改进效果,结果显示优化后的图像偏好得分平均增长 6.98%(再生)和 2.14%(修复)。

总体来看,LEGION 在各项任务中均展现出卓越性能,证明了其方法的有效性和鲁棒性。

结论与展望

本研究提出 SynthScars 数据集和 LEGION 框架,解决了现有合成图像检测方法中存在的数据质量和方法局限问题。LEGION 不仅能够精准检测伪影并提供可解释结果,还能作为控制器指导生成模型优化输出质量。

然而,该方法仍存在一些局限性。例如,全合成伪影的多样性与灵活性使得完全自动化检测仍具挑战;此外,LLM 的推理成本较高,可能限制实际应用范围。未来工作可以围绕以下几个方向展开:

  • 开发更高效的语言模型以降低计算开销。
  • 探索无监督或弱监督学习方法以减少人工标注依赖。
  • 深入研究全球性推理能力以应对复杂伪影。

LEGION 的成功应用展示了合成图像检测与生成技术的双向促进关系,为生成式 AI 的负责任发展开辟了新路径。

MusicInfuser: Making Video Diffusion Listen and Dance

2025-03-18|U Washington, U Washington, U Washington, U Washington|🔺8

​http://arxiv.org/abs/2503.14505v1​​​
​​​https://huggingface.co/papers/2503.14505​​​
​​​https://susunghong.github.io/MusicInfuser​

研究背景与意义

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

MusicInfuser的提出旨在解决现有AI视频生成工具(如Sora、Gen、Veo)仅能生成无声视频的问题。尽管事后可以添加音乐,但要生成与特定音乐节奏同步的动作却十分困难。传统方法依赖于昂贵的动作捕捉数据或重建动作,这些方法存在资源密集、浮动和抖动问题等局限性。MusicInfuser通过轻量级音乐-视频交叉注意力和低秩适配器,无需动作捕捉或重建,直接利用舞蹈视频进行训练,成功实现了高质量且自然响应音乐节奏和模式的舞蹈动作生成。这种方法不仅保留了基础模型的丰富舞蹈风格知识,还为用户提供了一个灵活的接口,可以通过文本提示控制舞蹈风格、场景和其他美学元素。

研究方法与创新

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

MusicInfuser的核心在于其独特的适应架构和策略。首先,它引入了一种零初始化交叉注意力(ZICA)适配器,用于在保持基础模型原有能力的同时,逐步融入音乐条件信息。具体来说,音频信号通过专用音频编码器提取时间与频谱特征后,经过可学习投影器映射到与视频标记相同的嵌入空间,从而通过交叉注意力层建立音频模式与视觉编舞之间的关联。

此外,MusicInfuser采用了高秩低秩适配器(HR-LoRA),以有效建模运动适应性,特别是针对视频标记中的时间信息。相较于图像模型常用的8或16秩,视频模型需要更高的秩来捕获时空信息的复杂性。例如,适应齐次变换需要至少增加8个自由度,而一般视频或复杂人体运动则需要更高秩。

为了优化训练过程,MusicInfuser提出了Beta-Uniform调度策略。该策略使训练噪声分布从Beta分布逐渐过渡到均匀分布,从而在早期阶段专注于高频成分,随后扩展到所有频率。这使得模型能够先影响舞蹈的具体细部,再逐步调整到舞蹈动作的基本结构,最终生成更连贯的舞蹈序列。

实验设计与结果分析

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

零阶优化的扩散模型个性化方法;合成图像检测;舞蹈动作音乐同步生成-AI.x社区

实验部分验证了MusicInfuser在多个维度上的优越性能。定量评估显示,MusicInfuser在风格对齐、节拍对齐、身体表现、动作真实性和编舞复杂性等方面均优于基线模型。特别是在AIST测试数据中,MusicInfuser在节拍对齐、成像质量和动作真实性等关键指标上表现出色。

此外,MusicInfuser展示了对未见音乐类别的良好泛化能力。通过使用SUNO AI生成的音乐轨道,模型成功生成了多种风格的舞蹈视频,证明了其能够将新颖的音频模式映射到适当的舞蹈动作。速度控制实验进一步表明,加速或减速音乐轨道会导致生成的舞蹈动作相应调整步伐,同时保持相似的编舞风格。

结论与展望

MusicInfuser通过充分利用预训练文本到视频扩散模型中嵌入的丰富编舞知识,成功实现了与音乐同步的舞蹈视频生成。这一方法无需昂贵的动作捕捉数据,能够泛化到新的音乐轨道,并支持生成多样化的编舞和群舞视频。未来工作可以探索更多样化的输入模态组合,以及更复杂的舞蹈场景生成。

通过对MusicInfuser的研究,我们发现其在舞蹈质量、视频质量和提示对齐等多个维度上显著优于现有方法。然而,模型仍存在一定的局限性,例如对某些复杂音乐模式的响应可能不够精确。未来的改进方向包括进一步优化音频特征提取模块,增强对多样化音乐风格的适应能力,以及探索更高效的训练策略以减少计算成本。

本文转载自​​AI研究前瞻​​,作者:胡耀淇


收藏
回复
举报
回复
相关推荐