3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!

发布于 2025-6-23 09:33
浏览
0收藏

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

论文链接:https://arxiv.org/pdf/2506.13594 
项目链接:https://ai4scientificimaging.org/dive3d 

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

效果展示

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

与Gaussian Splatting基线的比较。

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

Dive3D 可以在不同的 3D 表示中生成 3D 对象

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

Dive3D 3D Gaussian Splattings

亮点直击

  • SIM损失替代KL散度:提出基于梯度匹配的SIM损失,从根本上解决KL散度导致的模式坍塌问题,显著提升多样性。
  • 统一框架:首次将扩散蒸馏和奖励引导优化统一为发散最小化问题,实现多目标协同优化。
  • 全方面性能提升:在多样性、文本对齐、视觉质量、人类偏好等维度均超越SDS和奖励基线方法。
  • 强基准验证:在GPT-Eval3D等复杂评测中全面领先,验证了方法的鲁棒性和泛化性。

总结速览

解决的问题

  • 生成多样性不足:现有基于Score Distillation Sampling (SDS)的方法因使用KL散度而导致模式坍塌(mode collapse),生成结果多样性受限。
  • 文本对齐与视觉保真度的平衡:传统方法在提升文本对齐时可能牺牲生成多样性或视觉质量。
  • 多目标统一优化:扩散蒸馏(diffusion distillation)和奖励引导优化(reward-guided optimization)缺乏统一的框架,难以协同优化。

提出的方案

  • Score Implicit Matching (SIM)损失:用基于梯度的SIM损失替代KL散度,直接匹配生成内容与扩散先验的概率密度梯度场,避免模式坍塌。
  • 统一发散视角框架:将扩散蒸馏和奖励引导优化整合到基于发散(divergence)的统一框架中,实现多目标协同优化。
  • 多样性驱动的3D生成:通过SIM损失和统一框架,在保证文本对齐和视觉质量的同时,显著提升生成多样性。

应用的技术

  • 扩散模型蒸馏:利用预训练2D扩散模型(如Stable Diffusion)作为先验,通过多视角渲染优化3D资产。
  • 梯度场匹配(SIM):通过匹配生成内容与目标分布的分数(score)来优化多样性。
  • 奖励引导优化:结合人类偏好或CLIP奖励,进一步提升语义对齐和视觉质量。
  • 可微分渲染:将3D表示(如NeRF)渲染为2D图像以计算损失。

达到的效果

  • 更高多样性:SIM损失有效缓解模式坍塌,生成结果覆盖更多高概率区域。
  • 更好的文本对齐与视觉保真度:在文本-3D对齐、几何一致性、纹理质量等方面优于现有方法。
  • 人类偏好提升:生成的3D资产在美观性、真实感上更符合人类评估标准。
  • 基准测试领先:在GPT-Eval3D等基准上优于9种现有方法,定量与定性评估均表现优异。

方法

Dive3D——一个通过用基于分数的发散优化替代KL散度引导,从而提升文本到3D合成的多样性和保真度的原则性框架(见下图2)。首先证明现有的SDS和奖励损失都是KL散度的线性组合,因此容易产生模式坍塌和模式寻求。接着提出基于分数的发散公式,克服了这些限制并产生显著更多样且更高质量的3D输出。

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

SDS和奖励引导都是KL散度

SDS损失。SDS损失中的无分类器引导(公式5-6)可以重写为:

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

将式9代入式6并积分后,SDS损失可表示为两个KL散度项的差值:

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

显式奖励损失。假设奖励定义了一个指数分布,

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

公式8中的显式奖励损失同样可以解释为一个KL散度:

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

统一KL散度框架。整合这些组件,可以通过定义三个基于KL的核心项来统一扩散或基于奖励的文本到3D生成框架中的所有损失项:

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

SDS和基于奖励的目标都只是这些散度的线性组合:

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

从KL散度到基于分数的散度

为了解决这些问题,在Dive3D中提出用基于分数的散度(称为分数隐式匹配(SIM)损失)替代KL散度,该损失在一步扩散和流模型中已显示出对生成多样性的显著改进。两个分布p和q之间的基于分数的散度定义为

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

则式13-14中基于KL的损失可更新为:

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

该公式提供了生成内容与基于扩散或奖励的图像分布之间更有效的相似性度量,产生的3D输出比使用传统KL散度生成的结果具有更高的多样性和保真度。

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

实验

本节评估提出的基于分数的散度优化如何提升文本到3D合成的质量和多样性。在GPTEval3D基准测试上进行了全面实验,并辅以额外的2D和3D评估来证明方法的有效性和多样性。

GPTEval3D基准测试评估

设置。首先在GPTEval3D基准测试的110个创意复杂提示上评估Dive3D,与9种最先进方法进行比较,包括DreamFusion、DreamGaussian、Instant3D、Fantasia3D、Latent-NeRF、Magic3D、ProlificDreamer、MVDream和DreamReward。所有实验使用PyTorch和ThreeStudio框架,测试了MVDream和Stable Diffusion作为扩散主干,PickScore作为奖励模型。每个物体在单个NVIDIA A100 GPU上优化约一小时。


定量结果。下表1报告了本文的方法在六个指标上的性能,包括文本-资产对齐(+53.5)、3D合理性(+49)、文本-几何对齐(+68.2)、纹理细节(+67.5)、几何细节(+35.3)和整体性能(+50.0),其中"+"表示相对于最先进技术的改进,"-"表示退化。Dive3D在所有指标上均排名第一,表明基于分数的散度引导——尤其是与奖励模型结合时——相比纯扩散和奖励增强基线都有显著提升。

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

定性结果。下图3将Dive3D与基于Stable Diffusion的方法(如DreamFusion、Fantasia3D、ProlificDreamer)进行对比,后者通常在精细细节或提示遵循方面存在困难。通过优化一个统一文本条件扩散先验与可微奖励模型的基于分数散度,Dive3D始终能生成高保真、语义精确的3D资产。

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

下图4和图6中的补充示例将Dive3D与MVDream和DreamReward进行对比。虽然MVDream保持了几何一致性,但有时会偏离提示内容(标红显示缺失的关键词)。

DreamReward改善了对齐性,但仍受限于其基于KL的公式和相关的模式坍塌。相比之下,Dive3D忠实遵循提示,提供丰富的细节和吸引人的美学效果,并保持强大的视觉连贯性。

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

生成多样性分析

设置。本文随后展示基于分数的散度比传统基于KL的损失能产生更多样化、信息更丰富的输出。为此,在2D和3D设置下测试方法——使用Stable Diffusion作为主干。2D场景用2D神经辐射场表示;3D场景使用完整3D NeRF。主要与基于KL散度的领先方法ProlificDreamer比较,该方法利用变分分数蒸馏(VSD)最大化文本到3D生成的多样性。在单个NVIDIA A100 GPU上,2D实验约30分钟完成,3D评估耗时约9小时。


2D结果。首先评估2D生成任务,从文本到图像扩散模型中蒸馏2D神经场。该任务与文本到3D问题数学公式相同,但计算需求更低(无需处理相机位姿)。如下图5所示,在游戏角色和真实建筑生成任务中,基于分数的散度始终比KL散度产生更多样化的样本。例如生成"一座日式真实建筑"时,基于KL的方法持续生成标准配色(红蓝为主)、统一背景(绿树成荫)和相似天气条件(晴朗白天)的塔楼;而基于分数的方法则生成具有多变光照(夜景/雪景)和多样建筑特征(塔楼/亭台/民居)的输出。游戏角色生成任务也呈现相似趋势:基于KL的SDS损失倾向于生成相似原型,而基于分数的损失展现出更广泛的人物、服装风格和背景。

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

3D结果。这些多样性优势自然有效地推广到3D合成。下图1(a)对比了基于KL的VSD损失与本文基于分数散度在"天空中的海盗船"上的输出。如预期,本文的方法产生了更广泛的几何形状、表面纹理和背景场景(从晴朗天空到雷暴乌云)。图7通过多样提示的额外示例强化了这一发现,展示基于分数的散度如何在颜色、物体风格、材质属性和环境细节上产生更丰富的变异。

3D生成新王者!北大&小红书发布Dive3D:双引擎驱动,画面更真、创意更野、花样更多!-AI.x社区

结论

Dive3D框架,通过用基于分数的散度替代非对称KL散度目标,同时增强了基于扩散的蒸馏和奖励引导优化。在GPTEval3D等基准测试中,Dive3D有效缓解模式坍塌,在显著提升多样性的同时改进文本对齐、几何合理性和视觉保真度。


局限性与未来工作。尽管Dive3D成果显著,其运行速度仍慢于近期基于LRM的方法。未来计划将基于分数的散度与隐空间重建模型结合:先蒸馏多样化的文本驱动多视图生成器,再与LRM技术结合以实现快速、高保真且多样的3D合成。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​

收藏
回复
举报
回复
相关推荐