从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？精华

angel

发布于 2025-5-14 09:31

浏览

0收藏

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

文章链接：https://arxiv.org/pdf/2505.05474
Git 链接：https://github.com/hzxie/Awesome-3D-Scene-Generation

亮点直击

综述了3D场景生成SOTA方法;
组织为四种范式：程序化生成、基于神经网络的3D生成、基于图像的生成和基于视频的生成;
分析了它们的技术基础、权衡和代表性结果，并回顾了常用数据集、评估协议和下游应用;
讨论了生成能力、3D表示、数据和标注以及评估中的关键挑战，并概述了包括更高真实度、物理感知和交互生成以及统一感知生成模型等有前景的方向;
回顾了场景编辑、人-场景交互、具身智能、机器人和自动驾驶中的关键应用，并强调了生成AI、3D视觉和具身智能交叉领域的有前景方向。

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

3D场景生成旨在为沉浸式媒体、机器人技术、自动驾驶和具身智能等应用合成具有空间结构、语义意义和逼真效果的环境。早期基于程序规则的方法具备可扩展性，但多样性有限。最近在深度生成模型（如GANs、扩散模型）和3D表示（如NeRF、3D高斯）方面的进展，使得学习真实世界场景分布成为可能，提高了真实度、多样性和视图一致性。最近的进展如扩散模型，通过将生成重新框定为图像或视频合成问题，连接了3D场景合成与逼真效果。

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

范围。 本次调研主要关注3D场景表示中的3D场景生成方法。值得注意的是，这些生成方法旨在合成多样化的3D场景，而3D重建方法只能从给定输入生成单一场景。对于重建方法的回顾，可参考[59], [60]。此外，本次调研不包括一般视频生成 [38], [61] 和一般3D对象生成[62], [63], [64] 方法，尽管它们在3D场景生成中展示了一些能力。该调查是对现有3D生成模型综述[51][52][53][54][55]的重要补充——由于当前尚无研究能全面概述3D场景生成技术及其相关核心见解。

组织。 下图2展示了本次调研的结构。下文中先提供基础概念，包括任务定义和公式化、3D场景表示和生成模型。随后将现有方法分为四种类型，详细说明每个类别的范式、优点和缺点。然后介绍相关数据集和评估指标。还回顾了与3D场景生成相关的各种下游任务。最后讨论当前挑战、未来方向，并总结该综述。

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

前置知识

任务定义与公式化

3D场景生成将输入（例如，随机噪声、文本、图像或其他条件）映射到3D场景表示，使用生成模型。

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

生成的场景在空间上是连贯的，隐式或显式地定义了3D几何结构，并支持多视图渲染或3D重建。

3D场景表示

在计算机视觉和图形学中，已经开发和使用了多种3D场景表示。在本节中，我们概述了关键的3D场景表示，讨论它们的结构、属性及其在3D场景生成中的适用性。

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

生成模型

生成模型通过学习统计模式（例如，AR 模型、VAEs、GANs、扩散模型）或应用预定义规则（例如，程序生成器）来合成数据。前者通过逼近数据分布以生成新颖的输出，后者则通过确定性或随机逻辑构建结构化的 3D 场景，而无需学习先验知识。本节简要介绍 3D 场景生成中的代表性生成模型，突出它们的特征和机制。

自回归模型（Autoregressive Models，AR 模型） 按顺序生成数据，其中每个元素都依赖于先前生成的元素。AR 模型的一个常见形式是将数据的联合概率分布分解为条件概率的乘积：

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

方法：分层分类法

我们根据其生成范式将现有方法分为四类，如下图3到下图6所示：

程序生成使用预定义规则、强制约束或来自LLM的先验知识创建3D场景，产生与图形引擎无缝集成的高质量输出。
基于神经3D的生成采用3D感知生成架构来合成场景布局以进行对象放置或直接生成3D表示，如体素、点云、网格、NeRF和3D高斯。
基于图像的生成使用2D图像生成器来合成图像，可以一步完成或迭代进行，有时随后进行3D重建以保证几何一致性。
基于视频的生成使用视频生成器来创建具有空间运动的3D场景和随时间演变的4D场景，捕捉空间和时间的动态变化。

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

程序生成

程序生成方法通过遵循预定义的规则或约束自动生成3D场景。它们广泛用于计算机图形学中创建多样化的环境，包括地形、植被、河流、道路、房间、建筑物和整个城市。如下表1所示，程序生成方法提供了高效率和空间一致性，但通常需要精心调整以实现逼真性和用户控制。这些方法的范式如图3所示，可以进一步分类为基于规则、基于优化和基于LLM的生成。

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

基于规则的生成

基于规则的程序生成涵盖了一系列通过显式规则和算法构建3D场景的方法。这些方法直接生成场景几何，然后进行渲染以便可视化。常见技术包括基于分形、基于语法、驱动仿真和基于示例的生成。

分形

是在各个尺度上表现出自相似性的数学结构。基于分形的方法广泛应用于地形建模和纹理合成，因为它们能够高效地生成视觉上复杂的图案，同时需要的存储量很小。诸如中点位移，如 [124], [125] 和分数布朗运动 [126] (fBM) 等技术生成类似自然景观的多尺度细节。

基于语法的方法

由一组符号、一个初始公理和一组重写规则组成。每个生成的符号编码用于复杂形状生成的几何命令。CityEngine扩展了L系统用于生成道路网络和建筑几何以创建城市。[6] 基于形状语法 [128] 来建模高度详细的3D建筑物。

基于仿真的程序生成

通过建模自然和人工过程来创建逼真的3D环境。一些方法仿真侵蚀效应和水文以生成高保真度的地形。植被仿真在资源竞争和气候变化下仿真植物生长。在城市环境中，基于生态系统的方法用植被填充城市，而其他方法则仿真城市增长和资源分配以生成有机演变的聚落。

基于示例的程序方法被提出以提高可控性。这些技术采用用户提供的小示例，通过扩展其边界或匹配特征来生成更大的场景。逆向程序生成试图对生成过程提供高级控制。这些方法应用优化函数从程序算法中推断参数或学习场景排列的全局分布。

上述技术通常结合使用，以利用其互补优势生成大规模、多样化的场景。例如，Citygen集成了道路网络和建筑生成以创建城市景观，而Infinigen结合了材料、地形、植物和生物生成器以生成无限自然场景。

基于优化的生成

基于优化的生成将场景合成表述为一个优化问题，最小化编码预定义约束的目标。这些约束通常源自物理规则、功能或设计原则，被嵌入到成本函数中，并通过随机或基于采样的方法进行优化。或者，统计方法从数据中学习空间关系，并通过概率采样指导布局过程。一些系统支持用户定义的约束和用户交互，以实现可控且语义上有意义的生成。

一些方法将物理和空间约束表述为成本函数，并应用随机优化方法进行场景生成。物理层次的约束包括对象相互穿透、稳定性和摩擦。布局层次的约束，包括功能关系（例如，共现、可达性）、室内设计指南（例如，对称性、对齐、共圆性）和人类行为模式，也被考虑在内。用户可以指定场景类型、大小和布局等高级约束，从而实现更可控且语义上有意义的场景合成。利用现有的程序生成管道，Infinigen Indoors引入了一个约束规范API，允许用户定义自定义约束并实现高度可控的场景生成。

其他方法采用数据驱动模型，从标注数据中学习对象排列模式，将场景生成转化为概率采样问题。贝叶斯网络常用于捕捉对象之间的条件依赖关系，如[151], [152], [153]，而基于图的模型，如[154], [155], [156] 则建模空间层次结构或关系结构，以提高空间推理和对象放置的准确性。

基于LLM的生成

大语言模型 (LLMs) 和视觉-语言模型(VLMs) 通过启用文本驱动的场景合成，允许用户通过自然语言描述指定环境，提供了更大的灵活性和用户对场景设计的控制，引入了程序生成的新范式。

一些方法使用LLMs生成场景布局，如对象参数和场景图。基于这些布局，可以通过对象检索或形状生成获得3D几何。具体来说，LayoutGPT使用生成提示和结构模板引导LLMs生成对象参数以检索资产。CityCraft使用LLMs指导土地利用规划，并从数据库中检索建筑资产以构建详细的城市环境。[168]使用基于图的对象表示更有效地建模对象间语义。为了支持更具风格化和多样化的场景生成，GraphDreamer和Cube通过LLMs生成场景图，将节点视为对象，并通过3D对象生成模型实现组合场景生成。场景语言引入了一种基于语言的场景表示，由程序、词汇和嵌入组成，可以由LLMs生成并使用传统、神经或混合图形管道进行渲染。

其他方法利用LLMs作为代理，通过调整基于规则系统的参数或修改程序生成软件中的操作来控制程序生成。[173]使用LLMs微调基于规则的景观生成中的参数，通过学习的先验知识优化程序工作流程。3D-GPT和SceneCraft生成Python脚本以控制现有程序框架，如Infinigen和Blender，允许直接操作程序资产。Holodeck通过与LLM进行多轮对话生成3D环境，包括地板和墙壁纹理化、门窗生成、对象选择和放置。CityX和SceneX使用多代理系统完成不同阶段的生成，通过Blender渲染生成布局、地形、建筑和道路的Python代码。WorldCraft进一步结合了对象生成和动画模块。

基于神经网络的3D生成

基于神经网络的3D生成方法使用在具有3D标注的数据集上训练的生成模型来生成3D场景表示。最近在NeRF和3D高斯方面的进展进一步提升了保真度和真实感。如上表1所示，这些方法在视图和语义一致性方面表现出色，但它们的可控性和效率仍然有限。如上图4所示，这些方法根据控制生成3D场景布局的空间安排分为四类：场景参数、场景图、语义布局和隐式布局。

场景参数

场景参数提供了一种紧凑的方式来表示对象排列，隐式地捕捉对象间的关系，而无需依赖显式场景图。这些参数通常包括对象的位置、大小、方向、类别和形状潜在编码。如上图4a所示，这些方法首先生成场景参数作为中间表示，然后用于合成最终的3D场景。

DeepSynth、FastSynth、[178] 和 Sync2Gen采用基于CNN的架构，利用自上而下的基于图像的场景表示，通过预测参数顺序插入对象。后续工作探索了更先进的模型，如transformer和扩散模型。ATISS、SceneFormer、COFS和 [182] 使用transformer自回归地生成对象参数。RoomDesigner通过解耦布局和形状生成来完善此过程，确保室内场景中的形状兼容性。CASAGPT利用长方体作为中间对象表示，以更好地避免对象碰撞。DeBaRA采用扩散模型进行对象参数生成，而 PhyScene进一步整合物理约束以实现物理合理性和交互性。

为了提高文本驱动场景生成的可控性，RelScene使用 BERT在隐空间中对齐空间关系与文本描述。DiffuScene利用隐空间扩散模型从文本输入生成对象参数，然后进行对象检索。Ctrl-Room [190] 和 SceneFactor采用LDMs从文本提示生成粗略的对象布局，分别通过全景生成和几何扩散模型获得细粒度外观。Epstein等人 [192]、SceneWiz3D和 DreamScene采用多阶段方法，首先生成初始对象布局，然后使用Score Distillation Sampling (SDS)细化对象几何，最后进行全局细化步骤以提高组合一致性。

人类运动和交互常常影响环境的组织，运动模式和物理接触为对象和场景布局的安排提供信息。Pose2Room引入了一种端到端生成模型，从人类运动中预测房间内家具的边界框。SUMMON和 MIME通过生成与人类场景接触对齐的网格对象，进一步提高语义一致性和物理适应性。[198] 提出了一种多条件扩散模型，整合文本提示以增强可控性。为了确保物理上合理的布局，不发生接触或碰撞，INFERACT在物理环境中使用强化学习同时仿真人类运动优化场景布局生成。

场景图

场景图提供了3D场景的结构化、符号化表示，节点代表对象，边捕捉它们的空间关系。结合场景图可以让生成模型强制执行空间约束并保持关系一致性，从而促进结构良好的3D环境的创建。遵循图4b中说明的范式，场景图，无论是由模型生成还是作为输入提供，作为布局先验指导解码过程，通过对象检索或形状生成创建3D场景表示。

早期的数据驱动方法，如[200]、[201]、[202]、[203] 使用场景图表示对象之间的空间关系，作为通过对象检索和放置生成3D场景的蓝图。后续工作增强了图表示并引入了先进的生成模型。PlanIT采用深度图生成模型合成场景图，随后使用基于图像的网络进行对象实例化。GRAINS采用递归VAE学习场景结构为层次图，可解码为对象边界框。3D-SLN使用场景图作为3D场景布局生成的结构先验，确保空间一致性，并进一步结合可微渲染合成逼真的图像。Meta-Sim和 MetaSim2使用场景图构建场景生成，优化视觉真实感参数并使用渲染引擎合成多样化的3D场景。

以前的方法允许从场景图生成场景，但依赖于对象检索或直接合成，限制了几何多样性。为了解决这一问题，Graph-to-3D引入了一个基于图的VAE，联合优化布局和形状。SceneHGN将场景表示为从高级布局到细粒度对象几何的层次图，使用层次VAE进行结构生成。CommonScenes和 EchoScene提出场景图扩散模型，具有布局和形状的双分支设计，捕捉全局场景-对象关系和局部对象间交互。MMGDreamer引入混合模态图以精细控制对象几何。

最近的方法通过整合人类输入提高了可控性。SEK在条件扩散模型中将场景知识编码为场景图，用于草图驱动场景生成。InstructScene将文本编码器与基于图的生成模型集成，用于文本驱动场景合成。为了将基于场景图的生成推广到更广泛的场景，[211]将场景图映射到鸟瞰图(BEV)嵌入图，指导扩散模型进行大规模户外场景合成。HiScene利用VLM引导的遮挡推理和基于视频扩散的非遮挡补全，从单个等距视图生成可编辑的3D场景，具有组合对象身份。

语义布局

语义布局作为一种中间表示，编码了3D场景的结构和语义组织。它为3D场景生成提供了高级指导，确保对象和场景元素的放置可控且一致。如上图4c所示，语义布局，无论是用户提供的还是生成的，作为生成模型的精确约束，指导3D场景生成，同时允许通过纹理提示进行风格控制。

二维语义布局由一个二维语义地图组成，有时包括从俯视角度观察的高度图等附加地图。CC3D生成一个基于二维语义地图的3D特征体积，作为神经渲染的NeRF。BerfScene结合位置编码和低通滤波，使3D表示与鸟瞰图（BEV）地图等变，支持可控且可扩展的3D场景生成。Frankenstein将场景组件编码为一个紧凑的三平面，通过条件在二维语义布局上的扩散过程生成。BlockFusion引入了一种潜在的三平面外推机制，用于无限场景扩展。结合语义地图的高度图可以直接将二维布局转换为3D体素世界，这对于建筑结构和地形高程提供重要先验的城市和自然场景至关重要。InfiniCity利用InfinityGAN生成无限规模的二维布局，然后用于创建一个密闭的语义体素世界，通过神经渲染合成纹理。对于自然场景生成，SceneDreamer使用神经哈希网格捕捉各种景观的可泛化特征，建模一个空间和场景变化的超空间。为解决城市环境中建筑的多样性，CityDreamer和 GaussianCity将生成过程分解为不同的背景和建筑组件。CityDreamer4D进一步整合动态交通系统以生成一个广阔的四维城市。

三维语义布局相比二维提供了增强的能力来表示更复杂的3D布局，提高了可控性，通常通过使用体素或3D边界框实现。GANcraft使用体素作为3D语义布局，优化一个带有伪真实和对抗训练的神经场。UrbanGIRAFFE和 DisCoScene 将场景分解为物品、对象和天空，采用组合神经场进行场景生成。通过结合分数蒸馏采样（SDS） [195]，3D语义布局提供了更好的文本引导场景生成控制，提高了生成场景与文本描述的对齐。Comp3D、CompoNeRF、Set-the-Scene和 Layout-your3D使用预定义的可定制布局作为对象代理生成3D场景与组合NeRF。SceneCraft和 Layout2Scene 通过蒸馏预训练的扩散模型生成室内场景。Urban Architect 结合几何和语义约束与SDS，利用可扩展的哈希网格确保城市场景生成中的更好视图一致性。

隐式布局

隐式布局是编码3D场景空间结构的特征图。如上图4d所示，这些布局表现为不同维度的潜在特征。编码器学习将3D场景布局信息嵌入潜在特征图中，随后由解码器用于生成NeRF、3D高斯或体素网格形式的3D场景。

最近在NeRF和3D高斯等表示方面的进展使神经网络能够直接从潜在特征图生成和渲染高保真RGB图像。一些方法利用这些表示生成具有照片真实感的外观一致的3D场景。NeRF-VAE使用VAE编码跨多个场景的共享信息。GIRAFFE将场景表示为组合生成神经场，以将对象与背景解耦。GSN和 Persistent Nature采用基于GAN的架构生成二维潜在网格作为隐式场景布局，沿相机射线采样以指导NeRF渲染。GAUDI使用扩散模型联合学习场景特征和相机姿态，将其解码为三平面和姿态以进行基于NeRF的渲染控制。NeuralField-LDM将NeRF场景分解为包含3D体素、2D BEV和1D全局表示的层次潜在结构。然后在这个三隐空间上训练层次扩散模型以进行生成。Director3D使用一个高斯驱动的多视图隐空间扩散模型生成沿生成轨迹的像素对齐和无界的3D高斯，随后进行SDS细化。Prometheus和 SplatFlow从多视图图像中学习压缩隐空间，并将该隐空间解码为像素对齐的3DGS表示。

另一分支的工作更专注于生成语义结构和场景几何，通常使用体素网格作为表示。这些方法不能立即渲染，但可以通过外部渲染管道进行纹理化。[232] 引入离散和隐空间扩散模型生成和完成由多个对象组成的3D场景，表示为语义体素网格。由于体素网格带来的计算挑战，DiffInDScene、PDD、X3和 LT3SD使用层次扩散管道高效生成大规模和细粒度3D场景。SemCity使用三平面表示3D语义场景，允许在扩散过程中通过操控三平面空间进行生成和编辑。NuiScene将局部场景块编码为向量集，并使用扩散模型生成邻近块以实现无限的户外场景。DynamicCity通过使用Padded Rollout展开Hexplane为2D特征图并应用扩散进行去噪，解决动态场景生成，支持4D场景生成。

基于图像的生成

有限的带标注3D数据集可用性限制了3D场景的生成。基于图像的生成尝试弥合2D和3D生成之间的差距。如上表1所示，它们提供了照片真实感和多样性，具有高效的每帧处理，但在深度准确性、长距离语义一致性和视图一致性方面存在困难。这些方法分为两类：整体生成和迭代生成，如上图5所示。整体生成在单步中生成完整的场景图像，而迭代生成通过外推逐步扩展场景，生成一系列图像。

整体生成

如上图5a所示，3D场景生成中的整体生成通常依赖于全景图像，这些图像提供完整的360° × 180°视野，确保空间连续性和明确的几何约束。这使它们在减轻透视视图中出现的场景不一致性方面特别有效。

给定一个RGB图像，早期的方法，如[240], [241], [242], [243], [244], [245]使用GAN进行图像扩展以填充全景中的遮挡区域。更近期的方法采用先进的生成模型（例如，CoModGAN 和 VQGAN）以获得更大的多样性和内容控制。ImmerseGAN利用 CoModGAN 进行用户可控的生成。OmniDreamer和 Dream360使用 VQGAN 生成多样化和高分辨率的全景图。利用隐空间扩散模型（LDM）的进展，PanoDiffusion通过将深度整合到双模扩散框架中来增强场景结构意识。

文本到图像模型（例如，CLIP, LDM）使文本驱动的全景生成成为可能。Text2Light使用 CLIP 进行基于文本的生成，并使用分层采样器根据输入文本提取并拼接全景片段。一些方法，如[252], [253]利用扩散模型生成高分辨率的平面全景图。然而，它们未能保证图像边界的连续性，这是创建无缝观看体验的关键。为了解决这一问题，MVDiffusion, DiffCollage, 和 CubeDiff生成多视图一致的图像并将它们对齐成闭环全景以实现平滑过渡。StitchDiffusion, Diffusion360, PanoDiff, 和 PanFusion在边界采用填充和裁剪策略以保持连续性。

最近的方法将单视图全景生成扩展到多视图以进行沉浸式场景探索，主要遵循两种策略：一种是直接使用扩散模型生成多视图全景图像[259]，另一种是应用3D重建（例如，表面重建，如[190], [260], [261], NeRF [108], 和3D高斯splatting，如[109], [262], [263], [264], [265]）作为后处理。在此背景下，LayerPano3D [109] 将生成的全景分解为基于深度的层，填充未见内容以帮助创建复杂的场景层次结构。

另一个研究方向专注于从卫星图像生成几何一致的街景全景图。一些方法，如[266], [267], [268]将几何先验整合到基于GAN的框架中以学习跨视图映射。其他方法，如[269], [270], [271]从卫星图像中估计3D结构并合成纹理以渲染街景全景图。

迭代生成

如上图5b所示，迭代生成从一个初始2D图像开始，该图像可以由用户提供或从文本提示生成。为了生成大规模的3D场景，这些方法沿预定义的轨迹逐步外推场景。通过逐步扩展和优化内容，它们不断优化3D场景表示，增强几何和结构一致性。

给定一个单一图像，早期方法推断3D场景表示并使用它们渲染新视图。这些表示包括点云,如[110], [272], [273], [274], 多平面图像[275], [276], 深度图[277], 和网格[278]。尽管能够快速渲染，这些表示由于其有限的空间范围限制了摄像机运动。为了实现不受限制的摄像机运动，Infinite Nature, InfiniteNature-Zero, Pathdreamer, 和 SGAM 遵循“渲染-优化-重复”的方式，迭代地扭曲以前的视图并扩展缺失区域。DiffDreamer通过使用扩散模型在多个过去和未来帧上进行条件处理来改善多视图一致性。GFVS和 LOTR不使用显式3D表示，而是直接编码图像和摄像机姿态，使用transformer生成新视图。Tseng等人, Photoconsistent-NVS, 和 ODIN使用姿态引导的扩散模型改善长期视图合成一致性。

CAT3D使用多视图LDM从输入图像生成新视图，然后进行3D重建以进行交互式渲染。类似地，Bolt3D通过多视图扩散生成场景外观和几何，但直接输出3D高斯以避免耗时的优化。

文本驱动的场景生成通过利用预训练的文本到图像扩散模型提高多样性和可控性。这些方法无需广泛的领域特定训练，通过迭代地移动摄像机视图，根据文本提示扩展图像。

PanoGen, AOG-Net, PanoFree, OPaMa, 和 Invisible Stitch迭代地在透视视图中扩展图像并将它们无缝拼接成一个全景场景。其他方法利用深度估计器如[294], [295], [296]将RGB图像合并成统一的3D场景。SceneScape, Text2Room, 和 iControl3D使用3D网格作为中间代理逐步融合扩散生成的图像成一致的3D场景表示。WonderJourney采用点云表示并利用VLM引导的再生成策略确保视觉保真。Text2NeRF和 3D-SceneDreamer采用基于NeRF的表示以减少几何和外观中的错误积累，提高在不同场景中的适应性。Scene123进一步通过使用GAN框架增强照片真实感，其中判别器将视频生成器的输出与场景生成器的输出进行比较。通过引入3D高斯splatting, LucidDreamer, Text2Immersion, WonderWorld, RealmDreamer, BloomScene, 和 WonderTurbo采用3D高斯作为3D场景表示以获得更高质量和更快的渲染。利用强大的大型重建模型，如[306], [307], [308], [309], [310]的最新进展，SynCity通过迭代执行图像扩展、3D对象生成和拼接实现高质量3D场景的无训练生成。

另一个研究方向同时进行迭代视图合成和图像动画以从单一图像构建动态3D场景。3D Cinemagraphy和 Make-It-4D使用分层深度图像（LDIs）构建特征点云并通过运动估计和3D场景流动画场景。3D-MOM首先通过从单一图像生成多视图图像优化3D高斯，然后通过估计跨视图的一致运动优化4D高斯。

视频生成

最近的视频扩散模型取得了显著进展，能够生成高质量的视频内容。基于这些进展，视频驱动的3D场景生成方法可以生成图像序列，从而合成沉浸式和动态环境。如表1所示，它们通过序列生成提供了高度的真实感和多样性，受益于帧之间的时间一致性。然而，它们在确保一致的视图对齐方面面临挑战。这些方法可以分为两阶段和单阶段类别，其范式如图6所示。

两阶段生成

如上图6a所示，两阶段生成将生成过程分为两个阶段，每个阶段分别针对多视图空间一致性和多帧时间一致性。为了进一步提高视图一致性，这些生成的序列随后用于优化动态3D场景表示（例如，4D高斯, 可变形高斯）。VividDream首先通过迭代图像扩展构建静态3D场景，然后渲染覆盖整个场景的多视图视频，并应用时间反转来对其进行动画处理，创建跨视点的动态视频。PaintScene4D首先使用视频扩散从文本描述生成视频，然后通过在每个时间戳进行迭代扭曲和图像扩展进行细化，以保持多视图一致性。类似地，4Real,DimensionX, 和 Free4D首先生成一致的参考视频，然后使用帧条件视频生成扩展视角。

单阶段生成

如上图6b所示，单阶段生成将生成过程整合为一个单一过程，隐式地捕捉时空一致性，以在统一模型中从任何视点和时间步生成单视图或多视图视频。一些方法，如[318], [319], [320], [321], [322], [323], [324], [325] 采用视频扩散模型进行迭代视图外推，然后进行3DGS优化以构建静态场景。为了生成动态场景，GenXD [119] 和 CAT4D采用不同的多视图-时间策略来构建能够生成所有时间戳的多视图视频模型。StarGen和 Streetscapes使用过去的帧作为视频生成的指导，通过自回归方法增强长距离场景合成。通过利用全景图像的自然多视图3D先验，4K4DGen从静态全景中采样透视图像，对其进行动画处理，并将其对齐成动态全景。360DVD, Imagine360, Genex, 和 DynamicScaler将全景约束整合到视频扩散模型中以生成球形一致的全景视频。

在视频游戏和自动驾驶的场景生成中，这些方法通过整合各种控制信号作为条件来增强控制和真实感。在开放世界游戏环境中，庞大的数据集包括用户输入和渲染视频，使得模型如 DIAMOND， GameNGen, Oasis, GameGenX, 和 WORLDMEM能够根据用户交互预测未来帧，创建响应式虚拟环境作为神经游戏引擎。在自动驾驶中，模型如 DriveDreamer, MagicDrive, DriveWM, 和 GAIA-1利用文本、边界框、鸟瞰图（BEV）地图和驾驶员动作等输入来控制复杂驾驶场景的视频生成。最近的工作进一步增强视图一致性，如[340], [341], [342], [343], [344], [345], [346], [347], [348], [349], [350]，扩展控制能力，如[118], [351], [352], [353], [354]，通过占用实现3D级控制，如[355], [356], [357], [358], [359]，支持多模态输出，如[360], [361], [362]，并提高生成速度如[363] 和序列长度，如[364], [365], [366], [367]。

数据集和评估

数据集

我们在下表3中总结了用于3D场景生成的常用数据集，并按场景类型将其分为三类：室内、自然和城市。

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？-AI.x社区

室内数据集

现有的室内数据集要么是通过RGB或RGB-D传感器从真实世界场景中收集的，要么是通过专业设计的3D CAD家具模型制作的。真实世界数据集是通过深度、单反或全景相机等传感器从物理场景中收集的。早期的数据集提供带有语义标签的RGB-D或全景图像（例如，NYUv2, 2D-3D-S），而最近的数据集如ScanNet和Matterport3D则提供密集网格和实例级标注的3D重建。

SUN360包含67,583张高分辨率360°×180°全景图像，采用等矩形格式，手动分类为80种场景类型。
NYUv2提供1,449张密集标注的RGB-D图像，来自464个室内场景，涵盖每像素语义和实例级对象。
SUN-RGBD提供10,335张RGB-D图像和重建的点云，具有丰富的标注，包括房间类型、2D多边形、3D边界框、相机姿态和房间布局。
SceneNN提供来自100个室内场景的502K RGB-D帧，具有重建网格、纹理模型、相机姿态以及面向对象和轴对齐的边界框。
2D-3D-S包括来自六个室内区域的超过70,000张全景图像，带有对齐的深度、表面法线、语义标签、点云、网格、全局XYZ地图和完整相机元数据。
Laval Indoor提供2.2K高分辨率室内全景（7768×3884），具有来自家庭、办公室和工厂等各种环境的HDR照明。
Matterport3D包含来自90栋建筑的194,400个RGB-D视图的10,800张全景图像，具有密集的相机轨迹、对齐的深度图和语义标签。
ScanNet提供来自707个不同空间的1,513次扫描中的2.5M RGB-D帧，具有相机姿态、表面重建、密集3D语义标签和对齐的CAD模型。
Replica提供18个场景中35个房间的高质量3D重建，具有PBR纹理、HDR照明和语义标注。
RealEstate10K包含来自10K YouTube视频的1000万帧，具有每帧相机参数的室内和室外场景。
3DSSG提供来自3RScan的478个室内房间的场景图，具有93个对象属性、40种关系类型和534个语义类。
HM3D提供1,000个高分辨率3D重建，涵盖住宅、商业和公共建筑的室内空间。
**ScanNet++**包括使用激光扫描仪、单反和iPhone RGB-D收集的1,000多个场景，具有细粒度语义和长尾类别。
DL3DV-10K包含来自65个室内和半室外地点的10,510个视频序列中的51.2M帧，具有反射和不同照明等多样的视觉条件。

合成室内数据集克服了真实世界的限制，如有限的多样性、遮挡和昂贵的标注。使用设计的布局和纹理化的3D资产，数据集如SUNCG和3D-FRONT提供大规模、多样化的场景。一些如[383], [384]利用高级渲染技术生成具有准确2D标签的照片级真实图像。

SceneSynth包括130个室内场景（例如，书房、厨房、客厅），具有来自Google 3D Warehouse的1,723个独特模型。
SUNCG提供45,622个手动设计的场景，具有404K个房间和5.7M个对象实例，来自84个类别的2,644个网格。
Structured3D包括来自3,500个专业设计房屋的196.5K张图像，具有详细的3D标注（例如，线条、平面）。
Hypersim提供77.4K张具有PBR材料和照明的照片级真实渲染，用于真实视图合成。
3D-FRONT提供6,813个专业设计的房屋和18,797个多样化布置的房间，填充来自3D-FUTURE的高质量纹理化3D对象。
SG-FRONT增强3D-FRONT的场景图标注。

自然数据集

自然场景的数据集仍然有限，主要是由于在开放的户外环境中进行大规模收集和标注的困难。然而，已经有一些显著的努力推动了该领域的研究。

Laval Outdoor提供205个高分辨率HDR全景图，涵盖多样化的自然和城市场景。
LHQ提供来自Unsplash和Flickr的91,693张精选风景图像，旨在用于高质量图像生成任务。
ACID包含来自891个YouTube视频的沿海地区的2.1M无人机收集帧，具有通过结构从运动获得的3D相机轨迹。

城市数据集

城市数据集是通过真实世界图像或使用游戏引擎合成的，提供2D或3D图像和标注。真实世界数据集主要关注驾驶场景，由于过去十年自动驾驶的显著关注，代表数据集有KITTI, Waymo, 和 nuScenes。另一个主要来源是Google的街景和航拍视图，如HoliCity和GoogleEarth。这些数据集提供丰富的标注，如语义分割和实例分割。

KITTI数据集在卡尔斯鲁厄收集，包含立体和光流对、39.2公里的视觉里程计，以及使用Velodyne LiDAR、GPS/IMU和带灰度和彩色相机的立体相机设备进行的超过200K的3D对象标注。
SemanticKITTI扩展了KITTI，提供完整360°LiDAR扫描的密集逐点语义。
KITTI-360扩展了KITTI，提供73.7公里的驾驶数据、超过150K的图像、10亿3D点，以及使用两个180°鱼眼侧摄像机、一个前立体摄像机和两个LiDAR的设备进行的密集2D/3D标签。
Cityscapes提供来自50个城市的街景视频，拥有5K像素级和20K粗略标注，用于强监督和弱监督。
Waymo提供来自1,150个20秒场景（总共6.4小时）的1M帧，包含12M 3D和9.9M 2D框，使用5个LiDAR和5个高分辨率针孔摄像机在旧金山、山景城和凤凰城采集。
nuScenes提供来自波士顿和新加坡的1,000个20秒场景的1.4M图像和390K LiDAR扫描，使用6个摄像机、1个LiDAR、5个雷达、GPS和IMU，具有23个类别的3D框跟踪。
HoliCity将6,300个高分辨率全景图（13312×6656）与伦敦市中心的CAD模型对齐，用于图像-CAD融合。
OmniCity提供来自纽约市25K地点的100K+像素标注的街景、卫星和全景图像。
GoogleEarth提供来自400条Google Earth轨迹的24K纽约图像，包含2D/3D语义和实例掩码以及相机参数。
OSM数据集来源于Open Street Map，提供80多个全球城市的鸟瞰语义地图、高度场和道路、建筑及土地使用的矢量数据。

真实世界的标注成本高且视角有限。像CARLA和CityTopia这样的合成数据集在游戏引擎中构建，提供丰富的街景和无人机视图以及丰富的2D/3D标注。

CARLA是一个基于Unreal Engine的开源仿真器，提供多样化的城市环境、传感器仿真（摄像机、LiDAR、雷达）以及可定制的驾驶场景，控制天气、照明、交通和行人行为，支持RGB图像的无限渲染及相应的2D/3D标注。
CarlaSC提供来自CARLA仿真器中43.2K帧语义场景，收集自8个地图中的24个序列，在不同交通条件下使用虚拟LiDAR传感器。
Virtual-KITTI-2使用Unity复制5个KITTI序列，提供在不同条件下具有密集标注的深度、分割、光流和对象跟踪的照片级真实视频。
CityTopia提供来自Unreal Engine中11个程序生成城市的37.5K照片级真实帧，具有精细的2D/3D标注，特点是多样化的照明和航拍/街景视角。

评估

评估3D场景生成方法对于在不同领域比较不同方法至关重要。已经提出了各种指标来评估生成场景的关键方面，包括几何准确性、结构一致性、视觉真实感、多样性和物理合理性。本节总结并讨论了3D场景生成中常用的评估指标，强调它们与不同生成范式和重点的相关性。

基于指标的评估

保真度通过使用图像和视频生成指标来评估生成场景的视觉质量和真实感，特别是对于可渲染输出如NeRFs、3D高斯或图像序列。Frechet Inception Distance (FID)、Kernel Inception Distance (KID)和Inception Score (IS)被广泛用于评估渲染图像与真实样本之间的分布相似性。FID和KID计算从预训练的Inception网络提取的特征分布之间的统计距离，而IS基于分类置信度测量图像质量和多样性。SwAVFID、FDD和FIDCLIP探索替代特征空间以更好地与人类评估相关。无参考图像质量指标如Natural Image Quality Evaluator (NIQE)、Blind/Referenceless Image Spatial Quality Evaluator (BRISQUE)用于直接从图像统计估计感知质量。CLIP-IQA结合CLIP特征与学习的IQA模型以更好地在文本或语义条件下与人类感知对齐。为了在3D空间中特定评估照片真实感，F3D是FID的3D适应，基于具有3D CNN架构的预训练自动编码器。除了感知评分，一些指标评估生成样本与真实样本之间的分布对齐。Minimum Matching Distance (MMD)量化跨分布最近点之间的平均成对距离，Coverage (COV)测量生成样本覆盖目标分布的程度，1-Nearest Neighbor Accuracy (1-NNA) 通过使用最近邻检索对样本进行分类来估计模式崩溃或过拟合。

空间一致性指标评估生成场景的3D几何和多视图对齐。对于深度误差，可以使用最先进的单目深度估计模型获得伪真实深度图，而场景的深度图可以使用可靠的运动结构（SfM）管道如COLMAP获得。对于相机姿态误差，COLMAP也用于从渲染序列估计相机轨迹。这些预测值与真实值之间的距离使用距离函数计算，如L2距离、RMSE和尺度不变均方根误差（SI-RMSE）。

时间一致性是评估动态场景或基于视频输出的生成3D场景的关键指标。流变形误差（FE）通过计算两个帧之间光流的变形误差来测量视频的时间稳定性。Frechet Video Distance (FVD)基于FID的基本原理，引入了一种不同的特征表示，除了每帧的质量外，还捕捉视频的时间一致性。专注于生成视频中的复杂运动模式，Frechet Video Motion Distance (FVMD) 设计基于关键点跟踪的显式运动特征，通过Frechet距离测量这些特征之间的相似性，以评估生成视频的运动一致性。

可控性评估响应用户输入的能力。CLIP Score利用预训练的CLIP模型测量生成图像与条件文本之间的对齐，反映生成如何忠实地遵循用户指定的提示。

多样性意味着产生多样化输出的能力。类别分布KL散度（CKL）比较合成场景中的对象类别分布与训练集的分布，较低的散度表明更好的多样性。场景分类准确性（SCA）使用训练的分类器区分真实和生成场景，测量合成场景的分布与真实场景的匹配程度。

合理性衡量生成场景遵循物理和语义约束的程度。碰撞率衡量场景中所有生成对象中发生碰撞的对象比例。越界对象面积 (OBA) 评估场景中累积的越界对象面积。

基于基准的评估

为了促进对多样化3D场景生成方法的公平、可重复和全面的评估，最近的研究越来越多地采用标准化的基准套件，这些套件整合了多个指标、任务配置和质量维度。这一趋势标志着从仅依赖孤立的定量指标转向采用更整体的、任务对齐的评估，更好地反映现实世界应用的复杂性。

Q-Align采用大型多模态模型 (LMMs) 来预测与人类判断一致的视觉质量分数。它涵盖三个核心维度：图像质量评估 (IQA)、图像美学评估 (IAA) 和视频质量评估 (VQA)。在推理过程中，收集平均意见分数并重新加权以获得 LMM 预测分数。

VideoScore通过在大规模人类反馈数据集上训练来实现视频质量评估。它提供了五个方面的评估：视觉质量 (VQ)、时间一致性 (TC)、动态程度 (DD)、文本到视频对齐 (TVA) 和事实一致性 (FC)。

VBench和 VBench++ 是用于视频生成的全面且多功能的基准套件。它们包括视频生成中的16个维度（例如，主体身份不一致、运动平滑度、时间闪烁和空间关系等）。VBench-2.0 [420] 进一步解决与内在忠实度相关的更复杂的挑战，包括常识推理、基于物理的真实感、人类运动和创意组合。

WorldScore统一了对3D、4D和视频模型生成世界能力的评估。它将3D场景生成的评估形式化为由相机轨迹指导的下一个场景生成任务序列，联合测量各种细粒度特征中的可控性、质量和动态性。

人工评估

用户研究仍然是捕捉3D场景生成难以通过自动化指标量化的主观质量（如视觉吸引力、真实感和感知一致性）的重要组成部分。

参与者通常被要求根据多个方面对生成场景进行排序或评分，包括照片真实感、美学、输入对齐（例如文本或布局）、跨视图的3D一致性以及物理或语义合理性。理想情况下，参与者应包括领域专家（例如，3D艺术家、设计师、研究人员）和普通用户。专家可能提供更具批判性和结构化的见解，而非专家则更好地反映普通用户的印象。

尽管人工评估资源密集且本质上主观，但它们通过在现实世界背景中捕捉人类偏好来补充其他评估方法，提供了基本的定性见解。像Prolific 和 Amazon Mechanical Turk (AMT) 这样的平台促进了多样化参与者的招募，并使用户研究的规模化更高效。

应用和任务

3D场景生成的快速进展使得在多个相关领域中实现了多样化的应用。本节重点介绍3D场景生成应用的关键领域，包括3D场景编辑、人景交互、具身智能、机器人技术和自动驾驶。

3D场景编辑

3D场景编辑涉及从单个对象修改到完整环境定制的场景外观和结构的改变。它广泛包括纹理编辑，专注于生成风格化或真实的表面外观，以及布局编辑，涉及物理和语义合理的对象排列。

纹理化和风格化旨在根据用户规格创建美观和风格化的外观。虽然最近的进展在扫描网格或合成室内数据集上取得了令人印象深刻的成果，但它们受限于重建的不完整几何或广泛的手动建模。为了解决这些限制，最近的方法利用3D场景生成来合成完整且语义一致的场景，直接支持纹理生成任务。

方法如 Ctrl-Room、ControlRoom3D、RoomTex 和 DreamSpace采用整体生成技术来创建全景房间纹理，然后进行详细的细化。除了直接生成，3D场景生成还促进了纹理化方法的评估。InstanceTex在现有数据集和由 EchoScene生成的新场景中生成纹理，提高了基准评估的多样性和鲁棒性。

3D场景布局编辑专注于在场景中排列对象以产生语义上有意义和物理合理的配置。几种方法，如 LEGO-Net、CabiNet和 DeBaRA，处理现有场景的重新排列。这些方法使用对象级属性，如类别标签、位置和方向，以产生更有组织和规律的排列。一些方法支持更互动和动态的布局编辑。例如，SceneExpander和 SceneDirector通过直观的用户交互启用实时编辑，如修改房间形状或移动对象，并自动更新周围对象以保持空间一致性。最近在组合生成 NeRF 的进展进一步推动布局控制的边界，使得隐式表示的编辑成为可能。

DisCoScene、Neural Assets和 Lift3D通过调整控制信号（如空间位置或潜在特征）实现对象级编辑，允许灵活和可控的场景操作。

人类-场景交互

人类-场景交互（Human-Scene Interaction，HSI）关注于建模人类如何与其环境互动并对其产生影响。逼真的角色动画和行为建模需要合成虚拟角色与其环境之间可信的交互。HSI 的最新进展在生成逼真且物理上合理的人类动作方面取得了显著成果，同时也能创建与特定动作序列相匹配的场景。

为了在场景环境的条件下生成人体动作，一些方法，如[437], [440], [441], [442] 直接从包含扫描室内场景和捕捉到的人体动作的数据集中学习。然而，这些数据集在可扩展性方面通常有限，并且局限于静态场景，无法建模动态的人物-物体交互。另一些工作，如[438], [439], [446], [447], [448] 则使用带有强化学习的仿真环境来生成物理上合理的动作。然而，由于高昂的搭建成本，这些仿真通常依赖于简化的场景，从而在合成训练与现实世界应用之间引入了“仿真到现实差距”（sim-to-real gap），因为现实环境更加复杂和多样。

近期如 GenZI的工作初步解决了这一问题，通过将二维图像中生成的人体提升到三维，实现了对新场景的零样本泛化。尽管 GenZI 仍依赖于预设计的合成场景进行评估，但它突显了将场景生成与动作生成结合起来，以更有效地扩展 HSI 数据的潜力。集成高质量的三维场景生成对于推动可扩展且逼真的 HSI 研究至关重要，特别是在同时考虑人体可达性、动作可行性和场景语义的情况下。

具身智能

在具身智能中，智能体与环境交互，以发展高级语义理解和目标导向行为。三维场景生成通过提供视觉和功能上丰富的环境来支持这一点，使得导航、探索和指令执行等任务成为可能，重点在于认知推理而非精确的物理控制。

仿真环境通常基于重建的现实世界数据或手工设计的场景构建，但这两种方法都有局限性：现实世界数据集存在质量和标注问题，而手工创建则劳动密集且难以扩展。在这种背景下，三维场景生成为具身智能研究创建仿真环境提供了一种可扩展、多样化且物理合理的替代方案。

对于室内环境，ProcTHOR使用程序生成来创建遵循现实布局和物理约束的场景。

Holodeck利用大语言模型（LLM）根据用户提供的提示自动生成匹配的三维环境。InfiniteWorld 进一步通过不同纹理扩展资产，以生成更加多样化和风格化的场景。

PhyScene将物理与交互性约束集成到条件扩散模型中，以合成物理上可信的交互环境。Architect采用基于图像的迭代修复方法，用大型家具和小物体填充场景，丰富了场景的复杂性。超越室内设置，程序化方法也实现了城市级别的仿真。MetaUrban、GRUtopia和 URBAN-SIM构建了多样化、大规模的城市环境供具身智能体使用。EmbodiedCity提供了一个基于真实城市的高质量三维真实环境，支持多种智能体、连续决策制定以及系统化的具身智能基准任务。

机器人技术

在机器人技术中，三维场景生成使得在物理真实的环境中学习低层次技能（如操控和控制）成为可能。这些场景通常嵌入在仿真器中，其中对动力学和接触的准确建模对于训练机器人在现实中有效地感知、规划和行动至关重要。

仿真环境已成为开发机器人在复杂操控和运动等多种任务中能力的核心工具。然而，近期的机器人学习方法仍需要大量人工来构建这些环境及相应的演示，限制了机器人学习在即便是仿真世界中的可扩展性。RoboGen和 RoboVerse通过“提议-生成-学习”循环自动化任务、场景和监督的生成，在该循环中，智能体提出技能，生成具有合理物体布局的环境，并以最小的人类输入进行学习。Eurekaverse进一步通过使用大语言模型逐步生成多样化且日益具有挑战性的地形，形成适应性课程以进行跑酷训练。

除了显式构建仿真环境外，三维场景生成还可作为世界模型，用于预测未来帧，以视觉方式表示预期动作，使机器人能够在虚拟环境中仿真并预测复杂操控任务。面向机器人的视频生成模型旨在根据文本或图像等输入合成视频，特别是帮助机器人通过预测未来动作序列以物理上可行的方式可视化和规划复杂操控任务。一些方法，如[477], [478], [479] 并不直接生成视频帧，而是利用 NeRFs 和动态三维高斯模型来捕捉现实环境的空间和语义复杂性，从而实现更准确的动作估计和规划。

自动驾驶

三维场景生成在自动驾驶中日益重要，它提供了可控、可扩展且多样化的真实环境仿真。这些能力有助于克服现实数据集和环境的局限性，支持自动驾驶系统的关键组件，如预测建模和数据生成。

一些3D场景生成方法作为自动驾驶的世界模型，支持未来场景预测、风险预判以及更安全、更高效的动作规划。一些方法，如[39], [118], [337], [338], [339], [355], [364], [366] 专注于预测未来视频帧，而另一些方法 [480], [481], [482], [483], [484] 则生成三维占据信息以显式建模环境。借助高保真生成，DriveArena和 DrivingSphere引入了闭环仿真器，用于训练和评估自动驾驶智能体，使其能在闭环方式中持续学习和演化。

自动驾驶需要大规模、多样化的数据集，但现实世界的数据集（如 nuScenes、KITTI和 Waymo）成本高昂，且很少捕捉到关键的极端情况。可控的视频生成方法，比如[341], [343], [344], [345], [353] 通过灵活控制天气、光照和交通条件，合成多样化的驾驶场景，特别是用于罕见和安全关键事件。

挑战与未来方向

挑战

尽管近期取得了诸多进展，3D 场景生成仍有巨大改进潜力。

生成能力。 现有的生成模型在同时满足照片真实感、3D 一致性和可控性方面存在权衡。程序化和基于神经网络的 3D 方法在生成几何一致、空间布局可控的场景方面表现出色，但在生成真实感纹理和光照方面常常表现不足。相比之下，基于图像和视频的生成模型在视觉真实感方面表现优异，但难以保持 3D 一致性，导致如几何失真、不现实的物体交互或不可信的物理动态等伪影。因此，当前模型仍难以合成复杂的、多物体的场景，这些场景既要在视觉上可信，又要在物理上合理。

3D 表示。 3D 场景表示的演进经历了以几何为中心的体素网格和点云格式，这些格式难以捕捉真实感外观，再到 NeRFs，其提高了视觉质量但效率低下且缺乏显式几何。近期如 3D 高斯模型的进展在效率上有所提升，但仍缺乏几何基础，限制了其在重光照或物理交互等任务中的适用性。基于网格和贝塞尔三角形的方法在一定程度上通过引入显式的表面表示缓解了这些限制，但主要局限于物体级别的生成。在场景层面，紧凑、物理上有意义且视觉上真实的表示仍然是一个未解决的难题，阻碍了可控和可泛化的 3D 场景生成的进展。

数据与标注。 3D 场景生成的进展与数据集质量密切相关。合成数据集提供了精确的标注，但由于当前游戏引擎的渲染限制，其内容多样性有限、照片真实感不足。相比之下，真实世界扫描提供了视觉上真实的图像，但通常缺乏足够的标注。虽然基于图像和视频的生成方法减少了对标注的需求，但它们仍难以捕捉准确的 3D 几何，常常导致空间失真。此外，现有数据集很少包含丰富的元数据，如物理可供性、材质属性或交互线索，这限制了其在机器人、具身智能和物理仿真等更广泛应用中的潜力。

评估。 3D 场景生成中一个持续的挑战是缺乏统一的评估协议。方法通常依赖于不同的评估指标，导致难以进行一致比较。基准测试工作在一定程度上通过引入标准化且符合人类直觉的评估框架缓解了这一问题。然而，当前的基准测试主要基于文本或图像进行条件设定，较少支持布局、动作或轨迹等其他输入形式。此外，评估仍主要集中于图像和视频的保真度，未能充分评估底层的 3D 几何和物理合理性。近期如 Eval3D的工作引入了一个开始涵盖 3D 结构、语义和几何一致性的基准，但它仍局限于物体级别生成，缺乏场景级别的复杂性。

未来方向

鉴于已取得的重大进展以及上述关键挑战，我们认为未来的 3D 场景生成研究可以在以下方向上继续推进。

更高保真度。 高保真的3D场景生成要求在几何、纹理、光照和多视角一致性方面具备协调性。当前方法常常在几何精度和视觉丰富性之间做出权衡，未来模型应致力于弥合结构与外观之间的鸿沟。关键目标包括改进材质和光照建模、跨视角保持一致的物体身份，以及捕捉诸如阴影和遮挡等细微线索。实现场景级别的保真度还意味着将局部细节与全局空间和语义一致性对齐，从而生成更真实、更有用的 3D 环境。

具备物理意识的生成。 尽管视觉方面取得了令人印象深刻的进展，当前方法往往忽视了生成场景的物理合理性。为了确保物体的放置和关节符合物理定律，未来的工作应在生成过程中引入物理先验、约束或仿真。将基于物理的反馈机制（如可微分仿真器）整合进来，是实现结构、语义与物理行为联合优化的一个有前景的路径。这些能力对于具身智能和机器人尤为重要，因为智能体依赖物理一致的环境进行有效的规划和控制。

交互式场景生成。 近期在4D场景生成方面的进展使得可以构建包含可移动物体的动态环境。然而，这些场景仍然在很大程度上是非交互式的，物体不会响应用户输入或环境变化。因此，当前的生成模型产生的是被动而非响应式的体验。一个关键的未来方向是交互式场景生成，其中场景包含能够对物理交互、用户指令或上下文变化作出有意义响应的交互物体。实现这一目标需要模型超越几何和运动，融入对物体可供性、因果关系和多智能体动态的推理能力。

统一的感知-生成架构。 一个有前景的前沿方向是将感知与生成统一在一个共享模型下。诸如分割、重建和场景合成等任务可以从共同的空间和语义先验中受益。

此外，生成任务本质上要求理解输入模态。一个统一的架构可以利用双向能力：通过感知基础增强生成性能，并通过生成建模提升场景理解。这类模型可以作为具身智能体的通用主干，支持在视觉、语言和三维空间表示之间的联合推理。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/F-HZOGGvTrgev0yhM1FMmg

标签

生成

模型

已于2025-5-14 09:35:20修改

51CTO

51CTO博客

51CTO学堂

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？ 精华

前置知识

任务定义与公式化

3D场景表示

生成模型

方法：分层分类法

程序生成

基于规则的生成

基于优化的生成

基于LLM的生成

基于神经网络的3D生成

场景参数

场景图

语义布局

隐式布局

基于图像的生成

整体生成

迭代生成

视频生成

两阶段生成

单阶段生成

数据集和评估

数据集

室内数据集

自然数据集

城市数据集

评估

基于指标的评估

基于基准的评估

人工评估

应用和任务

3D场景编辑

人类-场景交互

具身智能

机器人技术

自动驾驶

挑战与未来方向

挑战

未来方向

目录

从程序化生成到AIGC：3D场景生成技术如何跨越"虚假→真实"鸿沟？精华