NeRF成为过去?三维重建迈向3D GS新时代!(复旦大学最新综述)

人工智能 智能汽车
本文对过去一年的相关论文进行了全面的综述。我们根据特征和应用对分类法进行了调查,介绍了3D Gaussian Splatting的理论基础。

本文经自动驾驶之心公众号授权转载,转载请联系出处。

写在前面&笔者的个人理解

3D Gaussian Splatting(3D-GS)已成为计算机图形学领域的一个重大进步,它提供了明确的场景表示和新颖的视图合成,而不依赖于神经网络,如神经辐射场(NeRF)。这项技术在机器人、城市地图、自主导航和虚拟现实/增强现实等领域有着不同的应用。鉴于3D Gaussian Splatting的日益流行和研究的不断扩展,本文对过去一年的相关论文进行了全面的综述。我们根据特征和应用对分类法进行了调查,介绍了3D Gaussian Splatting的理论基础。我们通过这项调查的目标是让新的研究人员熟悉3D Gaussian Splatting,为该领域的开创性工作提供宝贵的参考,并启发未来的研究方向。

总结来说,本文的主要贡献如下:

  • 具有系统分类学的统一框架。我们引入了一个统一实用的框架来对现有作品进行3D高斯分类。该框架将该领域划分为6个主要方面。此外还提供了3D高斯应用的详细分类法,提供了该领域的全面视角。
  • 全面和最新的调查。我们的综述对3D-GS进行了广泛而最新的调研,涵盖了经典和前沿方法。对于每个类别,我们提供细粒度的分类和简洁的摘要。
  • 对3D-GS未来方向的见解。我们强调了当前研究的技术局限性,并为未来的工作提出了几个有希望的途径,旨在激励这一快速发展的领域取得进一步进展。特别强调探索3D-GS的潜在作用,为其未来应用提供见解。

相关背景

数据集:利用各种公开可用的数据集来评估3D-GS在各种任务上的性能。表1概述了3D-GS在优化、重建、操作、生成、感知和人体方面的一些数据集。

Gaussian Intrinsic Properties的优化

尽管已经展示了3D高斯Splatting的能力和效率,但在以下有希望的方向上仍有进一步改进的空间(如图3所示):(a)使3D-GS更具内存效率对于实时渲染至关重要;(b)可以进一步提高渲染图像的质量;(c)降低用于合成新颖视图的图像的成本;(d)使3D Gaussians能够用真实的动力学来表示动态场景。

效率

代表场景的数百万高斯内的参数需要巨大的存储空间,因此在保持质量的同时减少内存使用对于实时渲染至关重要且有益。

在grid-guided NeRF的启发下,Lu提出了Scaffold GS,它在保持可比渲染质量和速度的同时,具有内存效率。Scaffold GS利用底层场景结构来帮助修剪过度扩展的高斯球。它利用SfM中的初始化点来构建锚点的稀疏网格,每个锚点上都附加了一组可学习的高斯。这些高斯的属性是根据特定的锚点特征实时预测的。此外,在通过修剪操作消除重要和琐碎锚的地方,采用由神经高斯的聚合梯度引导的策略来生长锚点。增加了一个额外的体积正则化损失项,以鼓励高斯系数较小,重叠最小。

挑战:用复杂的细节来表现场景需要大量的3D高斯。Gaussians所需的巨大存储空间不仅阻碍了它在边缘设备上的应用,而且限制了渲染速度。

机会:现有的矢量量化和对不重要高斯方法的修剪已经证明了它们在压缩静态场景的3D高斯方面的有效性。然而,将它们扩展到动态场景并提高动态表示的紧凑性仍然没有得到充分的探索。

真实性

混叠问题和伪影在splatting过程中出现,解决它们显然有利于渲染图像的质量和真实性。此外,还可以进一步提高场景中反射的真实性。

Yan介绍了一种在3DGS中减少混叠效应的多尺度方法。他们假设,这样的问题主要是由填充在具有复杂3D细节的区域中的大量Gaussionssplatting引起的。因此,他们建议以不同的细节级别来表示场景。对于每个级别,在每个体素中低于特定大小阈值的小的和细粒度的高斯被聚集成较大的高斯,然后插入到随后的较粗级别中。这些多尺度高斯有效地对高频和低频信号进行编码,并使用原始图像及其下采样对应图像进行训练。在渲染过程中,相应地选择具有适当比例的高斯,这导致了质量的提高和渲染速度的提高。

挑战:尽管3D高斯投影到2D图像上大大加快了渲染过程,但它使遮挡的计算变得复杂,从而导致照明估计较差。同时,欠正则化的3D-GS无法捕捉精确的几何体,也无法原生地生成精确的法线。此外,混叠问题和伪影会降低渲染图像的质量,尤其是在为看不见的相机视图进行合成时。

机会:与视图相关的变化对于具有镜面反射目标和复杂反射的场景至关重要。因此,赋予3D-GS捕捉显著外观属性的能力有利于增强渲染的真实性。为了更好地减少混叠效应,值得研究在不影响其表达能力的情况下更有效地消除多余高斯的方法。此外,由于缺乏严格的正态估计和几何正则化,阻碍了图像质量的提高,可以进一步弥补这一不足。

开销

为了合成高质量的新颖视图,所需的图像量是巨大的。放松这一限制对于进一步探索3D-GS的潜力是可取的。

已经提出了一些工作来解决3D-GS中的few-shot问题。Chung引入了一种深度正则化方法来避免few-shot图像合成中的过拟合。通过分别利用从COLMAP和单目深度估计模型获得的稀疏和密集深度图来引入几何约束。为了防止过拟合,该方法对几何平滑度采用无监督约束,并利用Canny边缘检测器来避免深度变化显著的边缘区域的正则化。

挑战:3D-GS的性能在很大程度上取决于初始化稀疏点的数量和准确性。这种默认的初始化方法自然与降低图像成本的目标相矛盾,并使其难以实现。此外,初始化不充分可能导致过拟合,并产生过平滑的结果。

机会:使用额外的单目深度估计模型可以提供有用的几何先验来调整3D高斯,以有效覆盖场景。然而,这种对估计精度的强烈依赖性可能导致具有复杂表面的场景的重建较差,其中模型无法输出准确的预测。有希望进一步探索有效加密和调整3D高斯的方法,并充分利用几何信息来提高渲染质量。

物理性

通过将3D Gaussians的能力从静态场景扩展到4D场景,增强3D Gaussian的能力是有益的,4D场景可以结合与真实世界物理一致的动力学。

在动态场景中,学习变形比在每个时间步长对场景建模更方便。吴提出了一种新的实时3D动态场景渲染框架。他们的框架没有直接为每个时间戳构建3D高斯,而是首先使用时空编码器,利用多分辨率K-Planes和MLP进行有效的特征提取。然后,多头MLP充当解码器,并基于输入特征分别预测3D高斯的位置、旋转和缩放的变形。这种方法学习高斯变形场,从而实现高效的内存使用和快速收敛。

挑战:输入点云的内在稀疏性对重建具有真实动力学的场景提出了重要挑战。在保持质量的同时捕捉物理上合理的动力学更具挑战性,例如,以高保真度渲染阴影的变化。

机会:具有大运动的目标可能会在连续帧之间造成不自然的失真,将神经网络与学习的特定场景动力学相结合可以提高变形的保真度。当前用于重建动态场景的方法主要关注室内目标级变形,并且它们仍然需要从多个相机视图拍摄的图像以及精确的相机姿势。将3D-GS扩展到更大的动态场景并放松这种限制对现实世界的应用非常有益。

重建

如前所述,3D-GS在从新颖视点捕捉和渲染3D场景中的广泛采用可归因于其卓越的渲染速度和产生逼真结果的能力。与NeRFs类似,3D-GS中曲面网格的提取(如图4a所示)是一个基本但必不可少的方面。有必要进行进一步的调查,以应对具有挑战性的场景,如单眼或few-shot的情况(如图4b所示),这在自动驾驶等实际应用中很常见。此外,3D-GS的训练时间约为分钟,实现了实时渲染并有助于动态场景的重建(如图4c所示)。

曲面网格提取

曲面网格提取是计算机视觉中的一个经典挑战。然而,通过3D高斯分布的场景的显式表示为该任务引入了显著的复杂性。因此,已经提出了几种新的方法来有效地解决这种复杂性并促进表面网格的提取。

Guédon介绍了用于3D网格重建和高质量网格渲染的SuGaR。SuGaR包含了一个正则化术语,以促进高斯和场景表面之间的对齐。然后使用泊松重建方法来利用这种对齐,并从高斯方程中导出网格。为了将高斯图绑定到网格表面,SuGaR提供了一种可选的细化策略,该策略使用高斯splatting渲染来优化高斯图和网格。然而,对高斯图的强制性限制会导致渲染质量下降。然而,这些限制会提高网格提取的性能。同时,陈介绍了NeuSG,它联合优化了NeuS和3D-GS,以实现高度精细的表面恢复。与SuGaR中的正则化项类似,NeuSG结合了正则化子,以确保由极薄的3D高斯生成的点云紧密附着在下表面上。这种方法利用了联合优化的优势,从而生成具有复杂细节的综合曲面。

单目和Few-shot重建

3D-GS的引入代表了单目和few-shot重建任务的一个有希望的进展。然而,这些任务中的一个重大挑战是缺乏几何信息。因此,许多研究都致力于解决这一挑战,并提出创新的方法来克服缺乏透视几何信息的问题。

起初,用于few-shot3D重建的技术允许用有限量的输入数据来重建3D场景。Charatan展示了PixelSplat,用于从图像对进行3D重建。PixelSplat的主要重点是通过提出一种多视图核极变换器来解决比例因子推理的挑战。PixelSplat利用尺度感知特征图,提出了一种预测高斯基元集参数的新方法。场景通过像素对齐的高斯进行参数化,从而在训练过程中隐式生成或删除高斯基元。这种策略有助于避免局部极小值,同时确保梯度流的平滑。

单目3D重建能够使用单个相机从2D图像推断3D场景的形状和结构。单目3D重建的关键在于对图像中的透视关系、纹理和运动模式进行细致的分析。通过采用单目技术,可以准确估计物体之间的距离并辨别场景的整体形状。Szymanowicz介绍了Splatter Image,这是一种用于单目3D目标重建的超快速方法。这种方法利用2D CNN架构来有效地处理图像,预测伪图像,其中每个像素由彩色3D高斯表示。Splatter Image演示了在合成和真实基准上的快速训练和评估,而不需要标准的相机位姿。此外,它还能够通过结合跨视图注意力进行few-shot3D重建。

动态场景重建

3D-GS的高渲染速度和分辨率支持动态场景重建,包括人体跟踪和大型城市场景重建。

林介绍了基于3D-GS的高斯流,用于快速动态3D场景重建和实时渲染,方便了静态和动态3D场景的分割、编辑和合成。该方法引入了双域变形模型(DDDM),通过时域的多项式拟合和频域的傅立叶级数拟合来捕捉每个属性的时间相关残差。高斯流能够消除为每个帧训练单独的高斯算子的需要,或者引入额外的隐式神经场来建模3D动力学。

挑战:由于3D-GS是一个用于重建的显式表示模型,每个高斯核可能不一定位于某个目标的表面上,这对表面网格提取提出了挑战。需要约束高斯核以附着到目标的表面,但这可能会导致渲染精度降低。

机会:(i)对于few-shot重建,与扩散模型集成或消除对相机位姿的要求可以促进大规模训练。(ii)此外,对于表面网格提取,引入光照分解的方法可以提取更真实的表面纹理。(iii)在动态场景重建中,优先考虑速度和图像细节保存之间的平衡优化可能是相当可观的。

Manipulation

由于3D-GS的显式特性,它对于编辑任务具有很大的优势,因为每个3D高斯都单独存在(图5)。通过在应用所需约束的情况下直接操纵3D高斯,可以轻松编辑3D场景。

Text-guided Manipulation

近年来,文本引导操作的数量激增。因此,文本引导操作由于其接近人类语音而引起了越来越多的关注。此外,随着对大型语言模型的访问变得越来越广泛,LLM引导操作的使用有望成为未来的发展方向。方向GaussianEditor介绍了使用3D Gaussians和文本指令对3D场景进行精确编辑的方法。第一步涉及提取与所提供的文本指令相对应的感兴趣区域(RoI),并将其与3D高斯对齐。然后,该高斯RoI用于控制编辑过程,从而实现细粒度调整。

Non-rigid Manipulation

非刚性目标可以改变和变形形状,从而能够更逼真地模拟软目标、生物组织和流体。这些目标提供了几个优点,包括提高真实性和改进对目标变形和行为的描述。此外,这些模型允许不同的效果,因为它们可以通过变形来响应外力和约束。然而,非刚性物体也存在某些挑战。它们的特点是其复杂性,在编辑和模拟过程中需要仔细考虑目标变形、连续性和碰撞等因素。此外,非刚性目标的实时交互性能在应用中可能会受到限制,特别是在处理大规模和复杂的非刚性目标时。

Time-efficient Editing

虽然3DGS确实是一种快速渲染技术,但在编辑3D高斯图时,它的实时操作至关重要。因此,迫切需要开发具有时间效率的3DGS的编辑方法。

黄提出了Point'nMove,通过曝光区域修复实现场景目标的交互式操作。直观的目标选择和实时编辑增强了交互性。为了实现这一点,他们利用了高斯Splatting辐射场的明确性质和速度。显式表示公式允许开发双阶段自提示分割算法,其中2D提示点用于创建3D掩模。该算法有助于遮罩细化和合并,最大限度地减少更改,为场景修复提供良好的初始化,并实现实时编辑,而无需每次编辑训练。同时,陈介绍了用于3D编辑的GaussianEditor,该编辑器使用高斯splatting来增强整个编辑过程的控制和效率。GaussianEditor采用高斯语义跟踪来准确识别和定位特定的编辑区域。然后,它利用分层高斯splatting(HGS)在流动性和稳定性之间取得平衡,从而在随机原理的指导下产生详细的结果。此外,GaussianEditor还包括用于高斯splatting的专用3D修复算法,该算法简化了目标的移除和集成,并显著缩短了编辑时间。

4D Manipulation

随着动态神经3D表示的引入,4D场景重建领域取得了显著进展。这些进步极大地提高了捕捉和描绘动态场景的能力。然而,尽管取得了这些突破,这些4D场景的交互式编辑仍然存在重大障碍。主要挑战在于保证4D编辑过程中的时空一致性和保持高质量,同时提供交互式和高级编辑功能。

Shao介绍了使用文本指令编辑动态4D 资产的Control4D。Control4D旨在克服4D编辑中常见的挑战,特别是现有4D表示的局限性以及基于扩散的编辑器导致的不一致编辑结果。GaussianPlanes最初被提出作为一种新的4D表示,它通过在3D空间和时间中基于平面的分解来增强高斯splatting的结构。这种方法提高了4D编辑的效率和稳健性。此外,利用4D生成器从基于扩散的编辑器生成的编辑图像中学习更连续的生成空间,有效地增强了4D编辑的一致性和质量。

挑战:首先,在文本引导操作中,兴趣区域(ROI)的选择依赖于分割模型的性能,而分割模型受到噪声的影响。其次,在编辑3D高斯图时,经常会忽略几个重要的物理方面。最后,在4D编辑中实现帧一致性仍有改进的空间。

机会:i)在3D-GS的操作中,现有的2D扩散模型在为复杂的提示提供足够的指导方面遇到了困难,导致在3D编辑时受到限制。因此,高效准确的2D扩散模型可以作为编辑3D高斯的更好指导。ii)现有方法主要通过最小的运动变化和准确的相机姿态进行了测试。将其适用范围扩大到涉及激烈运动的场景仍然是一个有待调查的领域。

生成

由于在扩散模型和3D表示方面取得了重大进展,从文本/图像提示生成3D资产现在是AIGC领域一项很有前途的任务。此外,采用3D-GS作为目标(图6a)和场景(图6b)的显式表示,可以实现快速甚至实时渲染。此外,一些工作侧重于改进分数蒸馏采样(SDS)管道中固有的耗时优化过程(图6c)。虽然3D生成已经显示出一些令人印象深刻的结果,但4D生成(图6d)仍然是一个具有挑战性且未充分探索的主题。

Object-level 3D Generation

3D扩散模型在3D生成中具有良好的3D一致性,而二维扩散模型具有较强的泛化能力。Yi将两者的优点结合起来,提出了用于快速生成和实时渲染的GaussianDreamer。GaussianDreamer首先在3D扩散模型的帮助下初始化3D Gaussians,以获取几何先验,并引入噪声点增长和颜色扰动两种操作来补充初始化的Gaussianss,以进一步丰富内容。随后,借助于2D扩散模型和SDS的文本提示,对3D高斯进行了优化。然而,这种方法仍然存在多人脸问题,并且无法生成大规模场景。

Scene-level 3D Generation

Vilesov提出CG3D以合成方式生成可缩放的3D资产,以仅从文本输入形成物理逼真的场景。CG3D用一组高斯表示场景中的每个目标,并将目标转换为具有旋转、平移和缩放等交互参数的合成坐标。

3D生成加速

具有NeRF表示的2D提升方法因其耗时的优化过程而臭名昭著。因此,唐提出了DreamGaussian,通过用3D Gaussian Splatting代替NeRF表示来提高3D生成效率。具体而言,DreamGaussian通过高斯splatting的渐进加密简化了优化环境,该方法用随机位置初始化高斯,并定期加密它们,以与生成进度保持一致。为了提高生成质量,它进一步引入了一种高效的网格提取算法,该算法具有逐块局部密度查询和执行图像空间监督的UV空间纹理细化阶段。因此,DreamGaussian可以在2分钟内从单目图像生成高质量的纹理网格。

尽管与基于NeRF的方法相比,利用3D-GS的文本到3D方法具有时间效率优势,但它们仍然会经历较长的生成时间。这主要归因于SDS或变分分数蒸馏(VSD)过程中基于梯度的优化所涉及的复杂计算和广泛迭代。周介绍了Dreamprompt,这是一种嵌入式算法,利用并行计算通过更快地求解ODE来加快蒸馏过程。Dreampromert推广的Picard迭代算法允许并行化涉及可变维度变化的顺序梯度更新步骤。这一功能使Dreamproper非常适合使用3D-GS的3D方法,因为由于其拆分和修剪操作,优化过程可能涉及不同数量的高斯。实验结果表明,速度提高了4.7倍,对发电质量的影响最小。

Text-to-4D Generation

Ling引入了Align Your Gaussians(AYG),将3D合成扩展到具有额外时间维度的4D生成。4D表示将3D高斯场与变形场相结合,对3D高斯场的场景动力学进行建模,并变换它们的集合以表示目标运动。AYG从生成具有3D感知的多视图扩散模型和常规文本到图像模型的初始静态3D形状开始。然后,使用文本到视频模型和文本到图像模型来优化变形场,以分别捕获时间动态并保持所有帧的高视觉质量。此外,采用运动放大机制和新的自回归合成方案来生成和组合多个4D序列,以实现更长的世代。值得注意的是,由于3D高斯的明确性质,可以组合不同的动态场景,每个场景都有自己的高斯集和变形场,从而能够将多个4D目标组合成大型动态场景。

挑战:i)合成生成仍然是一个悬而未决的问题,因为大多数方法都不支持这种创建。尽管CG3D提出了一个组成框架,但它只支持物体之间的刚体相互作用。此外,AYG中的组成4D序列不能描述动态目标的拓扑变化。ii)使原始3D-GS中的自适应密度控制操作适应生成框架是不平凡的,因此简单的方法是固定用于表示目标的高斯数。然而,这样的设计严重限制了模型创建复杂几何体的能力。

机会:i)多面问题,也称为Janus问题,存在于大多数2D提升方法中。如上所述,GaussianDreamer通过引入3D先验来缓解这种不足。有鉴于此,利用3D感知扩散模型或多视图2D扩散模型可以是进一步改进的可能方向。ii)以各种类型的定制数据作为输入并让用户对生成过程有更多控制权的个性化生成应该是未来工作的一条令人兴奋的途径。iii)当文本提示由模糊信息和复杂逻辑组成时,文本到3D的方法往往会产生不令人满意的结果。在这方面,增强文本编码器的语言理解能力也可以提高生成质量。

感知

利用3D-GS,3D感知有可能增强开放词汇语义目标检测和定位(图7a)、3D分割(图7b)、运动目标象跟踪(图7c)和SLAM系统的开发(图7d)。

检测

3D场景中的语义目标检测或定位过程可以显著增强对环境的理解和感知,并有利于自动驾驶系统和智能制造等应用。受ChatGPT成功的鼓舞,施介绍了专门为开放词汇查询任务设计的场景表示语言嵌入式3D高斯,它成功地将量化的紧凑语义特征融入到广泛的3D高斯中,最大限度地减少了内存和存储需求。为了缓解不同视角下产生的语义不一致,提出了一种特征平滑程序,利用3D高斯的空间位置和语义不确定性,动态降低嵌入语义特征的空间频率。同时,Zuo提出了基础模型嵌入高斯Splatting(FMGS),它集成了3D-GS来表示几何和外观,以及多分辨率哈希编码(MHE)来实现高效的语言嵌入。FMGS旨在解决房间尺度场景中的内存限制问题。此外,为了解决像素错位的问题,FMGS结合了像素对齐损失,以将相同语义实体的渲染特征距离与像素级语义边界对齐。FMGS的结果显示出显著的多视图语义一致性和在开放词汇上下文中定位语义目标的令人印象深刻的性能。

分割

3D场景分割的意义不仅在于提高场景分割的准确性,还在于为真实世界的3D感知任务提供强大的支持。从实时场景编辑和目标去除到目标修复和场景重组,3D场景分割方法的应用无疑拓宽了计算机视觉在虚拟现实和自动驾驶等领域的视野。

2D分割模型的结合可以成为指导3D-GS分割过程的宝贵资产。这种直观的概念有可能提高分割过程的准确性和效率。Lan介绍了一种3D高斯分割方法,该方法利用2D分割作为监督,为每个3D高斯分配一个目标代码来表示其分类概率分布。提供指导以通过最小化在特定姿势处的2D分割图和渲染的分割图之间的差异来确保每个3D高斯的准确分类。此外,KNN聚类用于解决3D高斯图中的语义模糊问题,而统计滤波用于消除不正确分割的3D高斯图。这种方法成功地获取了3D场景的语义知识,并在短时间内从特定视点有效地分割多个目标,输出了令人信服的结果。

跟踪

3D-GS的使用方便了动态场景的重建。因此,在这些场景中跟踪动态目标已成为一个新的探索领域,对自动驾驶等应用做出了重大贡献。

Zhou介绍了DrivingGaussian重构动态大尺度驾驶场景的方法。DrivingGaussian通过在包含移动目标的场景中使用增量静态3D高斯逐步对静态背景进行建模。DrivingGaussian利用复合动态高斯图来准确重建单个目标,恢复它们的位置,并在存在多个移动目标的情况下有效处理遮挡关系。此外,在3D-GS之前使用激光雷达有助于通过捕捉更精细的细节和确保全景一致性来改进场景重建。DrivingGaussian成功实现了高保真度和多摄像头一致的真实感环绕视图合成,使其适用于广泛的任务,包括角落案例的模拟。

SLAM

在3D感知领域,将3D-GS集成到SLAM系统中引起了人们的极大关注。在本节中,我们将探讨SLAM的各种应用和进步,这些应用和进步是通过集成3D高斯表示而实现的。此外,本节强调了当前方法在解决现实世界场景中的有效性,并强调了SLAM领域内可能性的持续增长。

由于效率的重要性,Yan提出了GS-SLAM,将3D高斯表示集成到SLAM系统中。GS-SLAM利用了实时可微分的splatting渲染管道,显著提高了地图优化和RGB-D重渲染速度。GS-SLAM引入了一种用于扩展3D高斯的自适应策略,旨在有效地重建新观测到的场景几何结构。此外,它采用了从粗到细的技术来选择可靠的3D高斯,提高了相机姿态估计的准确性。GS-SLAM有效地提高了效率和准确性之间的权衡,超过了最近使用神经隐式表示的SLAM方法。

相机位姿估计

相机位姿估计是3D重建和感知领域的一个基础方面。3D-GS的结合有可能为这一重要主题提供有见地的方法。

在SLAM中,估计6D姿态的任务提出了相当大的挑战。为了解决这一挑战,Sun引入了iComMa,将传统的几何匹配方法与渲染比较技术相结合。iComMa反转3D-GS以捕捉姿态梯度信息,用于精确的姿态计算,并采用渲染和比较策略,以确保在优化的最后阶段提高精度。此外,还引入了匹配模块,通过最小化2D关键点之间的距离来增强模型对不利初始化的鲁棒性。iComMa旨在有效处理各种复杂和具有挑战性的场景,包括具有显著角度偏差的情况,同时保持预测结果的高精度。

挑战:(i)现有的基于3D-GS的动态场景目标跟踪方法在跟踪可变形目标(如行人)方面可能会遇到挑战,这给自动驾驶等系统带来了困难。(ii)此外,检测高反射或半透明物体,如电视和镜子,仍然是一项具有挑战性的任务,因为3D-GS对这些物体的建模能力有限。(iii)SLAM系统可能对各种因素表现出敏感性,包括运动模糊、大量深度噪声和剧烈旋转。(vi)此外,在3D-GS的表示中,高斯分布可以链接到多个目标,从而增加了利用特征匹配精确分割单个目标的复杂性。

机会:(i)基于3D-GS的实时跟踪有潜力应用于各种医疗场景,包括放射治疗。(ii)此外,输入已知的相机本质和密集深度对于执行SLAM至关重要,消除这些依赖性为未来的探索提供了一个有趣的方向。

虚拟人体

学习具有NeRF和SDF等隐式神经表示的虚拟人化身需要很长的优化和渲染时间,并且难以生成令人满意的质量新颖的身体姿势。相反,实验证明,利用3D高斯表示可以提高训练和渲染速度,并提供对人体变形的显式控制。此外,3D高斯方法中的forward skinning避免了神经隐式表示中使用的inverse skinning中存在的对应模糊性。

通常,基于3D高斯的方法首先使用SMPL模板初始化高斯,然后使用线性混合蒙皮(LBS)将表示变形到观测空间中。然后通过多视图(图8a)或单目视频(图8b)渲染和监督高斯。此外,一些方法专门用于重建人头头像(图8c),而一些方法则专注于可推广的管道,而不是每个主题的优化。

Multi-view Video Synthesis

Moreau提出了一种HuGS,用可动画化的人体从多视图视频中渲染照片逼真的人体化身,该人体用一组3D高斯表示人体。HuGS中的3D高斯在原始设置的基础上添加了一个蒙皮权重向量,该向量调节每个身体关节对高斯运动方式的影响,以及一个对非刚性运动进行编码的潜在代码。HuGS应用LBS来变形由SMPL模型初始化的规范基元,并且仅学习蒙皮权重。由于LBS仅对身体关节的刚性变形进行编码,因此HuGS随后引入了局部非刚性细化阶段,以对服装的非刚性变形进行建模,同时考虑身体姿势编码和环境遮挡。尽管在新的姿态合成上取得了有竞争力的性能,但HuGS独立地优化和变形每个高斯,忽略了局部邻域中高斯之间的内在关系。

Monocular Video Synthesis

同时,Kocabas设计了一个变形模型,仅从单眼视频中用3D高斯表示可动画化的人类和静态场景。在实践中,人体和场景被解开,并从SMPL身体模型中分别构建运动点云的结构。人类高斯通过其在规范空间中的中心位置、一个特征三平面和三个MLP进行参数化,这些MLP预测高斯的特性,并在类似于Moreau的管道中进行进一步优化。

Human Head Animation

GaussianAvatars专注于通过将3D Gaussians装配到参数化可变形人脸模型来重建头部化身。特别是,3D高斯在FLAME网格的每个三角形的中心进行初始化,其参数由三角形属性定义。此外,为了在不破坏三角形和splats之间的连接的情况下适应该方法的自适应密度控制操作,设计了一种绑定继承策略,以使用其父三角形的索引对高斯进行额外的参数化,从而使新的高斯点保持在FLAME网格上。然而,这种方法缺乏对FLAME未建模的区域(如头发和其他配件)的控制。

Generalizable Methods

与大多数依赖于每个受试者优化的方法相反,Zheng提出了一种可推广的3D-GS,在没有任何微调或优化的情况下实时合成看不见的人类表演者的新颖视图。所提出的GPS Gaussian直接从具有不同性质的海量3D人体扫描数据中以前馈的方式回归高斯参数,以学习丰富的人体先验,从而实现即时的人体外观渲染。此外,GPS Gaussion采用高效的2D CNN对源视图图像进行编码,并预测2D高斯参数图。具体地,经由深度估计模块学习的深度图和RGB图像分别用作3D位置图和颜色图,以形成高斯表示,同时以逐像素的方式预测3D高斯的其他参数。稍后,将这些参数贴图取消投影到3D空间,并聚合以进行新颖的视图渲染。

挑战:i)在由SMPL模型和LBS初始化的3D高斯人体中,服装变形没有得到很好的学习。ii)在大多数方法中,环境照明没有参数化,这使得重新照明化身是不可行的。iii)尽管在从单目视频重建人类化身方面已经取得了很大进展,但恢复精细细节仍然是一个棘手的问题,因为从稀疏视图仅提供有限的信息。iv)目前,大多数方法中的3D高斯都是独立优化和变形的,忽略了局部区域高斯之间的内在结构和连通关系。

机会:i)对于人类头部建模,利用3DMM控制运动的方法也无法表达微妙的面部表情。探索一种更有效的方法来单独控制非刚性变形是未来工作的重点。ii)如何从学习的3D高斯中提取网格仍然是未来有待研究的工作。iii)基于3DMM的方法和基于SMPL的方法的重建性能都受到模型参数初始化的约束。固定参数的不准确可能会严重影响模型与监督的一致性,从而导致纹理模糊。注意到3DMM和SMPL未能对人体的松散结构进行建模。在这方面,在优化过程中增强模板模型的表达能力是未来工作的一个有希望的突破。

讨论和未来工作

3D高斯Splatting在计算机图形学和计算机视觉领域显示出巨大的潜力。然而,由于与3D高斯splatting相关的复杂结构和不同任务,各种挑战仍然存在。本节旨在应对这些挑战,并提出未来研究的潜在途径。

处理3D-GS中的浮动元素。3D高斯splatting中的一个显著问题是渲染空间中浮动元素的普遍性,主要来源于图像背景。已经建议使用不透明度阈值来减少这些浮动的发生,从而增强通过PSNR和SSIM度量测量的图像渲染质量。然而,这些浮动元素会显著影响渲染图像的视觉质量。一个潜在的研究领域可以集中在将这些漂浮物锚定在更靠近表面的位置的策略上,从而增强它们的位置相关性和对图像质量的贡献。

渲染和重建之间的权衡。如前所述,浮动元素的存在显著影响图像的视觉质量。但是,它们的影响超出了渲染范围,影响了网格重建过程。SuGaR方法利用基于不透明度的方法在网格表面周围生成3D高斯,这虽然有利于重建,但可能会影响渲染质量。这突出了需要一种细致入微的方法来平衡卓越渲染和准确重建。探索3D-GS如何增强或补充其他先进的多视图重建技术是另一条有前景的研究途径。

渲染真实性。当前的照明分解方法在边界模糊的场景中显示出有限的有效性,通常需要在优化过程中包含对象遮罩。这种限制主要源于背景对优化过程的不利影响,这是通过3D高斯散射生成的点云的独特质量的结果。与传统的曲面点不同,这些点云显示类似粒子的特性,包括颜色和部分透明度,与传统曲面点不同。考虑到这些挑战,将多视图立体(MVS)集成到优化过程中成为一个很有前途的方向。这种集成可以显著提高几何精度,为未来的研究提供了一条有希望的途径。

实时渲染。为了便于实时渲染,Scaffold GS引入了来自稀疏体素网格的锚点,这有助于分布局部3D高斯,从而提高渲染速度。然而,该方法对统一网格大小的依赖限制了其适应性。八叉树表示的使用是一种很有前途的替代方法,它可以灵活地将更复杂的区域划分为更小的网格进行详细处理。虽然这些方法显示出在小场景中实现实时渲染的潜力,但要扩展到大环境(如城市景观),还需要进一步的创新和额外的努力。

Few-shot的3D-GS。最近的一些few-shot研究探索了在一些few-shot设置中使用深度引导优化高斯飞溅。虽然这些方法很有希望,但也面临着显著的挑战。few-shot方法的成功在很大程度上取决于单目深度估计模型的准确性。此外,它们的性能可能因不同的数据域而异,从而影响3D-GS的优化过程。此外,对将估计深度拟合到COLMAP点的依赖性引入了对COLMAP本身性能的依赖。因此,这些限制在处理COLMAP可能遇到困难的无纹理区域或复杂表面方面带来了挑战。对于未来的研究,使用相互依存的深度估计来研究3D场景的优化将是有益的,从而减少对COLMAP点的依赖。未来工作的另一个途径是研究在不同数据集中正则化几何体的方法,特别是在深度估计(如天空)面临挑战的领域。

物理学的融合。与材料的物理行为和视觉外观本质上相互关联的自然世界不同,传统的基于物理的视觉内容生成管道是一个费力且多阶段的过程。这个过程包括构建几何体,为模拟做准备(通常使用四面体化等技术),模拟物理,并最终渲染场景。尽管该序列是有效的,但它引入了中间阶段,这可能会导致模拟和最终可视化之间的差异。这种差异在NeRF范式中也很明显,其中渲染几何体嵌入模拟几何体中。为了解决这个问题,建议将这两个方面结合起来,提倡对可用于模拟和渲染目的的物质进行统一表示。此外,一个很有前途的方向是将材料自动分配给3D-GS。

精确重建。原始3D-GS无法区分镜面反射区域和非镜面反射区域。因此,3D-GS会在镜面反射部分产生不合理的三维高斯。非理性三维高斯的存在会显著影响重建过程,导致产生有缺陷的网格。此外,已经观察到,包括镜面反射分量也会导致产生不可靠的网格。因此,为了实现精确的重建,在精确重建网格之前,必须通过照明分解3D高斯。

真实生成。由DreamGaussianDreamer开创的3D-GS开始了其3D生成之旅。但是,生成的三维资产的几何图形和纹理仍需要改进。在几何图形方面,将更精确的SDF和UDF集成到3D-GS中,可以生成更逼真、更准确的网格。此外,可以有效地利用各种传统的图形技术,例如Medial Fields。关于纹理,最近提出的两种方法,MVD和TexFusion,在纹理生成方面表现出了令人印象深刻的能力。这些进步有可能应用于3D-GS纹理网格生成。此外,Relightable3DGaussianShader和GaussianShadowr已经探索了3D-GS的着色方面。然而,在生成的网格上进行BRDF分解的问题仍然没有答案。

使用大型基础模型扩展3D-GS。施等最近的研究表明,将语言嵌入3D-GS可以显著增强对3D场景的理解。随着2023年大型基础模型的出现,它们的非凡能力在广泛的视觉任务中得到了展示。值得注意的是,SAM模型已成为一种强大的分割工具,并在3D-GS中成功应用。除了分割,LLM模型还有望用于语言引导的生成、操作和感知任务。这突出了这些模型在广泛应用中的多功能性和实用性,进一步强调了它们在3D-GS中的重要性。值得注意的是,SAM模型已成为一种强大的分割工具,在3D-GS中获得了成功的应用。除了分割,LLM模型还有望用于语言引导的生成、操作和感知任务。这突出了这些模型在广泛应用中的多功能性和实用性,进一步强调了它们在3D-GS中的重要性。

训练3D-GS用于其他方法。一些工作使用3D-GS作为辅助工具来提高性能。例如,NeuSG利用3D-GS来增强NeuS的重建,而SpecNerf结合了高斯方向编码来对镜面反射进行建模。因此,3D-GS的独特特性可以无缝集成到现有方法中,以进一步提高其性能。可以想象,3D-GS可以与大型重建模型(LRM)相结合,或者与自动驾驶汽车领域现有的感知技术相结合,以增强其感知能力。

责任编辑:张燕妮 来源: 自动驾驶之心
相关推荐

2023-10-16 09:51:47

模型视觉

2024-02-29 09:38:13

神经网络模型

2023-12-29 09:36:51

三维模型

2021-10-09 15:36:31

技术研发三维

2023-10-27 14:54:33

智能驾驶云计算

2023-12-13 10:14:00

机器视觉技术

2023-06-02 14:10:05

三维重建

2021-12-22 10:04:11

模型人工智能3D

2010-09-16 18:44:17

Coremail

2021-03-16 09:53:35

人工智能机器学习技术

2024-03-11 10:08:12

驾驶模型

2023-04-24 16:25:47

3D开发

2022-09-26 15:18:15

3D智能

2011-01-21 15:10:42

日立JP1复旦大学IT运维管理课程

2010-07-26 20:11:57

无线校园建设802.11nH3C

2023-04-03 11:52:51

6D英伟达

2024-01-26 10:02:51

自动驾驶3D

2022-09-13 15:19:48

3D网络

2017-11-01 21:18:22

维谛

2009-12-15 16:13:11

3D图像
点赞
收藏

51CTO技术栈公众号