ZeroHSI-一种零样本的四维人类-场景交互合成方法 原创

发布于 2025-3-24 13:12
浏览
0收藏

本文介绍一种人类 - 场景交互合成方法

人类 - 场景交互(HSI)生成对于具身人工智能、虚拟现实和机器人技术等领域的应用至关重要。虽然现有的方法能够在三维场景中合成逼真的人类动作,并生成看似合理的人与物体之间的交互,但这些方法严重依赖于包含配对的三维场景和动作捕捉数据的数据集。而在各种不同的环境和交互情况下收集这些数据既昂贵又耗时。本文介绍一种 ZeroHSI,通过整合视频生成技术和神经人体技术,实现了零样本的四维人类 - 场景交互合成。

模型介绍

ZeroHSI-一种零样本的四维人类-场景交互合成方法-AI.x社区

本文提出的 ZeroHSI 方法主要通过整合视频生成和神经人体渲染技术,实现零样本 4D 人类 - 场景交互合成,具体步骤如下:

  • HSI 视频生成:基于渲染的初始状态和文本提示生成人类 - 场景交互(HSI)视频。利用先进的视频生成模型,从学习到的丰富运动先验中提取人类 - 场景交互动作,无需 3D 人类动作或交互数据。这一步骤利用了视频生成模型在大量数据上学习到的通用运动知识,为后续的交互合成提供基础。
  • 通过可微神经渲染进行优化:运用可微神经渲染技术,通过最小化渲染视频与生成的参考视频之间的差异,来优化每帧的相机姿态、人体姿态参数以及物体的六维姿态。具体来说,使用 3D 高斯表示场景、对象和人体,在此基础上计算渲染损失,进而调整相关参数。这一过程使得生成的交互动作在视觉上更加逼真,与参考视频的一致性更高。
  • 在潜在空间中优化结果:在 VPoser 的潜在空间中对上述优化结果进一步处理,以提升生成动作的物理合理性。通过在潜在空间中的调整,使得生成的人类动作更加符合现实世界中的物理规律,避免出现不合理的动作姿态或交互效果。
  • 数据处理与表示:在整个过程中,采用合适的数据处理和表示方法。如对场景、对象和人体使用 3D 高斯表示,这种表示方式有助于在渲染和优化过程中更准确地模拟和调整它们的形态和位置,从而提高交互合成的质量和效率。

实验结果

ZeroHSI-一种零样本的四维人类-场景交互合成方法-AI.x社区

  • 动多样性丰富:与 TRUMANS、LINGO 和 CHOIS 等基线方法相比,ZeroHSI 可以生成更加多样的人类 - 场景交互动作。它能够捕捉到不同风格、不同方式的交互行为,使得合成的交互场景更加生动和真实。这对于模拟现实世界中复杂多样的人类行为非常重要,能够满足不同应用场景对于丰富交互动作的需求。
  • 物理合理性较高:通过在 VPoser 的潜在空间中对结果进行优化,ZeroHSI 生成的动作在物理层面上更加合理。动作的姿态、力度和运动轨迹等方面都更符合现实世界的物理规律,避免了出现不自然或违背物理常识的动作。比如在与物体进行接触和操作时,动作的力度和方式能够合理地反映出物体的质量、形状等属性。
  • 零样本合成优势:ZeroHSI 方法最大的优势在于实现了零样本的 4D 人类 - 场景交互合成,无需依赖包含配对 3D 场景和动作捕捉数据的数据集。这大大降低了数据收集的成本和时间,同时也使得该方法能够在更广泛的场景和对象上进行应用,具有更强的泛化能力。


文转载自公众号瓦力算法学研所,作者:喜欢瓦力的卷卷

原文链接:​https://mp.weixin.qq.com/s/y1VtUO1hVvb7oFdobqPl8w​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐