打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI

发布于 2025-9-18 09:16
浏览
0收藏

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

文章链接:https://arxiv.org/abs/2509.01232 

项目地址:https://fantasy-amap.github.io/fantasy-hsi/ 

亮点直击

  • 设计了一种新颖的HSI框架,以视频生成和无配对数据的多智能体系统为中心,将复杂的交互过程建模为一个动态有向图,在此基础上构建了一个协作的多智能体系统。
  • 多智能体系统包括一个用于环境感知和高级路径规划的场景导航智能体,一个将远景目标分解为原子动作的规划智能体,和一个批评智能体,通过评估生成的动作与计划路径之间的偏差来建立闭环反馈机制,能够动态修正由生成模型的随机性引起的轨迹漂移,从而确保长期的逻辑一致性。
  • 利用强化学习来训练动作生成器,显著减少了肢体扭曲和脚滑动等伪影,保持生成的一致性和物理性。

总结速览

效果总览

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

角色模型

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

解决的问题

  • 适应性挑战和成对数据集依赖:作为通用智能体,人类能够执行各种复杂的交互任务,灵活地响应观察到的环境信息,并快速适应新环境。然而,当前的方法与人类智能的这一水平仍然存在显著差距。许多方法依赖于成对的人机环境数据,这通常需要在特定环境中收集大量匹配的动作捕捉和场景数据。因此,当面对未知的物体布局或动态变化时,它们缺乏适应性,难以涵盖现实世界中丰富多样的交互。
  • 高级动作完成性挑战:而一些方法尝试利用视觉语言模型 (VLM) 的先验知识来绕过对配对数据集的依赖或视频扩散模型(VDM)以零样本方式生成人与环境交互序列,这些序列通常仅限于诸如坐下或触摸等低级简单动作。它们不适用于高级任务,例如探索城堡。
  • 生成动作的物理性挑战:生成的动作还必须在物理上合理。任何视觉伪影,例如肢体变形或脚部滑动,都违反物理定律,严重损害结果的真实感和实际应用。

提出的方案

  • 动态有向图建模:将复杂的环境场景建模为动态有向图。通过将基于 VLM 的多智能体与 VDM 相结合,FantasyHSI 实现了有效的环境感知和规划,根据环境反馈调整人体运动,生成物理上合理的人体动作序列,并消除了对人-环境配对数据集的依赖。
  • 多智能体系统:该系统包含一个用于环境感知和理解的场景导航智能体,以及一个执行高级任务分解的规划智能体,将长期目标分解为原始动作。至关重要的是,为了解决生成模型固有的随机性,我们引入了一个评判智能体来形成闭环反馈回路,量化生成动作与规划轨迹之间的差异,从而能够动态校正偏离的节点状态。这种协同多智能体架构将感知、规划和校正统一起来,从而解决了由生成随机性引起的轨迹漂移问题,并确保了在长期交互中持续的逻辑一致性和物理可行性。
  • 强化学习优化生成的物理性:使用强化学习优化VDM设计了一个可控的、物理增强的动作生成器,这显著提高了生成动作的物理真实感。

达到的效果

  • 可解释性:提出了一种使用动态有向图进行长远人与环境交互的新方法,为感知、规划和行为细化建立了可解释的基础。
  • 多智能体协作:开发了一个协作多智能体系统,该系统集成了环境感知、路径规划和闭环校正,以纠正由生成模型固有的随机性引起的动作偏差。
  • 物理性强化:通过使用强化学习优化 VDM 设计了一个可控的、物理增强的动作生成器,这显著提高了生成动作的物理真实感。
  • 实验验证:在泛化能力、长期任务完成能力和物理真实感方面显著优于现有方法。

方法

给定 3D 场景和高级指令,首先将任务形式化为动态有向图,然后通过基于 VLM 的多智能体进行任务分解、规划、回溯和修正,并采用强化学习来增强图中每条边的生成器的物理定律。

动态有向图构建

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

关键节点定义

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

多智能体系统

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

通过场景导航智能体进行关键节点规划

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

规划智能体

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

有向路径生成

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

通过评判智能体进行剪枝与回溯

由于视频生成过程本身具有内在随机性以及语言提示不可避免的模糊性,生成的动作序列有时可能导致虚拟人类偏离智能体规划的路径。例如,在生成“边走边欣赏风景”的视频片段时,行进的距离与方向只能被粗略控制。此外,对于“困倦地伸懒腰”这类文本描述的动作,视频生成模型可能会额外生成“打哈欠”等动作以表达人物的困意。这会导致在场景导航智能体与动作链规划智能体构建的图中引入新的节点。在某些情况下,这些额外动作和偏差增强了整体行为的表现力,但也可能造成计划的干扰。 为处理这些因偏差和未规划动作而生成的新节点,采用一个评判智能体,首先评估这些新节点,并在必要时进行修正。具体而言,对于每一段生成并捕捉到的动作片段,评判智能体会分析对应的渲染帧,评估动作质量,并对轨迹与姿态进行修正。

生成器的物理规律增强

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

实验

实验设置

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

设置评估:为系统性地评估所提出方法,实验在两种设置下进行:场景交互评估与场景感知及响应评估。

  • 场景交互评估:评估模型在静态环境中生成合理人-场景交互的能力,其中场景几何结构在整个运动过程中保持不变。
  • 场景感知与响应评估:评估模型对环境中变化和障碍物的感知与反应能力。在此设置中,将常见的现实世界障碍物(包括已见的如椅子、沙发、花瓶,以及新颖的如南瓜、岩石等)引入模型预规划的路径中。模型必须首先检测到障碍物,并做出相应反应。该评估不仅测试模型对未见物体的鲁棒性,更重要的是检验其如何感知环境并作出响应。

评估数据集:由于目前缺乏公开可用的人-场景交互(HSI)基准,系统性评估仍具挑战性。例如,TRUMANS 仅发布了训练数据集而无标准化测试集,其他工作如 LINGO 尚未公开其评估集。为此,构建了 SceneBench,一个包含多样化3D环境的评估基准,旨在评估虚拟人在室内外场景中的具身行为表现。总计包含 20个不同的3D场景,其中10个室内、10个室外,涵盖住宅空间(如卧室、牛棚、健身房)、自然景观(如草原、河岸)、城市街道和乡村农场等。

实验分析

场景交互能力评估:如下图4(a)所示,展示了 FantasyHSI 与基线方法在 SceneBench 上的场景交互能力的定性对比。结果表明,所提方法在多种环境中生成了生动且富有表现力的动作,能够完成超越简单行走或触碰的多样化高层人-场景交互任务。例如,该方法能够生成高度抽象且类人的行为,如在垃圾堆旁扇鼻子、坐在窗台等非典型位置,甚至如下图1所示,能够攀爬20米长的梯子到达屋顶,而所有其他方法在这些任务上均失败。 定性分析显示,TRUMANS 存在严重的训练数据分布过拟合问题,在遇到新物体时默认仅生成坐姿动作。如图4(a)第一列所示,该方法未能感知窗台的实际高度,而是生成了与训练数据中标准椅子高度一致的坐姿。此外,LINGO 在未见环境中难以准确感知表面边界(如图4(a)第三、四列所示),场景理解能力有限,导致严重穿透现象,无法为高度抽象的交互任务(第二列)生成合理动作。尽管 PedGen 能生成时间上连贯的行走序列,但其动作多样性极低,缺乏执行有意义场景交互的能力。 如表1所示,该方法在CLIP Score和动作多样性方面达到最高值,同时在穿透率(Penetration)和帧间相似度(FS)指标上最低,大多数指标均优于现有方法。这表明所提方法生成的动作在语义对齐性、物理合理性及多样性方面表现更优。

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

场景感知与响应能力评估:在场景感知与响应能力评估中,图4(b)展示了定性对比结果。在所有方法中,仅有该方法成功感知到障碍物(南瓜)并生成合理的应对行为,例如跨过障碍物。 尽管 TRUMANS 和 LINGO 能通过占据栅格检测障碍物的存在,但其感知范围局限于虚拟人周围1米的立方体区域(以点云表示)。该有限的感知范围截断了周围物体的完整点云,导致模型无法感知物体的完整结构,造成语义信息严重丢失。因此,LINGO 仅生成回头一瞥的动作,而 TRUMANS 未能生成任何合理反应,既未成功避开也未与障碍物发生有效交互。相比之下,PedGen 的障碍物感知能力极差,直接穿过南瓜而无任何反应行为。 与视觉观察一致,如表1所示,该方法在“障碍物穿透得分”(Penetration Obstacle Score)和“反应多样性得分”(Reaction Divergence Score)上均优于所有对比方法,表明其具备更优的场景理解与响应能力。


多智能体框架消融实验:为评估所提出的多智能体协同框架的有效性,进行了一项消融实验:在该设置中,不引入任何智能体进行动作规划或将复杂动作分解为动作单元链。此时,复杂动作直接通过视频生成模型生成。如图5第二行所示,在“跳上围栏”的任务中,由于缺乏由多智能体提供的详细动作规划作为指令,模型未能生成期望的动作序列。 相比之下,所提方法将复杂运动分解为一系列动作单元。基于这一详细计划,虚拟人首先被指示用手扶住岩石以获得支撑,随后跃起并双脚稳稳落在岩石顶部,从而成功完成整体动作。此外,如表1所示,CLIP-S 分数显著下降表明,在缺少多智能体组件将主目标分解为清晰子任务的情况下,模型难以达成任务目标。该结果验证了多智能体框架在任务分解与结构化规划中的关键作用。


评判智能体消融实验: 为评估评判智能体在方法中的有效性,进行了包含与不包含该组件的对比实验。如下图5所示,在未引入评判智能体所提供的评估与回溯机制时,模型无法纠正偏离预期路径的行为,最终未能到达规划的目标位置。而当引入评判智能体后,系统能够成功引导虚拟人重新回到目标位置。 进一步地,如下表1所示,移除评判智能体导致 CLIP 分数显著降低,表明模型在完成指定目标方面存在困难。同时,Diversity(多样性)指标的上升主要源于生成了更多偏离主路径的动作片段——这些片段在完整系统中本应被评判智能体识别、回溯并剪枝。这说明评判智能体不仅提升了任务完成度,还有效控制了无效行为的扩散。

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

强化学习消融实验:为验证采用DPO优化的视频生成模型的有效性,使用监督微调(SFT)模型和原始预训练模型在测试集上进行了对比实验。如图5和表1所示,尽管基础模型和SFT方法展现出一定程度的指令跟随能力,但其生成结果常出现违背物理规律的动态行为,包括角色穿透场景、肢体形变以及不自然的滑动运动等伪影。 相比之下,经过DPO优化的方法显著增强了生成符合真实世界物理规律动态的能力,有效减少了上述问题,从而在视觉合理性和任务准确性方面取得了更优的整体表现。该结果证明了基于人类偏好反馈(DPO)对生成模型进行精细化调整在提升物理真实性方面的有效性。

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

消融结果

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

对比实验

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI-AI.x社区

结论

本工作提出了FantasyHSI,一种用于在复杂三维环境中合成富有表现力且符合物理规律的人-场景交互的新颖框架。通过将人-场景交互重新建模为动态有向图,构建了一个可解释的结构,用于刻画长周期交互过程。 该框架集成了基于视觉语言模型的多智能体协同系统,涵盖场景理解、分层规划与轨迹修正等能力。此外,采用基于强化学习的方法对视频扩散模型进行优化,确保生成的动作符合物理规律,有效消除了足部滑动、身体与场景穿透等常见伪影。实验结果表明,FantasyHSI 在面对未见场景和长周期任务时展现出优于现有方法的泛化能力,同时保持了高真实感的运动质量与逻辑一致性。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/BnpGdHuDeuTcuNjZGwPvww​

收藏
回复
举报
回复
相关推荐