人机交互与场景合成:人机交互统一技能模型

发布于 2025-4-3 00:22
浏览
0收藏

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

2025-03-25|Shanghai AI Lab, HKU, Independent Researcher, SEU, Feeling AI|CVPR 2025|🔺14

​http://arxiv.org/abs/2503.19901v1​​​
​​​https://huggingface.co/papers/2503.19901​​​
​​​https://liangpan99.github.io/TokenHSI​

研究背景与意义

人机交互与场景合成:人机交互统一技能模型-AI.x社区

TokenHSI旨在解决当前物理角色控制方法中普遍存在的局限性,即无法有效整合多种复杂的人体场景交互(HSI)技能。现有方法通常专注于单一任务控制器的开发,导致在面对需要多技能协同的任务时表现不佳。TokenHSI通过引入基于Transformer架构的统一策略网络,成功地将多个基础HSI技能整合到一个模型中,并能够灵活适应新任务和环境。

  • 研究背景:HSI合成对于计算机动画和具身AI至关重要,但目前的方法大多局限于特定任务,难以处理多样化的挑战性任务。
  • 研究意义:TokenHSI不仅实现了多技能的统一学习,还显著提升了模型对新任务和环境的适应能力,为更复杂的HSI任务提供了可能。

研究方法与创新

人机交互与场景合成:人机交互统一技能模型-AI.x社区

TokenHSI的核心创新在于其独特的架构设计和高效的技能迁移机制。具体而言:

  • 架构设计

TokenHSI通过分离的人形本体感知(proprioception)令牌和任务令牌结合的方式,构建了一个独立的观察空间。

使用掩码机制在Transformer编码器中结合本体感知令牌和任务令牌,使得模型能够在多任务训练中实现有效的知识共享。

  • 技能迁移

模型支持可变长度输入,允许灵活适应新场景中的技能需求。

引入了专有的本体感知令牌化器(Tprop),有效促进了多任务训练和策略适应。

在推理阶段,通过组合本体感知令牌和对应的任务令牌,指导角色执行特定任务。

  • 优势对比

相较于传统方法,TokenHSI无需对预训练策略进行全参数微调,从而大幅提高了适应效率。

通过零初始化适配层(adapter layers)和新增任务令牌化器(Tnew),模型能够快速适应新任务。

实验结果表明,TokenHSI在样本效率和性能上显著优于近期的策略适应方法。

实验设计与结果分析

人机交互与场景合成:人机交互统一技能模型-AI.x社区

人机交互与场景合成:人机交互统一技能模型-AI.x社区

TokenHSI在多种HSI任务上的表现进行了广泛测试,包括技能组合、物体形状变化、地形形状变化和长期任务完成等。

  • 实验设计

基础技能学习阶段:在多任务环境中训练Transformer策略,涵盖跟随、坐下、攀爬和携带四种代表性技能。

策略适应阶段:通过引入轻量级模块(如Tnew、Tc和ξA),使学到的技能能够灵活适应更具挑战性的HSI任务。

  • 结果分析

技能组合任务中,TokenHSI在保持高成功率的同时,展现出更强的稳定性。

物体形状变化任务中,TokenHSI通过微调任务令牌化器(Tc),成功适应了从盒子到不规则物体(如椅子和桌子)的变化。

地形形状变化任务中,模型通过引入高度图令牌化器,增强了对复杂地形的适应能力。

长期任务完成任务中,TokenHSI展示了流畅的技能过渡和碰撞避免能力。

结论与展望

TokenHSI通过统一的Transformer策略网络,成功实现了多技能整合和高效的新任务适应能力。

  • 总结贡献

提出了TokenHSI,一种基于Transformer的物理角色控制器,能够整合多样化的HSI技能。

展示了灵活且高效的策略适应能力,避免了对预训练策略的全参数微调。

引入了专有的本体感知令牌化器,有效促进了多任务训练和策略适应。

  • 分析局限

当前方法仍需依赖奖励函数的设计,涉及繁琐的试错过程。

长期任务完成目前仍为非自主模式,未来需探索更高效的解决方案。

  • 方法展望

探索利用人类数据或互联网知识减少奖励工程的成本。

进一步研究如何实现完全自主的长期任务完成能力。

本文转载自​​AI研究前瞻​​,作者:胡耀淇

收藏
回复
举报
回复
相关推荐