
将智能植根于运动之中——从AI模型到具身智能的下一个跃迁 精华
语言可以建模,图像可以合成,声音可以模仿。但唯独“动作”,这个看似直观、日常而简单的维度,却一直是人工智能最“心虚”的领域。
你有没有注意到:生成模型已经可以输出篇章结构清晰的文章,甚至能“画”出栩栩如生的图像,但它依然难以生成一次“自然的跌倒”,一个“真实的击掌”,或是一个符合物理规律的“拥抱”。
原因并不复杂——我们在追逐人工通用智能时,或许遗漏了最根本的一点:智能从来不是悬浮在代码和数据上的抽象逻辑,它根植于身体,发生在动作中。
《Grounding Intelligence in Movement》这篇由宾夕法尼亚大学团队撰写的论文并不是给出一个新的模型或算法,而是提出一种新的智能建模观念:让“运动”成为AI基础模型的第一类公民。
智能,从来不是静止的
在自然世界中,几乎所有的信息处理最终都指向同一个终端:运动。
无论是动物看到掠食者后转身逃跑,还是人类在社交中用手势与表情沟通,甚至是婴儿在还不会说话前用“踢腿”探索世界——运动既是感知的输出,也是智能的呈现。
更进一步,所有大脑对语言、视觉、听觉的加工,都可以看作是为了更好地发出一个动作“指令”。这种以运动为本体的智能观,在神经科学和行为学中早已根深蒂固。但在AI世界中,运动却常被看作“视频的一部分”或“任务的附属行为”,而不是一个需要独立建模的通用维度。
研究团队强调,运动不仅是行为的结果,更是我们理解世界、预测意图、建立交互的基础窗口。
“简单”的运动,为什么成了AI最难的题?
这就是经典的Moravec 悖论,在AI中,最容易被认为是“低级”的技能(如走路、挥手)反而是最难建模的,而看起来“高级”的认知任务(下棋、算数)却更容易被算法掌握。
运动建模并不是缺乏数据。恰恰相反,我们拥有大量关于姿态、轨迹、加速度、神经信号的视频与传感器数据。但问题在于:这些数据碎片化严重,被锁定在各类具体任务中,缺乏统一建模框架,也少有人将运动视为类似语言和图像那样的“基础模态”。
更何况,运动不是一种单一的数据类型,而是视觉、力学、时间序列、生理信号等复杂模态的交汇点。没有合适的结构化表示,就很难抽象出真正可泛化的运动规律。
越来越多的学科同时在呼唤“理解运动”的AI
这并不仅仅是AI模型精度的问题,它直接决定了多个关键领域的技术突破路径。
在神经科学 中,理解微小运动的模式可能揭示帕金森、孤独症、脑瘫等疾病的早期信号;
在机器人学 中,动作理解是实现类人运动与自主交互的基石;
在行为心理学与社会神经科学 中,动作是情绪、意图与社交动机的主要载体;
在数字医疗与康复系统 中,动作质量的追踪与反馈是个性化治疗与辅助系统的核心指标;
甚至在数字生态与动物研究 中,动物运动数据已成为生态监测与保护的重要来源。
当多个学科开始将注意力集中到“运动”这个维度,AI 社区再不行动,或许就真的错过了下一个通用建模的突破口。
图1:以生物运动为核心的领域。生物运动在神经科学、医学、计算机视觉和传感器建模中至关重要——每个领域都提供了独特但相互关联的视角,以了解运动是如何被跟踪、建模和理解的。
核心研究团队团队来自宾夕法尼亚大学,成员横跨神经科学、机器学习、生物工程与社会神经科学。
主导者 Konrad Kording 教授,是“Neuromatch”平台的创始人,倡导开放、因果导向的 AI 神经研究;
Michael Platt 教授则将灵长类行为研究与神经科学联系在一起,探索社会动机的神经机制;
Melanie Segado、Felipe Parodi、Eva Dyer 等成员则将精度医学、动作捕捉与自监督学习等方法深度融合;
团队成员不仅关注人类运动,还深入研究非人灵长类动物行为,并跨模态整合视频、传感器与神经数据。
这是一组试图真正“统一感知与行动”的科学家们,他们比任何人都清楚:如果智能系统不能理解“走路、跌倒、挥手、震颤”,它就永远无法真正理解“生命”。
1.现有运动模型图谱,通往具身智能的三段路径
第一段:姿态估计与形体建模,从二维关节点到全身结构,还原“谁在动”和“怎么动”
运动智能的第一步,是让机器能看懂“姿势”。这一领域的跃迁,几乎可以用“革命性”来形容。
曾经,我们只能通过造价高昂、布满反光标记的 MoCap 系统来获得身体的三维动作信息。这种方式虽精准,却极度受限于实验环境,注定无法走入自然世界。
如今,以 SuperAnimal 和 ViTPose 为代表的基础视觉模型,正在掀起新的浪潮。得益于 transformer 架构和大规模训练,这些模型在“零样本”设定下就能识别出不同物种、不同姿态的动作特征。不管是婴儿挥手还是雪豹奔跑,模型都能捕捉核心结构——这为跨物种的统一运动建模奠定了基础。
但仅靠二维关键点还不够。运动是空间中的形变过程,这就需要 mesh 重建。从 PromptHMR 到 SMPLer-X,从手部模型(MANO)到羽毛覆盖的鸟体网格(Penn Avian Mesh),学界逐渐学会如何从视频中“复原”一个具身体积的生物体。不仅是骨骼,还有肌肉、表情、头发、衣物——所有这些都会影响动作的真实表现形式。
这种对“形”的建模,正是为了让机器能更好地理解“动”。
第二段:动作识别与多模态融合——动作是什么?不仅要看,还得听、测、推断
让机器知道一个身体“做了什么”,并不是一件容易的事。
目前 VideoMAE V2 已能识别 700 多种人类动作;而动物界的动作识别,比如 MammalNet 或 ChimpACT,识别的类别还远远落后。这些模型通过学习视频片段中动作的演化,在像素的流动里寻找模式。
但人类行为从不只是一个动作序列,它往往有着情境中的目标与动机。为此,多模态融合成为趋势:视觉数据开始与文本(动作标签)、音频(环境线索)、IMU(惯性)、EMG(肌电)信号协同训练。
典型如 LLaVAction 系统,将 LLM 与视频融合推理;又如 emg2pose,可以从 EMG 信号预测肢体姿态,用于义肢控制等高敏感场景。感知与解释的界限正在被打破。
然而,挑战依旧明显。当前模型往往只能将动作分类为“跳跃”“走路”“投掷”,却无法区分“我主动握手”与“我不自主震颤”,更谈不上理解一个动作背后的情绪、意图或病理征兆。
当代运动感知技术尚停留在“描述动作”,而非“理解行为”的阶段。
第三段:从语言到动作的“编译器”,可控且符合物理法则的身体合成
除了感知与分类,AI 也正努力迈出它的“下一步”——自主生成动作。
在最新思路中,动作被视为一种语言结构:由一个个姿态片段(token)组合而成。MotionGPT 和 ChatPose 将连续的运动转化为可学习的词元序列,然后用类 GPT 的策略进行生成、预测与补全。这不仅可用于动画生成,还打开了“文字生成动作”的新篇章。
同时,扩散模型也卷入这场“身体写作”的竞赛。Human Motion Diffusion Model(MDM)等系统通过逐步去噪的方式合成平滑的全身骨架动画,MotionDiffuse 更进一步,引入足部接触点、骨骼限制等,使生成动作更贴近真实动态。
但身体不是纸面符号,它受力、交互、失衡、摩擦……所有这一切,都需要模拟器的支撑。OpenSim、Mujoco 等生物力学平台使得 AI 不再“漂浮作画”,而是学会“踩地发力”,生成“可落地”的动作。
不过需要指出:当前自动回归模型容易输出“平均化动作”,忽略了动作中的微观差异与动态节奏。生物的动作之美,往往藏在毫秒之间——这是机器尚未企及的精妙。
2.在世界模型框架中学习运动
——让智能在动态环境中“动起来”
在人工智能发展的长河中,若说有什么方法能让AI真正“行动”起来,那么强化学习(Reinforcement Learning, RL)无疑是那把钥匙。它不仅教会机器“做什么”,更在试错中引导它“怎么做得更好”。而当 RL 遇上世界模型(World Models),AI 不再只是环境的被动响应者,而是真正具备了“预见未来”的能力。
图2:跨物种和传感器运动建模的统一框架。ML社区已经开发了所有这些组件。需要的是协调努力,将它们组合成一个专门构建的框架,直接从聚合的运动数据中学习运动特征。
强化学习,智能体的动作本能
强化学习的本质是行为驱动:给予奖励,设定目标,让智能体反复试验,逐步学会如何最优地行动。这种“行为即学习”的机制,让 AI 系统在复杂地形中导航、操控物体时展现出惊人的灵活性。
尤其在运动任务中,RL 极其擅长处理那些无法预编程的动作序列。它可以训练出会越野奔跑的四足机器人,也可以塑造出能够在非结构化空间中完成抓取的机械臂。正因如此,RL 被视为让 AI 学会“如何动”的重要支撑框架。
但强化学习也并非万能。它的最大短板是:没有目标,它就无法前进;目标模糊,它就无所适从。这对于那些含有丰富语义与社交情境的动作,尤其是人类行为建模,构成了巨大的障碍。
世界模型让AI“演练未来”
相比 RL 的“边做边学”,世界模型强调的是“未卜先知”。它通过建立环境的动态预测模型,让智能体在“脑海中”模拟行动可能带来的后果,然后再选择最优路径。
例如,NVIDIA 的 Cosmos 和Google 的 Genie 系列模型,正致力于训练 AI 能够预测各种操作在未来时刻会带来哪些变化——这相当于把现实世界“搬”进AI的认知中,让它提前在“脑中演练”。
当世界模型与 RL 合作时,AI 就能实现更高效、更策略化的学习,避免代价高昂的实际试错。这种组合尤其适合训练“懂得避障、协调肢体、应对环境反馈”的高阶运动系统。
成功案例与隐藏瓶颈
大家耳熟能详的 Spot 机器人,是这一范式成功落地的最佳例证。它可以灵活地跨越崎岖地形、应对复杂障碍,几乎具备“感知-计划-行动”的闭环能力,这其中正有赖于 RL + 世界模型对多种运动策略的整合训练。
然而,真正的问题往往藏在“边界”里。
尽管 Spot 行走稳定,但你有没有注意到它在人类环境中的表现往往显得“木讷”?它难以理解并回应“人类手势”或“情绪线索”,在与人协作的细节上,常常“跟不上节奏”。
这是因为当前训练范式高度依赖具体定义的目标与奖励函数,而现实世界中的意图、社交互动或情绪驱动,往往难以被量化。当目标变模糊,模型的行为就容易走偏。
深度点评:从奖励设计到物种迁移
研究团队指出三个关键瓶颈。
奖励函数之痛:现实中的动作目标复杂多变,要将其转换为数值目标,对设计者而言仍是噩梦。
“仿真—现实”鸿沟:哪怕在模拟器中学得再好,一旦投放到现实世界,智能体面临的物理变数、摩擦系数、偶发扰动都会让学到的策略崩塌。
缺乏泛化的能力:一个能精准模仿成人步态的模型,面对婴儿的“无目的抖动”却一筹莫展;同样,它也无法无缝应用于动物物种,不重新建模便难以适配不同的形态结构和动作逻辑。
这意味着:目前的世界模型和 RL 系统,在结构上仍过于“定制化”,难以承载“统一运动建模”的重任。
3.迈向统一的运动建模框架
从碎片数据到具身认知主干的整合工程
聚合“运动数据资产”:从分散的动作捕捉走向统一神经运动生态
如果说通用运动模型是智能系统的运动“大脑”,那第一步就是为它汇聚足够“丰富”的运动“记忆”。
目前已有的运动数据资源可谓琳琅满目。
像 AMASS、Human3.6M 这样的高质量动作捕捉库,为三维姿态建模提供黄金标准;
Motion-X 不仅汇聚了现有数据,还扩展了网络爬取来源,正在构建“互联网级动作数据集”;
EgoBody 则开启“第一人称动作数据”范式,让模型理解社交互动中的视角差异。
而在动物研究领域,MammAlps 通过野外摄像头实现对哺乳动物自然行为的观察,MmCows 更整合了农用传感器、气候与视频,构建“奶牛行为大数据”。
这些数据虽丰富,却像散落的拼图片段。正因如此,研究团队提出要推动标准格式(如类 BIDS)和灵活加载器的建立,并强调:“运动数据不仅要看,还要知道它在什么背景下发生”。 也就是说,所有的运动都应携带上下文——时刻、场景、物体、社会关系、甚至天气——否则只是空洞的动作轨迹而已。
预训练多模态主干,建造“动作界的GPT”,需要怎样的骨架与血肉?
构建一个类似语言领域 GPT-4 的“动作大脑”,并不是简单堆叠模态和算力,而是要把以下几点做到极致。
结构设计:引入“共教师机制”。即模型不必去理解整个世界,而是通过“对象提示”、环境音、交互文本等“协同信号”帮助其学习动作的潜在动机,就像人类宝宝通过父母的引导学习抓握。
隐私友好:打造“联邦学习易用套件”。尤其是在 NICU 新生儿监测、康复训练等场景下,数据往往只能留在医院或设备端,模型要“拜访数据”,而不是让数据“走出医院”。
感知增强:精细动作数据需要精细工具。传统的数据增强操作如加噪或左右翻转,可能会扭曲如震颤、偏侧缺陷等关键信号。模型训练前的“加工方式”必须重新定义,听懂病理动作不能靠糊弄。
拟真损失:向物理与生理规律看齐。模型输出若违反骨长恒定、接触力逻辑、加速度约束,就可能生成“漂浮踢腿”或“脱臼式奔跑”的错误动作。因此,优化目标必须嵌入物理现实。
高影响应用场景评估:评估不止于正确率,更关乎后果
运动模型的真正价值,不在于是否能赢下 benchmark 榜单,而在于:它能否在关键场景里“救人、助生、护物种”。
在医疗康复中,模型能否准确检测帕金森病早期细微步态改变?在生态监测中,它能否识别出威胁物种的行为模式?在人机交互中,它能否理解用户的肢体反馈进行自然适配?这些问题是对模型的终极检验。
为此,论文呼吁建立新的评估体系。
具备“因果性验证”:即模型是否能推理出如果发生某种身体限制,动作会如何变;
支持“跨域泛化”:一个模型能否跨越年龄、物种、体型,从婴儿抓握学到牛群导航;
强调“隐私鲁棒性”:确保数据加密、身份保护下模型依然可靠运行。
从技术到现实:打造产业落地链条的“韧带与骨架”
当前运动模型的开发,多停留在“实验室demo”和“论文benchmark”的层面,但要真正走进康复设备、交互系统、农业监测、机器人生态,就必须解决:
- 模型部署的软硬件兼容性;
- 通用主干与定制模块的模块化拼接;
- 数据采集、标注与增量学习的闭环系统;
- 以及模型生命周期中的安全、伦理与更新机制。
只有把科研成果“骨肉化”,建立完整“运动智能工程链”,才能真正释放其价值。
4.替代观点与专业反驳
为什么我们不能只靠“越来越大的模型”?
不是更大,而是更对
有观点认为:“既然视频生成模型、RL智能体都能处理动作问题,为何不继续扩大它们就行?”
研究团队明确反驳:规模并不是万能解药。
即便是像 Google Veo、OpenAI Sora 这样顶级的视频模型,仍然无法生成一次符合物理逻辑的“高五”或“绊倒”——它们像是在“动画世界”工作,而非“真实世界”。
相反,一个专为“动作理解”打造的模型,应当像GPT-4、Gemini、LLaMA 等语言模型一样,专注且深刻地建构某一智能维度的结构性表征。它不仅仅是“能学”,更是“知道怎么学”,这需要对动作的物理性、结构性和语义性有深度建模。
为什么“运动”更像 GPT,而不是 GATO
一些人将广义“多任务模型”类比为GATO——一个尝试什么都做但什么都一般的AI。而本文提出的“统一运动模型”,更像GPT-4 对语言的建模。
原因在于:语言与动作都具备强结构性、语用依赖性与跨任务迁移特性。正因如此,打造一个“运动领域的主干模型”,比搞一个什么都沾但啥都浅的一体机更可行。
重塑格局:从重复建设到共享“运动知识基座”
今天的现实是:每一个康复工程师、机器人开发者、神经科学家都要搭建属于自己的运动模型管道。这种重复造轮子的模式不但低效,也形成了“高门槛、低再用”的行业壁垒。
统一模型框架的真正意义在于降低入门门槛,让非机器学习专家也能调用高质量运动表示;减少资源浪费,避免“换物种换模型”的重复训练;构建类似“代码即语言”的新范式,让动作建模真正普惠于各行各业。
5.结语与展望
让智能“动”起来,才算真正活过来
当我们谈论“通用人工智能”,往往聚焦语言推理、图像感知或知识抽取。可若没有对“运动”的建模,AI注定只能停留在屏幕里的幽灵,无法走进现实世界的真实交互场景。
这项研究提醒我们:运动是智能的语法,是理解环境、表达意图、体现个性与适应复杂任务的关键。未来的 AI,不应只是能“看图说话”或“逻辑缜密地写论文”,它必须能“看人走路就读懂情绪”、“看动物奔逃就预测生态趋势”,乃至“看你颤抖就提前感知疾病”。
这意味着,运动模型不再只是服务动画师和机器人专家的“工具箱”,而将成为数字医疗、个性化人机交互、智能监测与生态建模等应用中的基础设施。
智能,不仅仅是知道“说什么”——它更在于知道“什么时候动、怎么动、为何而动”。
协同共建:让数据共享从“API”变为“DAO”
研究团队提到一种迫切而现实的问题,运动数据极其敏感,尤其涉及医疗场景、生理信号和用户身体隐私。正因如此,它常常被封锁在医院服务器、实验室硬盘,研究无法扩展,模型难以迭代。
这一挑战给Web3生态和DAO机制提供了理想落点。
分布式存储与加密计算可以确保个人运动数据不被直接提取却可供模型参与训练;
DAO式研究协作可通过社区共识决定“共享何种数据、由谁调用、为何目的”;
数据质押与代币激励为医疗机构、患者或设备制造者带来贡献回报,鼓励合法、安全的数据流通。
换句话说,让模型“动”起来,也许需要一种“自下而上”的数据社会机制,它既保障个体隐私,又推动运动智能的协同演化。这是传统科研范式难以完成的事,但 Web3 可以。
未来十年,看懂一个“抖动”的智能系统
当下的AI系统多数是静态的,它们“在看”、“在说”、但很少“在做”。而真正的智能,不会止步于思考本身,而要在真实环境中起身、转身、感知世界、再重新判断。
未来值得关注的研究方向正是那些能让AI“动起来、稳下来、感知外部、理解内在”的系统。
具身因果建模(Embodied Causal Modeling):AI不仅要观察动作,还要理解它为什么发生、如果环境改变会如何演化。
实时交互感知系统:打造能在物理世界中“即兴反应”的智能体,而不是只会在训练数据中回放。
多物种、多体态的动作生态图谱:从人类、动物到机器人,构建统一的身体语义表征,使跨个体的行为建模成为可能。
运动驱动的情感与社交模拟:理解一个眼神的停留、一只手的停顿背后的情绪波动,将成为人机情感交互的新里程碑。(END)
参考资料:https://arxiv.org/abs/2507.02771
本文转载自波动智能,作者:FlerkenS
