下一代智能体,用大脑的方式看世界、走世界

发布于 2025-9-23 07:02
浏览
0收藏

在人工智能的进化史上,Agentic AI——具备自主感知、推理与执行能力的智能体——正迅速崛起。它们不仅能在语言世界中与人类对话、推理、生成内容,还能在虚拟环境中自主完成复杂任务。

然而,当这些智能体试图跨出虚拟的“安全区”,进入真实的物理世界时,短板便暴露无遗,它们在空间理解与推理上的能力,远不及人类。

人类能够在陌生街区迅速建立心理地图,凭借视觉、听觉、触觉等多模态信息在复杂环境中灵活行动;而现有 AI 往往依赖符号化、静态化的空间表示,缺乏对动态、非结构化环境的适应力。这种差距不仅是算法问题,更是认知机制的鸿沟。

核心问题在于:为什么 AI 在空间推理上如此受限?答案或许藏在神经科学中。人类大脑的空间认知系统——从顶叶皮层到海马体,从网格细胞到位置细胞——构建了一个动态、可更新的认知地图,使我们能够在三维世界中定位、规划、预测。将这些机制引入 AI,或许能让智能体真正具备“类人”的空间智能。

9 月11 日,arXiv发布了最新研究成果《Mind Meets Space: Rethinking Agentic Spatial Intelligence from a Neuroscience-inspired Perspective》。它跨越神经科学、人工智能与机器人学三大领域,提出了一个通用计算框架,试图将人类空间认知的核心机制映射到 AI 系统中,让智能体在虚拟与物理世界中都能如鱼得水。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图1:神经科学启发的代理空间智能插图。由于人类空间推理的核心功能在于多模态感知、认知映射、记忆系统和决策空间推理,因此可以将智能体抽象为相应的人工智能模块,形成一个仿生框架,以实现空间推理和自适应行为。在我们的框架中,这些功能是通过组件模拟的,包括仿生多模式传感、多感官整合、自我中心-异中心转换、认知地图、空间记忆和自适应部署的空间推理。

这支国际化的研究团队汇聚了来自南洋理工大学(NTU)、清华大学、瑞典皇家理工学院(KTH)、印度国家技术学院(NIT)以及产业界 MiroMind 的专家。团队成员背景横跨计算神经科学、机器人学、计算机视觉、自然语言处理与土木空间工程,形成了从理论建模到工程实现的全链路能力。

在技术开放方面,技术团队不仅提出了理论框架,还在 GitHub 上开源了参考实现,包括六大核心模块的代码、多模态感知与空间推理的适配脚本、数据集映射表以及评测工具。开源协议推测为 MIT 或 Apache 2.0,旨在降低学术与产业的复现门槛,并鼓励二次开发。

项目地址:​​https://github.com/BioRAILab/Awesome-Neuroscience-Agentic-Spatial-Reasoning​

1.神经科学视角下的人类空间智能

要让 AI 拥有类人的空间智能,首先要理解人类是如何做到的。

人类的空间认知始于多模态感知与整合。视觉系统通过视网膜到初级视觉皮层(V1)的处理,捕捉环境的形状、颜色与深度;听觉系统通过耳蜗与听觉皮层(A1)定位声源;触觉系统则通过皮肤感受器与体感皮层(S1/S2)感知表面质地与压力。这些信息在顶叶皮层等区域融合,形成统一的空间表征。

在表征方式上,人类大脑同时使用两种坐标系。

自我中心(Egocentric)编码以身体为参考,适合即时行动与近距离操作;

客体中心(Allocentric)编码则以环境或物体为参考,构建稳定的世界地图。

这种双系统由顶叶皮层、后扣带皮层(RSC)与海马-内嗅皮层系统协同完成。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图2:基于神经科学的认知图谱。它植根于海马体(橙色)和内嗅皮层(蓝色),内嗅皮层编码欧几里德度量,海马体编码关系拓扑图,共同形成集成的混合和层次图。

认知地图理论揭示了人类如何在脑中构建空间模型。度量型地图精确记录距离与方向,拓扑型地图强调位置之间的连接关系,分层型地图则将空间分为不同层级以便快速推理,而混合型地图结合了上述优势,既有几何精度又具备结构灵活性。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图3:人类认知中的记忆系统:工作、偶发和长期。

空间记忆系统是认知地图的存储与调用机制。工作记忆由前额叶-顶叶网络维持,用于短期任务;情景记忆依赖海马体与内嗅皮层,记录具体的时空经历;语义记忆则存储长期的空间知识与规则,通常由默认模式网络参与。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图4:空间推理骨干神经科学模型的开发。

在计算神经科学中,这些机制被抽象为多种模型:贝叶斯脑假说认为大脑在不断进行概率推断;预测编码强调大脑通过预测与误差修正来更新世界模型;继任表示(Successor Representation)为路径规划提供高效编码;自由能原理(FEP)与分层主动推理(HAI)解释了感知与行动的统一驱动;Tolman-Eichenbaum Machine 则尝试在人工系统中复现海马体的空间与语义编码功能。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图5:TEM的架构。(A)生成模型,显示了从动作(⻔)和潜在状态(𝑔)到状态转换、记忆检索和时间过滤的自上而下的过程,以生成感官预测(𝑝)与观察(⻖)。

2.类人空间智能的通用计算框架

如果说人类的空间智能是一部精密的交响乐,那么技术团队提出的通用计算框架,就是试图用人工系统重现这部乐章的总谱。它将神经科学中的关键机制拆解为六个相互衔接的模块,从感知到推理再到决策,构成一个闭环的智能体系。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图6:提出的代理空间智能框架。根据人类从感知、认知到行动的认知,该框架包含六个模块:(1)多感官输入,(2)信息处理,(3)自我中心异中心,(4)认知地图,(5)空间神经记忆,以及(6)空间推理。

多模态输入模块是整个框架的感官前哨。它不仅包括视觉、听觉、触觉等常规通道,还考虑了运动感知、力反馈等更贴近物理交互的输入方式。设计理念借鉴了生物感官的多样性与互补性——就像人类在昏暗环境中会更多依赖触觉与听觉,AI 也需要在不同情境下动态调配感知资源。

感知到的信息首先进入信息处理模块(IPM)。这里是数据的“中枢神经”,负责传感器的校准与同步、噪声抑制、跨模态注意力分配,并将不同来源的信号映射到统一的潜在空间表示中。这个过程对应于人脑顶叶皮层等区域的多模态融合功能,确保后续推理建立在一致且高质量的感知基础上。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图7:用于空间推理的信息处理模块(IPM)。在通过特定模态编码器之前,对多感输入进行预处理和注意力加权。查询/关键投影和对比学习将它们融合成统一的跨模态潜在表征。

接下来是自我中心—客体中心转换模块。人类在行动时会不断在以自身为参考的视角(egocentric)与以环境为参考的视角(allocentric)之间切换:前者适合即时操作,后者有助于构建稳定的世界模型。

AI 在这一模块中完成类似的双向转换,将动态的第一人称感知转化为稳定的三维环境地图,并在需要时反向投影回自我中心视角,以便执行具体动作。

内部心理模型是框架的“内心世界”,由两部分组成:

 一是认知地图,模拟网格细胞与位置细胞的协作,既能进行度量精确的路径积分,也能在拓扑层面理解空间关系,并通过情境重映射适应环境变化。 

二是空间神经记忆,将空间信息与语义标签绑定,形成情景化的空间记忆,并具备自适应更新与巩固机制。

这一组合让 AI 不仅“知道”环境的形状,还能“记住”环境的故事。

有了内部模型,AI 才能进入推理模块。这里包含两个关键能力: 其一是预测世界模型,通过模拟环境的未来状态来进行前瞻性规划; 其二是显式空间推理,将几何、语义与任务目标对齐,支持多步推理与策略生成。这一部分对应于人类在海马体与前额叶皮层中进行的情景模拟与决策过程。

最后,框架将空间推理行为按分层主动推理(HAI)的思路进行分类:从底层的三维感知推理,到中层的隐状态推理(包括结构推理、心理模拟、抽象推理),再到高层的策略选择与执行。这种分层不仅有助于任务分解,也方便在不同复杂度的环境中灵活调用相应能力。

整个系统的信息流呈现出一个闭环:多模态输入采集环境信息,经 IPM 处理后完成视角转换,进入内部心理模型进行存储与更新,再通过推理模块生成预测与决策,最终驱动行动,并通过新的感知反馈不断修正。这与人类大脑的感知—认知—行动回路高度相似。

在神经科学与 AI 模块的映射上,视觉、听觉、触觉等感知通道对应初级感官皮层;IPM 对应多模态整合区;视角转换模块模拟顶叶皮层与后扣带皮层的交互;认知地图与空间记忆对应海马体与内嗅皮层系统;推理模块则映射到前额叶皮层与海马体的协同工作。这样的设计不仅是功能上的类比,更是试图在信息处理流程上复刻生物智能的核心逻辑。

如果说过去的空间智能研究更像是“拼装零件”,那么这个框架则像是在搭建一套有机的生命体——它不仅能看、能记、能想,还能在不断变化的世界中学会如何行动。

3.现有方法的框架化分析与研究缺口

当我们提出的六大模块框架去审视当前的空间智能研究,就像拿着一张精细的蓝图去对照现有的建筑群——优点与缺陷一目了然。技术团队将这种差距凝练为五个研究缺口(Research Gaps, RG),每一个都直指现有技术的核心短板。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图8:尽管该网络实现了选择性视觉表示以提高泛化能力,但码本瓶颈限制了对新环境的适应性,并限制了学习特征的表现力,特别是在动态或高度可变的视觉环境中。

在多模态感知方面(RG-1),现有方法往往是“各自为政”。视觉、听觉、触觉等感知通道大多在独立的模型中处理,缺乏统一的高效融合机制。虽然多模态学习已经是热门方向,但在空间智能领域,跨模态信息的时间同步、噪声抑制与动态权重分配仍显稚嫩。这意味着,当环境信息不完整或某一模态受干扰时,系统的鲁棒性会迅速下降。

视角转换的不足(RG-2)则是另一个明显的短板。人类可以在自我中心视角与客体中心视角之间自如切换,但现有AI 系统往往只能在几何层面或符号层面进行单向转换,缺乏双向、实时且语义一致的映射能力。这种缺陷在需要同时理解局部细节与全局布局的任务中尤为致命,例如机器人在陌生环境中导航时,很难将即时感知与长期地图无缝对接。

认知地图建模的缺陷(RG-3)更多体现在生物启发的深度不足。虽然已有研究尝试用深度神经网络模拟网格细胞和位置细胞的功能,但在锚定机制、漂移校正、多场编码以及情境重映射等关键能力上,仍与生物系统相去甚远。结果是,这些人工认知地图在长时间运行或环境变化时容易失真,缺乏持久性与适应性。

空间记忆系统的短板(RG-4)则揭示了几何与语义融合的脆弱性。当前的空间记忆往往在遮挡、动态变化或新奇场景下表现不稳,情景推理的可扩展性差。更重要的是,缺乏类似人类的“冷热双层”记忆机制——既能快速记录新信息,又能在长期中巩固有价值的知识。

推理模块的瓶颈(RG-5)是整个链条的高层问题。隐式世界模型虽然能在一定程度上捕捉环境动态,但缺乏显式的多步推理能力;而显式推理方法又往往局限于静态、任务特定的场景,难以应对开放环境的复杂性。这种局限使得 AI 在面对需要长程规划、情景模拟和策略调整的任务时,显得力不从心。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图9:代表作品在(a)认知地图模块和(b)空间神经记忆模块中量身定制。

技术团队的分析方法很有意思——他们不是孤立地批评某个算法,而是将现有研究逐一映射到框架的各个模块,像做系统体检一样标出每个环节的健康指数。这种“模块对照法”不仅揭示了单点问题,更暴露了跨模块协同的缺失。例如,多模态感知的不足会直接影响视角转换的质量,认知地图的不稳定又会削弱推理模块的有效性。

这种全景式的剖析,让人清楚地看到:要让 AI 真正具备类人的空间智能,不能只在某个环节做加法,而是要在感知、表征、记忆与推理之间建立起稳固而灵活的桥梁。

4.数据集与应用场景

在构建类人空间智能的道路上,数据集不仅是训练材料,更是检验系统能力的试金石。技术团队将现有数据集按照分层主动推理(HAI)的三层结构进行整理,这种分类方式让人一眼就能看出每个数据集在能力培养中的位置与作用。

在感知层,数据集主要聚焦于多模态输入的获取与融合,例如包含视觉、深度、触觉、听觉等多源信息的环境扫描任务。这一层的数据帮助系统学会“看得见、听得到、摸得着”,为后续的空间表征打下基础。

隐状态层的数据集则更强调对不可直接观测信息的推断,比如通过部分可见的场景推测完整布局,或在动态环境中预测物体的未来位置。这类任务考验的是系统的内部建模与情景模拟能力,类似人类在脑中“补全”缺失画面的过程。

策略层的数据集则直接面向决策与行动,例如复杂环境下的路径规划、多目标任务的优先级排序、与人类协作的任务分配等。这一层的数据不仅要求系统理解空间,还要能在空间中制定并执行有效策略。

这种分层整理的好处在于,可以针对性地评估和优化系统的不同能力模块,同时也为跨层能力的培养提供了清晰的路线图。

下一代智能体,用大脑的方式看世界、走世界-AI.x社区

图10:来自代理空间智能的应用,包括(a)虚拟和(b)物理应用。

在应用领域上,这一框架的潜力几乎覆盖了虚拟与物理的双重世界。虚拟环境中,它可以为 VR/XR 带来更自然的空间交互,让元宇宙中的虚拟助理具备真实世界的空间感知与导航能力;在物理环境中,它能赋能家用机器人在杂乱的客厅中灵活穿行,帮助工业制造机器人在动态生产线上精准协作,甚至在医疗辅助中为手术机器人提供更安全的空间定位与操作能力。

5.未来研究路线图

技术团队在结尾描绘了一幅清晰的未来蓝图,既是技术发展的方向,也是科研与产业可以共同努力的坐标系。

首先是生物启发的多模态感知。未来的感知系统不仅要像人类一样整合视觉、听觉、触觉等信息,还要具备动态注意力机制和事件驱动编码能力,让感知更高效、更贴近真实世界的节奏。

其次是显式双向空间视角转换。AI 需要能够在自我中心与客体中心视角之间自由切换,并保持几何与语义的一致性。这种能力将让智能体在局部操作与全局规划之间无缝衔接。

混合型认知地图建模也是关键一步。未来的认知地图应同时具备度量精度、拓扑结构与语义标签,并能根据任务需求进行分层抽象,从而在不同尺度与复杂度的环境中都能高效运作。

自适应空间记忆系统则强调记忆的灵活性与持久性。通过冷热双层记忆机制,系统既能快速记录新信息,又能在长期中巩固有价值的知识,并在环境变化时进行自我更新与重构。

最后,是具预测性的空间推理与情感推理融合。未来的智能体不仅要能预测物理世界的变化,还要理解和推测人类的意图与情感,从而在协作与交互中展现更高的适应性与亲和力。

这条路线图的意义在于,它不仅为学术研究提供了明确的攻关方向,也为产业界指明了技术落地的优先级。可以预见,随着这些能力的逐步实现,AI 将从“会动的机器”进化为真正能在空间中理解、推理、协作的智能伙伴。(END)

参考资料:​​https://arxiv.org/pdf/2509.09154​

本文转载自​波动智能​,作者:FlerkenS

已于2025-9-23 07:02:15修改
收藏
回复
举报
回复
相关推荐