
人工智能的基石:思维的结构与智能的边界
当代认知科学面临一个迷人却顽固的谜题,即为何多数物种早已掌握快速学习与迁移,却唯有人类能灵活创造符号、进行高层类比?
美国伊利诺伊大学香槟分校团队将这个问题置于生物进化与计算建模的交叉口。研究者首先聚焦动态绑定——这一从果蝇到人类普遍存在的“表征引擎”如何支撑快速泛化。
然而,仅有动态绑定尚不足以生成完整的符号思维,还需要哪些核心能力?是将多实体绑成层级谓词的“多元关系表征”,还是在不同情境间建立对应的“结构映射”?或者两者可否相辅相成、相互替代?
更进一步,这些能力对认知发展、神经损伤患者的功能缺失,以及符号思维的漫长演化历程又意味着什么?这一系列问题贯穿研究,成为团队构建2×2架构×任务模拟体系的出发点。
这项研究由美国伊利诺伊大学厄巴纳-香槟分校跨学科团队主导。John E. Hummel担任心理学系、哲学系与信息学教授,长期探索类比推理、神经计算模型与符号系统的交汇;Rachel F. Heaton则横跨艺术与设计学院、哲学系、信息学及Siebel设计中心,专注于视觉认知与设计思维的融合。
两位作者分别拥有ORCID标识(Hummel 0000-0002-1585-9155;Heaton 0000-0002-7121-7691),其跨越心理学、哲学、设计与信息学的背景,正是将基础可供性推向符号思维的计算系统发育这一宏大主题得以深入展开的关键动力。
1.计算架构总览(2×2 能力空间)
在探索符号思维的最小计算成分时,研究团队构建了一个“能力空间”矩阵,将认知架构按是否具备多元关系表征与结构映射能力,划分为四种典型类型。
DBO(Dynamic Binding Only)
这一架构仅依赖动态绑定,把环境中可检测的不变性特征与对象瞬时关联起来,却不支持将多组角色–填充物整合成高阶关系,也无法在不同结构间建立映射。
RO(Relations Only)
RO 可以把两个或更多角色和它们的填充物绑定为层级化的“多元谓词”,使关系成为独立实体;但缺乏结构映射机制,无法将一个关系系统记忆并迁移到新情境。
MO(Mapping Only)
完整掌握结构映射之道——能在“源”“目标”结构之间建立一对一对应,并将这些映射存入记忆;却不具备将多个角色绑定为同一多元关系的能力。
R&M(Relations & Mapping)
将多元关系表征与结构映射双重能力融会贯通,既能刻画层级关系,也能跨结构对齐复用,是达成基本符号思维的最小必要组合。
这些架构共同基于动态绑定这一底层机制:它让神经系统把“红色”“大牙”“快速接近”等不变性特征,与具体对象瞬间绑定在一起。多元关系则将多组角色–填充物捆绑成可嵌套、可递归的谓词结构;结构映射(受1:1对应约束)让系统在不同结构间寻找相似角色并记忆对应。
图1 LISA长期记忆中的知识表示(“LISAese”)。
为了保持各架构推理机制的可比性,团队故意不启用 LISA 中更复杂的 CWSG(Composition-with-Shared-Graph)或交集发现算法,而是统一以“可供性语义单元能否与感知端的关键对象同步激活”为唯一性能指标。
2.任务设计与评估指标
围绕上述四种认知架构,研究者设计了一组由简到难的实验任务,唯一的评估标准是不论多么微妙的干扰,系统能否把记忆中目标对象的“可供性”推导并动态绑定到感知端的关键对象(Critical)上。
DBO 任务(基础可供性) 只考察单元谓词的泛化能力:给出一次“能走在这个表面”示例,系统能否在全新表面上立即推断同样的可供性。
RO 任务(纯关系感知) 在感知与记忆两端都使用多元关系词汇,考察架构对外部关系的感知与记忆联合作用。为了模拟不同感知缺失,还设有“Balint’s 版本”(只有记忆有关系)与“Cat 版本”(两端都无关系)两种对照。
MO 任务(仅映射) 将颜色或纹理等干扰属性刻意与正确对象混淆,迫使系统凭借已学的一对一映射,将记忆中目标对象的可供性在属性匹配失败时依然继承到关键对象。
R&M 任务(双能力) 以新型咖啡机的水箱与滤篮关系为例,只有当系统既能识别“水箱在滤篮上方并相连”的多元关系,又能将这一结构映射到记忆端已知机型,才能正确推断“能向水箱倒水”。
3.模拟设置与表示细节
在所有实验中,感知端(Perception)扮演“驱动”角色,记忆端(Memory)则作为“接收”对象。每当一个感知命题被触发,便会在记忆中激活对应单元,完成一次信息流动。这种一对一的触发机制确保了各架构在同一样例上接受了完全相同的输入,便于后续性能比较。
为了考验架构对层级关系与结构映射的依赖,研究者在语义编码上刻意制造了干扰与偏置。无论是颜色、纹理,还是空间位置,都在“正确对应”与“误导对应”之间精心平衡——当错误的语义重叠足够强时,只有能利用关系层级或已学映射的架构,才有机会纠正这一偏差。
与此同时,始终施行1:1映射约束,要求每一个感知端结构角色只能对应到记忆端的单一角色,从而防止“多对多”或“多对一”的捷径映射。
图2仅动态绑定(DBO)任务的LISE表示。
针对不同能力组合,任务版本也做了巧妙适配。对于不支持多元关系表征的DBO和MO架构,实验使用“Cat”(单元谓词)版本,将位置、连通性等关系拆解为单独的location1、location2 等谓词;而对RO和R&M等具备二元关系能力的架构,则直接采用 top-connected(water-tank, filter-basket)、side-connected(water-tank, filter-basket) 等二元连接关系,让它们能完整调用多元谓词的层级结构。
4.结果解读:架构 × 任务表现矩阵
以下矩阵总结了四类架构在四项任务中的成败情况,勾勒出多元关系与结构映射各自的“对号入座”地图:
DBO 任务中,只需动态绑定单元谓词,所有架构均能快速泛化并成功推断,不存在“能力冗余”的负迁移。
图3:仅动态绑定(DBO)任务的仿真结果。
RO 任务要求记忆与感知两端都具关系词汇,只有RO和R&M架构能直接感知并利用该关系;即便“Balint’s 版本”在记忆中保存了关系,但因为感知端不具备,仍然无法得解。
MO 任务则引入颜色/纹理干扰,只有MO和R&M能凭借已学映射跨属性继承可供性,成功克服语义重叠。
R&M 任务汇聚二者优势:单靠多元关系或单靠映射均无力解决,唯有同时具备两种核心能力的R&M,方能在新咖啡机案例里正确推导“向水箱倒水”。
在对比架构的时间动力学曲线时,可以看到一个清晰的共性:所有架构在首次触发时都会被语义重叠与错误对应所偏向,关键对象往往与“无可供性”一同激活。随着迭代推进,MO与R&M架构通过学习到的映射连接开始逆转这种偏差,而RO与R&M则借助层级关系结构克服语义噪声。两种机制在各自擅长的任务里,相互补充,也合力彰显了“多元关系”与“结构映射”各自对符号思维不可或缺的地位。
5.关键发现与理论含义
一系列模拟验证了“多元关系表征”和“结构映射”各自的不可替代性,仅靠映射无法补偿缺乏层级关系的短板,正如MO架构在RO任务中束手无策;而只有关系、没有映射,同样无法在MO任务中得出正确结论,RO架构也同样失利。
图4:仅关系(RO)任务的仿真结果。
这一独立性命题的成立,让我们看到符号思维并非单一机制驱动,而是多重能力并行协作的成果。
从发展心理学角度审视,这两种能力的到位呈现出渐进轨迹:幼儿最初依赖直观特征,随后在不断探索中开始感知对象间的关系,最终将这些关系纳入记忆并迁移运用。
更令人振奋的是,模拟还对临床提供了具体预测——Balint’s综合征患者若缺乏对空间与关系的感知,就可能连“能否将新物体堆叠在一起”这样看似简单的任务都难以判断。
图5:仅映射(MO)任务的仿真结果。
值得一提的是,尽管RO和MO架构都做了能力扩充,它们在最基础的DBO任务中并未出现速度或准确度的下降。这意味着,哪怕引入更复杂的层级关系或映射记忆,也不会对“只需动态绑定”的简单泛化任务产生负面影响。换言之,进化和开发一套新能力,并不会牺牲已有认知高效性。
6.计算系统发育框架:从不变性到符号
回溯生物智能的演化历程,可以勾勒出一条从“感知不变性”到“复杂符号思维”的清晰进阶路径。最初,神经系统必须明确而独立地编码环境中的不变性特征——红色、圆形、逼近的速度、大牙的威胁感……这些独立的“原子”让生物得以在新情境中迅速泛化。
紧接着,动态绑定机制应运而生,使得这些不变性能够按需组合:红色+圆形与红色+逼近,不再是纠缠的一团,而是可拆分、可重组的认知单元。
在此基础上,具备单元谓词泛化的架构(DBO)便能在仅看一次“可走”示例后,自动推断新地面的可供性。再往前走一步,能够把多个角色–填充物捆绑为层级化多元谓词(RO)就能真正表征对象间的关系,诸如“水箱在滤篮之上并相连”这类复杂结构才有了独立身份。
结构映射的出现(MO)赋予智能体将整体场景与记忆中类似场景一一对应并记忆复用的能力。终于,当二者合流(R&M),具备了同时表征关系与跨情境映射的最简计算条件,基础符号思维便在此刻突现。
图6:关系和映射(R&M)任务的仿真结果。
而迈向更高阶的符号演绎与类比,则需要额外的CWSG与模式归纳机制,它们为多命题系统提供了图式推理与交集发现的强大引擎。总体来看,这七个阶段——不变性检测、动态绑定、单元谓词泛化、多元关系、结构映射、关系+映射,直至CWSG/模式归纳——构成了一个生物智能到符号智能的计算系统发育图谱。
在自然界的不同物种中,我们已见到这条路径上的碎片性表现:大黄蜂或许能对邻近物体的组合关系做出反应;老鼠对因果关系的表征初露端倪;黑猩猩的工具操作则展现了基本的结构映射能力。
但直到人类,这套能力组合才真正齐备,才得以驾驭语言、数学和无穷尽的类比艺术。正是在这一计算系统的每一步进化中,单一的学习与泛化,才得以升华为对世界深度理解与灵活操控的真正符号思维。
7.拓展:语言与人类独有的类比
语言作为人类最复杂的符号系统,本身就建立在多元关系和结构映射的双重基座之上。任何一句句子,都在表达一个或多个参数的关系:主语与谓语、宾语与状语乃至修饰语之间,层层递归、可套可拆,仿佛多元谓词在句法结构中的活体演绎。
正因如此,语言天生支持递归——无论是定语叠加,还是从句层层套用,都离不开对多参数关系的灵活表征。
与此同时,语言还具有“可映射性”的天然优势。每当我们将文字与世界对齐时,便在句子成分与现实对象之间建立了一一对应。
描述一幅图景时,我们可以直接指出“这段文字说的是那扇开着的门”,或者更抽象地把复杂事件映射成比喻与类比,这种显性或可被阐释的映射能力,让语言成为跨域迁移与新知发现的利器。
有趣的是,支撑这种多元关系表征与映射能力的基因突变很可能也推动了语言的诞生与演化。我们或许能把关系与映射的神经计算机制,视作语言进化中的核心驱动,让声音、文字得以承载无穷尽的符号和意义,也让我们在不同范畴之间自由穿梭,从天体运行到原子结构都能一语道破。
8.人工智能对照与方法论启示
当代Transformer大模型的“惊人表现”似乎动摇了传统对动态绑定、多元谓词与结构映射的信念。凭借海量文本的统计学习,它们在人机对话和类比题解上也能取得让人侧目的成绩。
然而深究其背后,却发现高度纠缠的表征让模型在面对罕见或不常见的角色–填充物组合时频频失手。一次“帐篷在海鸥翅膀上”这样的新奇场景,很可能令它们拼凑出奇怪的“混合物”或干脆放弃正确布局——因为没有独立表征“帐篷”“海鸥”“机翼”及它们之间的关系,只能依赖过去出现过的联合统计。
图7:三个prompt 的不同结果:你能创建一个新的帐篷日间视点1:1宽高比的照片级真实感图像停在海鸥机翼上的飞机机翼上。
第一行:ChatGPT o4 mini(OpenAI,2025),OpenAI专门从事视觉推理的模型,倾向于为了使飞机和鸟杂交。
第二行:ChatGPT o3(OpenAI,2025),OpenAI的高级推理模型也倾向于将飞机和鸟类杂交。
第三行:谷歌Gemini 2.5 Flash(谷歌,2025),显示出一些趋势杂交,但在生成时也会颠倒关系或添加部分的副本不寻常的空间关系的图像。每行中的第一张图片描绘了大模型的对提示的最佳回应。
这种重度依赖大规模训练数据来不断扩展“凸包”的做法,导致AI系统在数据稀缺或能耗受限的环境下,泛化能力急剧下降,与生物智能那种几次示例就能学会新词、新操作的高效外推形成鲜明对比。
此时,回望研究团队所提出的LISA框架,我们能从中汲取两大要义:一是明确而独立地表征不变性,让关键概念如“可走”“可倒水”“因果关系”拥有专门神经单元;二是通过动态绑定、层级关系和结构映射,将这些不变性灵活组合,并少样本地快速泛化。
将这些原则融入未来AI架构,不仅能减少对海量标注数据的依赖,还能显著提升资源效率,使得智能系统在能耗、算力受限的设备上也能展现类人般的快速学习与跨域迁移潜力。映射记忆和层级关系绑定,或许应成为下一代可解释神经网络的核心模块,让人工智能从“数据驱动”更进一步,迈向“结构驱动”的真正智能。
这项研究的核心结论可以归纳为一个“最小充分条件”:在动态绑定的基础上,只有同时具备多元关系表征与结构映射能力的认知架构,才能完成最基本的符号思维任务。这两项能力是独立的、不可互相替代的,但它们的协同作用却是开启类比、语言、图式推理等更高阶认知的关键。
而当这两项能力与CWSG等机制结合时,认知架构便能处理更复杂的命题系统,实现真正意义上的系统性符号推理。这不仅为理解人类智能提供了理论支撑,也为人工智能的发展指明了方向。
参考资料:https://arxiv.org/pdf/2508.15082
本文转载自波动智能,作者:FlerkenS
