
大语言模型空间推理能力的深度评测:基于基准测试对基数方向推理的再审视
引言:探寻非具身智能的空间认知边界
随着大语言模型(Large Language Models, LLMs)技术的飞速发展,其在自然语言处理、代码生成乃至多模态交互等领域展现出的惊人能力,不断刷新着我们对人工智能潜力的认知。然而,一个根本性的问题始终萦绕在学术界和产业界:这些在数字世界中诞生的、缺乏物理实体与真实世界交互经验的“非具身智能”(non-embodied intelligence),是否真正获得了类似人类的推理能力?
空间推理,作为高级智能的核心组成部分,成为了检验这一问题的绝佳试金石。它不仅是人类在物理世界中导航、操作和生存的基础,更是一种高度抽象的认知能力。近期,一篇题为《再探大语言模型基数方向推理能力评测》(Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited)的研究,便针对这一前沿课题展开了系统而深入的探索。该研究由利兹大学的 Anthony G Cohn 和艾伦·图灵研究所的 Robert E Blackwell 共同完成,是对其早期工作的扩展与深化。
这项研究的核心贡献在于,它没有停留在对模型进行零散、随意的测试,而是设计并实施了一个大规模、系统化、可复现的评测框架。通过这个框架,研究者们对多达 28 个当前主流及前沿的 LLM(包括新兴的“大型推理模型” Large Reasoning Models, LRMs)进行了严格的“压力测试”。其评测的焦点,被精确地限定在“基数方向”(Cardinal Directions, CDs)推理上——即对东、西、南、北及其组合方向的理解与运用能力。
选择基数方向作为切入点,其背后有着深刻的考量。基数方向不仅是地图使用、路线指引等日常导航任务的基石,还在地理学、气象学、甚至人类文化与历史中扮演着至关重要的角色。一个智能体若要声称理解了我们所处的世界,那么对基数方向的掌握无疑是其必备的基本功。
这篇文章用更有价值的数据和实验,揭示当前大语言模型在空间推理领域的能力边界、内在缺陷以及未来可能的发展路径。用更直白的方式总结,就是目前的大语言模型似乎还并不具备显示的空间推理能力。
一、研究背景与核心问题:为何聚焦基数方向推理?
在深入探讨实验细节之前,我们必须首先理解该研究的立足点:为何在众多空间推理任务中,基数方向推理如此关键?以及,这项研究试图回答的核心科学问题是什么?
空间推理:从具身智能到数字智能的挑战
空间推理能力涵盖了对位置、方向、距离、拓扑关系等多种空间属性的感知、表征和操纵。对于人类等“具身智能体”(embodied intelligence)而言,这种能力是通过与物理世界的长期、多模态交互(视觉、触觉、运动感知等)而习得和内化的。我们知道“向东走”意味着什么,因为我们能感知太阳的升落,能体验身体朝向的改变。
然而,大语言模型是彻头彻尾的“数字原住民”。它们的知识来源于海量的文本和代码语料库,缺乏任何直接的物理感知。因此,一个核心的科学疑问随之产生:LLMs 是否能仅仅通过学习语言中的模式,来构建一个有效的、可用于推理的内部空间模型? 换言之,当一个 LLM 读到“东”这个字时,它所“理解”的,究竟是一个与其连接的其他词语的统计概率,还是一个真正蕴含了方向、相对位置等空间语义的抽象概念?
该研究正是为了探究这一问题。它绕开了那些需要复杂物理交互的任务,选择了一个纯粹基于逻辑和空间关系的认知任务——基数方向推理,以此作为探针,刺入 LLM 认知能力的深处。
基数方向(CDs)的重要性
研究报告明确指出了基数方向在多个层面上的基础性地位,这解释了为何它是一个理想的评测领域:
导航与路径规划:无论是解读地图、听从导航指示(“沿主路向北行驶 2 公里”),还是向他人描述路线,对基数方向的精确理解都是成功完成任务的前提。
地理与环境理解:区域间的相对位置(如“某地位于某山脉以西”)直接决定了其气候、生态和经济联系。理解这些宏观地理格局,离不开对基数方向的掌握。
气象学应用:天气预报中频繁出现的“西北风”、“偏东气流”等术语,其背后是基于基数方向的气流运动模型。
文化与历史语境:从金字塔精确对准四个基本方向的建筑奇迹,到某些土著语言(如 Guugu Yimithirr)中完全依赖绝对基数方向而非相对的“左/右”来进行空间定位,基数方向深深植根于人类文明之中。
因此,对基数方向推理能力的评测,实际上是在考察 LLM 是否能理解并运用这些在人类知识体系中无处不在的基础空间概念。
大型推理模型(LRMs)的兴起
研究特别引入并关注了“大型推理模型”(LRMs)这一新兴概念。与传统 LLM 不同,LRMs 在训练阶段就经过特殊设计,旨在优化其在推理任务上的表现。它们在响应用户提示时,会显式地生成“推理代币”(reasoning tokens),这可以被看作是模型在输出最终答案前进行的内部“思考”或“草稿”。该研究评测的 LRMs 包括 azure-o1-2024-12-17、deepseek-reasoner 等。将这些新锐模型纳入评测,使得研究能够追踪技术最前沿的进展,并检验这些声称具备更强推理能力的模型是否名副其实。
值得注意的是,研究者明确排除了使用“思维链”(Chain-of-Thought, CoT)等提示工程策略。他们希望测量的是模型“原始”的、未经外部引导的推理能力,从而获得一个更纯粹、更具可比性的性能基准。
综上所述,该研究通过聚焦基数方向这一基础而关键的领域,并引入对最新 LRMs 的评测,旨在系统性地回答:当前的大语言模型,在多大程度上真正掌握了空间推理这一核心认知能力?
二、精巧而严谨的实验设计:一个可扩展的评测框架
一项评测研究的价值,很大程度上取决于其实验设计的科学性与严谨性。该研究的突出贡献之一,便是构建了一个大规模、多维度、可自动生成的基准测试集,从而能够对 LLM 的能力进行全面而细致的“CT扫描”。
2.1 模板化问题的构建哲学
为了避免手动编写问题可能带来的偏差和规模限制,研究者采用了一种基于模板的自动化方法,最终生成了包含 5760 个问题的庞大测试集。这种方法的背后,是一种将复杂推理能力拆解为可控变量的科学思想。
研究者设计了六个核心问题模板(在论文中标记为 T1 至 T6),这些模板模拟了日常生活中可能遇到的简单空间场景。这些模板的设计极具巧思,涵盖了不同类型的空间关系:
T1 & T2 (湖泊场景):你正沿着一个湖的[东]岸向[南]走;湖在哪个方向? (T1) 以及在此基础上增加一个“转身”动作的 T2。这测试了在围绕一个“内凹”区域(湖泊)移动时,对相对方向的判断。
T3 (公园场景):你正沿着一个公园[东]侧的中间向[南]走;位于公园中心的演奏台在哪个方向? 这与 T1 类似,但场景更换为公园,测试模型是否能理解场景的本质而非表面词汇。
T4 (道路场景):你正沿着一条[由东向西]延伸的公路的[南]侧向[东]走。公路在哪个方向? 这是唯一一个涉及线性对象(道路)而非面状对象(湖、公园)的模板。理论上,这需要一种不同的空间想象方式。
T5 & T6 (岛屿场景):你正沿着一个岛屿的[东]岸向[南]走;海在哪个方向? (T5) 以及其“转身”版本 T6。这个场景与湖泊场景(T1/T2)形成鲜明对比。在湖的东岸,湖水在西边;而在岛的东岸,海水在东边。这是一个绝佳的测试,用以检验模型是真正理解了“岸边”这一概念的空间含义,还是仅仅记住了“东岸”和“西”之间的某种肤浅关联。
通过这六个精心设计的模板,研究者构建了一个能够探测模型对不同空间基元(面状、线性、内凹、外凸)理解深度的评测基础。
2.2 多维度变量的引入与控制
在模板的基础上,研究者引入了多个维度的变量,对每个模板进行“排列组合”,从而将测试集的规模和复杂度提升到了新的高度。每一个变量都像一把手术刀,旨在剖析模型能力的特定方面:
方向(Directions):测试覆盖了全部 8 个基数和中间基数方向(东、南、西、北、东北、东南、西北、西南)。这种穷举式的测试确保了评测的完备性,可以揭示模型在处理不同方向时是否存在性能差异。
运动方式(Locomotion Forms):研究引入了 10 种不同的运动方式,包括cycling (骑行),driving (驾驶),hiking (徒步),unicycling (骑独轮车),walking (行走) 等。这个变量的设计极为巧妙,因为它在逻辑上是完全无关的。无论一个人是在行走、驾驶还是骑独轮车,湖泊的方向都不会改变。因此,这个变量成为了检验模型泛化能力和抗干扰能力的“照妖镜”。一个真正具备推理能力的模型,其准确率不应随运动方式的改变而波动。
人称形式(Person Forms):问题被构造成 6 种不同的人称,包括第一人称单数(I am)、复数(We are),第二人称(You are),以及第三人称单数(He is,She is)和复数(They are)。与运动方式类似,人称的变化也不应影响最终答案。这一变量旨在测试模型的回答是否稳定,以及是否存在潜在的偏见。例如,模型在处理“He is”和“She is”时表现是否一致,可以间接反映其训练数据中可能存在的性别偏见。
通过这三个维度的交叉组合,最终生成了 6个模板 × 10种运动方式 × 6种人称 × 8个方向 × 2种方向变化 = 5760个问题。这个庞大而结构化的数据集,为后续的深度分析提供了坚实的基础。
