大语言模型空间推理能力的深度评测:基于基准测试对基数方向推理的再审视

发布于 2025-7-25 07:07
浏览
0收藏

引言:探寻非具身智能的空间认知边界

随着大语言模型(Large Language Models, LLMs)技术的飞速发展,其在自然语言处理、代码生成乃至多模态交互等领域展现出的惊人能力,不断刷新着我们对人工智能潜力的认知。然而,一个根本性的问题始终萦绕在学术界和产业界:这些在数字世界中诞生的、缺乏物理实体与真实世界交互经验的“非具身智能”(non-embodied intelligence),是否真正获得了类似人类的推理能力?

空间推理,作为高级智能的核心组成部分,成为了检验这一问题的绝佳试金石。它不仅是人类在物理世界中导航、操作和生存的基础,更是一种高度抽象的认知能力。近期,一篇题为《再探大语言模型基数方向推理能力评测》(Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited)的研究,便针对这一前沿课题展开了系统而深入的探索。该研究由利兹大学的 Anthony G Cohn 和艾伦·图灵研究所的 Robert E Blackwell 共同完成,是对其早期工作的扩展与深化。

这项研究的核心贡献在于,它没有停留在对模型进行零散、随意的测试,而是设计并实施了一个大规模、系统化、可复现的评测框架。通过这个框架,研究者们对多达 28 个当前主流及前沿的 LLM(包括新兴的“大型推理模型” Large Reasoning Models, LRMs)进行了严格的“压力测试”。其评测的焦点,被精确地限定在“基数方向”(Cardinal Directions, CDs)推理上——即对东、西、南、北及其组合方向的理解与运用能力。

选择基数方向作为切入点,其背后有着深刻的考量。基数方向不仅是地图使用、路线指引等日常导航任务的基石,还在地理学、气象学、甚至人类文化与历史中扮演着至关重要的角色。一个智能体若要声称理解了我们所处的世界,那么对基数方向的掌握无疑是其必备的基本功。

这篇文章用更有价值的数据和实验,揭示当前大语言模型在空间推理领域的能力边界、内在缺陷以及未来可能的发展路径。用更直白的方式总结,就是目前的大语言模型似乎还并不具备显示的空间推理能力。

一、研究背景与核心问题:为何聚焦基数方向推理?

在深入探讨实验细节之前,我们必须首先理解该研究的立足点:为何在众多空间推理任务中,基数方向推理如此关键?以及,这项研究试图回答的核心科学问题是什么?

空间推理:从具身智能到数字智能的挑战

空间推理能力涵盖了对位置、方向、距离、拓扑关系等多种空间属性的感知、表征和操纵。对于人类等“具身智能体”(embodied intelligence)而言,这种能力是通过与物理世界的长期、多模态交互(视觉、触觉、运动感知等)而习得和内化的。我们知道“向东走”意味着什么,因为我们能感知太阳的升落,能体验身体朝向的改变。

然而,大语言模型是彻头彻尾的“数字原住民”。它们的知识来源于海量的文本和代码语料库,缺乏任何直接的物理感知。因此,一个核心的科学疑问随之产生:LLMs 是否能仅仅通过学习语言中的模式,来构建一个有效的、可用于推理的内部空间模型? 换言之,当一个 LLM 读到“东”这个字时,它所“理解”的,究竟是一个与其连接的其他词语的统计概率,还是一个真正蕴含了方向、相对位置等空间语义的抽象概念?

该研究正是为了探究这一问题。它绕开了那些需要复杂物理交互的任务,选择了一个纯粹基于逻辑和空间关系的认知任务——基数方向推理,以此作为探针,刺入 LLM 认知能力的深处。

基数方向(CDs)的重要性

研究报告明确指出了基数方向在多个层面上的基础性地位,这解释了为何它是一个理想的评测领域:

  1. 导航与路径规划:无论是解读地图、听从导航指示(“沿主路向北行驶 2 公里”),还是向他人描述路线,对基数方向的精确理解都是成功完成任务的前提。
  2. 地理与环境理解:区域间的相对位置(如“某地位于某山脉以西”)直接决定了其气候、生态和经济联系。理解这些宏观地理格局,离不开对基数方向的掌握。
  3. 气象学应用:天气预报中频繁出现的“西北风”、“偏东气流”等术语,其背后是基于基数方向的气流运动模型。
  4. 文化与历史语境:从金字塔精确对准四个基本方向的建筑奇迹,到某些土著语言(如 Guugu Yimithirr)中完全依赖绝对基数方向而非相对的“左/右”来进行空间定位,基数方向深深植根于人类文明之中。

因此,对基数方向推理能力的评测,实际上是在考察 LLM 是否能理解并运用这些在人类知识体系中无处不在的基础空间概念。

大型推理模型(LRMs)的兴起

研究特别引入并关注了“大型推理模型”(LRMs)这一新兴概念。与传统 LLM 不同,LRMs 在训练阶段就经过特殊设计,旨在优化其在推理任务上的表现。它们在响应用户提示时,会显式地生成“推理代币”(reasoning tokens),这可以被看作是模型在输出最终答案前进行的内部“思考”或“草稿”。该研究评测的 LRMs 包括 ​​azure-o1-2024-12-17​​​、​​deepseek-reasoner​​ 等。将这些新锐模型纳入评测,使得研究能够追踪技术最前沿的进展,并检验这些声称具备更强推理能力的模型是否名副其实。

值得注意的是,研究者明确排除了使用“思维链”(Chain-of-Thought, CoT)等提示工程策略。他们希望测量的是模型“原始”的、未经外部引导的推理能力,从而获得一个更纯粹、更具可比性的性能基准。

综上所述,该研究通过聚焦基数方向这一基础而关键的领域,并引入对最新 LRMs 的评测,旨在系统性地回答:当前的大语言模型,在多大程度上真正掌握了空间推理这一核心认知能力?

二、精巧而严谨的实验设计:一个可扩展的评测框架

一项评测研究的价值,很大程度上取决于其实验设计的科学性与严谨性。该研究的突出贡献之一,便是构建了一个大规模、多维度、可自动生成的基准测试集,从而能够对 LLM 的能力进行全面而细致的“CT扫描”。

2.1 模板化问题的构建哲学

为了避免手动编写问题可能带来的偏差和规模限制,研究者采用了一种基于模板的自动化方法,最终生成了包含 5760 个问题的庞大测试集。这种方法的背后,是一种将复杂推理能力拆解为可控变量的科学思想。

研究者设计了六个核心问题模板(在论文中标记为 T1 至 T6),这些模板模拟了日常生活中可能遇到的简单空间场景。这些模板的设计极具巧思,涵盖了不同类型的空间关系:

  • T1 & T2 (湖泊场景):​​你正沿着一个湖的[东]岸向[南]走;湖在哪个方向?​​ (T1) 以及在此基础上增加一个“转身”动作的 T2。这测试了在围绕一个“内凹”区域(湖泊)移动时,对相对方向的判断。
  • T3 (公园场景):​​你正沿着一个公园[东]侧的中间向[南]走;位于公园中心的演奏台在哪个方向?​​ 这与 T1 类似,但场景更换为公园,测试模型是否能理解场景的本质而非表面词汇。
  • T4 (道路场景):​​你正沿着一条[由东向西]延伸的公路的[南]侧向[东]走。公路在哪个方向?​​ 这是唯一一个涉及线性对象(道路)而非面状对象(湖、公园)的模板。理论上,这需要一种不同的空间想象方式。
  • T5 & T6 (岛屿场景):​​你正沿着一个岛屿的[东]岸向[南]走;海在哪个方向?​​ (T5) 以及其“转身”版本 T6。这个场景与湖泊场景(T1/T2)形成鲜明对比。在湖的东岸,湖水在西边;而在岛的东岸,海水在东边。这是一个绝佳的测试,用以检验模型是真正理解了“岸边”这一概念的空间含义,还是仅仅记住了“东岸”和“西”之间的某种肤浅关联。

通过这六个精心设计的模板,研究者构建了一个能够探测模型对不同空间基元(面状、线性、内凹、外凸)理解深度的评测基础。

2.2 多维度变量的引入与控制

在模板的基础上,研究者引入了多个维度的变量,对每个模板进行“排列组合”,从而将测试集的规模和复杂度提升到了新的高度。每一个变量都像一把手术刀,旨在剖析模型能力的特定方面:

  1. 方向(Directions):测试覆盖了全部 8 个基数和中间基数方向(东、南、西、北、东北、东南、西北、西南)。这种穷举式的测试确保了评测的完备性,可以揭示模型在处理不同方向时是否存在性能差异。
  2. 运动方式(Locomotion Forms):研究引入了 10 种不同的运动方式,包括​​cycling​​​ (骑行),​​driving​​​ (驾驶),​​hiking​​​ (徒步),​​unicycling​​​ (骑独轮车),​​walking​​ (行走) 等。这个变量的设计极为巧妙,因为它在逻辑上是完全无关的。无论一个人是在行走、驾驶还是骑独轮车,湖泊的方向都不会改变。因此,这个变量成为了检验模型泛化能力和抗干扰能力的“照妖镜”。一个真正具备推理能力的模型,其准确率不应随运动方式的改变而波动。
  3. 人称形式(Person Forms):问题被构造成 6 种不同的人称,包括第一人称单数(​​I am​​​)、复数(​​We are​​​),第二人称(​​You are​​​),以及第三人称单数(​​He is​​​,​​She is​​​)和复数(​​They are​​)。与运动方式类似,人称的变化也不应影响最终答案。这一变量旨在测试模型的回答是否稳定,以及是否存在潜在的偏见。例如,模型在处理“He is”和“She is”时表现是否一致,可以间接反映其训练数据中可能存在的性别偏见。

通过这三个维度的交叉组合,最终生成了 ​​6个模板 × 10种运动方式 × 6种人称 × 8个方向 × 2种方向变化 = 5760个问题​​。这个庞大而结构化的数据集,为后续的深度分析提供了坚实的基础。

2.3 实验环境与评测方法

为确保研究的科学性和可复现性,研究者详细记录了实验的全部配置:

  • 模型选择:评测范围广泛,既包括了​​azure-o1​​​、​​GPT-4.5-preview​​​ 等顶级的商业闭源模型,也纳入了​​LLama-3-7B​​​、​​Mistral-Small-24B​​ 等可以在本地设备上运行的开源模型,形成了鲜明的性能梯队对比。
  • 实验工具:所有实验均通过名为​​Golem​​ 的软件框架执行。该框架的一个重要优势是能够自动记录所有 API 的请求和响应,并将结果以 JSONL 格式保存。这确保了实验过程的完全透明,便于后续的审计和复现,践行了开放科学的理念。
  • 提示策略:研究采用了零样本(zero-shot)提示,并使用了一个非常简洁的系统提示:​​“你是一个有用的助手。我会给你一个关于方向的问题。答案是北、南、东、西、东北、西北、东南或西南之一。请只回答答案。不要闲聊(No yapping)。”​​​ 设定​​temperature = 0​​(在可设置的模型中)旨在获得确定性的输出,尽管研究也指出云端模型即便在此设置下也可能存在非确定性。
  • 评估标准:答案的评判标准相对宽松但明确。通过不区分大小写的字符串比较,并移除多余的标点和空格来进行。即使模型回答了“湖在西边”(The lake is to the west),只要正确答案是“西”(west),也被视为正确。性能主要通过准确率(Accuracy)来衡量,并辅以预测区间(prediction intervals)来报告结果的变异性。

总体而言,该研究的实验设计堪称典范。它不仅在规模上达到了前所未有的程度,更重要的是,其多维度的变量控制和透明的实验流程,为我们提供了一个强大而可靠的分析工具,使我们能够以前所未有的精度,审视大语言模型在空间推理任务上的真实能力。

三、评测结果深度剖析:能力边界与未解之谜

长达 5760 个问题的严苛测试,产出了一系列信息量巨大且发人深省的结果。这些结果不仅量化了当前 LLM 的能力水平,更揭示了它们在“思考”空间问题时可能存在的内在机制和缺陷。

3.1 总体性能概览:进步显著,但远未完美

首先,从整体准确率来看(如图 1 所示),结果喜忧参半:

  • 没有完美的模型:在所有 28 个被测试的模型中,没有任何一个能够 100% 正确地回答所有问题。这直接表明,即便是最先进的 LLM,其空间推理能力也远未达到完全可靠的程度。
  • 显著优于随机猜测:所有模型的表现都显著高于 0.125 的随机猜测率(8 个方向选项之一),即便是表现最差的​​ollama-olmo2​​ 也达到了 0.16 的准确率。这说明 LLM 确实从训练数据中学习到了一些与基数方向相关的有效信息。
  • 惊人的年度进步与 LRMs 的统治力:性能最好的模型是​​azure-o1-2024-12-17​​​,准确率高达 0.92。与之形成鲜明对比的是,一年前的旧论文中表现最好的​​GPT-3.5 Turbo​​ 准确率仅为 0.60。在短短一年内,顶级模型的准确率提升了超过 50%,这是一个令人瞩目的进步。更关键的是,性能排名前列的模型几乎全部是大型推理模型(LRMs),这强烈暗示了为推理任务进行专门优化的架构,确实带来了实质性的能力飞跃。
  • API 供应商的差异:研究还发现一个有趣的现象,即通过不同云服务商(如 OpenAI API vs. Azure API)访问同一个模型(如 GPT-4-Turbo),其性能存在统计学上的显著差异。这为所有 LLM 基准测试研究敲响了警钟:报告精确的模型版本号和供应商至关重要。

总体来看,LLM 在基数方向推理上的能力正以前所未有的速度发展,但距离人类水平的稳定和可靠仍有相当长的路要走。(图 1)

大语言模型空间推理能力的深度评测:基于基准测试对基数方向推理的再审视-AI.x社区

3.2 推理过程探秘:从混淆矩阵到“推理代币”

为了更深入地理解模型是如何出错的,研究者进行了更细致的分析。

  • 混淆矩阵揭示的非对称性错误:以表现最好的​​o1​​ 模型为例,其混淆矩阵(如图 2 所示)揭示了几个关键信息。首先,模型的错误主要集中在中间基数方向(如东北、西南)上,而对基本基数方向(东、南、西、北)的判断要准确得多。其次,错误分布是不对称的。例如,当正确答案是“西北”时,模型有 8% 的概率会错误地回答为“东北”;但当正确答案是“东北”时,模型几乎不会错答成“西北”。这种非对称性非常耐人寻味,它表明模型的“推理”过程并非一个像人类一样基于对称性公理的逻辑系统,而可能是一种更复杂的、路径依赖的模式匹配过程。
  • “推理代币”作为“思考努力”的代理指标:对于 LRMs,研究者分析了它们在回答问题时消耗的“推理代币”数量,并发现了两个惊人的规律:
  1. 中间方向需要更多“思考”:如图 3 所示,对于所有 LRMs,处理涉及中间基数方向的问题时,所消耗的推理代币中位数和分布范围,都显著高于处理基本基数方向的问题。研究者推断,推理代币的数量可以被视为模型“推理努力程度”(reasoning effort)的一个代理指标。这似乎表明,在模型的“认知”中,中间方向(如“东北”)因为是由两个基本方向复合而成,所以需要更复杂的处理步骤。
  2. 错误答案消耗更多“思考”:更令人惊讶的是,如图 4 所示,对于​​o1​​​、​​o3-mini High​​​ 和​​Deepseek R1​​ 这三个 LRM,它们在给出错误答案时,消耗的推理代币中位数反而显著高于给出正确答案时。这颠覆了我们直觉上的“思考越久、答案越准”的印象。一种可能的解释是,当模型遇到难题时,它会陷入一种无效的、冗长的“思考循环”中,消耗了大量计算资源,但最终却得出了错误的结论。这为我们观察和理解 LLM 的“思维”过程提供了一个全新的、量化的视角。

大语言模型空间推理能力的深度评测:基于基准测试对基数方向推理的再审视-AI.x社区大语言模型空间推理能力的深度评测:基于基准测试对基数方向推理的再审视-AI.x社区

(图 2, 图 3, 图 4)

3.3 多维度变量下的性能波动:泛化能力的“试金石”

该研究最精彩的部分,莫过于对不同变量如何影响模型性能的深入剖析(如图 5 所示)。这部分结果是衡量模型是否真正具备抽象推理能力的关键。

  • 基数方向 vs. 中间方向:几乎所有模型在处理基本基数方向时都比中间基数方向表现更好。研究者将其与人类认知中的“倾斜效应”(oblique effect,即人类对水平和垂直方向的感知比对倾斜方向更敏锐)进行了类比。但他们也提出了一个更符合 LLM 特点的解释:在英语等许多语言中,中间方向的名称是由两个基本方向的词汇复合而成(如 "north-east"),这种语言上的复杂性可能直接导致了模型在处理上的困惑。
  • 人称形式(Person Form):顶级模型(如​​o1​​​)在不同人称下的表现非常稳定,其在雷达图上呈现出近乎完美的“同心六边形”,显示出良好的泛化能力。然而,性能较差的模型(如​​Llama-3-70b​​​ 和​​Mistral-24B​​​)则表现出明显的波动。特别值得注意的是,​​GPT-3.5T​​ 等模型在处理“She is”(她是)时的准确率低于“He is”(他是),这清晰地揭示了模型可能从训练数据中习得并放大了性别偏见。
  • 运动方式(Locomotion Form):如前所述,这个变量在逻辑上是无关的。顶级模型的表现再次印证了其强大的泛化能力,在雷达图上形成了规则的“同心十边形”。但其他模型,特别是​​Deepseek-chat​​​ 和​​Mistral-small-24b​​​,则在不同运动方式下表现出显著的性能起伏。例如,​​Mistral​​​ 在“徒步”(hiking)上的表现优于​​Llama-3-70b​​,但在其他方面则不然。这种对无关信息的敏感性,是模型尚未形成真正抽象推理能力的有力证据。
  • 问题模板(Question Template):这是最具戏剧性的结果。

a.T4 模板的“集体滑铁卢”:几乎所有模型在处理 T4(道路场景)时,准确率都出现了断崖式下跌,远远差于其他五个模板。这表明模型处理线性对象和面状对象的空间关系时,可能采用了完全不同且效果更差的内部机制。

b.GPT-4.5-preview 的惊天异象:​​openai-gpt-4.5-preview-2025-02-27​​ 这个模型表现出了极度异常的行为:它在 T1, T2, T3, T5, T6 这五个模板上的准确率是 100%,但在 T4 上的准确率是 0%!这种“全对或全错”的二极管式表现,在概率模型中几乎是不可能的。研究者据此提出了一个合理的怀疑:该模型很可能在训练数据中“见过”这个基准测试集(或其早期版本),从而“记住”了大部分问题的答案,但唯独在 T4 这个最棘手的模板上未能成功泛化或记忆。这一发现对整个 LLM 评测生态提出了严峻的挑战——如何确保评测的“纯洁性”,防止“数据污染”?

c.细微变化的敏感性:T2 相较于 T1 增加了“转身”的动作,导致了所有模型准确率的轻微下降。T5/T6(岛屿)与 T1/T2(湖泊)的答案方向正好相反,研究发现,许多模型最常见的错误并非是混淆 180 度(即将岛屿当成湖泊),反而是混淆 90 度,这再次说明模型的错误模式并非系统性的逻辑混淆。

大语言模型空间推理能力的深度评测:基于基准测试对基数方向推理的再审视-AI.x社区

(图 5)

综合来看,这份详尽的评测结果如同一面高清的镜子,映照出当前大语言模型在空间推理能力上的真实面貌:它们在特定模式上表现出色,甚至超越了旧模型,但其知识和能力是“脆弱的”、“有偏见的”,并且在面对与已见模式稍有不同的新情况时,其泛化能力会急剧下降。

四、 讨论与展望:从当前局限到未来路径

在详尽地呈现了实验数据之后,研究报告进入了更深层次的讨论,并为未来的研究指明了方向。这部分内容浓缩了该研究的核心洞见与长远价值。

核心结论与反思

研究者首先对整个评测结果进行了总结,得出了几个关键结论:

  1. 可靠性仍是奢望:没有任何一个模型能够完全可靠地进行基数方向推理。即便是准确率高达 0.92 的​​o1​​,也意味着在每 12 个问题中就可能答错 1 个。在自动驾驶、机器人导航等对安全性要求极高的领域,这样的错误率是不可接受的。
  2. 泛化能力是最大软肋:模型无法在“人称”和“运动方式”这些逻辑无关的变量上实现完全泛化,这是其尚未掌握抽象推理能力的铁证。它们的“知识”在很大程度上仍与特定的词汇和语境绑定,而非真正理解了其背后的空间几何关系。
  3. LRMs 代表了未来方向:大型推理模型(LRMs)的优异表现,证明了在模型架构和训练方法上针对“推理”进行优化的路径是正确且有效的。“推理代币”的分析也为我们打开了一扇观察模型“思考”过程的窗户。
  4. 基准测试的“污染”警报:​​GPT-4.5-preview​​ 的异常表现是一个强烈的警告信号。随着 LLM 竞争的白热化,模型开发者可能会无意或有意地将各种公开的基准测试集纳入训练数据,这将严重损害这些基准的评估价值。未来的评测工作必须考虑如何应对这种“数据污染”或“过拟合”问题。

需要进一步研究的九个关键问题

该研究不仅诊断了当前的问题,更极具建设性地提出了九个具体的未来研究方向,为该领域的后续发展绘制了一幅清晰的路线图:

  1. 优化问题设计:承认当前模板(特别是 T4)可能存在措辞模糊之处,并提出需要设计更清晰、无歧义的评测问题。
  2. 探索提示策略:本次研究为测定“裸机性能”而排除了提示工程,但未来可以系统研究思维链(CoT)、思维树(ToT)乃至专为空间任务设计的“思维可视化”(Visualization-of-Thought)等策略,能在多大程度上提升模型的推理表现。
  3. 持续扩大评测范围:随着新模型的不断涌现,需要持续地对它们进行评估,并对现有模型进行微调(fine-tuning)实验。
  4. 构建更全面的方向推理基准:目前的测试只涉及绝对的基数方向。未来的基准应扩展到以自我为中心的相对方向(左、右、前、后)和以物体为中心的相对方向。
  5. 开展跨语言实验:研究一个非常有趣的问题——对于那些中间基数方向不是由基本方向词汇复合而成的语言(如芬兰语、布列塔尼语),LLM 是否还会表现出对中间方向的“处理困难”?这能帮助我们判断性能瓶颈究竟是源于语言还是源于模型内在的空间表征。
  6. 建立更广泛的空间推理基准:将评测范围从方向推理扩展到拓扑关系(如包含、相交)、距离关系等其他空间推理领域。
  7. 测试更复杂的场景:引入涉及多个对象的组合推理(如 A 在 B 的东边,B 在 C 的北边,问 A 和 C 的关系),以及对运动轨迹的推理。
  8. 进军多模态推理:将文本描述与图像、地图等视觉信息结合起来,在多模态的设定下考察模型的空间推理能力。
  9. 连接真实地理与认知偏差:构建基于真实世界地理实体的测试集(如“里诺市在圣地亚哥市的东边还是西边?”),并研究 LLM 是否会像人类一样,表现出某些系统性的认知偏差。

结语

这份对大语言模型基数方向推理能力的再审视,是一次里程碑式的研究。它通过一个前所未有的大规模、精细化、可复现的评测框架,为我们提供了一幅关于当前 LLM 空间认知能力的超高分辨率图像。

研究结果清晰地表明,尽管 LLM 的发展日新月异,其在看似简单的空间推理任务上所展现的能力,仍然是局部、脆弱且缺乏泛化性的。它们或许能够通过强大的模式匹配能力“模仿”推理,但距离真正“理解”物理世界的空间法则,仍有遥远的距离。

然而,悲观并非这项研究的主旋律。恰恰相反,通过精确地定位问题、量化能力的边界,该研究为我们指明了通往更强大、更可靠的人工智能的道路。它所揭示的 LRMs 的潜力、对无关信息的敏感性、对特定模板的“偏科”现象,以及“推理代币”所反映的“思考”痕迹,都为未来模型的改进提供了宝贵的线索。

最终,这项工作告诉我们,通往通用人工智能(AGI)的征途,需要的不仅仅是更大的模型和更多的数据,更需要像这样严谨、深入、甚至带有“对抗性”的科学评测。只有不断地用精心设计的难题去挑战模型,我们才能真正理解它们的所能与所不能,并最终推动人工智能从“鹦鹉学舌”式的模仿,迈向真正意义上的认知与推理。

参考论文: https://arxiv.org/abs/2507.12059v1

本文转载自​上堵吟​,作者:一路到底的孟子敬

已于2025-7-25 10:42:34修改
收藏
回复
举报
回复
相关推荐