“他正在过马路” vs “他过了马路”:一个简单问题,为何却让GPT-4o等顶级AI模型集体“翻车”?

发布于 2025-8-25 00:53
浏览
0收藏

探究大型语言模型的“心智”——一项关于叙事中时间理解的认知评估

在人工智能的前沿探索中,大型语言模型(LLMs)以其惊人的语言生成与交互能力,不断刷新着公众与学界的认知。然而,一个根本性的问题始终萦绕在研究者心头:这些模型展现出的流畅对话与复杂文本处理能力,究竟是源于一种类似人类的、基于概念和逻辑的“真正理解”,还是一种基于海量数据训练而成的、极其复杂的统计模式匹配?这一问题不仅关乎技术的未来走向,更触及了我们对“智能”与“认知”本质的理解。

为了拨开这层迷雾,一项明尼苏达大学研究人员发表于2025年7月的研究论文《How LLMs Comprehend Temporal Meaning in Narratives:A Case Study in Cognitive Evaluation of LLMs》,将目光投向了一个精妙而复杂的语言学领域——“体”(Linguistic Aspect)。“体”是语言中用以表达事件内部时间结构(如事件是正在进行、已经完成还是即将开始)的语法范畴。它在人类的叙事理解中扮演着至关重要的角色,深刻影响着我们如何构建心理情景模型、追踪因果链条以及在记忆中存储事件信息。由于其含义的微妙性和对语境的高度依赖性,它成为了一个理想的“探针”,用以探测LLM在表层语法之下的深层认知能力。

该研究的核心问题其实就是大语言模型的时间本体感知是否存在?当面对叙事文本时,LLMs能否像人类一样,准确地理解和运用“体”所传达的语义和语用信息?它们能否识别出由“体”的差异(例如,“他正在洗碗”与“他洗完了碗”)所引发的因果关系可能性的变化?它们能否处理那些在语法上正确但在语用上“非典型”的表达方式,并从中推断出更深层次的叙事意图?

通过一系列借鉴人类认知科学实验范式设计的精巧测试,并借助一个创新的“专家在环”(Expert-in-the-Loop)探查框架,该研究系统性地评估了包括Gemma、Llama、Qwen及GPT-4o在内的多个前沿LLM。研究的初步结论发人深省:尽管LLMs在处理典型的、高频的语言结构时表现尚可,但它们在面对非典型、需要深层语用推理的“体”现象时,表现出严重的“认知偏差”。它们过度依赖统计上的“典型性”,产生不一致的判断,并且在进行由“体”引导的因果推理时能力薄弱。这些发现强烈暗示,LLMs处理时间意义的认知机制与人类存在根本性的差异,其叙事理解能力远未达到真正的鲁棒水平。

核心概念与理论背景:语言学中的“体”及其在人类认知中的作用

为了深入理解这项研究的精髓,我们必须首先了解论文其核心的语言学和认知科学背景——即“体”的概念及其在人类叙事理解中所扮演的关键角色。

什么是语言学中的“体”(Linguistic Aspect)?

此部分旨在阐明“体”(Aspect)这一核心语言学概念,它是描述事件内部时间轮廓的关键工具,与表示事件在时间轴上位置的“时”(Tense)共同构成了语言中的时间系统。

该研究指出,“体”是一个包含两个核心组成部分的复杂语言现象,它允许说话者以不同的视角来呈现一个给定事件的内在时间结构。第一个组成部分是词汇体(Lexical Aspect),也称为“情状体”,它指的是动词或动词短语本身所固有的时间特性,核心在于描述事件是否包含一个自然的终点。研究中以“在公园散步”(walk in the park)和“走到公园去”(walk to the park)为例进行说明,前者没有明确终点,而后者则包含一个明确的目标和终点。本次研究的实验材料主要聚焦于“成就类”(Accomplishment)动词,这类事件的典型特征是包含一个初始状态、一个过渡过程和一个最终状态,例如“洗碗”就包含了从“碗是脏的”到“碗是干净的”完整过程。

“他正在过马路” vs “他过了马路”:一个简单问题,为何却让GPT-4o等顶级AI模型集体“翻车”?-AI.x社区

第二个组成部分是语法体(Grammatical Aspect),它通过具体的语法形式来表达说话者如何看待事件的展开。在英语中,最主要的两种语法体分别是完成体(Perfective Aspect),如 "washed"(洗完了),它将事件视为一个完整的、有明确边界的整体;以及未完成体(Imperfective Aspect),如 "was washing"(正在洗),它聚焦于事件的内部过程,将其呈现为尚未完结的状态,而不涉及其最终结果。一个关键的语言学现象是,具有内在终点的“成就类”事件,与同样强调终点的“完成体”在语义上是天然的“典型”组合。反之,用“未完成体”来描述一个成就类事件,则构成了一种“非典型”组合,这种非典型性在语用层面往往承载着重要的叙事意图。

“体”如何影响人类的叙事理解与记忆?

从自然语言发展的角度来看,“体”在人类认知加工过程中的关键作用,它远不止是静态的语法规则,而是动态地影响着读者如何构建心智表征、进行推理和形成记忆。

研究明确指出,对于语言熟练者而言,“体”深刻地影响着叙事理解的全过程,塑造着读者处理信息和构建对故事世界的“情景模型”的方式。它的认知作用首先体现在工作记忆的激活状态上。当一个事件以“未完成体”呈现时(如“罗伯正在洗碗”),人类读者倾向于在工作记忆中将该事件保持为“开放”和“激活”的状态,因为它没有明确的终点,随时可能与后续信息发生关联。相反,以“完成体”呈现的事件(如“罗伯洗完了碗”)则被视为一个已关闭的单元,其激活水平会迅速下降。这种激活状态的差异直接影响到因果关系的推断。一个“正在进行”的未完成体事件,更有可能被视为后续意外事件的潜在原因。

此外,在叙事中使用非典型的未完成体本身就构成了一个强烈的语用信号。由于故事通常叙述已完成的事件,偏离常规的表达方式能吸引读者更多的注意力,暗示该事件的重要性或预示着不寻常的情节。最终,所有这些信息都会被整合到读者长期的情景模型中。研究引用先前的人类研究指出,以未完成体描述的关键事件,即使在故事中过去了数个句子之后,仍然更容易在情景模型中保持“在焦点”的状态,并可在需要时被重新激活以解释后续情节,这体现了一种深刻的、跨越句子边界的远距离叙事整合能力。

研究设计与方法论——一套严谨的“专家在环”探查框架

为了系统性地、可靠地评估LLM在处理“体”这一复杂现象时的能力,该研究设计并实施了一套极为严谨的实验流程。其核心在于精巧的叙事材料设计和创新的“专家在环”探查流水线,这两者共同确保了研究结论的有效性和鲁棒性。

实验叙事材料的精巧设计

为了精心构建实验基础的叙事文本,其结构设计被精确地隔离,同时也能准确的操控“体”这一变量,进而观察其对LLM“行为”的影响。

研究中使用的16个叙事文本改编自成熟的语言学研究,具有很高的理论依据。每个叙事文本都遵循一个标准化的结构,旨在创造一个可以对因果关系进行模糊解释的场景。故事以引子(Intro)开始,介绍背景和人物。随后呈现潜在原因一(Cause 1, C1),这是一个典型的“成就类”事件,也是实验操纵的关键点:在不同版本的叙事中,该事件的动词会被分别设置为“未完成体”(如 was washing​)或“完成体”(如 washed)。紧接着,故事会引入潜在原因二(Cause 2, C2)作为对照项。为了模拟人类阅读时的认知负荷并测试信息的远距离整合能力,叙事中还插入了与核心因果链关系不大的填充内容(Filler)。最后,故事以一个突然发生的、可以被C1或C2合理解释的意外结局(Effect)结尾,例如“突然传来一声巨响”。通过这种设计,研究者可以精准地控制变量,并对LLM的反应做出清晰的预测。 (表1)

“他正在过马路” vs “他过了马路”:一个简单问题,为何却让GPT-4o等顶级AI模型集体“翻车”?-AI.x社区

“专家在环”探查流水线 (Expert-in-the-Loop Probing Pipeline)

本节将详细介绍该研究为执行LLM行为实验而开发的核心方法论框架。这个框架的设计理念是,在认知科学领域专家的指导下,通过迭代和系统化的方式进行实验,以收集汇聚性证据,确保评估结果的可靠性和可解释性。(图2)

“他正在过马路” vs “他过了马路”:一个简单问题,为何却让GPT-4o等顶级AI模型集体“翻车”?-AI.x社区

该流水线包含三个核心阶段,旨在最大限度地减少因提示(prompt)的偶然性而导致的实验偏差。第一阶段是提示构建(Prompting),其核心任务是将用于人类研究的实验指导语忠实地转化为适合LLM执行的结构化提示。第二阶段,也是该框架最具创新性的部分,是提示改写(Prompt Paraphrasing),它系统性地解决了LLM对提示表述高度敏感的问题。研究者通过两种方式引入受控的“扰动”:一方面,借鉴FORMATSPREAD协议,通过改变空格、大小写、顺序和标点等生成了10种不同的数据格式;另一方面,对通用指令本身进行句法结构和语义上的同义转述,创造出3个版本。这两者组合,为每个实验任务都生成了总计30种独特的提示变体,极大地增强了结论的稳健性。最后一个阶段是模型选择与推理执行(Models and Inference),研究团队选取了Gemma、Llama、Qwen及GPT-4o等七个前沿LLM进行测试,以考察研究发现在不同模型架构和规模上的普适性。

多维度实验与核心发现:LLM在“体”的理解上步履蹒跚

基于上述严谨的研究设计,该工作开展了三个层层递进的实验,分别从语义理解、工作记忆模拟和语用因果推理三个维度,对LLM处理“体”的能力进行了深入剖析。所有实验均在两种核心条件下进行:C1事件为“完成体”或“未完成体”。

实验一:语义真值判断——对非典型组合的理解缺失

该实验旨在探查LLM是否掌握了“体”最基本的语义内涵,即能否根据语法标记正确判断一个事件是否达到了其最终状态。

在实验设置中,LLM阅读包含关键事件的完整叙事,然后判断一个描述事件最终状态的短语(如“莉娜在楼下”)的真值。根据语义学理论,对于完成体“莉娜跑下楼”,推断“莉娜在楼下”应为“真”;而对于未完成体“莉娜正在跑下楼”,由于事件未完成,推断“莉娜在楼下”应为“假”,而推断“莉娜不在楼下”则应为“真”。

核心发现清晰地揭示了LLM在处理非典型组合时的严重缺陷。对于典型的“完成体”,LLM的表现与人类数据高度一致,准确率高达88%,与人类持平。然而,对于非典型的“未完成体”,LLM的表现与人类出现了巨大鸿沟。在最能体现理解深度的“未完成体+消极推断”条件下(即判断“莉娜正在跑下楼”意味着“莉娜不在楼下”为真),人类的准确率为71%,而LLM的准确率竟低至18%。这一结果有力地表明,LLM严重缺乏对未完成体“悬置”事件终点这一核心语义功能的理解。为了排除叙事语境的干扰,研究者在后续实验中将关键事件句剥离出来单独测试,发现LLM的表现依然糟糕,证实了问题根植于其对“体”本身的处理机制。 (表2, 图3)

“他正在过马路” vs “他过了马路”:一个简单问题,为何却让GPT-4o等顶级AI模型集体“翻车”?-AI.x社区

“他正在过马路” vs “他过了马路”:一个简单问题,为何却让GPT-4o等顶级AI模型集体“翻车”?-AI.x社区

实验二:词语补全任务——短暂的注意力,而非持久的记忆激活

该实验借鉴了认知心理学中广泛用于测量概念激活程度的“词语补全”范式,旨在模拟探测LLM的“工作记忆”中,与关键事件相关的概念是否因“体”的不同而表现出不同的激活模式。

实验的精妙之处在于探针(probe)出现的位置。一种是紧随关键事件C1之后,用以测量即时激活效应;另一种则是在故事结尾的意外结局之后,用以测试信息的远距离整合能力。核心发现呈现出一种“近视”的模式。在紧随C1之后的情况下,当C1为非典型的未完成体时,LLM补全出目标词的频率确实更高,这表明它能够探测到局部的统计非典型性并给予更多“关注”。然而,在更关键的、出现在故事结尾的条件下,这种由“体”引发的激活差异几乎消失了,总体成功率也大幅下降。这组结果强烈暗示,LLM的反应更像是一种短暂的、基于统计稀有度的浅层注意力分配,而不是像人类那样,将事件作为一个开放单元在心智中持续激活,以备后续的叙事整合和因果推理之用。 (图4)

“他正在过马路” vs “他过了马路”:一个简单问题,为何却让GPT-4o等顶级AI模型集体“翻车”?-AI.x社区

实验三:开放式因果提问——趋向人类但仍显不足的因果推理

该实验直击核心,通过开放式提问的方式,直接评估LLM是否能够利用“体”的语用线索来进行最终的因果归因,这考验的是其在模拟“情景模型”层面上的推理能力。

在LLM读完整个故事后,研究者向其提出开放式的因果问题,如:“为什么会有一声巨响?”。实验结果呈现出复杂的、与模型规模相关的模式。一方面,所有被测的LLM都表现出与人类相似的基本趋势:在C1为未完成体时,比C1为完成体时更有可能将原因归于C1。这表明LLM在某种程度上捕捉到了未完成体与因果关系之间的关联。但另一方面,LLM做出这种归因的频率显著低于人类,即使是表现最好的GPT-4o和Llama-3.1-70B,也与人类水平有明显差距。一个非常有趣的发现是,在这个最复杂的任务中,模型的规模效应变得清晰可见,参数量更大的模型表现明显更接近人类。然而,另一个揭示LLM认知僵化的关键点是,当C1为完成体时,人类仍有相当一部分会灵活地将其解释为原因,而LLM则极少这样做,这表明其过度依赖僵硬的规则,缺乏人类的解释灵活性。 (图5)

“他正在过马路” vs “他过了马路”:一个简单问题,为何却让GPT-4o等顶级AI模型集体“翻车”?-AI.x社区

综合讨论:LLM处理时间的认知机制——基于分布的模仿,而非基于概念的理解

综合上述三个实验的发现,该研究提供了一系列深刻的洞见,揭示了当前LLM在处理叙事时间意义时与人类认知的根本差异。其核心论点是,LLM的行为模式更像是一种基于训练数据统计分布的复杂模仿,而非基于对“体”所代表的时间概念的真正理解。

声明性知识与程序性知识的鸿沟

研究人员观察到一个有趣的现象,并据此提出了一个核心论断:LLM在关于“体”的知识上,存在着“声明性知识”(知道是什么)和“程序性知识”(知道如何用)之间的巨大鸿沟。如果直接向LLM提问“请解释一下完成体和未完成体”,它们能够生成非常准确、符合学术定义的回答,这表明它们掌握了大量的声明性知识。然而,正如实验一所清晰展示的,当需要LLM在实际的语言理解任务中应用这些知识时,它们却失败了,尤其是在非典型的情境下,这表明它们严重缺乏程序性知识。这种分离与人类学习者的情况形成了鲜明对比,暗示LLM的学习路径和知识表征方式与人类有着本质的不同,它们可能只是学会了“谈论”规则,而没有真正将规则内化为一种可灵活应用的认知能力。

对非典型性的过度依赖与远距离整合的失败

实验二和实验三的结果共同指向了LLM处理叙事信息的另一个关键缺陷:它们对局部统计特征的敏感性,以及在远距离信息整合上的失败。研究推测,LLM对非典型未完成体的即时“关注”,其根本原因可能并非对语用信号的理解,而仅仅是因为这种语言组合在其庞大的训练数据中统计上是罕见的。这种由统计稀有度引发的关注是短暂和表层的,并不会转化为一种像人类那样的、持久的“心智激活状态”。LLM似乎无法构建一个动态的情景模型,将一个“未完成”的事件作为一个开放的可能性,一路携带至故事结尾并用于因果推理,这暴露了它们在远距离叙事整合能力上的严重不足。

模型家族与规模效应的启示

通过对三大模型家族和不同参数规模的横向比较,研究也得出了一些关于当前模型架构和发展趋势的重要结论。研究发现,没有任何一个模型家族或特定模型在所有与“体”相关的任务上都表现出持续的优势,这种表现上的不一致性进一步支持了LLM的各项“能力”可能是割裂的、而非源于一个统一认知系统的观点。一个引人注目的发现是,模型规模的扩大并非万能药。在较为基础的语义理解和模拟工作记忆的任务中,更大规模的模型并没有表现出明显的优势。只有在最高阶、最复杂的开放式因果推理任务中,更大模型的表现才清晰地优于小模型。这提出了一个关键问题:未来的模型发展,是应该继续依赖单纯的规模扩张,还是需要在模型架构和训练方法上进行根本性的创新,以构建真正具备认知基础能力的AI?

研究方法与结果评估

在深入解读了该研究的理论、方法和发现之后,我们需以审慎和批判的眼光,对其研究质量、结论的可靠性及其潜在的局限性进行一次客观评估。

研究的优点与贡献

首先必须肯定,这项研究在多个层面上都展现出了高水平的学术严谨性和深刻的洞察力。其最大的优点之一,是其深植于认知科学和语言学的坚实理论基础,选取了“体”这一极具挑战性的语言现象作为切入点,使得实验结果具有很强的解释力。此外,该研究提出的“专家在环”探查流水线,特别是其系统的“提示改写”策略,是方法论上的一个重大创新,通过生成并测试大量提示变体,极大地增强了实验结果的鲁棒性,为后续的LLM认知行为研究树立了一个高标准。最终,该研究通过翔实的数据,得出了深刻且反直觉的认知洞见,有力地挑战了对LLM已具备“类人理解能力”的乐观观点,深化了学界对当前模型核心局限性的理解。

潜在的局限性与待解决的问题

尽管该研究优点突出,但作为一项前沿探索,其本身也存在一些固有的局限性。研究在局限性部分坦诚地指出,整个方法依赖于分析LLM生成的文本(即“自我报告”)来推断其“内部状态”,但LLM的输出是否能真实反映其内部过程,本身就是一个悬而未决的认识论难题。同时,实验中对“代理任务”(如用词语补全模拟工作记忆)的依赖也存在解释边界,因为LLM的注意力机制与人类的工作记忆在根本上是不同的。或许该研究最重要的“元发现”之一,就是模型在不同任务上表现的不一致性,这本身就揭示了一个深层问题:LLM的“智能”可能是高度碎片化和非系统性的,缺乏人类那样整合、统一的认知架构。最后,对于LLM为何会对“非典型性”做出反应,其解释仍存在一定的模糊性,未来的研究需要更精巧的设计来厘清这究竟是纯粹的统计异常检测,还是对语用信号的某种初级模拟。

参考论文:https://arxiv.org/abs/2507.14307v1

本文转载自​​​​​​​​上堵吟​​​​​​​​,作者:一路到底的孟子敬

收藏
回复
举报
回复
相关推荐