图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑” 原创

51CTO技术栈

发布于 2025-10-20 15:40

浏览

0收藏

编辑 | 听雨

出品 | 51CTO技术栈（微信号：blog51cto）

“什么是 AGI？”

这是所有科技公司都在喊的口号，却也是一个模糊得几乎无法定义的词。

OpenAI 说它要“追求 AGI”；Anthropic 宣称 Claude 是“朝向 AGI 的安全智能体”；谷歌和 Meta 则都声称自己“正在逼近 AGI”。

但——什么才算真正的 AGI？

没人说得清。

直到现在。

由图灵奖得主Yoshua Bengio、前谷歌 CEO 埃里克・施密特、纽约大学教授 Gary Marcus 等30 多位顶级科学家联合撰写的论文《A Definition of AGI》正式给出了答案：

“AGI 是一种能在认知的广度与熟练度上，达到或超越受过良好教育的成年人的人工智能。”

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

更重要的是，他们不仅给出了定义，还提出了一套可量化、可打分的“AGI 评分体系”。

结果令人震惊：

GPT-4 的 AGI 得分只有 27%；

GPT-5 则达到了 58%。

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

换句话说：

GPT-5 的“综合认知能力”，相当于一个受过高等教育成年人一半的水平。

一、十大认知维度：分数越高，离AGI越近

这套评估体系并非凭空想象，而是建立在人类心理学中最权威的模型——卡特尔-霍恩-卡罗尔（CHC）智能理论之上。

它将人类通用智能拆分为10 个核心认知领域，每项权重相同（10%），共同构成完整的“智能光谱”。

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

具体包括：

1、知识（K）：主要测试常识、自然科学、社会科学、历史、文化等方面的知识储备。

2、读写（RW）：考察阅读和写作能力，包括对文本的理解、语言表达、文字创作等。

3、数学（M）：涉及数学计算、定量推理、数字概念的掌握等数学能力。

4、临场推理（R）：即处理新颖问题、进行逻辑分析与抽象思维的能力，也就是流体推理能力。

5、工作记忆（WM）：指短期信息的保持与实时加工能力。

6、长时记忆存储（MS）：衡量AI系统将信息进行长期稳定存储的能力。

7、长时记忆提取（MR）：考查AI能否从长期记忆中高效地提取所需信息。

8、视觉（V）：包括图像识别、空间定位、视觉信息解读等视觉加工能力。

9、听觉（A）：涉及声音识别、语音理解、听觉信息处理等听觉加工能力。

10、速度（S）：主要评估AI快速处理简单认知任务的效率。

研究团队还为每一维度设定了测试题，例如：

“掉下玻璃瓶会怎样？”（常识）

“2kg 物体以 3m/s 匀速运动，合力是多少？”（科学）

“请为这段视频写一句说明。”（视觉理解）

“请规划一趟 14 天的欧洲旅行。”（推理与计划）

评估采用百分制，每个认知领域满分10分，系统总分达到100分即判定为达到AGI水平，分数越高代表离AGI的距离越近。

二、GPT-5 更聪明了，但还不会“真正学习”

研究团队指出，当代AI 的智力结构极不平衡，呈现出所谓的“Jagged Profile（锯齿型智能）”。这意味着AI并非在所有方面都同样聪明，而是在其能力上表现出极端的波峰和波谷。

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

从实验结果来看，AI 在知识（K）、读写（RW）、数学（M）三个领域表现突出，GPT-5在这三项的得分都超过了8。

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区知识（K）领域评估

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区读写（RW）领域评估

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区数学（M）领域评估

这些领域有一个共性：都围绕着文本与符号的理解和运用展开。换句话说，这正是大模型在万亿级语料训练中形成的模式匹配能力的集中体现。

在依赖大规模数据的任务上，AI 已经展现出接近受过良好教育成年人的水平。

但真正决定“通用智能”的，不是会背多少知识，而是能否像人一样理解、记忆与推理。

在这些核心认知机制上——尤其是长期记忆和多模态推理方面——AI 依然存在致命短板，部分维度甚至是“挂零”的状态。

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区视觉（V）领域评估

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区听觉（A）领域评估

GPT-4完全不具备图像识别与声音处理能力，即使GPT-5也仅能完成简单的猫犬分类、基础语音转文字，远无法实现人类级别的复杂场景解读与情感识别。

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区长时记忆存储（MS）领域评估

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑”-AI.x社区长时记忆提取（MR）领域评估

GPT-5在长期记忆这一项上依旧挂零，这也是目前最显著的瓶颈。

这说明它依然是一个“失忆体”，无法像人类一样持续积累经验。

“长期记忆存储或许是最重大的瓶颈，当前模型的得分接近0%。由于无法持续学习，AI系统患有‘失忆症’，这限制了它们的效用，迫使AI在每次交互中都必须重新学习上下文。”

一句话总结：

GPT-5 更聪明了，但还不会“真正学习”。

三、“聪明的假象”：AI 的能力扭曲

更关键的是，AI 还学会了“伪装聪明”。

研究中提供了两个主要例子：

1、巨大的上下文窗口 VS 真实的记忆：

AI没有真正的长期记忆，而是依赖巨大的“工作记忆”（即其上下文窗口）来追踪信息。研究分析指出，这种方法“效率低下、计算成本高昂”，并且“无法扩展”到需要长期积累上下文的任务中。

2、外部搜索 VS 可靠的检索：

为了对抗“幻觉”（即一本正经地胡说八道），AI使用检索增强生成（RAG）技术来查找事实。这被描述为一种“拐杖”或“扭曲”，它掩盖了AI无法可靠访问其内部知识的缺陷，更重要的是，它掩盖了AI缺乏“动态的、经验性的记忆”这一事实。

这些“聪明的假象”其实是能力扭曲（Capability Contortion）：

它们只是用短期技巧弥补长期缺陷，制造出“智能的幻觉”。

论文提出了一个形象比喻：

智能就像一台发动机。
AI 的总“马力”受最弱部件限制。

哪怕GPT-5 在语言领域马力全开，但它的“记忆引擎”几乎报废。

没有长期学习、没有真正理解，再高的分数都只是“速度型选手”，而非“思考者”。

论文直言：

“这种补偿式智能无法持续扩展，也无法支撑真正的通用智能。”

四、AGI ≠ 经济效益

文中还批评了某些科技巨头将“AGI”与“赚钱能力”划等号的做法。

OpenAI 内部 reportedly 把 AGI 定义为“能年赚 1000 亿美元的 AI”。

作者反驳道：

“经济价值不等于通用智能。iPhone 也能创造千亿美元，但它并不聪明。”

他们强调：

真正的AGI 衡量的是认知结构，而不是商业利润。

五、下一步：通往 AGI 的四道坎

团队认为，从GPT-5 到真正 AGI，仍有四大障碍：

长期记忆系统—— AI 需要像人类一样持续学习。
视觉与空间推理—— 理解动态世界，而非静态图像。
多模态整合—— 跨越语言、视觉、声音的统一理解。
幻觉消除与自我一致性—— 从“能说”变为“能信”。

这些才是通向真正通用智能的“最后四公里”。

论文最后写道：

“GPT-5 的58%，意味着我们已经走过一半的路。
但这‘后一半’，才是真正的智能之壁。”

换句话说，AGI 不是某个版本号，也不是营销噱头。

它是一个系统、可测、可复现的科学目标。

当那天到来，AI 将不再只是“回答问题”，

而是——理解问题、学习世界、拥有思想。

各位评论区的大佬——

你觉得 AGI 离我们还有多远？

你心目中的“通用智能”是什么样子？

参考链接：https://www.agidefinition.ai/

本文转载自51CTO技术栈，作者：听雨

标签

51CTO

51CTO博客

51CTO学堂

图灵奖得主联手前谷歌CEO，发布全球首份AGI“成绩单”！GPT-5仅获58分，最大缺陷是“金鱼脑” 原创

一、十大认知维度：分数越高，离AGI越近

二、GPT-5 更聪明了，但还不会“真正学习”

三、“聪明的假象”：AI 的能力扭曲

四、AGI ≠ 经济效益

五、下一步：通往 AGI 的四道坎

目录