图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑” 原创

发布于 2025-10-20 15:40
浏览
0收藏

编辑 | 听雨

出品 | 51CTO技术栈(微信号:blog51cto)

“什么是 AGI?”

这是所有科技公司都在喊的口号,却也是一个模糊得几乎无法定义的词。

OpenAI 说它要“追求 AGI”;Anthropic 宣称 Claude 是“朝向 AGI 的安全智能体”;谷歌和 Meta 则都声称自己“正在逼近 AGI”。

但——什么才算真正的 AGI?

没人说得清。

直到现在。

由图灵奖得主Yoshua Bengio、前谷歌 CEO 埃里克・施密特、纽约大学教授 Gary Marcus 等30 多位顶级科学家联合撰写的论文 《A Definition of AGI》 正式给出了答案:

“AGI 是一种能在认知的广度与熟练度上,达到或超越受过良好教育的成年人的人工智能。”

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

更重要的是,他们不仅给出了定义,还提出了一套可量化、可打分的“AGI 评分体系”。

结果令人震惊:

GPT-4 的 AGI 得分只有 27%;

GPT-5 则达到了 58%。

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

换句话说:

GPT-5 的“综合认知能力”,相当于一个受过高等教育成年人一半的水平。

一、十大认知维度:分数越高,离AGI越近

这套评估体系并非凭空想象,而是建立在人类心理学中最权威的模型——卡特尔-霍恩-卡罗尔(CHC)智能理论之上。

它将人类通用智能拆分为10 个核心认知领域,每项权重相同(10%),共同构成完整的“智能光谱”。 

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

具体包括:

1、知识(K):主要测试常识、自然科学、社会科学、历史、文化等方面的知识储备。

2、读写(RW):考察阅读和写作能力,包括对文本的理解、语言表达、文字创作等。

3、数学(M):涉及数学计算、定量推理、数字概念的掌握等数学能力。

4、临场推理(R):即处理新颖问题、进行逻辑分析与抽象思维的能力,也就是流体推理能力。

5、工作记忆(WM):指短期信息的保持与实时加工能力。

6、长时记忆存储(MS):衡量AI系统将信息进行长期稳定存储的能力。

7、长时记忆提取(MR):考查AI能否从长期记忆中高效地提取所需信息。

8、视觉(V):包括图像识别、空间定位、视觉信息解读等视觉加工能力。

9、听觉(A):涉及声音识别、语音理解、听觉信息处理等听觉加工能力。

10、速度(S):主要评估AI快速处理简单认知任务的效率。

研究团队还为每一维度设定了测试题,例如:

“掉下玻璃瓶会怎样?”(常识)

“2kg 物体以 3m/s 匀速运动,合力是多少?”(科学)

“请为这段视频写一句说明。”(视觉理解)

“请规划一趟 14 天的欧洲旅行。”(推理与计划)

评估采用百分制,每个认知领域满分10分,系统总分达到100分即判定为达到AGI水平,分数越高代表离AGI的距离越近。

 二、GPT-5 更聪明了,但还不会“真正学习”

研究团队指出,当代AI 的智力结构极不平衡,呈现出所谓的“Jagged Profile(锯齿型智能)”。这意味着AI并非在所有方面都同样聪明,而是在其能力上表现出极端的波峰和波谷。

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

从实验结果来看,AI 在知识(K)、读写(RW)、数学(M)三个领域表现突出,GPT-5在这三项的得分都超过了8。

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区知识(K)领域评估


图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区读写(RW)领域评估

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区数学(M)领域评估

这些领域有一个共性:都围绕着文本与符号的理解和运用展开。换句话说,这正是大模型在万亿级语料训练中形成的模式匹配能力的集中体现。

在依赖大规模数据的任务上,AI 已经展现出接近受过良好教育成年人的水平。

但真正决定“通用智能”的,不是会背多少知识,而是能否像人一样理解、记忆与推理。

在这些核心认知机制上——尤其是长期记忆和多模态推理方面——AI 依然存在致命短板,部分维度甚至是“挂零”的状态。

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区视觉(V)领域评估

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区听觉(A)领域评估

GPT-4完全不具备图像识别与声音处理能力,即使GPT-5也仅能完成简单的猫犬分类、基础语音转文字,远无法实现人类级别的复杂场景解读与情感识别。

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区图片

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区长时记忆存储(MS)领域评估

图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑”-AI.x社区长时记忆提取(MR)领域评估

GPT-5在长期记忆这一项上依旧挂零,这也是目前最显著的瓶颈。

这说明它依然是一个“失忆体”,无法像人类一样持续积累经验。

“长期记忆存储或许是最重大的瓶颈,当前模型的得分接近0%。由于无法持续学习,AI系统患有‘失忆症’,这限制了它们的效用,迫使AI在每次交互中都必须重新学习上下文。”

一句话总结:

GPT-5 更聪明了,但还不会“真正学习”。

 三、“聪明的假象”:AI 的能力扭曲

更关键的是,AI 还学会了“伪装聪明”。

研究中提供了两个主要例子:

1、巨大的上下文窗口 VS 真实的记忆:

AI没有真正的长期记忆,而是依赖巨大的“工作记忆”(即其上下文窗口)来追踪信息。研究分析指出,这种方法“效率低下、计算成本高昂”,并且“无法扩展”到需要长期积累上下文的任务中。

2、外部搜索 VS 可靠的检索:

为了对抗“幻觉”(即一本正经地胡说八道),AI使用检索增强生成(RAG)技术来查找事实。这被描述为一种“拐杖”或“扭曲”,它掩盖了AI无法可靠访问其内部知识的缺陷,更重要的是,它掩盖了AI缺乏“动态的、经验性的记忆”这一事实。

这些“聪明的假象”其实是能力扭曲(Capability Contortion):

它们只是用短期技巧弥补长期缺陷,制造出“智能的幻觉”。

论文提出了一个形象比喻:

智能就像一台发动机。

AI 的总“马力”受最弱部件限制。

哪怕GPT-5 在语言领域马力全开,但它的“记忆引擎”几乎报废。

没有长期学习、没有真正理解,再高的分数都只是“速度型选手”,而非“思考者”。

论文直言:

“这种补偿式智能无法持续扩展,也无法支撑真正的通用智能。”

 四、AGI ≠ 经济效益

文中还批评了某些科技巨头将“AGI”与“赚钱能力”划等号的做法。

OpenAI 内部 reportedly 把 AGI 定义为“能年赚 1000 亿美元的 AI”。

作者反驳道:

“经济价值不等于通用智能。iPhone 也能创造千亿美元,但它并不聪明。”

他们强调:

真正的AGI 衡量的是认知结构,而不是商业利润。

 五、下一步:通往 AGI 的四道坎

团队认为,从GPT-5 到真正 AGI,仍有四大障碍:

  • 长期记忆系统—— AI 需要像人类一样持续学习。​
  • 视觉与空间推理—— 理解动态世界,而非静态图像。​
  • 多模态整合—— 跨越语言、视觉、声音的统一理解。​
  • 幻觉消除与自我一致性—— 从“能说”变为“能信”。​

这些才是通向真正通用智能的“最后四公里”。

论文最后写道:

“GPT-5 的58%,意味着我们已经走过一半的路。

但这‘后一半’,才是真正的智能之壁。”

换句话说,AGI 不是某个版本号,也不是营销噱头。

它是一个系统、可测、可复现的科学目标。

当那天到来,AI 将不再只是“回答问题”,

而是——理解问题、学习世界、拥有思想。

各位评论区的大佬——

你觉得 AGI 离我们还有多远?

你心目中的“通用智能”是什么样子?

参考链接:​​https://www.agidefinition.ai/​

本文转载自​​51CTO技术栈​​,作者:听雨

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐