
图灵奖得主联手前谷歌CEO,发布全球首份AGI“成绩单”!GPT-5仅获58分,最大缺陷是“金鱼脑” 原创
编辑 | 听雨
出品 | 51CTO技术栈(微信号:blog51cto)
“什么是 AGI?”
这是所有科技公司都在喊的口号,却也是一个模糊得几乎无法定义的词。
OpenAI 说它要“追求 AGI”;Anthropic 宣称 Claude 是“朝向 AGI 的安全智能体”;谷歌和 Meta 则都声称自己“正在逼近 AGI”。
但——什么才算真正的 AGI?
没人说得清。
直到现在。
由图灵奖得主Yoshua Bengio、前谷歌 CEO 埃里克・施密特、纽约大学教授 Gary Marcus 等30 多位顶级科学家联合撰写的论文 《A Definition of AGI》 正式给出了答案:
“AGI 是一种能在认知的广度与熟练度上,达到或超越受过良好教育的成年人的人工智能。”
图片
更重要的是,他们不仅给出了定义,还提出了一套可量化、可打分的“AGI 评分体系”。
结果令人震惊:
GPT-4 的 AGI 得分只有 27%;
GPT-5 则达到了 58%。
图片
换句话说:
GPT-5 的“综合认知能力”,相当于一个受过高等教育成年人一半的水平。
一、十大认知维度:分数越高,离AGI越近
这套评估体系并非凭空想象,而是建立在人类心理学中最权威的模型——卡特尔-霍恩-卡罗尔(CHC)智能理论之上。
它将人类通用智能拆分为10 个核心认知领域,每项权重相同(10%),共同构成完整的“智能光谱”。
图片
具体包括:
1、知识(K):主要测试常识、自然科学、社会科学、历史、文化等方面的知识储备。
2、读写(RW):考察阅读和写作能力,包括对文本的理解、语言表达、文字创作等。
3、数学(M):涉及数学计算、定量推理、数字概念的掌握等数学能力。
4、临场推理(R):即处理新颖问题、进行逻辑分析与抽象思维的能力,也就是流体推理能力。
5、工作记忆(WM):指短期信息的保持与实时加工能力。
6、长时记忆存储(MS):衡量AI系统将信息进行长期稳定存储的能力。
7、长时记忆提取(MR):考查AI能否从长期记忆中高效地提取所需信息。
8、视觉(V):包括图像识别、空间定位、视觉信息解读等视觉加工能力。
9、听觉(A):涉及声音识别、语音理解、听觉信息处理等听觉加工能力。
10、速度(S):主要评估AI快速处理简单认知任务的效率。
研究团队还为每一维度设定了测试题,例如:
“掉下玻璃瓶会怎样?”(常识)
“2kg 物体以 3m/s 匀速运动,合力是多少?”(科学)
“请为这段视频写一句说明。”(视觉理解)
“请规划一趟 14 天的欧洲旅行。”(推理与计划)
评估采用百分制,每个认知领域满分10分,系统总分达到100分即判定为达到AGI水平,分数越高代表离AGI的距离越近。
二、GPT-5 更聪明了,但还不会“真正学习”
研究团队指出,当代AI 的智力结构极不平衡,呈现出所谓的“Jagged Profile(锯齿型智能)”。这意味着AI并非在所有方面都同样聪明,而是在其能力上表现出极端的波峰和波谷。
图片
从实验结果来看,AI 在知识(K)、读写(RW)、数学(M)三个领域表现突出,GPT-5在这三项的得分都超过了8。
图片
知识(K)领域评估
图片
读写(RW)领域评估
图片
数学(M)领域评估
这些领域有一个共性:都围绕着文本与符号的理解和运用展开。换句话说,这正是大模型在万亿级语料训练中形成的模式匹配能力的集中体现。
在依赖大规模数据的任务上,AI 已经展现出接近受过良好教育成年人的水平。
但真正决定“通用智能”的,不是会背多少知识,而是能否像人一样理解、记忆与推理。
在这些核心认知机制上——尤其是长期记忆和多模态推理方面——AI 依然存在致命短板,部分维度甚至是“挂零”的状态。
图片
视觉(V)领域评估
图片
听觉(A)领域评估
GPT-4完全不具备图像识别与声音处理能力,即使GPT-5也仅能完成简单的猫犬分类、基础语音转文字,远无法实现人类级别的复杂场景解读与情感识别。
图片
长时记忆存储(MS)领域评估
长时记忆提取(MR)领域评估
GPT-5在长期记忆这一项上依旧挂零,这也是目前最显著的瓶颈。
这说明它依然是一个“失忆体”,无法像人类一样持续积累经验。
“长期记忆存储或许是最重大的瓶颈,当前模型的得分接近0%。由于无法持续学习,AI系统患有‘失忆症’,这限制了它们的效用,迫使AI在每次交互中都必须重新学习上下文。”
一句话总结:
GPT-5 更聪明了,但还不会“真正学习”。
三、“聪明的假象”:AI 的能力扭曲
更关键的是,AI 还学会了“伪装聪明”。
研究中提供了两个主要例子:
1、巨大的上下文窗口 VS 真实的记忆:
AI没有真正的长期记忆,而是依赖巨大的“工作记忆”(即其上下文窗口)来追踪信息。研究分析指出,这种方法“效率低下、计算成本高昂”,并且“无法扩展”到需要长期积累上下文的任务中。
2、外部搜索 VS 可靠的检索:
为了对抗“幻觉”(即一本正经地胡说八道),AI使用检索增强生成(RAG)技术来查找事实。这被描述为一种“拐杖”或“扭曲”,它掩盖了AI无法可靠访问其内部知识的缺陷,更重要的是,它掩盖了AI缺乏“动态的、经验性的记忆”这一事实。
这些“聪明的假象”其实是能力扭曲(Capability Contortion):
它们只是用短期技巧弥补长期缺陷,制造出“智能的幻觉”。
论文提出了一个形象比喻:
智能就像一台发动机。
AI 的总“马力”受最弱部件限制。
哪怕GPT-5 在语言领域马力全开,但它的“记忆引擎”几乎报废。
没有长期学习、没有真正理解,再高的分数都只是“速度型选手”,而非“思考者”。
论文直言:
“这种补偿式智能无法持续扩展,也无法支撑真正的通用智能。”
四、AGI ≠ 经济效益
文中还批评了某些科技巨头将“AGI”与“赚钱能力”划等号的做法。
OpenAI 内部 reportedly 把 AGI 定义为“能年赚 1000 亿美元的 AI”。
作者反驳道:
“经济价值不等于通用智能。iPhone 也能创造千亿美元,但它并不聪明。”
他们强调:
真正的AGI 衡量的是认知结构,而不是商业利润。
五、下一步:通往 AGI 的四道坎
团队认为,从GPT-5 到真正 AGI,仍有四大障碍:
- 长期记忆系统—— AI 需要像人类一样持续学习。
- 视觉与空间推理—— 理解动态世界,而非静态图像。
- 多模态整合—— 跨越语言、视觉、声音的统一理解。
- 幻觉消除与自我一致性—— 从“能说”变为“能信”。
这些才是通向真正通用智能的“最后四公里”。
论文最后写道:
“GPT-5 的58%,意味着我们已经走过一半的路。
但这‘后一半’,才是真正的智能之壁。”
换句话说,AGI 不是某个版本号,也不是营销噱头。
它是一个系统、可测、可复现的科学目标。
当那天到来,AI 将不再只是“回答问题”,
而是——理解问题、学习世界、拥有思想。
各位评论区的大佬——
你觉得 AGI 离我们还有多远?
你心目中的“通用智能”是什么样子?
参考链接:https://www.agidefinition.ai/
本文转载自51CTO技术栈,作者:听雨
