GPT-5空间智能评估:SOTA表现与人类水平差距分析

发布于 2025-8-29 07:04
浏览
0收藏

论文(Has GPT-5 Achieved Spatial Intelligence? An Empirical Study)为多模态模型提出了空间智能(SI)的统一视角,并在八个全新的SI基准测试中评估了GPT-5及其他强基线模型。GPT-5在整体表现上领先,但仍未达到人类水平,特别是在心理重构形状、变换视角以及变形/组装任务方面存在明显不足。


GPT-5空间智能评估:SOTA表现与人类水平差距分析-AI.x社区图片

统一的SI框架与公平评估设置:论文将先前工作整合为六项核心SI能力(度量测量、心理重构、空间关系、视角转换、变形与组装、综合推理),并标准化了提示词、答案提取和评估指标,以减少不同数据集间的评估差异。


GPT-5空间智能评估:SOTA表现与人类水平差距分析-AI.x社区图片

大规模基准测试,算力消耗巨大:论文采用了八个最新基准测试(如VSI-Bench、SITE、MMSI、OmniSpatial、MindCube、STARE、CoreCognition、SpatialViz),使用统一协议;结果反映了超过10亿token的评估流量。

GPT-5创下最佳记录,但未达人类级SI水平: GPT-5在综合得分上位居榜首,在度量测量和空间关系任务上有时能达到人类水准,但在心理重构、视角转换、变形与组装以及多阶段综合推理方面仍存在显著差距。


GPT-5空间智能评估:SOTA表现与人类水平差距分析-AI.x社区图片

思考模式: "在高级模式下,28个问题超过了15分钟时限或达到token限制,被计为错误,准确率为52.54%;排除这些情况后准确率为68.89%。"高级模式可能带来更好结果,但我理解token限制的问题。


GPT-5空间智能评估:SOTA表现与人类水平差距分析-AI.x社区图片

困难SI任务缩小了闭源与开源模型间的差距: 虽然专有模型平均表现更优,但在最困难的SI类别上其优势消失;多个开源系统表现相似,在心理重构/视角转换/变形组装/综合推理方面都远未达到人类能力。非SI部分(如CoreCognition的形式运算)可以接近人类水平。

定性分析揭示失效模式: 案例研究显示,新视角生成存在提示敏感性,在透视效果和尺寸恒常性方面有盲点,在纸张折叠/组装任务上持续失败,以及在计数过程中难以推断被遮挡物体等问题。

本文转载自​​​​​​​​​​​AI帝国​​​​​​​​​​​,作者:无影寺

收藏
回复
举报
回复
相关推荐