ClockBench:一个简单的钟表测试让AI全线溃败

发布于 2025-9-11 22:34
浏览
0收藏

有人做了个简单又复杂的实验:让11个当前最先进的多模态大模型和5个普通人一起看钟表认时间。结果人类平均准确率89.1%,最好的AI只有13.3%——还不如闭着眼睛瞎猜。

ClockBench:一个简单的钟表测试让AI全线溃败-AI.x社区

这个叫ClockBench的测试包含36种定制钟面,180个钟表样本,每个钟表要回答4个问题。设计者刻意加入了罗马数字、环形数字等非常规样式,结果AI在复杂钟面上的表现尤其糟糕。

ClockBench:一个简单的钟表测试让AI全线溃败-AI.x社区

但当被要求"把时针逆时针转90度"这类衍生问题时,某些模型反而能100%答对。这说明AI擅长处理抽象指令,却栽在最基础的视觉感知上。

ClockBench:一个简单的钟表测试让AI全线溃败-AI.x社区

人类认错时间平均偏差3分钟,而AI的中位误差达到1小时。Google的Gemini 2.5系列已经是表现最佳,但13.3%的准确率依然惨烈。有开发者尝试用AI生成钟表图片,结果连画都画不准。

这个对人类无比简单的基准测试的其对于AI的难度和ARC-AGI-2相当,甚至比"人类最后的考试"还要难。一个简单的认表任务,暴露了当前视觉AI在空间推理上的根本性缺陷。

这个测试像一面照妖镜,照出当前多模态模型的软肋:它们能写诗编程,却看不懂幼儿园级别的视觉信息。当我们在讨论AGI时,或许应该先让AI通过这个"儿童认知测试"。

不过,这个测试对模型性能评估方案设计有很大的启发意义,毕竟面对动辄需要专业人士专门设计的复杂基准,这样一个简单直观,又有说服力的方式非常适合衡量模型的视觉推理能力。毕竟连时间都看不懂,还谈什么理解世界。

论文地址:​​https://clockbench.ai/ClockBench.pdf​

测试地址:​​https://clockbench.ai/​

github:https://github.com/aleksafar/clockbench

本文转载自​AI工程化​,作者:ully

已于2025-9-11 22:34:23修改
收藏
回复
举报
回复
相关推荐