人类读钟准确率近九成,AI仅13%惨遭碾压
近期,一项名为“ClockBench”的基准测试揭示了人工智能在视觉推理任务中的一个显著短板:读取指针式时钟的能力远逊于人类。测试结果显示,人类参与者的平均准确率高达89.1%,而当前表现最优的AI模型——谷歌的Gemini 2.5 Pro,准确率仅为13.3%。这一差距不仅凸显了AI在视觉信息处理方面的局限性,也引发了对其多模态能力发展现状的深入思考。
该研究由阿莱克・萨法尔主导,采用了一套包含180个定制指针式时钟和720道测试题的数据集。为确保评估的公正性,所有数据均从零构建,以避免与模型训练数据发生重叠。测试内容涵盖时间读取、时间计算、指针角度调整及时区转换四类问题,并根据时钟类型设置了不同的误差容忍范围。
在参与测试的11个大型语言模型中,Gemini 2.5 Pro以13.3%的准确率位列第一,Gemini 2.5 Flash和GPT-5分别以10.5%和8.4%紧随其后。然而,这些数字与人类的接近九成的准确率形成鲜明对比。更值得关注的是,Grok 4模型的表现尤为不佳,准确率低至0.7%,其将大多数时钟判定为“无效”的策略虽在一定程度上提高了技术正确率,却暴露出模型在处理不确定信息时的保守倾向。
除了准确率之外,误差的严重程度也进一步反映出AI的不足。人类在读取时间时的中位误差仅为3分钟,而表现最佳的AI模型误差达到1小时,最差者甚至接近3小时,几乎等同于随机猜测。这一结果表明,AI不仅在识别成功率上落后,在识别精度方面也存在明显缺陷。
进一步分析显示,某些视觉元素对AI构成了显著挑战。当钟面采用罗马数字时,AI的准确率骤降至3.2%;使用圆形数字时,准确率也仅为4.5%。此外,秒针的存在、彩色背景和镜像布局等因素均对模型的判断产生干扰。相对而言,仅含时针的时钟因误差容忍度较高,AI表现略好,准确率达到23.6%。标准阿拉伯数字和基础表盘设计也有助于AI取得相对更好的成绩。
一个值得注意的发现是,一旦AI成功识别出时间,其在后续的时间计算、指针调整或时区转换任务中大多能够正确完成。这说明AI的真正瓶颈在于“从视觉信息中读取时间”这一初始步骤,而非时间相关的数学推理能力。
萨法尔认为,造成这一现象的原因可能包括三个方面:指针式时钟读取对视觉推理能力的要求较高;训练数据中缺乏多样化和特殊设计的钟面样本;以及将视觉信息转化为文本描述这一过程对当前模型仍具挑战性。
尽管AI在此次测试中表现不佳,研究者仍对其未来发展持审慎乐观态度。性能最佳的模型其准确率仍显著高于随机猜测水平,表明其已具备一定程度的视觉推理基础。然而,是否能够通过扩展现有方法实现能力跃升,抑或需探索全新的技术路径,目前尚无定论。
与一年前中国相关研究中GPT-4o在仪表盘任务中达到54.8%的准确率相比,此次AI的表现明显下滑。这一方面反映了ClockBench测试的更高难度,另一方面也表明AI在时钟读取这一特定能力上并未取得实质性进展。
总体而言,该研究不仅提供了一个衡量AI视觉推理能力的新基准,也提醒开发者应在提升模型的多模态理解和泛化能力方面投入更多努力。在未来人工智能的发展中,类似ClockBench的测试或许将成为评估模型综合能力的重要工具,推动技术朝着更全面、更稳健的方向迈进。
(注:本文在资料搜集、框架搭建及部分段落初稿撰写阶段使用了 AI 工具,最终内容经人类编辑核实事实、调整逻辑、优化表达后完成。)
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )
本文来源于极客网,原文链接: https://www.fromgeek.com/ai/703592.html
本网站的所有内容仅供参考,网站的信息来源包括原创、供稿和第三方自媒体,我们会尽力确保提供的信息准确可靠,但不保证相关资料的准确性或可靠性。在使用这些内容前,请务必进一步核实,并对任何自行决定的行为承担责任。如果有任何单位或个人认为本网站上的网页或链接内容可能侵犯其知识产权或存在不实内容,请及时联系我们沟通相关文章并沟通删除相关内容。
评论