← 返回信息流
Agent SkillLINUX DO · AI·2 小时前

测试显示Sonnet4.6读取指针时钟时间严重失误

原标题:发现一个很有意思的问题,sonnet总是答不对。

速览

一项针对AI视觉能力的测试显示,不同模型在读取指针式时钟时间上表现差异巨大。GPT-5.4和5.5均能准确识别出8:53,Opus4.8回答8:55,而Sonnet4.6则给出了10:00以外的错误答案。该结果揭示了当前主流大模型在细粒度视觉推理任务中仍存在显著的能力差距。

AI 深度解读

背景

在人工智能大模型(LLM)的评测与社区讨论中,视觉理解能力(Visual Understanding)一直是衡量多模态模型性能的关键指标之一。近期,在 LINUX DO 社区的 AI 板块中,出现了一个关于主流大模型在“指针式时钟时间识别”任务上表现差异的有趣案例。

该案例由用户发起,旨在测试不同顶尖模型在处理简单几何图形与逻辑推理结合任务时的准确性。参与者包括 OpenAI 的 GPT-5.5、GPT-5.4,Anthropic 的 Opus 4.8,以及 Anthropic 的 Sonnet 4.6。这一测试不仅反映了各模型在基础视觉识别上的能力差异,也揭示了当前大模型在处理特定空间几何问题时可能存在的系统性偏差。

核心内容

该测试的核心提示词(Prompt)为:“读出这个指针式时钟显示的精确时间(HH:MM)。仔细判断时针落在哪两个数字之间,只输出时间。” 测试对象是一张指针式时钟的图片,要求模型不仅识别分针位置,还需通过时针在两个数字之间的相对位置来辅助判断精确时间,且最终输出格式严格限定为时间字符串。

根据社区反馈,不同模型给出了截然不同的结果:

  1. GPT-5.5 与 GPT-5.4:这两个模型均准确识别出时间为 8:53。这表明在当前的测试版本中,OpenAI 的模型在处理此类需要结合时针与分针位置进行逻辑校验的视觉任务时,表现稳定且准确。
  2. Opus 4.8:Anthropic 的旗舰模型 Opus 4.8 给出的答案是 8:55。虽然接近真实值,但存在约两分钟的误差,显示出其在细微视觉特征捕捉或逻辑推理上的轻微偏差。
  3. Sonnet 4.6:表现最为夸张,直接给出了 10:00 或更晚的时间。这一结果与真实值(8:53)存在巨大偏差,表明 Sonnet 4.6 在该特定任务上出现了严重的视觉误判或逻辑崩溃,未能正确解析时针与分针的空间关系。

这一对比凸显了即使是同一公司(如 Anthropic 的 Sonnet 与 Opus)或不同公司(OpenAI 与 Anthropic)的顶级模型,在特定视觉推理任务上的能力并非线性相关,且存在显著的“长尾”错误风险。

关键要点

  • 任务复杂性:指针式时钟识别看似简单,实则要求模型具备高精度的视觉特征提取能力,并能将视觉信息转化为逻辑推理(时针位置辅助判断分钟数),属于典型的“视觉+逻辑”复合任务。
  • 模型表现分层
    • 准确组:GPT-5.5、GPT-5.4 成功识别出 8:53,展现了较强的多模态对齐与推理能力。
    • 误差组:Opus 4.8 给出 8:55,虽方向正确但精度不足,可能源于对时针细微位置的模糊判断。
    • 失败组:Sonnet 4.6 给出 10:00 开外,属于严重错误,可能混淆了指针角色或受图像噪声干扰。
  • 提示词敏感性:提示词明确要求“仔细判断时针落在哪两个数字之间”,这暗示了测试者希望模型利用时针位置进行二次校验,但 Sonnet 4.6 显然未能遵循这一逻辑约束。
  • 社区驱动评测:此类测试由 LINUX DO 等开发者社区自发进行,反映了用户对模型实际落地能力(而非基准测试分数)的高度关注。

意义与影响

  1. 对模型选择的启示:对于需要高精度视觉识别与逻辑推理结合的应用场景(如工业仪表读取、医疗影像初步筛查等),不能仅依赖模型的品牌或版本层级。即使是旗舰模型(如 Opus)也可能存在细微误差,而某些模型(如 Sonnet 4.6)在特定任务上可能出现灾难性失败。开发者需针对具体任务进行小规模基准测试(SOTA Benchmarking)。
  2. 视觉推理能力的瓶颈:该案例表明,当前大模型在处理需要空间几何推理的视觉任务时,仍存在不稳定性。模型可能更擅长识别静态物体或文本,但在处理动态指针、角度计算等需要“空间想象”的任务时,仍可能退化为基于概率的猜测,导致逻辑错误。
  3. 提示词工程的边界:即使提供了详细的指令(如“仔细判断时针...”),模型仍可能因底层视觉编码器的局限性而无法正确执行。这提示我们,在关键任务中,单纯依靠提示词优化可能不足以弥补模型在特定视觉推理能力上的不足,需结合后处理校验或专用视觉模型。
  4. 社区评测的价值:此类非官方、基于真实场景的评测,能够揭示标准基准测试(如 MMLU、GSM8K)未能覆盖的“长尾”问题,为模型迭代提供宝贵的反馈方向。
查看原文 →linux.do