用户吐槽Gemini视觉能力退化,识别精度不及豆包
速览
有用户利用AI评估一张设计异常的PCB图片,发现Gemini 3.1 Pro及Flash版本均未能准确指出供电与地线布局问题。相比之下,豆包模型表现更优,且Gemini 2.5 Pro曾具备高精度识别能力,此次表现引发用户对模型能力退化的质疑。
AI 深度解读
背景
近期在 LINUX DO 社区的 AI 板块中,流传着一段关于 Google Gemini 模型性能退化的讨论。起因是一位用户分享了一张设计极其复杂且存在明显缺陷的 PCB(印制电路板)图片,并尝试让不同版本的 AI 模型进行问题排查。
用户特意采用了中性提示词,要求模型自主评价,以排除提示词工程(Prompt Engineering)对结果的干扰。然而,测试结果显示,Google 最新的 Gemini 3.1 Pro 和 3.5 Flash 版本在视觉识别和工程逻辑判断上表现不佳,甚至不如字节跳动的豆包模型。这一现象引发了社区对于 Gemini 模型近期版本迭代质量的质疑,尤其是与去年表现优异的 Gemini 2.5 Pro 形成了鲜明对比。
核心内容
本次测试主要围绕一张存在严重设计问题的 PCB 图片展开,重点考察了多个 AI 模型在视觉理解、电路逻辑分析及细节捕捉方面的能力。
1. 测试对象与场景
- 测试素材:一张设计“逆天”(即极其糟糕或充满错误)的 PCB 图片。
- 测试方法:使用中性提示词,要求模型自主找出图片中的问题,避免人为引导。
- 涉及模型:
- Google Gemini 3.1 Pro (Web 端,使用 Voyager 插件截图)
- Google Gemini 3.5 Flash (AI Studio 端)
- 字节跳动 豆包 (Doubao)
- 对比参照:Google Gemini 2.5 Pro (Arena 平台数据)
2. 各模型表现详情
- Gemini 3.1 Pro (Web):表现令人失望,未能识别出 PCB 中的关键错误。
- Gemini 3.5 Flash (AI Studio):表现相对较好,但整体评价依然有限。
- 豆包 (Doubao):表现优于 Gemini 3.1 Pro。尽管也被用户吐槽为“夸夸王”(倾向于正面评价),但豆包至少识别出了 PCB 设计中一个核心问题:供电系统的数模隔离形同虚设,以及接地铺铜设计混乱。
- Gemini 系列整体缺陷:除了 AI Studio 中设置拉满的 3.5 Flash 版本外,其他版本的 Gemini 均未能识别出 PCB 中“意义不明的地铺铜”这一明显设计缺陷。
3. 历史对比与反差
- Gemini 2.5 Pro 的辉煌:用户回忆去年发布的 Gemini 2.5 Pro 拥有极强的视觉解析能力。它曾成功识别出超远距离拍摄的黑板上,由手机摄像头拍摄的、由神秘 AI 算法合成的模糊公式。即便人类专家都难以辨认的“依托”(网络用语,指代低劣、混乱的事物),2.5 Pro 也能精准解读。
- 当前的落差:相比之下,现在的 Gemini 3.1 Pro 连基础的 PCB 电路逻辑错误都看不出来,被用户调侃为“降智”,甚至不如国产模型豆包。
关键要点
- 视觉识别能力退化:Gemini 3.1 Pro 和 3.5 Flash 在处理复杂工程图纸(PCB)时,未能识别出明显的电路设计错误,如供电隔离失效和接地铺铜混乱。
- 豆包展现竞争力:在同等中性提示词下,豆包模型展现了更强的工程逻辑理解能力,能够指出数模隔离和接地问题,尽管其评价风格偏向保守。
- “夸夸王”现象:多个模型(包括 Gemini 和豆包)都存在倾向于正面评价或回避尖锐批评的倾向,但豆包在指出具体技术缺陷上略胜一筹。
- 版本迭代争议:用户将当前版本与去年的 Gemini 2.5 Pro 进行对比,认为后者在极端模糊图像和复杂公式识别上表现卓越,而新版本在基础工程识别上反而退步,引发对模型优化方向的质疑。
- 测试环境差异:Gemini 3.5 Flash 在 AI Studio 平台(设置拉满)的表现优于 Web 端(使用 Voyager 插件),暗示平台配置或插件可能对模型输出有显著影响。
意义与影响
1. 对 AI 视觉模型能力的重新审视 此次事件揭示了当前多模态大模型在垂直领域(如电子工程、PCB 设计)的深度理解能力仍存在短板。尽管模型在通用图像识别上表现优异,但在需要专业逻辑推理和细节纠错的工程场景中,仍可能出现“幻觉”或漏检。这提醒开发者在将 AI 应用于专业领域时,需警惕模型在特定任务上的性能波动。
2. 国产 AI 模型的崛起信号 豆包在对比中展现出优于部分国际顶尖模型的能力,特别是在识别具体技术缺陷方面。这表明国产 AI 模型在视觉理解和逻辑推理上已具备与国际巨头掰手腕的实力,甚至在某些垂直场景下更具实用性。对于用户而言,选择 AI 工具时不应盲目崇拜品牌,而应基于实际测试效果进行选择。
3. 模型迭代与用户预期的管理 Gemini 2.5 Pro 到 3.1 Pro 的表现落差,反映了大模型迭代过程中可能存在的“能力震荡”或优化方向偏差。用户对于“最新即最好”的预期可能被打破,促使社区更加关注模型的实测表现而非版本号。这也对模型提供方提出了更高要求:需要在追求参数规模的同时,确保特定任务能力的稳定性和可解释性。
4. 提示词工程与平台配置的重要性 测试结果显示,同一模型在不同平台(Web vs AI Studio)或不同插件支持下表现差异巨大。这强调了在实际应用中,除了优化提示词,还需关注模型运行的环境配置、插件集成以及系统参数设置,这些因素可能直接决定 AI 输出的质量。
