Agent SkillLINUX DO · AI·1 小时前

用户吐槽Gemini视觉能力退化，识别精度不及豆包

原标题：Gemini你再降智真不如豆包了😭

速览

有用户利用AI评估一张设计异常的PCB图片，发现Gemini 3.1 Pro及Flash版本均未能准确指出供电与地线布局问题。相比之下，豆包模型表现更优，且Gemini 2.5 Pro曾具备高精度识别能力，此次表现引发用户对模型能力退化的质疑。

AI 深度解读

背景

近期在 LINUX DO 社区的 AI 板块中，流传着一段关于 Google Gemini 模型性能退化的讨论。起因是一位用户分享了一张设计极其复杂且存在明显缺陷的 PCB（印制电路板）图片，并尝试让不同版本的 AI 模型进行问题排查。

用户特意采用了中性提示词，要求模型自主评价，以排除提示词工程（Prompt Engineering）对结果的干扰。然而，测试结果显示，Google 最新的 Gemini 3.1 Pro 和 3.5 Flash 版本在视觉识别和工程逻辑判断上表现不佳，甚至不如字节跳动的豆包模型。这一现象引发了社区对于 Gemini 模型近期版本迭代质量的质疑，尤其是与去年表现优异的 Gemini 2.5 Pro 形成了鲜明对比。

核心内容

本次测试主要围绕一张存在严重设计问题的 PCB 图片展开，重点考察了多个 AI 模型在视觉理解、电路逻辑分析及细节捕捉方面的能力。

1. 测试对象与场景

测试素材：一张设计“逆天”（即极其糟糕或充满错误）的 PCB 图片。
测试方法：使用中性提示词，要求模型自主找出图片中的问题，避免人为引导。
涉及模型：
- Google Gemini 3.1 Pro (Web 端，使用 Voyager 插件截图)
- Google Gemini 3.5 Flash (AI Studio 端)
- 字节跳动豆包 (Doubao)
- 对比参照：Google Gemini 2.5 Pro (Arena 平台数据)

2. 各模型表现详情

Gemini 3.1 Pro (Web)：表现令人失望，未能识别出 PCB 中的关键错误。
Gemini 3.5 Flash (AI Studio)：表现相对较好，但整体评价依然有限。
豆包 (Doubao)：表现优于 Gemini 3.1 Pro。尽管也被用户吐槽为“夸夸王”（倾向于正面评价），但豆包至少识别出了 PCB 设计中一个核心问题：供电系统的数模隔离形同虚设，以及接地铺铜设计混乱。
Gemini 系列整体缺陷：除了 AI Studio 中设置拉满的 3.5 Flash 版本外，其他版本的 Gemini 均未能识别出 PCB 中“意义不明的地铺铜”这一明显设计缺陷。

3. 历史对比与反差

Gemini 2.5 Pro 的辉煌：用户回忆去年发布的 Gemini 2.5 Pro 拥有极强的视觉解析能力。它曾成功识别出超远距离拍摄的黑板上，由手机摄像头拍摄的、由神秘 AI 算法合成的模糊公式。即便人类专家都难以辨认的“依托”（网络用语，指代低劣、混乱的事物），2.5 Pro 也能精准解读。
当前的落差：相比之下，现在的 Gemini 3.1 Pro 连基础的 PCB 电路逻辑错误都看不出来，被用户调侃为“降智”，甚至不如国产模型豆包。

关键要点

视觉识别能力退化：Gemini 3.1 Pro 和 3.5 Flash 在处理复杂工程图纸（PCB）时，未能识别出明显的电路设计错误，如供电隔离失效和接地铺铜混乱。
豆包展现竞争力：在同等中性提示词下，豆包模型展现了更强的工程逻辑理解能力，能够指出数模隔离和接地问题，尽管其评价风格偏向保守。
“夸夸王”现象：多个模型（包括 Gemini 和豆包）都存在倾向于正面评价或回避尖锐批评的倾向，但豆包在指出具体技术缺陷上略胜一筹。
版本迭代争议：用户将当前版本与去年的 Gemini 2.5 Pro 进行对比，认为后者在极端模糊图像和复杂公式识别上表现卓越，而新版本在基础工程识别上反而退步，引发对模型优化方向的质疑。
测试环境差异：Gemini 3.5 Flash 在 AI Studio 平台（设置拉满）的表现优于 Web 端（使用 Voyager 插件），暗示平台配置或插件可能对模型输出有显著影响。

意义与影响

1. 对 AI 视觉模型能力的重新审视 此次事件揭示了当前多模态大模型在垂直领域（如电子工程、PCB 设计）的深度理解能力仍存在短板。尽管模型在通用图像识别上表现优异，但在需要专业逻辑推理和细节纠错的工程场景中，仍可能出现“幻觉”或漏检。这提醒开发者在将 AI 应用于专业领域时，需警惕模型在特定任务上的性能波动。

2. 国产 AI 模型的崛起信号 豆包在对比中展现出优于部分国际顶尖模型的能力，特别是在识别具体技术缺陷方面。这表明国产 AI 模型在视觉理解和逻辑推理上已具备与国际巨头掰手腕的实力，甚至在某些垂直场景下更具实用性。对于用户而言，选择 AI 工具时不应盲目崇拜品牌，而应基于实际测试效果进行选择。

3. 模型迭代与用户预期的管理 Gemini 2.5 Pro 到 3.1 Pro 的表现落差，反映了大模型迭代过程中可能存在的“能力震荡”或优化方向偏差。用户对于“最新即最好”的预期可能被打破，促使社区更加关注模型的实测表现而非版本号。这也对模型提供方提出了更高要求：需要在追求参数规模的同时，确保特定任务能力的稳定性和可解释性。

4. 提示词工程与平台配置的重要性 测试结果显示，同一模型在不同平台（Web vs AI Studio）或不同插件支持下表现差异巨大。这强调了在实际应用中，除了优化提示词，还需关注模型运行的环境配置、插件集成以及系统参数设置，这些因素可能直接决定 AI 输出的质量。

查看原文 →linux.do

用户吐槽Gemini视觉能力退化，识别精度不及豆包

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐