Agent SkillLINUX DO · AI·23 小时前

DeepSeek视图模式识人翻车，豆包多模态能力成黑马

原标题：多模态小测：DeepSeek 视图模式翻车，豆包竟成黑马？

速览

DeepSeek近期内测的「视图模式」在多模态识图测试中表现不佳，未能识别知名人物梁文锋。相比之下，字节豆包展现出扎实的多模态能力成为最大惊喜，Kimi表现稳定，而MiniMax和Gemini也出现失误。此次测试虽不严谨，但反映出各模型在细粒度视觉识别上存在显著差距。

AI 深度解读

背景

近期，DeepSeek 突然开启了「视图模式」的内测，这一功能引发了社区对于其多模态识图能力的广泛关注。为了直观评估该模式在实际场景中的表现，LINUX DO 社区的一位用户发起了一次非正式的多模态能力横向对比测试。

测试选取了公众人物梁文锋（DeepSeek 创始人，被网友亲切称为“梁叔叔”）的一张公开图片作为识别目标，旨在检验各大主流 AI 模型在细粒度视觉识别，特别是人脸识别方面的准确度。参与此次“小测”的选手包括 DeepSeek V4.1 Flash（疑似视图模式底层模型）、豆包（Instant）、Kimi 2.6、MiniMax M3 以及 Google 的 Gemini 3.1 Pro。

核心内容

本次测试的核心在于通过单一图片识别任务，观察不同模型在多模态理解上的即时反应与准确率。测试过程简单直接：向各模型展示梁文锋的照片，要求识别图中人物身份。

从测试结果来看，各家模型的表现呈现出显著的差异，甚至出现了令人意外的“翻车”现象：

DeepSeek V4.1 Flash：作为本次测试的主角，DeepSeek 的视图模式表现未达预期。尽管该模型拥有 2000 多亿参数并具备 Thinking（思维链）能力，但在识别“梁叔叔”这一相对知名的公众人物时，未能给出正确结果。用户评价其“连梁叔叔都没认出来”，认为其识别能力仍有待打磨。
豆包（Instant）：出乎意料地成为本次测试的黑马。字节跳动的这款产品在多模态识图上表现精准，成功识别出人物身份。用户对此评价颇高，认为这体现了字节在 To C 领域及端侧多模态技术上的扎实积累。
Kimi 2.6：表现中规中矩，识别结果“不错”，处于中上水平，展现了其稳定的多模态处理能力。
MiniMax M3：表现再次“翻车”，未能正确识别人物。用户评价其表现“一如既往的糟糕”，在多次类似测试中往往处于垫底位置。
Gemini 3.1 Pro：作为 Google 的旗舰多模态模型，Gemini 3.1 Pro 此次也意外失利，未能正确回答。这一结果打破了用户对其“轻松获胜”的预期，被用户戏称为“美国豆包”翻车，显示出其在特定细粒度识别任务上并非无懈可击。

关键要点

DeepSeek 视图模式尚处早期：尽管 DeepSeek 在基座模型上表现强劲，但其新推出的「视图模式」在内测阶段的多模态识别能力（尤其是人脸识别）尚未达到大众期待的高标准，存在明显的提升空间。
国产模型表现分化：在国产选手中，豆包展现了极强的竞争力，甚至在本次测试中优于 DeepSeek 和 Gemini；Kimi 表现稳健；而 MiniMax 在多模态领域仍面临较大挑战。
国际巨头并非完美：Gemini 3.1 Pro 的翻车表明，即便是全球领先的多模态模型，在具体的、细粒度的视觉识别任务上也可能出现失误，AI 能力的评估需要结合具体场景而非仅看参数规模。
测试的局限性：此次测试仅为单次、非严谨的个人体验，样本单一（仅一张图片），且受测试版本和 Prompt（提示词）的影响较大，结果不能完全代表各模型的最终综合能力。

意义与影响

这次看似随意的“认人”小测，实际上折射出当前多模态 AI 发展的几个重要趋势：

多模态能力的“最后一公里”难题：大模型在通用逻辑推理上可能已趋成熟，但在细粒度的视觉感知（如特定人物识别、微小细节捕捉）上，不同厂商的技术积累差异巨大。豆包的成功与 DeepSeek、Gemini 的失利表明，多模态能力不仅仅是参数量的堆砌，更依赖于数据质量、训练策略及端侧优化的综合效果。
用户预期的重塑：随着 DeepSeek 等国产模型的热度攀升，用户对“视图模式”等新功能的期待值被拉高。然而，实际体验中的落差提醒开发者，新功能从内测到稳定可用之间仍有距离，用户需保持理性预期。
竞争格局的动态变化：传统上，Gemini 和 Claude 等模型在多模态领域占据头部地位。但此次测试中豆包的突出表现，以及 Gemini 的意外翻车，暗示着国内 AI 厂商在多模态赛道上正在快速缩小差距，甚至在某些垂直场景下实现反超。这将为国内用户提供更多元、更具性价比的选择。
社区驱动的技术验证：此类由社区发起的非正式测试，虽然缺乏严谨的科学控制，但能快速反映真实用户场景下的痛点与惊喜，为模型迭代提供了宝贵的早期反馈。

总之，这场“梁叔叔认人”测试虽简单，却生动地展示了当前多模态 AI 领域的激烈竞争与技术现状。对于用户而言，这意味着在选择 AI 工具时，应根据具体需求（如识图、推理、创作）对不同模型进行针对性评估，而非盲目迷信品牌或参数规模。

查看原文 →linux.do

DeepSeek视图模式识人翻车，豆包多模态能力成黑马

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐