← 返回信息流
Agent SkillLINUX DO · AI·23 小时前

DeepSeek视图模式识人翻车,豆包多模态能力成黑马

原标题:多模态小测:DeepSeek 视图模式翻车,豆包竟成黑马?

速览

DeepSeek近期内测的「视图模式」在多模态识图测试中表现不佳,未能识别知名人物梁文锋。相比之下,字节豆包展现出扎实的多模态能力成为最大惊喜,Kimi表现稳定,而MiniMax和Gemini也出现失误。此次测试虽不严谨,但反映出各模型在细粒度视觉识别上存在显著差距。

AI 深度解读

背景

近期,DeepSeek 突然开启了「视图模式」的内测,这一功能引发了社区对于其多模态识图能力的广泛关注。为了直观评估该模式在实际场景中的表现,LINUX DO 社区的一位用户发起了一次非正式的多模态能力横向对比测试。

测试选取了公众人物梁文锋(DeepSeek 创始人,被网友亲切称为“梁叔叔”)的一张公开图片作为识别目标,旨在检验各大主流 AI 模型在细粒度视觉识别,特别是人脸识别方面的准确度。参与此次“小测”的选手包括 DeepSeek V4.1 Flash(疑似视图模式底层模型)、豆包(Instant)、Kimi 2.6、MiniMax M3 以及 Google 的 Gemini 3.1 Pro。

核心内容

本次测试的核心在于通过单一图片识别任务,观察不同模型在多模态理解上的即时反应与准确率。测试过程简单直接:向各模型展示梁文锋的照片,要求识别图中人物身份。

从测试结果来看,各家模型的表现呈现出显著的差异,甚至出现了令人意外的“翻车”现象:

  • DeepSeek V4.1 Flash:作为本次测试的主角,DeepSeek 的视图模式表现未达预期。尽管该模型拥有 2000 多亿参数并具备 Thinking(思维链)能力,但在识别“梁叔叔”这一相对知名的公众人物时,未能给出正确结果。用户评价其“连梁叔叔都没认出来”,认为其识别能力仍有待打磨。
  • 豆包(Instant):出乎意料地成为本次测试的黑马。字节跳动的这款产品在多模态识图上表现精准,成功识别出人物身份。用户对此评价颇高,认为这体现了字节在 To C 领域及端侧多模态技术上的扎实积累。
  • Kimi 2.6:表现中规中矩,识别结果“不错”,处于中上水平,展现了其稳定的多模态处理能力。
  • MiniMax M3:表现再次“翻车”,未能正确识别人物。用户评价其表现“一如既往的糟糕”,在多次类似测试中往往处于垫底位置。
  • Gemini 3.1 Pro:作为 Google 的旗舰多模态模型,Gemini 3.1 Pro 此次也意外失利,未能正确回答。这一结果打破了用户对其“轻松获胜”的预期,被用户戏称为“美国豆包”翻车,显示出其在特定细粒度识别任务上并非无懈可击。

关键要点

  • DeepSeek 视图模式尚处早期:尽管 DeepSeek 在基座模型上表现强劲,但其新推出的「视图模式」在内测阶段的多模态识别能力(尤其是人脸识别)尚未达到大众期待的高标准,存在明显的提升空间。
  • 国产模型表现分化:在国产选手中,豆包展现了极强的竞争力,甚至在本次测试中优于 DeepSeek 和 Gemini;Kimi 表现稳健;而 MiniMax 在多模态领域仍面临较大挑战。
  • 国际巨头并非完美:Gemini 3.1 Pro 的翻车表明,即便是全球领先的多模态模型,在具体的、细粒度的视觉识别任务上也可能出现失误,AI 能力的评估需要结合具体场景而非仅看参数规模。
  • 测试的局限性:此次测试仅为单次、非严谨的个人体验,样本单一(仅一张图片),且受测试版本和 Prompt(提示词)的影响较大,结果不能完全代表各模型的最终综合能力。

意义与影响

这次看似随意的“认人”小测,实际上折射出当前多模态 AI 发展的几个重要趋势:

  1. 多模态能力的“最后一公里”难题:大模型在通用逻辑推理上可能已趋成熟,但在细粒度的视觉感知(如特定人物识别、微小细节捕捉)上,不同厂商的技术积累差异巨大。豆包的成功与 DeepSeek、Gemini 的失利表明,多模态能力不仅仅是参数量的堆砌,更依赖于数据质量、训练策略及端侧优化的综合效果。
  2. 用户预期的重塑:随着 DeepSeek 等国产模型的热度攀升,用户对“视图模式”等新功能的期待值被拉高。然而,实际体验中的落差提醒开发者,新功能从内测到稳定可用之间仍有距离,用户需保持理性预期。
  3. 竞争格局的动态变化:传统上,Gemini 和 Claude 等模型在多模态领域占据头部地位。但此次测试中豆包的突出表现,以及 Gemini 的意外翻车,暗示着国内 AI 厂商在多模态赛道上正在快速缩小差距,甚至在某些垂直场景下实现反超。这将为国内用户提供更多元、更具性价比的选择。
  4. 社区驱动的技术验证:此类由社区发起的非正式测试,虽然缺乏严谨的科学控制,但能快速反映真实用户场景下的痛点与惊喜,为模型迭代提供了宝贵的早期反馈。

总之,这场“梁叔叔认人”测试虽简单,却生动地展示了当前多模态 AI 领域的激烈竞争与技术现状。对于用户而言,这意味着在选择 AI 工具时,应根据具体需求(如识图、推理、创作)对不同模型进行针对性评估,而非盲目迷信品牌或参数规模。

查看原文 →linux.do