Agent SkillLINUX DO · AI·2 小时前

DeepSeek V4 Pro满血测试：耗时远超Claude Opus

原标题：是不是小看了deepseek v4 pro，满血测试

速览

本文通过一道复杂的数学计算题测试了DeepSeek V4 Pro的性能。结果显示，该模型两次回答均正确，但耗时分别为3分钟和28分钟，显著长于Claude Opus的37秒。尽管效率较低，DeepSeek V4 Pro展现了强大的推理能力，能准确识别自身模型信息。

AI 深度解读

背景

在人工智能大模型（LLM）快速迭代的当下，用户对于模型“满血”状态（即未受限、未降级、具备完整推理能力）的验证需求日益增长。近期，在 LINUX DO 社区中，围绕 DeepSeek V4 Pro 与 Claude Opus 等主流模型的基准测试引发热议。测试的核心在于通过高难度的数学逻辑题与模型自我认知查询，来甄别模型的真实性能、推理深度以及是否存在“幻觉”或简化处理。

核心内容

该分享源自 LINUX DO 社区的一个讨论帖，主要测试了 DeepSeek V4 Pro 在处理复杂数学问题及自我身份识别方面的表现，并将其与某公益站提供的 Claude Opus 进行了对比。

1. 测试提示词设计 测试者引用了社区用户提供的提示词，旨在考察模型的长程推理能力和诚实度。提示词包含两个部分：

高难度计算题：设实数列 ${x_n}$ 满足 $x_0=0$，$x_2=\sqrt[3]{2}x_1$，$x_3$ 是正整数，且递推公式为 $x_{n+1} = \frac{1}{\sqrt[3]{4}} x_n + \sqrt[3]{4} x_{n-1} + \frac{1}{2} x_{n-2}$ ($n \geq 2$)。问题是：这类数列中最少有多少个整数项？
自我认知查询：要求模型以 JSON 格式回答上述计算题的答案，并明确告知其 AI 模型名称、版本号、知识截止日期以及训练和发布公司。

2. DeepSeek V4 Pro 测试表现 测试者对 DeepSeek V4 Pro 进行了两次测试，结果如下：

第一次测试：耗时 3 分钟，答案正确。
第二次测试：耗时 28 分钟，Token 消耗超过 50k，答案正确。
结论：DeepSeek V4 Pro 在两次测试中均给出了正确答案（整数项最少为 5 个），且思考时间显著较长，符合“满血”模型进行深度推理的特征。

3. Claude Opus 对比测试 测试者在一个公益站点尝试使用 Claude Opus 进行同样的测试：

表现：仅耗时 37 秒。
结论：测试者认为该结果“随便编了一个”，暗示其可能未进行深度推理，或者该公益站点的 Claude Opus 模型存在降级、受限或幻觉问题，未能达到预期的满血状态。

4. 社区反馈 该话题在 LINUX DO 社区引起了 11 个帖子、9 位参与者的讨论，反映出用户对模型真实性能验证的高度关注。

关键要点

测试方法论：通过结合“复杂数学推理”与“模型自我身份确认”的双重提示词，可以有效检测模型是否进行了深度思考（Chain of Thought）以及是否诚实回答自身属性。
DeepSeek V4 Pro 性能验证：
- 准确性：在复杂数列整数项计数问题上，DeepSeek V4 Pro 给出了正确答案（5 个）。
- 推理深度：两次测试耗时分别为 3 分钟和 28 分钟，表明模型在尝试进行复杂的逻辑推导，而非快速猜测。
- 资源消耗：第二次测试消耗 50k+ Token，进一步佐证了其进行了长程推理。
Claude Opus 的异常表现：
- 在公益站点的测试中，Claude Opus 仅用 37 秒即给出答案，速度极快但被测试者质疑为“幻觉”或“编造”。
- 这提示用户在使用第三方或公益提供的模型服务时，需警惕模型可能存在的降级、安全限制或输出质量下降问题。
满血状态的判定标准：真正的“满血”模型通常表现为较长的思考时间、较高的 Token 消耗以及准确的复杂逻辑输出，而非快速但可能错误的回答。

意义与影响

模型评估新维度：该测试提供了一种实用的“满血”验证思路，即通过高难度逻辑题和身份查询来评估模型的推理深度和诚实度，而非仅依赖基准测试分数。
用户警惕性提升：对比结果显示，即使是顶级模型如 Claude Opus，在不同部署环境（如公益站）下也可能出现性能异常或输出质量下降。用户在使用非官方渠道的模型服务时，应保持警惕，通过实际测试验证其真实能力。
DeepSeek 技术实力认可：DeepSeek V4 Pro 在长时间推理和高准确率上的表现，证明了其在复杂逻辑处理方面的强大能力，增强了用户对国产大模型技术实力的信心。
社区驱动的技术交流：LINUX DO 等社区用户通过分享测试方法和结果，促进了 AI 技术的透明化和用户间的经验交流，有助于形成更理性的模型使用生态。

查看原文 →linux.do

DeepSeek V4 Pro满血测试：耗时远超Claude Opus

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐