Agent SkillLINUX DO · AI·2026/5/3

CAISI评估：DeepSeek V4 Pro成中国最强模型，仍落后美国前沿约8个月

原标题：CAISI发布评估报告：DeepSeek V4 Pro成中国最强模型，但仍落后美国前沿水平约8个月

速览

人工智能标准与创新中心（CAISI）发布评估报告，认定DeepSeek V4 Pro为性能最强的中国AI模型。尽管该模型在数学和自然科学领域接近美国顶尖水平，且成本效益显著，但在抽象推理、软件工程及网络安全等复杂任务上仍落后于GPT-5.5等美国前沿模型约8个月。报告建议开发者根据任务复杂度选择模型，兼顾性价比与极致推理能力。

AI 深度解读

背景

人工智能标准与创新中心（CAISI）近期发布了一份针对开源人工智能模型 DeepSeek V4 Pro 的全面评估报告。该报告旨在客观衡量中国头部 AI 模型的技术实力及其在全球竞争格局中的位置。评估不仅关注模型的绝对性能得分，还深入考察了其在不同垂直领域的表现、成本效益以及与美国前沿模型（如 OpenAI 的 GPT 系列）之间的代差。此次评估采用了包括 IRT（项目反应理论）在内的多种量化方法，并引入了多个未受污染的独立基准测试，以排除数据污染带来的性能虚高现象。

核心内容

CAISI 对 DeepSeek V4 Pro 进行了多维度、深层次的测试，主要涵盖数学、自然科学、软件工程、抽象推理和网络安全五大领域。

1. 综合性能与代差评估 根据 CAISI 的 IRT 模型分析，DeepSeek V4 Pro 的综合 Elo 得分约为 800 分。这一水平被认为相当于美国约 8 个月前发布的 GPT-5 的性能。然而，相较于当前美国最前沿的模型，差距依然明显：

GPT-5.5：Elo 得分高达 1260。
GPT-5.4：Elo 得分为 1070。

尽管 DeepSeek 官方声称其性能已追平 GPT-5.4，但 CAISI 在非公开基准测试（如 ARC-AGI-2 半私有数据集、PortBench）中的结果显示，DeepSeek V4 在抽象推理和复杂软件工程任务上表现疲软，未能达到美国顶尖机型的水平。

2. 分领域详细测试数据 CAISI 在五个关键领域进行了深度测试，具体数据对比如下：

数学领域：DeepSeek V4 表现优异，接近美国顶尖水平。
- 在 OTIS-AIME-2025 基准测试中，DeepSeek V4 准确率为 97%，而 GPT-5.5 为 100%。
- 在 PUMaC 2024 中，两者持平，均为 96%。
- 在 SMT 2025 中，DeepSeek V4 为 96%，GPT-5.5 为 99%。
自然科学领域：表现良好，但在部分前沿科学任务上存在差距。
- 在 GPQA-Diamond 中，DeepSeek V4 准确率为 90%，GPT-5.5 为 96%。
- 在 FrontierScience 中，DeepSeek V4 为 79%，GPT-5.5 为 74%（此处 DeepSeek 略占优）。
软件工程领域：差距显著，尤其在代码移植和复杂工程任务上。
- 在 SWE-Bench Verified 中，DeepSeek V4 准确率为 74%，GPT-5.5 为 81%。
- 在 PortBench（CLI 工具移植测试）中，DeepSeek V4 仅为 44%，而 GPT-5.5 高达 78%。
抽象推理领域：表现较弱。
- 在 ARC-AGI-2（半私有数据集）中，DeepSeek V4 准确率为 46%，GPT-5.5 为 79%。
网络安全领域：差距最大。
- 在 CTF-Archive-Diamond 中，DeepSeek V4 准确率为 32%，GPT-5.5 为 71%。

3. 成本效益分析 在成本控制方面，DeepSeek V4 Pro 展现出显著优势。在与功能相近的美国模型 GPT-5.4 mini 对比中，DeepSeek 在七项基准测试中的五项均具有价格优势，成本降低幅度在 41% 至 53% 之间。

4. 评估方法论 为确保评估的公正性和真实性，CAISI 采取了以下严格措施：

独立基准测试：使用了 PortBench 和 CTF-Archive-Diamond 等独立且未受污染的基准测试，旨在排除模型在公开数据集上可能存在的记忆现象。
标准化推理配置：在云端 H200/B200 GPU 集群上进行测试，完全遵循开发者建议的系统提示和思考时间设置。
充足计算资源：针对 PortBench 等代理评估任务，赋予了高达 100 万加权代币的预算，以确保模型有足够的计算空间进行深度推理。

关键要点

中国最强模型：DeepSeek V4 Pro 被 CAISI 认定为迄今为止评估过的性能最强的中国 AI 模型。
存在代差：虽然 DeepSeek V4 Pro 表现卓越，但其综合能力相较于美国最前沿技术仍有约 8 个月的代差（相当于 GPT-5 水平，落后于 GPT-5.4 和 GPT-5.5）。
领域差异明显：
- 优势领域：数学和自然科学领域已非常接近美国顶尖水平，部分任务甚至持平或略优。
- 劣势领域：在涉及智能体能力（Agentic Capabilities）和抽象推理的任务中，差距显著。例如在 PortBench 和 ARC-AGI-2 测试中，得分远低于 GPT-5.5。
- 短板领域：网络安全任务表现最弱，准确率仅为 32%。
高性价比：在成本效益方面表现亮眼，相比同级别美国模型，成本可降低 41% 至 53%。
评估严谨性：通过非公开基准测试和严格的推理配置，排除了数据污染干扰，确保了评估结果的客观性。
开发者建议：
- 对于高性价比的数学或科学运算，DeepSeek V4 Pro 极具竞争力。
- 对于需要极端推理、自主能力和复杂软件工程的任务，美国前沿模型（如 GPT-5.5）仍是首选。

意义与影响

CAISI 的这份评估报告揭示了全球 AI 竞争格局的最新动态。尽管中国 AI 模型在成本控制和基础科学计算方面取得了长足进步，甚至在某些指标上具备国际竞争力，但在高阶认知能力、复杂工程自主执行以及前沿推理方面，与美国顶尖水平仍存在实质性差距。

这种“能力阶梯”的差距意味着，对于追求极致性能和高复杂度任务的企业和研究机构而言，美国前沿模型目前仍具有不可替代的优势。然而，DeepSeek V4 Pro 在成本效益上的突破，为开发者提供了一种极具吸引力的替代方案，特别是在对成本敏感且对推理复杂度要求中等的场景中。

随着 GPT-5.5 等更高阶模型的普及，全球 AI 领域的竞争将进一步加剧。对于中国 AI 行业而言，这份报告既是对现有成就的认可，也是对未来技术攻关方向的明确指引：即在保持成本优势的同时，亟需突破抽象推理和智能体自主能力等核心瓶颈，以缩小与全球最前沿技术的代差。

查看原文 →linux.do

CAISI评估：DeepSeek V4 Pro成中国最强模型，仍落后美国前沿约8个月

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐