CAISI评估:DeepSeek V4 Pro成中国最强模型,仍落后美国前沿约8个月
速览
人工智能标准与创新中心(CAISI)发布评估报告,认定DeepSeek V4 Pro为性能最强的中国AI模型。尽管该模型在数学和自然科学领域接近美国顶尖水平,且成本效益显著,但在抽象推理、软件工程及网络安全等复杂任务上仍落后于GPT-5.5等美国前沿模型约8个月。报告建议开发者根据任务复杂度选择模型,兼顾性价比与极致推理能力。
AI 深度解读
背景
人工智能标准与创新中心(CAISI)近期发布了一份针对开源人工智能模型 DeepSeek V4 Pro 的全面评估报告。该报告旨在客观衡量中国头部 AI 模型的技术实力及其在全球竞争格局中的位置。评估不仅关注模型的绝对性能得分,还深入考察了其在不同垂直领域的表现、成本效益以及与美国前沿模型(如 OpenAI 的 GPT 系列)之间的代差。此次评估采用了包括 IRT(项目反应理论)在内的多种量化方法,并引入了多个未受污染的独立基准测试,以排除数据污染带来的性能虚高现象。
核心内容
CAISI 对 DeepSeek V4 Pro 进行了多维度、深层次的测试,主要涵盖数学、自然科学、软件工程、抽象推理和网络安全五大领域。
1. 综合性能与代差评估 根据 CAISI 的 IRT 模型分析,DeepSeek V4 Pro 的综合 Elo 得分约为 800 分。这一水平被认为相当于美国约 8 个月前发布的 GPT-5 的性能。然而,相较于当前美国最前沿的模型,差距依然明显:
- GPT-5.5:Elo 得分高达 1260。
- GPT-5.4:Elo 得分为 1070。
尽管 DeepSeek 官方声称其性能已追平 GPT-5.4,但 CAISI 在非公开基准测试(如 ARC-AGI-2 半私有数据集、PortBench)中的结果显示,DeepSeek V4 在抽象推理和复杂软件工程任务上表现疲软,未能达到美国顶尖机型的水平。
2. 分领域详细测试数据 CAISI 在五个关键领域进行了深度测试,具体数据对比如下:
-
数学领域:DeepSeek V4 表现优异,接近美国顶尖水平。
- 在 OTIS-AIME-2025 基准测试中,DeepSeek V4 准确率为 97%,而 GPT-5.5 为 100%。
- 在 PUMaC 2024 中,两者持平,均为 96%。
- 在 SMT 2025 中,DeepSeek V4 为 96%,GPT-5.5 为 99%。
-
自然科学领域:表现良好,但在部分前沿科学任务上存在差距。
- 在 GPQA-Diamond 中,DeepSeek V4 准确率为 90%,GPT-5.5 为 96%。
- 在 FrontierScience 中,DeepSeek V4 为 79%,GPT-5.5 为 74%(此处 DeepSeek 略占优)。
-
软件工程领域:差距显著,尤其在代码移植和复杂工程任务上。
- 在 SWE-Bench Verified 中,DeepSeek V4 准确率为 74%,GPT-5.5 为 81%。
- 在 PortBench(CLI 工具移植测试)中,DeepSeek V4 仅为 44%,而 GPT-5.5 高达 78%。
-
抽象推理领域:表现较弱。
- 在 ARC-AGI-2(半私有数据集)中,DeepSeek V4 准确率为 46%,GPT-5.5 为 79%。
-
网络安全领域:差距最大。
- 在 CTF-Archive-Diamond 中,DeepSeek V4 准确率为 32%,GPT-5.5 为 71%。
3. 成本效益分析 在成本控制方面,DeepSeek V4 Pro 展现出显著优势。在与功能相近的美国模型 GPT-5.4 mini 对比中,DeepSeek 在七项基准测试中的五项均具有价格优势,成本降低幅度在 41% 至 53% 之间。
4. 评估方法论 为确保评估的公正性和真实性,CAISI 采取了以下严格措施:
- 独立基准测试:使用了 PortBench 和 CTF-Archive-Diamond 等独立且未受污染的基准测试,旨在排除模型在公开数据集上可能存在的记忆现象。
- 标准化推理配置:在云端 H200/B200 GPU 集群上进行测试,完全遵循开发者建议的系统提示和思考时间设置。
- 充足计算资源:针对 PortBench 等代理评估任务,赋予了高达 100 万加权代币的预算,以确保模型有足够的计算空间进行深度推理。
关键要点
- 中国最强模型:DeepSeek V4 Pro 被 CAISI 认定为迄今为止评估过的性能最强的中国 AI 模型。
- 存在代差:虽然 DeepSeek V4 Pro 表现卓越,但其综合能力相较于美国最前沿技术仍有约 8 个月的代差(相当于 GPT-5 水平,落后于 GPT-5.4 和 GPT-5.5)。
- 领域差异明显:
- 优势领域:数学和自然科学领域已非常接近美国顶尖水平,部分任务甚至持平或略优。
- 劣势领域:在涉及智能体能力(Agentic Capabilities)和抽象推理的任务中,差距显著。例如在 PortBench 和 ARC-AGI-2 测试中,得分远低于 GPT-5.5。
- 短板领域:网络安全任务表现最弱,准确率仅为 32%。
- 高性价比:在成本效益方面表现亮眼,相比同级别美国模型,成本可降低 41% 至 53%。
- 评估严谨性:通过非公开基准测试和严格的推理配置,排除了数据污染干扰,确保了评估结果的客观性。
- 开发者建议:
- 对于高性价比的数学或科学运算,DeepSeek V4 Pro 极具竞争力。
- 对于需要极端推理、自主能力和复杂软件工程的任务,美国前沿模型(如 GPT-5.5)仍是首选。
意义与影响
CAISI 的这份评估报告揭示了全球 AI 竞争格局的最新动态。尽管中国 AI 模型在成本控制和基础科学计算方面取得了长足进步,甚至在某些指标上具备国际竞争力,但在高阶认知能力、复杂工程自主执行以及前沿推理方面,与美国顶尖水平仍存在实质性差距。
这种“能力阶梯”的差距意味着,对于追求极致性能和高复杂度任务的企业和研究机构而言,美国前沿模型目前仍具有不可替代的优势。然而,DeepSeek V4 Pro 在成本效益上的突破,为开发者提供了一种极具吸引力的替代方案,特别是在对成本敏感且对推理复杂度要求中等的场景中。
随着 GPT-5.5 等更高阶模型的普及,全球 AI 领域的竞争将进一步加剧。对于中国 AI 行业而言,这份报告既是对现有成就的认可,也是对未来技术攻关方向的明确指引:即在保持成本优势的同时,亟需突破抽象推理和智能体自主能力等核心瓶颈,以缩小与全球最前沿技术的代差。
