AI 资讯雷峰网·4 天前

DeepSeek V4实测：榜单第九但中文语境理解顶尖

原标题：排名第九、国内第二，DeepSeek V4 凭什么让人又爱又恨？

速览

DeepSeek V4虽在Vals AI榜单中位列全球第九，引发部分开发者失望，但实测发现其在中文特有场景下表现优异。模型在古诗词深层理解、法律法规零幻觉引用及中文网络梗解析上展现出顶尖水平，但也存在对不存在梗瞎编的问题。这表明V4虽无V3般的震撼，却是DeepSeek最重要的作品之一。

AI 深度解读

排名第九、国内第二，DeepSeek V4 凭什么让人又爱又恨？

背景

DeepSeek V3 发布时曾引发巨大轰动，被部分开发者视为对 OpenAI 等闭源巨头的有力挑战，甚至有人将其跑分截图设为手机壁纸。然而，当 DeepSeek V4 于 4 月 24 日推出时，舆论反应却相对平淡，甚至出现“就这”、“还行”的失望声音。

Vals AI 的测评数据显示，DeepSeek V4 在全球排名第九，国内仅次于 Kimi K2.6，排在 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 等闭源模型之后。DeepSeek 官方也承认，其在 Agentic Coding（智能体编程）方面与 Opus 4.6 的思考模式仍有差距，世界知识也不如 Gemini。

然而，这种基于通用基准测试的排名是否完全适用于中国开发者？雷峰网指出，现有的国际测评往往侧重于美国律师资格考试、英国金融合规题或英文编程竞赛，而忽略了中文古诗词理解、中国法律法规引用、中文网络梗解读以及公文写作等具有鲜明“中国特色”的场景。为了更真实地评估 V4 的能力，文章设计了一套包含五大中国特色场景及完整开发工作流的实测方案，旨在重新衡量 V4 在真实业务流中的表现。

核心内容

中国特色场景实测：从“背答案”到“懂语境”

为了验证 V4 是否真正理解中文语境，测试涵盖了古诗词、法律法规、网络梗和翻译四个维度，并邀请 Opus 4.7 作为裁判模型进行评分。

1. 古诗词深层理解：超越教科书 在李商隐《无题》的测试中，V4 不仅准确指出了“丝”的谐音（思）和蚕丝含义，还提出了教科书未提及的“生命之质”层次，认为其象征生命力与精神灵魂的耗尽过程。当被问及将原句改为“思方尽”时，V4 指出这会导致诗意从“立体的诗歌建筑”坍缩为“单薄的陈述句”。在杜甫“国破山河在”的解读中，V4 将“国破”与“山河在”之间的对比解读为“情感裂谷”，并给出了“你失去了整个世界，而世界若无其事”的深刻洞察。Opus 4.7 评委给予满分评价，认为其表达极具个人体悟，超越了教科书式的解读。

2. 法律法规引用：零幻觉与负责任 在法律领域，最大的风险是模型“一本正经地胡说八道”。测试中，V4 面对《网络数据安全管理条例》第 38 条并不存在的“第三款”陷阱，没有编造内容，而是明确指出该条款仅有两款，并主动梳理了真正相关的条款（第 26、36、19、21 条）及其适用情形。这种“负责任的不知道”在法律落地场景中极为珍贵。在其余四道测试题中，V4 引用的法条均经人工核对为真实存在，实现了零幻觉。

3. 中文网络梗与亚文化：懂梗但会瞎编 V4 对“遥遥领先”的符号演变分析精准，追溯至余承东和华为 Mate 60 发布，并归纳了真诚、调侃、讽刺三种语气。对于 B 站弹幕如“梦开始的地方”等，V4 能标注字面意思、实际用法及观众心理。在职场对话分析中，V4 能逐字拆解“你这次方案做得也挺好的呀……”背后的敷衍、委婉拒绝及切断沟通的信号，并给出直白翻译，展现了极高的语言策略洞察力。然而，V4 也存在缺陷。面对虚构的梗“电子呕吐”，V4 洋洋洒洒写了一千多字的深度解析，编造了来源和用法，暴露了其自信瞎编的问题。正确的做法应是承认不了解并建议提供上下文。

4. 翻译：语境敏感与韵律重构 在政策术语翻译中，V4 不仅使用了“新质生产力”的官方译法 “new quality productive forces”，还解释了其四层政策含义。对于“绿水青山就是金山银山”，V4 能根据场景切换译法：官方文件使用抽象化的 “Lucid waters and lush mountains are invaluable assets”，而景区宣传牌则保留具象比喻 “Green hills and clear waters are the real gold and silver”。在处理“做大做强做优国有资本”的排比句时，V4 选用三个以 -er 结尾的比较级形容词（bigger, stronger, better），在英文中重现了中文排比的韵律美和气势。

开发工作流实测：代码能力溢出的“赛博同事”

测试将 V4 置于从数据库设计到代码编写、Bug 诊断、文档生成及智能体任务的完整开发周期中，由 Opus 4.7 从可运行性、可读性、可维护性三个工程指标进行评估。

1. 数据库设计与代码生成：工业级水准 在设计支持全职、兼职、外包员工的工资系统数据库时，V4 使用 PostgreSQL DDL，通过字典表 employee_types 和 salary_items 实现优雅抽象，避免了硬编码。Opus 4.7 评委给出可运行性、可读性、可维护性全 5 分的评价。在 Python 核心逻辑实现中，V4 采用抽象基类 + 子类继承架构，严格遵循累计预扣法，维护 YTDData 数据结构，并处理了公积金比例越界、累计税负兜底、浮点数精度等边界条件。仅在 Excel 导出部分因部分硬编码导致可维护性扣 1 分。

2. Bug 诊断：法医级别的审查深度 面对“个税总是偏高”的问题，V4 不仅指出了未扣除“专项附加扣除”这一核心错误，还额外列出了五项潜在问题，包括负数应纳税所得额处理、社保基数简化、未使用累计预扣法、浮点数精度及闲置变量等。这种深度远超简单的代码修复，达到了代码审查（Code Review）的水平。

3. 文档与智能体：高质量交付 在生成 README、API 文档和技术方案说明时，V4 获得了 5, 5, 4 的成绩。文档结构清晰，API 文档提供了完整的输入输出样例，有助于新人快速上手。在智能体任务中，V4 对具身智能行业动态进行信息提取、表格整理及趋势总结，得分在任务分解、任务完成度、状态管理上均为 5 分。其生成的趋势总结既有具体数据（如加速进化获近 10 亿元融资），又有结构性观察（如清华系、中科大系团队的优势），展现了深度洞察。

综合来看，V4 在代码生成/诊断类任务中得分约 4.8 分，达到顶尖水平；文档/智能体类任务得分约 4.3 分。它被描绘为一个“技术能力强到溢出的工程天才”，适合将明确需求拆解为子任务后交付使用。

成本与性价比分析

在 Agent 应用按 Input:Output 10:1 比例，日消耗 100 万输入 token、10 万输出 token 的假设下：

V4 Pro：月成本约为 Kimi K2.6 的三分之一，GLM 5.1 的一半。目前享有 75% 折扣，延续至 2026 年 5 月 31 日。
V4 Flash：性能接近 Pro，但推理成本极低，月成本仅 $504，约为 Kimi 的八分之一，GLM 的六分之一。

尽管 Pro 版本受限于高端算力，吞吐有限，但 V4 Pro 是目前最便宜的顶级模型。对于用量大的开发者，其性价比几乎没有对手。

关键要点

测评视角的转换：国际通用基准测试（如 Vals AI）可能无法完全反映模型在中国本土场景（如古诗词、中国法律、网络梗、公文）的能力，需结合本土化场景重新评估。
中文语境理解顶尖：DeepSeek V4 在中文古诗词深层理解、法律引用（零幻觉）、以及复杂

查看原文 →leiphone.com