Agent SkillLINUX DO · AI·2 小时前

开发者吐槽DeepSeek V4 Pro开发能力不足反搞崩项目

原标题：Claude code+DeepSeek v4 pro知识管理还行，开发还是有些够呛，今天给我把正在开发的小工具改崩了，然后用codex修好了。

速览

有开发者分享使用DeepSeek V4 Pro进行小工具开发时，模型出现不遵循指令的情况，导致项目偏离方向甚至代码崩溃。尽管DeepSeek在知识管理领域表现优异，但在实际编码开发环节仍存在明显短板，最终需依赖Codex完成修复。该经历反映出当前国产大模型在复杂开发任务中的稳定性仍有提升空间。

AI 深度解读

背景

近期，国内 AI 开发者社区围绕大模型在软件开发与知识管理领域的实际表现展开讨论。一位来自 LINUX DO 社区的开发者分享了自己在使用不同 AI 编程助手（AI Coding Assistants）时的真实体验。该开发者正在开发一款小工具，初期使用 OpenAI 的 Codex 模型顺利完成了需求对接与开发工作。然而，由于额度限制，开发者转而尝试使用 Anthropic 的 Claude Code 结合 DeepSeek 的模型进行后续开发。这一切换导致了开发效率的下降和代码质量的波动，最终迫使开发者重新回归 Codex 以修复因 DeepSeek 模型介入而引发的严重 Bug。

核心内容

该帖子的核心内容围绕开发者在混合使用不同 AI 模型时的痛点展开，具体情节如下：

开发初期的顺利与转折：项目初期，开发者使用 Codex 进行需求对接，过程较为顺畅。但在额度耗尽后，为了继续开发，开发者切换到了 Claude Code 工作流，并底层调用 DeepSeek 的模型。
指令遵循与方向偏离：在切换至 Claude Code + DeepSeek 的组合后，开发者遇到了模型“不遵循指令”的问题。这导致开发过程偏离了既定方向，代码逻辑出现混乱，开发效率显著降低。
回归与修复：由于 DeepSeek 模型在开发环节的表现不佳，开发者最终换回 Codex 才将项目主体完成，此时项目状态已基本稳定。
突发 Bug 事件：在项目基本完成后，开发者尝试使用 DeepSeek v4 Pro 模型来修复剩余的 Bug 和小问题。然而，这次尝试导致了灾难性的后果——模型不仅未能修复问题，反而将原本正常的代码“改崩了”。最终，开发者不得不再次求助于 Codex 才成功修复了代码。
模型能力评估：基于此次经历，开发者得出结论：DeepSeek 模型在“知识管理”领域表现优异，兼具好用与低成本的优势；但在“软件开发/编码”领域，其稳定性与指令遵循能力仍存在明显短板。
竞品对比：开发者提到，智谱（Zhipu AI）发布了 GLM-5.2 模型，根据目前的测试反馈，该模型在国内开发类模型中表现最佳，被视为目前解决开发痛点的有效替代方案。

关键要点

模型分工差异：DeepSeek 在知识检索、整理及管理场景下表现突出，性价比高；但在复杂的代码生成、逻辑推理及指令遵循方面，尚不如 Codex 等模型稳定。
指令遵循的重要性：在编程场景中，模型对指令的严格遵循是保证代码逻辑正确性的关键。DeepSeek 出现的“不遵循指令”导致开发方向偏离，是造成项目受阻的主要原因之一。
回归稳定性：在 AI 辅助开发中，当模型出现不可控的错误（如将代码改崩）时，回归经过验证的稳定模型（如 Codex）往往是最高效的止损策略。
国内模型格局变化：智谱 GLM-5.2 的出现被视为国内开发类模型的新标杆，其测试表现优于 DeepSeek v4 Pro 等现有模型，显示出国内 AI 厂商在代码能力上的快速迭代与竞争加剧。
混合工作流的局限性：虽然混合使用不同模型（如 Claude Code 前端 + DeepSeek 后端）可能降低成本或提升特定环节体验，但在核心开发逻辑上，单一稳定模型往往比组合模型更可靠。

意义与影响

这一案例反映了当前 AI 编程助手在实际生产环境中的真实应用状态，具有以下几点重要意义：

揭示“知识管理”与“代码生成”的能力鸿沟：许多大模型在自然语言处理、信息提取等知识密集型任务上表现优异，但在需要严格逻辑、状态管理和语法规范的代码生成任务上仍存在显著差距。开发者需根据任务类型选择合适的模型，而非盲目追求单一模型的“全能”。
强调指令遵循（Instruction Following）在编程中的核心价值：AI 编程不仅仅是生成代码片段，更是理解并执行复杂的开发意图。模型对指令的偏离会导致严重的技术债务，甚至导致项目返工。因此，评估 AI 编程能力时，指令遵循的准确率应作为关键指标。
推动国内 AI 模型在开发领域的竞争升级：智谱 GLM-5.2 的提及表明，国内 AI 厂商正积极抢占代码生成这一高价值场景。随着 GLM-5.2 等模型的发布，DeepSeek 等原有头部模型在开发领域的优势可能受到挑战，这将促使厂商进一步优化模型在逻辑推理和代码稳定性方面的表现。
为开发者提供选型参考：对于预算有限但重视开发稳定性的团队，该案例提示应谨慎使用非原生编程优化的模型进行核心代码开发。在关键开发环节，优先选择经过大规模代码数据训练且指令遵循能力强的模型（如 Codex 或最新的 GLM-5.2），而在非核心的知识整理环节，可考虑使用更具性价比的模型（如 DeepSeek）。

查看原文 →linux.do

开发者吐槽DeepSeek V4 Pro开发能力不足反搞崩项目

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐