Agent SkillLINUX DO · AI·1 小时前

用户反馈GPT与Claude网页端性能劣于CLI工具

原标题：GPT Claude在网页端和CLI（claude code或codex）上的性能差异很大。

速览

有用户反馈在高强度使用GPT和Claude时发现，网页端模型存在输出冗余、幻觉频发及中文理解能力下降等问题。相比之下，在Codex和Claude Code等CLI环境中使用相同模型时，表现显著优于网页端。该现象引发社区讨论，质疑厂商是否在网页端故意降级模型或使用了抑制性能的提示词。

AI 深度解读

背景

近期，在 LINUX DO · AI 社区中，一位用户分享了关于高强度使用 OpenAI 和 Anthropic 旗下大模型时的实际体验差异。该用户主要对比了通过网页端（Web Interface）与命令行界面（CLI，具体为 Codex 和 Claude Code）调用模型时的表现。观察到的现象是，尽管底层模型版本相同，但在不同接入方式下，模型的输出质量、语言流畅度以及事实准确性存在显著差异，引发了关于平台策略或提示词工程差异的讨论。

核心内容

该分享者指出，在近期的高强度使用中，发现 OpenAI 的 GPT 系列和 Anthropic 的 Claude 系列模型在网页端与 CLI 工具（如 Codex 和 Claude Code）上的表现存在巨大鸿沟。

具体而言，在网页端使用时：

GPT 系列：被描述为“完全不说人话”，且存在严重的冗余问题，废话过多，影响阅读效率。
Claude 系列：表现分化。Claude 4.6 版本表现尚可；但 Claude 4.8 版本被指存在大量幻觉（Hallucinations），且同样“不说人话”。尽管 Claude 4.8 没有废话，但其中文处理能力似乎退化，连基本的中文表达都显得生疏或不准确。

然而，当在 CLI 环境中使用相同的模型版本时，体验截然不同：

在 Codex 中使用 GPT 5.5，以及在 Claude Code 中使用 Opus 4.8，均没有出现网页端的问题。
用户认为 CLI 环境下的模型表现“没有任何问题”，且每一个版本的表现都比网页端好非常多。

基于这一对比，分享者提出了两种可能的解释：

平台策略差异：OpenAI 和 Anthropic 可能认为网页端主要用于非工作场景（如闲聊、轻度交互），因此分配了质量较低或经过特殊优化的模型；而 CLI 工具面向开发者和工作流，因此提供了更高质量、更稳定的模型版本。
提示词工程差异：网页端可能内置了某些导致模型“降智”的系统提示词（System Prompts），影响了模型的输出质量。

关键要点

体验割裂：同一模型（如 GPT 5.5 和 Opus 4.8）在网页端与 CLI 工具（Codex/Claude Code）之间表现出巨大的性能落差。
网页端痛点：
- GPT 在网页端被指废话多、表达不自然。
- Claude 4.8 在网页端被指幻觉多、中文能力退化；Claude 4.6 相对正常。
CLI 端优势：在 Codex 和 Claude Code 中，相同模型版本表现稳定、准确，无明显废话或幻觉问题。
潜在原因推测：
- 厂商可能对不同接入渠道采取了差异化的模型分配策略（网页端 vs. 开发者工具）。
- 网页端可能应用了特定的系统提示词，导致模型行为异常（“降智”）。

意义与影响

这一现象揭示了当前大模型服务中一个常被忽视的问题：接入渠道对模型实际表现的显著影响。

开发者体验优先：对于依赖 AI 进行高强度编码或专业工作的用户而言，CLI 工具（如 Claude Code、Codex）可能比网页端提供更可靠、更高效的体验。这提示开发者在关键工作流中应优先选择 API 或专用 CLI 工具，而非依赖通用网页界面。
模型版本与部署策略的透明度：用户普遍假设“同一模型名称”意味着“同一性能水平”，但实际情况可能更为复杂。厂商可能在不同渠道部署了不同温度参数、不同系统提示词甚至不同微调版本的模型。这种不透明性可能导致用户误判模型能力。
对网页端优化的警示：如果网页端确实因“非工作场景”定位而牺牲了模型质量，这可能影响普通用户的信任度和使用意愿。反之，如果仅是提示词问题，则说明厂商在通用界面的用户体验优化上可能存在疏漏，需要重新审视系统提示词的设计。
社区反馈的价值：此类来自一线高强度用户的反馈，有助于厂商识别不同使用场景下的模型缺陷，推动其在不同渠道上提供更一致、更高质量的服务。

查看原文 →linux.do

用户反馈GPT与Claude网页端性能劣于CLI工具

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐