← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

用户反馈GPT与Claude网页端性能劣于CLI工具

原标题:GPT Claude在网页端和CLI(claude code或codex)上的性能差异很大。

速览

有用户反馈在高强度使用GPT和Claude时发现,网页端模型存在输出冗余、幻觉频发及中文理解能力下降等问题。相比之下,在Codex和Claude Code等CLI环境中使用相同模型时,表现显著优于网页端。该现象引发社区讨论,质疑厂商是否在网页端故意降级模型或使用了抑制性能的提示词。

AI 深度解读

背景

近期,在 LINUX DO · AI 社区中,一位用户分享了关于高强度使用 OpenAI 和 Anthropic 旗下大模型时的实际体验差异。该用户主要对比了通过网页端(Web Interface)与命令行界面(CLI,具体为 Codex 和 Claude Code)调用模型时的表现。观察到的现象是,尽管底层模型版本相同,但在不同接入方式下,模型的输出质量、语言流畅度以及事实准确性存在显著差异,引发了关于平台策略或提示词工程差异的讨论。

核心内容

该分享者指出,在近期的高强度使用中,发现 OpenAI 的 GPT 系列和 Anthropic 的 Claude 系列模型在网页端与 CLI 工具(如 Codex 和 Claude Code)上的表现存在巨大鸿沟。

具体而言,在网页端使用时:

  1. GPT 系列:被描述为“完全不说人话”,且存在严重的冗余问题,废话过多,影响阅读效率。
  2. Claude 系列:表现分化。Claude 4.6 版本表现尚可;但 Claude 4.8 版本被指存在大量幻觉(Hallucinations),且同样“不说人话”。尽管 Claude 4.8 没有废话,但其中文处理能力似乎退化,连基本的中文表达都显得生疏或不准确。

然而,当在 CLI 环境中使用相同的模型版本时,体验截然不同:

  1. Codex 中使用 GPT 5.5,以及在 Claude Code 中使用 Opus 4.8,均没有出现网页端的问题。
  2. 用户认为 CLI 环境下的模型表现“没有任何问题”,且每一个版本的表现都比网页端好非常多。

基于这一对比,分享者提出了两种可能的解释:

  1. 平台策略差异:OpenAI 和 Anthropic 可能认为网页端主要用于非工作场景(如闲聊、轻度交互),因此分配了质量较低或经过特殊优化的模型;而 CLI 工具面向开发者和工作流,因此提供了更高质量、更稳定的模型版本。
  2. 提示词工程差异:网页端可能内置了某些导致模型“降智”的系统提示词(System Prompts),影响了模型的输出质量。

关键要点

  • 体验割裂:同一模型(如 GPT 5.5 和 Opus 4.8)在网页端与 CLI 工具(Codex/Claude Code)之间表现出巨大的性能落差。
  • 网页端痛点
    • GPT 在网页端被指废话多、表达不自然。
    • Claude 4.8 在网页端被指幻觉多、中文能力退化;Claude 4.6 相对正常。
  • CLI 端优势:在 Codex 和 Claude Code 中,相同模型版本表现稳定、准确,无明显废话或幻觉问题。
  • 潜在原因推测
    • 厂商可能对不同接入渠道采取了差异化的模型分配策略(网页端 vs. 开发者工具)。
    • 网页端可能应用了特定的系统提示词,导致模型行为异常(“降智”)。

意义与影响

这一现象揭示了当前大模型服务中一个常被忽视的问题:接入渠道对模型实际表现的显著影响

  1. 开发者体验优先:对于依赖 AI 进行高强度编码或专业工作的用户而言,CLI 工具(如 Claude Code、Codex)可能比网页端提供更可靠、更高效的体验。这提示开发者在关键工作流中应优先选择 API 或专用 CLI 工具,而非依赖通用网页界面。
  2. 模型版本与部署策略的透明度:用户普遍假设“同一模型名称”意味着“同一性能水平”,但实际情况可能更为复杂。厂商可能在不同渠道部署了不同温度参数、不同系统提示词甚至不同微调版本的模型。这种不透明性可能导致用户误判模型能力。
  3. 对网页端优化的警示:如果网页端确实因“非工作场景”定位而牺牲了模型质量,这可能影响普通用户的信任度和使用意愿。反之,如果仅是提示词问题,则说明厂商在通用界面的用户体验优化上可能存在疏漏,需要重新审视系统提示词的设计。
  4. 社区反馈的价值:此类来自一线高强度用户的反馈,有助于厂商识别不同使用场景下的模型缺陷,推动其在不同渠道上提供更一致、更高质量的服务。
查看原文 →linux.do