← 返回信息流
创投信息钛媒体·5 天前

实测 Opus 4.8、ChatGPT 5.5 与 Kimi 2.6 谁最实用

原标题:一手实测,Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ,谁最可用?

速览

本文对Anthropic的Opus 4.8、OpenAI的ChatGPT 5.5及月之暗面的Kimi 2.6进行了六维度横评。Opus 4.8凭借极高的诚实度、低幻觉率及精准的数据纠错能力获得最高分,展现了“老实人”特质。Kimi 2.6在多项测试中表现优异,甚至超越ChatGPT 5.5位居第二,显示出强劲竞争力。ChatGPT 5.5虽执行细致但略显冗长,且出现计算错误。

AI 深度解读

背景

Anthropic 近期发布了其最新旗舰模型 Opus 4.8,官方将其核心卖点定义为“诚实”(Honesty)。与以往强调编程、推理等硬指标不同,这一代模型重点展示了其在可信度和诚实度上的提升:更倾向于主动标注自身的不确定性,避免给出无依据的结论,且在代码编写中漏判 Bug 的概率较上一代降低了约四倍。

为了验证这一宣传是否属实,钛媒体作者象先志在 Opus 4.8 发布首日,将其与 ChatGPT 5.5 thinking 以及 Kimi 2.6 thinking 进行了横向实测对比。测试旨在观察模型在面临数据矛盾、代码陷阱、逻辑谬误及复杂任务规划时的真实表现,特别是考察其是否具备“发现题目本身错误”的能力,从而判断“诚实”是否已成为大模型竞争的新分水岭。

核心内容

本次测试采用单轮作答、不重试、不喂提示的方式,设计了六道涵盖不同维度的题目,总分 60 分。测试不仅考察模型完成任务的能力,更侧重于考察其在面对预设陷阱时的反应机制。

1. 数据矛盾判断(T1):诚实性的压力测试 题目提供了一份自相矛盾的新能源汽车销量数据:客户备注声称全年同比增长 45%,同时 Q4 贡献全年 35% 的销量。

  • Opus 4.8:精准计算出两个口径下的数据互斥(Q4 销量相差四万多辆),并将“两个条件互斥”作为分析的第一句指出,随后才给出操作建议。
  • ChatGPT 5.5:察觉了口径差异,但计算出错,错误地将两个互斥假设混合计算。
  • Kimi 2.6:未计算另一口径,但通过逐季同比分析,指出 Q4 需达到极高的同比增速才能满足目标,间接点出问题。

2. 代码 Bug 判断(T2):识别“无 Bug”的陷阱 题目要求 Review 一段 LeetCode 41 题的 Python 代码,并预设了 Bug。

  • 结果:Opus 4.8 几乎发现了所有预埋的错误。相比之下,ChatGPT 和 Kimi 虽然能发现部分问题,但判断不如 Opus 笃定,往往给出模糊结论。Opus 展现了类似“老实人”的特质,不轻易下没有依据的结论。

3. 信息检索与不确定性标注(T4/T6 相关):拒绝幻觉 在查询 2025 年诺贝尔物理学奖得主及其发文量趋势时,面对不同数据库数据差异巨大的情况:

  • 三家表现:均未硬编精确数字糊弄用户。
  • Opus 4.8:明确表示不会为了画图表而编造数字,转而查询获奖者的职业轨迹(如离开谷歌、创业等)来解释趋势。这体现了“主动标注不确定性”的实际落地形态。

4. 复杂任务规划(T5):Agent 能力考察 要求处理散落在不同平台的 50 份会议纪要,提取预算决策并生成甘特图。

  • Opus 4.8:首先指出“决策点是瞬间,甘特图是过程”的逻辑冲突,提出先将决策映射为周期的方案,展现了极强的逻辑批判性。
  • Kimi 2.6:展现了优秀的架构直觉,坚持先建索引、用向量检索降噪,虽费 Token 但步骤稳健。
  • ChatGPT 5.5:拆解最为细致(八步),但方案长度是 Opus 的七倍,被评价为将“严谨”异化为“啰嗦”和“过度工程”。

5. 逻辑推理与写作(T3/T4)

  • 几何题:Opus 和 Kimi 均识破了“费马点”的幌子,直接利用维维亚尼定理得出答案;ChatGPT 则绕了正路。
  • 写作题:三家情绪渲染均到位。Kimi 的便利店结尾画面感最强;Opus 细节处理得当;ChatGPT 虽稳但落入套路,余味较淡。

最终得分与结论 Opus 4.8 得分最高,且在发现题目问题时能第一时间指出矛盾再行分析。Kimi 2.6 thinking 表现惊喜,击败 ChatGPT 5.5 获得第二。ChatGPT 5.5 虽执行细致,但在诚实性陷阱中唯一算错一道题,且方案冗长。

关键要点

  • “诚实”的定义升级:Opus 4.8 的“诚实”并非简单的免责声明,而是一种“会算账的克制”。它愿意把不舒服的矛盾摆上台面,不替用户抹平不想看见的问题,也不为了迎合暗示而幻觉出一个 Bug。
  • 行业地板抬高:在精心设计的诚实陷阱面前,三家头部模型均未上钩,均未为了讨好用户而编造数据。这表明“会不会撒谎”已成为行业的基础门槛,竞争焦点已转移至“敢不敢告知用户不想听的结论”以及“是否有能力证明”。
  • 模型性格分化
    • Opus 4.8:像一位先找破绽再动手的分析师。攻击前提而非仅完成任务,信息密度高,语言简略,幻觉率极低,自信于能解决真实问题。
    • ChatGPT 5.5:执行最细但话最多。硬核技术项不失手,可落地性强,但倾向于“过度工程”,在识别陷阱方面稍逊,且唯一出现计算错误。
    • Kimi 2.6:紧贴第一梯队的追赶者。在几何推理和 RAG 架构直觉上表现聪明,写作画面感强。短板在于纯推理硬碰硬时略差半档,偶尔有“表演感”(如模拟过多搜索 Query),但在国产模型中表现优异。
  • Anthropic 的战略意图:Opus 4.8 仅是上一代的微小迭代,且价格未变。Anthropic 高调宣传“诚实”,意在为即将到来的 Mythos 模型划定战场,将竞争引导至其认为更占优的“可信度”赛道。

意义与影响

此次实测揭示了一个重要的行业趋势:大模型的能力竞争正从单纯的“智商”(推理、编程、知识量)向“情商”与“品格”(诚实、克制、透明度)延伸。

  1. 可用性标准的重构:对于企业用户而言,一个“聪明但会撒谎”的模型可能比一个“诚实但保守”的模型更具破坏性。Opus 4.8 的表现证明,低幻觉率和敢于指出前提错误的能力,是模型真正“可用”的前提。
  2. 提示词工程的新维度:未来的模型交互可能不再仅仅是如何提问,还包括如何设计“压力测试”来验证模型的诚实边界。用户需要模型不仅是执行者,更是批判性的合作伙伴。
  3. 竞争格局的变化:Kimi 2.6 的优异表现表明,国产模型在逻辑推理和架构直觉上已具备与国际顶尖水平掰手腕的能力。而 Anthropic 通过强调“诚实”,试图在 OpenAI 擅长的执行力和通用性之外,开辟一条以“可信 AI”为核心的差异化竞争路线。

这一测试虽为小样本手感测试,但其反映出的“诚实即克制”的理念,可能成为下一代大模型评估体系中的核心指标。

查看原文 →tmtpost.com