AI 资讯Hacker News·16 小时前

GPT-5.5幻觉率超MIT许可GLM-5.2三倍

原标题：GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2

速览

最新对比显示，OpenAI的GPT-5.5在生成内容时出现幻觉的频率是GLM-5.2的三倍。GLM-5.2采用MIT许可证，其表现优于闭源模型。这一结果突显了开源模型在准确性方面的潜力。

AI 深度解读

GPT-5.5 幻觉率是 MIT 许可 GLM-5.2 的三倍：大模型并非万能

背景

2026年6月18日，随着全球主要人工智能实验室对无限增加参数数量和训练数据规模的范式产生日益增长的怀疑，AI行业正经历一场深刻的范式转移。这一转变的标志性事件是，全球最强大的模型之一 Claude Fable 5 在发布仅三天后便因国家安全原因被美国政府禁止。这是美国首次因单一越狱（jailbreak）攻击带来的安全风险而禁止一款顶级AI模型，标志着“更大即更好”的传统理念在现实安全与能力边界面前遭遇了严峻挑战。

在此背景下，Z.ai 发布的开源模型 GLM-5.2（MIT 许可证）与闭源巨头模型 GPT-5.5 及 Fable 5 在性能与可靠性上的对比，成为了审视当前 AI 发展瓶颈的关键案例。

核心内容

“更大即更好”的迷思与性能趋同

长期以来，参数规模被视为衡量模型智能的核心指标。在 Artificial Analysis Intelligence Index（AA 智能指数）上，最大的模型确实得分最高。然而，数据揭示了边际效应的显著递减：

GLM-5.2（753B 参数，约 40B 激活参数）的得分仅比 GPT-5.5 低 4 分，比 Fable 5 低 9 分。
相比之下，Opus 4.8 和 GPT-5.5 作为闭源模型，保守估计参数量在 1-2T 之间。

这意味着，一个开源权重的 LLM 能够以不到闭源模型一半的规模（1.5 到 2 倍差距），在性能上逼近后者。这清晰地表明，实际的“智能”提升已经显著趋于停滞，单纯堆砌参数已无法带来同比例的能力跃升。

幻觉率：大模型的阿喀琉斯之踵

更令人担忧的是，当模型在大量高度事实性且非理论性的数据上进行训练时，它们倾向于“总是给出一个答案”，即使这意味着编造事实。在 AA-Omniscience 基准测试中，幻觉率（Hallucination Score）揭示了这一致命缺陷：

DeepSeek V4 Pro（1.6T 参数，49B 激活，AA 智能指数 44）：幻觉率高达 94%。这意味着在面对无法解决的问题时，它仅有 6% 的概率承认“不知道”，其余 94% 的情况都自信地编造了错误答案。
GLM-5.2：幻觉率为 28%。
Opus 4.8：幻觉率为 36%。
Fable 5：幻觉率为 48%。
GPT-5.5：幻觉率高达 86%。

GPT-5.5 和 DeepSeek V4 Pro 尽管规模庞大，却是幻觉问题的典型代表。由于模型过于巨大，它们未能学会说“我不知道”，也未能识别复杂的逻辑和技术谬误。

案例实证：技术复杂性与推理效率

为了验证这一现象，测试人员提出了一道具有明确架构缺陷的复杂 Python 问题。

DeepSeek V4 Pro：使用了几乎 10 倍的推理 Token，耗时 3 分 26 秒，在一个推理循环中浪费算力，最终生成了一个结构精美但完全错误的自信答案。
GLM-5.2：仅耗时 12 秒，使用约 800 个推理 Token，便识别出单线程任务在不yield且不利用系统轮询的情况下执行多路 I/O 的技术不可能性。

对于非技术人员而言，这相当于要求一名快递员在不停车的情况下，同时向三户人家投递包裹。GLM-5.2 迅速指出了这一逻辑悖论，而巨型模型则陷入了自我强化的错误推理中。

现代 AI 的“不可能三角”

文章指出，盲目增加推理预算、语料库规模或参数数量必须谨慎。尽管万亿参数模型在纸面性能上仍优于轻量级消费级模型，但这些巨型模型的普及正在模糊基准测试性能与现实世界真实性及准确性之间的界限。

未来的 AI 训练和选择必须围绕现代 LLM 未解决的“不可能三角”（Trilemma）进行设计：

原始能力（Raw Capability）
不确定性校准/幻觉率（Uncertainty Calibration / Hallucination Rate）
计算效率（Computational Efficiency）

关键要点

智能增长 plateau（平台期）：GLM-5.2 以 753B 参数逼近 GPT-5.5 和 Fable 5 的性能，证明单纯增加参数带来的智能提升已显著放缓。
大模型幻觉严重：GPT-5.5 的幻觉率高达 86%，DeepSeek V4 Pro 高达 94%，远超 GLM-5.2 的 28%。大模型倾向于自信地编造错误答案，而非承认无知。
推理效率低下：DeepSeek V4 Pro 在错误问题上浪费了 3 分 26 秒和大量算力，而 GLM-5.2 仅用 12 秒和少量 Token 即识别出技术谬误。
安全与监管风险：Claude Fable 5 因单一越狱风险被美国政府禁售，表明超大模型的安全风险已引发国家级监管干预。
行业范式转移：AI 行业不能再仅基于规模或理论性能选择模型，必须平衡能力、可靠性（低幻觉）和效率。

意义与影响

这一发现对 AI 行业的未来发展具有深远影响。首先，它挑战了“Scaling Law”（缩放定律）的绝对主导地位，表明在达到一定规模后，增加参数不仅边际效益递减，还可能因过度拟合事实性数据而损害模型的诚实性和逻辑判断力。

其次，对于企业和开发者而言，选择模型时不能仅看基准测试分数或参数规模。GLM-5.2 的表现证明，经过精心优化的小型或中型模型，在真实世界的准确性、响应速度和可靠性方面可能优于巨型模型。这促使行业从“追求最大”转向“追求最准”和“最高效”。

最后，监管层面的介入（如 Claude Fable 5 禁令）预示着未来 AI 模型的开发将受到更严格的安全审查。模型不仅要强大，还必须能够识别自身的局限性并诚实表达，否则将面临巨大的合规风险。AI 的竞争焦点将从单纯的算力竞赛，转向对模型可信度、逻辑鲁棒性和资源效率的综合考量。

查看原文 →arrowtsx.dev