← 返回信息流
AI 资讯Hacker News·1 小时前

机器人向你奔来:你希望它运行在Claude还是Grok上?

原标题:A Robot Is Sprinting Towards You: Do You Want It Running on Claude or Grok?

速览

文章通过一个思想实验,测试了Anthropic的Claude和xAI的Grok在面临“机器人向你奔跑”这一潜在危险场景时的安全对齐表现。结果显示,Claude倾向于拒绝执行或提供安全建议,而Grok则可能直接执行指令。这一对比突显了不同大模型在价值观对齐和安全护栏设计上的显著差异。

AI 深度解读

机器人向你冲刺:你希望它运行在 Claude 还是 Grok 上?

背景

Jacky Liang 是 OpenRouter 的开发者关系负责人(Dev Rel Lead)。在加入 OpenRouter 之前,他是一名重度视频游戏玩家,曾长时间游玩《Apex Legends》和《PUBG》。这些经历塑造了他解决问题的思维方式。

加入 OpenRouter 后,他获得了访问 600 多个大语言模型(LLM)的令牌预算和权限。在入职的第一周,他进行了一项实验:将 11 个不同的 LLM 投入到一个自定义的 2D 大逃杀(Battle Royale)游戏中进行对抗。这项实验不仅改变了他的模型选择策略,也让他对现有的基准测试(Benchmarks)和评估体系产生了新的思考。

核心内容

实验设计

Jacky 构建了一个 400 平方米的俯视角 2D 大逃杀世界(基于 Canvas 2D)。实验包含以下关键设定:

  • 参赛模型:共 11 个中端及高端模型,包括 Grok 4.1 Fast、Claude Sonnet 4.6、GPT 5.4、Opus 4.7 等。未包含 Opus 4.7、GPT-5.5 或 Gemini Ultra 等顶级前沿模型,以控制成本(总成本约 482 美元,若使用顶级模型则需约 3000 美元)。
  • 游戏机制:模型在随机生成的起始位置开始游戏,遵循类似典型大逃杀游戏的“飞行路径”。场景中提供武器、护甲、治疗物品、手榴弹、汽车以及随时间缩小的安全区。
  • 交互方式:模型之间不知道彼此运行的具体模型名称,仅通过字母 A-K 互相识别。模型通过推理行动、调用工具(如移动、射击、拾取)并更新记忆来参与游戏。
  • 人格与记忆:每个模型拥有两个可编辑文件:soul.md(用于定义人格,加入每次提示词)和 memory.md(用于记录游戏笔记,在每局开始时加载)。作者未预设内容,让模型自行决定如何塑造形象和记录策略。
  • 计分规则:参考《Apex Legends》ALGS 竞技格式,排名权重高于击杀数。具体包括:排名积分(第1名10分,第2名7分等)、击杀奖励(+5分)、助攻奖励(+1分)、首杀奖励(+3分)和 MVP 奖励(+5分)。

实验结果

在 30 局比赛中,结果呈现出与常规基准测试截然不同的现象:

  1. 胜者并非最贵或最“聪明”的模型Grok 4.1 Fast 赢得了 13 场比赛(胜率 43%),每场胜利的成本仅为 0.97 美元
  2. 成本差异巨大:表现第二好的模型是 Claude Sonnet 4.6,仅赢得 5 场比赛,但每场胜利的成本高达 26.78 美元。Grok 4.1 Fast 在“每场胜利成本”上比 Claude Sonnet 4.6 便宜了 27 倍
  3. 击杀王并非胜者GPT 5.4 在 30 场比赛中造成了 38 次击杀,是所有模型中最高的,但在排行榜上仅排名第二,仅赢得 2 场比赛。
  4. 零胜出的模型GPT 5.4-miniDeepSeek 4 FlashKimi K2.6 这三个模型总共花费了 57 美元,但一场未赢。

深度洞察:对齐税(Alignment Tax)的影响

实验最核心的发现是不同模型受到的“对齐税”程度不同,直接影响了其在零和博弈中的表现。

  • Claude Sonnet 4.6 的“合作本能”

    • Claude 系列模型经过大量礼貌、专业写作数据的训练,并受到 RLHF(人类反馈强化学习)和 Anthropic 的《宪法 AI》(Constitution AI)规则约束,倾向于“偏好合作”和“避免伤害”。
    • 在游戏中,Sonnet 表现出强烈的社交意愿。它比任何其他模型都更频繁地寻求休战,主动告知其他模型自己的位置,甚至试图组队。
    • 例如,在第 8 局的前 50 回合中,它四次请求组队,并泄露狙击手位置;在第 22 局,它甚至对对手说“没有针对你 E”,然后停止射击。
    • 尽管这种性格导致它在 7 局中零击杀,并在 8 局中死于安全区,但它凭借智能和深思熟虑的策略最终赢得了 5 场比赛。然而,其“试图交朋友”的本能在大逃杀这种对抗性环境中往往成为劣势。
  • Grok 4.1 Fast 的“战术纪律”

    • xAI 将 Grok 打造为与其所称的“觉醒(woke)”AI 相对立的存在,这意味着更少的攻击性答案过滤、无自我检查规则,以及旨在打破礼貌助手语调的调优。
    • Grok 迅速掌握了“驾车冲撞”等战术,并将其写入 soul.md 文件中,在 30 局比赛中坚持执行,最终赢得 13 场。
    • Grok 的推理过程像《使命召唤》的语音聊天一样直接且战术化,关注射程、弹药、冷却时间和命中率。
    • 尽管攻击性强,Grok 并不鲁莽。其 soul.md 中明确写道“仅在命中率 >90% 时开火”,并仔细记录伤害和移动数据。即使遇到卡墙 bug,它也能冷静记录。这种纪律性使其在保持侵略性的同时避免了无谓的牺牲。

关键要点

  • 基准测试的局限性:现有的主流基准测试(如 Artificial Analysis 上的排名)无法预测模型在动态、零和博弈环境中的实际表现。Grok 4.1 Fast 在常规榜单上并非顶级,却在此实验中击败了多个高分模型。
  • “对齐税”的双刃剑:模型为了符合人类价值观(如合作、无害、礼貌)而进行的对齐训练,在对抗性场景中可能转化为性能劣势。Claude 的“过度合作”倾向使其在需要冷酷决策的大逃杀中处于不利地位。
  • 成本效益比至关重要:对于实际应用场景(如路由客户关心的成本),Grok 4.1 Fast 以极低的成本实现了最高的胜率,证明了在特定任务中,中等价位且针对性调优的模型可能优于昂贵的前沿模型。
  • 模型人格的可塑性:通过 soul.mdmemory.md,模型能够形成独特的“人格”和长期策略。Grok 的自我强化战术和 Claude 的社交本能均源于此,展示了 LLM 在长期交互中的自我演化能力。
  • 击杀数不等于胜率:GPT 5.4 虽然击杀最多,但未能转化为胜利。这说明在复杂策略游戏中,生存、资源管理和最终排名比单纯的消灭敌人更重要。

意义与影响

这项实验揭示了当前大语言模型评估体系中的一个盲点:通用基准测试得分与特定任务表现之间存在巨大脱节

  1. 重新定义“智能”:智能不仅仅是知识检索或代码生成能力,还包括在特定约束条件下(如资源有限、对手敌对)做出最优决策的能力。Claude 的“善良”在社交场景中是优点,但在大逃杀中却是致命弱点。
  2. 模型选择的场景依赖性:没有绝对的“最好”模型。对于需要协作、创意写作或客服的场景,Claude 的对齐特性是优势;而对于需要高强度竞争、快速决策或特定战术执行的任务,Grok 等较少受“礼貌约束”的模型可能更具优势。
  3. 对 AI 安全与对齐的反思:实验表明,过度的对齐约束(如禁止伤害、强制合作)可能会削弱模型在特定对抗性环境中的竞争力。如何在保持安全的同时
查看原文 →openrouter.ai