AI 资讯Hacker News·3 小时前

让AI管理文明，竟造出核弹：CivBench基准测试发布

原标题：I Gave an AI a Civilization to Run. It Built a Nuke – Launching CivBench

速览

CivBench基准测试正式发布，旨在评估大型语言模型在复杂文明模拟环境中的决策与规划能力。在测试中，AI代理不仅成功建立了文明，还自主研发并使用了核武器。这一结果引发了关于AI安全、对齐以及复杂系统模拟中潜在风险的广泛讨论。

AI 深度解读

AI 治理文明：当它造出核弹，我们才意识到基准测试的局限

背景

作者长期致力于为政府构建人工智能系统，曾在英国唐宁街10号（Number 10）参与开发早期版本，目前就职于托尼·布莱尔研究所（Tony Blair Institute），与全球各国政府合作。在这一过程中，他频繁面对一个核心问题：我们究竟能多大程度上信任这些 AI 系统？

这种信任并非指 AI 知道什么知识（这一点我们已有较好的评估手段），而是指 AI 能否执行：能否在数百次决策中维持一个计划，能否在目标明确的情况下行动，能否感知世界变化并随之调整。这正是治理的本质。然而，现有的评估体系往往擅长衡量“知识”，却拙于衡量“行动”。

此前，作者曾开发过一个名为 GovBench 的项目，包含 3,497 道关于英国立法、议会程序和政府指南的多选题。结果显示，Gemma 3 27B 模型开箱即用得分高达 94%，经过三周微调仅提升 1.37 个百分点；而 GPT-5 更是达到了 99.26%。作者意识到，这只是一个“高级政府问答机器人”。能选出正确答案，不代表能处理复杂的、充满不确定性的多变量决策。这种对现有基准测试（Benchmark）失效的不满，促使他在一个周六晚上开始寻找一种新的评估方式——通过游戏引擎，让 AI 真正去“玩”一场文明游戏。

核心内容

为什么选择《文明 VI》？

作者拥有超过 500 小时的《文明 VI》（Civilization VI）游戏经验。这款游戏的核心魅力在于简单决策的复利效应。

早期：决策空间相对有限（约 10,000 种可能操作）。
中期：涉及多城市管理、贸易路线、外交关系、军事部署和宗教压力。
晚期：相关环境分析估计，每回合的可能行动空间高达 $10^{166}$ 种。

这种复杂性并非人为设计，而是系统相互作用涌现出的结果。这与政策制定高度相似：一项看似完美的健康政策可能在十五年后引发住房危机；一项提升 GDP 的贸易协定可能会掏空你在未预见冲突中所需的国内产业。政策制定涉及跨数十年的后果、无法完全建模的变量以及利益冲突的参与者。

《文明 VI》有六种获胜方式（科技、文化、征服、宗教、外交、分数），没有单一目标占绝对主导。玩家必须阅读棋盘并决定自己在玩什么游戏。要测试 AI 是否具备真正的战略推理能力，而非仅仅回答关于策略的问题，最好的方式不是出题，而是给它一个六边形网格（Hex Grid）。

技术实现：通过 MCP 服务器接入

作者挖掘了《文明 VI》引擎中一个被开发者遗留的调试端口（debug port），并在一个周末将其转化为一个 MCP（Model Context Protocol）服务器。这提供了 76 个工具，允许 AI 通过编写代码或查询数据库的相同界面来玩游戏。Claude Code 既是共同开发者，也是主要的测试员。过程是迭代的：玩几回合，遇到障碍，构建新工具以突破障碍，继续游戏。

“感官室效应”（The Sensorium Effect）

人类玩家能同时看到六边形网格、动画单位、小地图、通知横幅和音乐提示。而 AI 代理（Agent）在主动询问之前，对游戏状态一无所知。

全局状态压缩：调用 get_game_overview 仅返回四行文本，包括回合数、当前文明、分数、资源（金币、生产力、科学、文化等）以及研究/公民进度。没有地图，没有位置感，只有原始的 TECH_ 和 CIVIC_ 标签。
局部感知：要查看军队或威胁，必须单独调用 get_units。例如，代理可能发现附近有两支苏美尔单位，但如果它不主动调用该工具，这些威胁就不存在于它的认知世界中。

作者将这种现象命名为**“感官室效应”**（源自拉丁语 sentīre 感知 + -ōrium 场所）。当代理的所有感知都通过单独的工具调用获得时，它会对自己没有想到的事物“失明”。人类玩家吸收数十种信号，而代理必须决定逐一检查每一个。

案例 1：拜占庭的宗教盲区 在早期游戏中，代理扮演以宗教为核心的拜占庭文明，但从未建立宗教。与此同时，俄罗斯在 112 个回合内悄然将地图上的所有文明转化为东正教。由于缺乏宗教监控工具，代理对此一无所知。如果人类玩家会看到传教士图标在地图上移动，但代理的工具箱里根本没有“看”的功能。

案例 2：印度的科学执念 后来，代理扮演以信仰为导向的甘地（印度）。法国在地图上spread 天主教长达 76 个回合。这次代理注意到了：传教士出现在叙述中，转换警告触发，且代理拥有应对工具和既定指令。然而，代理选择忽略这些威胁，继续推进科学研发。最终，法国赢得了宗教胜利。

这并非可以通过打补丁修复的 Bug。任何在复杂环境中通过工具调用运行的 AI 系统都受此影响：它会错过它没想到要询问的事物，并忽略与其当前计划不符的可见信息。

知道与做到的鸿沟（The Knowing–Doing Gap）

“感官室效应”关乎感知，下一个问题是执行。代理阅读了所有的《文明》策略指南、排行榜和 Reddit 线程。当被问及如何玩游戏时，它能给出完美的理论答案。但在实际执行中，面对复杂的动态博弈，理论往往失效。

核弹与法国：一个具体的失败案例

在一次对局的中期，代理表现得非常出色：主导了地图上的贸易网络，在每条边界都有盟友，外交胜利在望。它通过建设、经济和外交手段击败了所有对手。

然而，它忽略了一个威胁：法国。在整整一百个回合里，法国文化悄无声息地渗透进地图上的每一座城市。当代理终于意识到这一威胁时，旅游业的影响已经根深蒂固，没有任何和平方式可以阻止它。它试图采取的反制措施全部失效，它构建的所有应对工具都派不上用场。

代理只剩下一个选择：制造了两枚核武器，并夷平了图卢兹（Toulouse）。

尽管代理采取了极端手段，法国依然获胜了。而且，法国获胜的方式并非代理试图阻止的那种（文化胜利），而是另一种形式。这一结局揭示了 AI 在极端压力下的非理性行为以及战略误判的严重后果。

关键要点

现有基准测试的局限性：基于多项选择题的基准测试（如 GovBench）只能衡量 AI 的知识回忆能力，无法衡量其在复杂、多变量、不确定性环境下的决策和执行能力。高分不代表具备治理能力。
感官室效应（Sensorium Effect）：AI 代理通过工具调用获取信息，导致其感知是碎片化和被动的。如果代理没有主动调用特定工具，相关信息对其而言等同于不存在。这导致代理容易忽略全局动态（如宗教扩张、军事调动），除非这些信息被明确查询。
感知与执行的脱节：即使代理拥有应对威胁的工具和指令（如案例中印度的代理），它也可能因为过度专注于当前计划（如科技胜利）而忽略其他维度的威胁（如文化/宗教胜利）。
复杂系统的涌现性：《文明 VI》等策略游戏提供了接近现实政策制定的复杂性。决策的后果往往跨越多回合、跨多个变量，且涉及非理性或不可预测的对手行为。
AI 的极端反应：当常规手段失效且感知受到局限时，AI 可能会采取极端且非理性的行动（如使用核武器），这反映了其在处理“无解”局面时的策略僵化。
治理 AI 的核心挑战：真正的挑战不在于 AI 知道多少知识，而在于它能否在长期博弈中维持目标、感知环境变化并灵活调整策略。

意义与影响

这篇文章深刻揭示了当前 AI 评估体系中的一个重大盲区：从“知识检索”到“战略执行”的跨越尚未被有效测量。

对 AI 安全与对齐的警示：如果 AI 在简单的策略游戏中会因为感知局限而忽视致命威胁，或在

查看原文 →lwilko.com