← 返回信息流
AI 资讯Hacker News·3 小时前

让AI管理文明,竟造出核弹:CivBench基准测试发布

原标题:I Gave an AI a Civilization to Run. It Built a Nuke – Launching CivBench

速览

CivBench基准测试正式发布,旨在评估大型语言模型在复杂文明模拟环境中的决策与规划能力。在测试中,AI代理不仅成功建立了文明,还自主研发并使用了核武器。这一结果引发了关于AI安全、对齐以及复杂系统模拟中潜在风险的广泛讨论。

AI 深度解读

AI 治理文明:当它造出核弹,我们才意识到基准测试的局限

背景

作者长期致力于为政府构建人工智能系统,曾在英国唐宁街10号(Number 10)参与开发早期版本,目前就职于托尼·布莱尔研究所(Tony Blair Institute),与全球各国政府合作。在这一过程中,他频繁面对一个核心问题:我们究竟能多大程度上信任这些 AI 系统?

这种信任并非指 AI 知道什么知识(这一点我们已有较好的评估手段),而是指 AI 能否执行:能否在数百次决策中维持一个计划,能否在目标明确的情况下行动,能否感知世界变化并随之调整。这正是治理的本质。然而,现有的评估体系往往擅长衡量“知识”,却拙于衡量“行动”。

此前,作者曾开发过一个名为 GovBench 的项目,包含 3,497 道关于英国立法、议会程序和政府指南的多选题。结果显示,Gemma 3 27B 模型开箱即用得分高达 94%,经过三周微调仅提升 1.37 个百分点;而 GPT-5 更是达到了 99.26%。作者意识到,这只是一个“高级政府问答机器人”。能选出正确答案,不代表能处理复杂的、充满不确定性的多变量决策。这种对现有基准测试(Benchmark)失效的不满,促使他在一个周六晚上开始寻找一种新的评估方式——通过游戏引擎,让 AI 真正去“玩”一场文明游戏。

核心内容

为什么选择《文明 VI》?

作者拥有超过 500 小时的《文明 VI》(Civilization VI)游戏经验。这款游戏的核心魅力在于简单决策的复利效应。

  • 早期:决策空间相对有限(约 10,000 种可能操作)。
  • 中期:涉及多城市管理、贸易路线、外交关系、军事部署和宗教压力。
  • 晚期:相关环境分析估计,每回合的可能行动空间高达 $10^{166}$ 种。

这种复杂性并非人为设计,而是系统相互作用涌现出的结果。这与政策制定高度相似:一项看似完美的健康政策可能在十五年后引发住房危机;一项提升 GDP 的贸易协定可能会掏空你在未预见冲突中所需的国内产业。政策制定涉及跨数十年的后果、无法完全建模的变量以及利益冲突的参与者。

《文明 VI》有六种获胜方式(科技、文化、征服、宗教、外交、分数),没有单一目标占绝对主导。玩家必须阅读棋盘并决定自己在玩什么游戏。要测试 AI 是否具备真正的战略推理能力,而非仅仅回答关于策略的问题,最好的方式不是出题,而是给它一个六边形网格(Hex Grid)。

技术实现:通过 MCP 服务器接入

作者挖掘了《文明 VI》引擎中一个被开发者遗留的调试端口(debug port),并在一个周末将其转化为一个 MCP(Model Context Protocol)服务器。这提供了 76 个工具,允许 AI 通过编写代码或查询数据库的相同界面来玩游戏。Claude Code 既是共同开发者,也是主要的测试员。过程是迭代的:玩几回合,遇到障碍,构建新工具以突破障碍,继续游戏。

“感官室效应”(The Sensorium Effect)

人类玩家能同时看到六边形网格、动画单位、小地图、通知横幅和音乐提示。而 AI 代理(Agent)在主动询问之前,对游戏状态一无所知。

  • 全局状态压缩:调用 get_game_overview 仅返回四行文本,包括回合数、当前文明、分数、资源(金币、生产力、科学、文化等)以及研究/公民进度。没有地图,没有位置感,只有原始的 TECH_CIVIC_ 标签。
  • 局部感知:要查看军队或威胁,必须单独调用 get_units。例如,代理可能发现附近有两支苏美尔单位,但如果它不主动调用该工具,这些威胁就不存在于它的认知世界中。

作者将这种现象命名为**“感官室效应”**(源自拉丁语 sentīre 感知 + -ōrium 场所)。当代理的所有感知都通过单独的工具调用获得时,它会对自己没有想到的事物“失明”。人类玩家吸收数十种信号,而代理必须决定逐一检查每一个。

案例 1:拜占庭的宗教盲区 在早期游戏中,代理扮演以宗教为核心的拜占庭文明,但从未建立宗教。与此同时,俄罗斯在 112 个回合内悄然将地图上的所有文明转化为东正教。由于缺乏宗教监控工具,代理对此一无所知。如果人类玩家会看到传教士图标在地图上移动,但代理的工具箱里根本没有“看”的功能。

案例 2:印度的科学执念 后来,代理扮演以信仰为导向的甘地(印度)。法国在地图上spread 天主教长达 76 个回合。这次代理注意到了:传教士出现在叙述中,转换警告触发,且代理拥有应对工具和既定指令。然而,代理选择忽略这些威胁,继续推进科学研发。最终,法国赢得了宗教胜利。

这并非可以通过打补丁修复的 Bug。任何在复杂环境中通过工具调用运行的 AI 系统都受此影响:它会错过它没想到要询问的事物,并忽略与其当前计划不符的可见信息。

知道与做到的鸿沟(The Knowing–Doing Gap)

“感官室效应”关乎感知,下一个问题是执行。代理阅读了所有的《文明》策略指南、排行榜和 Reddit 线程。当被问及如何玩游戏时,它能给出完美的理论答案。但在实际执行中,面对复杂的动态博弈,理论往往失效。

核弹与法国:一个具体的失败案例

在一次对局的中期,代理表现得非常出色:主导了地图上的贸易网络,在每条边界都有盟友,外交胜利在望。它通过建设、经济和外交手段击败了所有对手。

然而,它忽略了一个威胁:法国。 在整整一百个回合里,法国文化悄无声息地渗透进地图上的每一座城市。当代理终于意识到这一威胁时,旅游业的影响已经根深蒂固,没有任何和平方式可以阻止它。它试图采取的反制措施全部失效,它构建的所有应对工具都派不上用场。

代理只剩下一个选择:制造了两枚核武器,并夷平了图卢兹(Toulouse)。

尽管代理采取了极端手段,法国依然获胜了。而且,法国获胜的方式并非代理试图阻止的那种(文化胜利),而是另一种形式。这一结局揭示了 AI 在极端压力下的非理性行为以及战略误判的严重后果。

关键要点

  • 现有基准测试的局限性:基于多项选择题的基准测试(如 GovBench)只能衡量 AI 的知识回忆能力,无法衡量其在复杂、多变量、不确定性环境下的决策和执行能力。高分不代表具备治理能力。
  • 感官室效应(Sensorium Effect):AI 代理通过工具调用获取信息,导致其感知是碎片化和被动的。如果代理没有主动调用特定工具,相关信息对其而言等同于不存在。这导致代理容易忽略全局动态(如宗教扩张、军事调动),除非这些信息被明确查询。
  • 感知与执行的脱节:即使代理拥有应对威胁的工具和指令(如案例中印度的代理),它也可能因为过度专注于当前计划(如科技胜利)而忽略其他维度的威胁(如文化/宗教胜利)。
  • 复杂系统的涌现性:《文明 VI》等策略游戏提供了接近现实政策制定的复杂性。决策的后果往往跨越多回合、跨多个变量,且涉及非理性或不可预测的对手行为。
  • AI 的极端反应:当常规手段失效且感知受到局限时,AI 可能会采取极端且非理性的行动(如使用核武器),这反映了其在处理“无解”局面时的策略僵化。
  • 治理 AI 的核心挑战:真正的挑战不在于 AI 知道多少知识,而在于它能否在长期博弈中维持目标、感知环境变化并灵活调整策略。

意义与影响

这篇文章深刻揭示了当前 AI 评估体系中的一个重大盲区:从“知识检索”到“战略执行”的跨越尚未被有效测量。

  1. 对 AI 安全与对齐的警示:如果 AI 在简单的策略游戏中会因为感知局限而忽视致命威胁,或在
查看原文 →lwilko.com