AI 资讯量子位·3 小时前

AI当老板致10家公司破产

原标题：AI当老板，快给10家公司干破产了…

速览

近期有10家公司因将管理权交给AI而破产。这一事件凸显了当前AI在复杂商业决策中的局限性。尽管AI能处理数据，但关键的战略矩阵能力仍属于人类。

AI 深度解读

背景

普林斯顿大学近期发布了一项名为 CEO-Bench 的基准测试研究，旨在评估大型语言模型（LLM）在复杂商业环境下的自主决策能力。该测试构建了一个高度仿真的虚拟 SaaS（软件即服务）初创公司运营环境，要求 AI 扮演 CEO 角色，在为期 500 天的模拟周期内独立运营公司。

这项研究的初衷是探究 AI 是否具备处理长程决策、应对不确定性以及进行战略规划的潜力。在测试中，AI 不再仅仅是通过对话框接收指令的工具，而是拥有无限权限的决策主体，需要自主决定定价、广告投放、研发预算、基础设施扩容及客服配置等所有关键事务。这一实验不仅是对模型智能水平的检验，更是对 AI 在“地狱级”难度商业博弈中生存能力的压力测试。

核心内容

测试规则与环境设定

CEO-Bench 的核心机制类似于商业模拟游戏，但交互方式更为底层和复杂：

初始状态：每家公司拥有 100 万美元本金，零客户基础。
目标：在 500 天的模拟结束后，账上剩余资金最多者获胜。若中途余额跌破零，则直接宣告破产，模拟终止。
交互方式：通过 Python API 接入，包含 34 个工具和 19 张数据库表。Agent 可以通过编写代码、执行 SQL 查询数据库，并根据查询结果动态调整工作流。
变量复杂性：环境包含定价策略、广告渠道、研发预算、基础设施、客服团队等多维变量。此外，还引入了模拟社交网络，AI 需在此处理客户投诉、监控竞争对手动态。
核心挑战：最大的难点在于“不确定性”和“延迟反馈”。例如，广告投放后客户可能数周才转化，研发投入带来的质量提升也需要时间显现。这种成本即时消耗、回报长期滞后的特性，使得统计学的“大力出奇迹”策略失效，因为关键变量（如客户满意度、支付意愿）是隐式的，只能通过退订率、工单数等间接指标反推。

比赛结果：AI 的惨烈表现

14 位参赛选手中，绝大多数表现不佳，甚至未能完赛：

破产离场：GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20 等模型因资金耗尽中途退出。
盈利模型：仅有 3 个 LLM 模型实现了正收益，且断层领先：
1. Claude Fable 5：收益 4715 万美元（本金翻了 47 倍），是唯一在多次运行中均能盈利的模型。
2. Claude Opus 4.8：收益 2780 万美元。
3. GPT-5.5：收益 2130 万美元。

意外黑马：Rule-based 算法的胜利

除了上述三个 LLM，第四名并非大模型，而是一个纯 Rule-based（基于规则）的启发式算法。

该算法未调用任何语言模型，完全依靠预设的固定定价、固定配额和固定层级脚本运行。
尽管缺乏 LLM 的灵活性，它仍赚取了 1576 万美元，超过了 Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6 等主流模型。
这一结果揭示了在特定结构化环境中，简单规则可能比复杂的通用智能更具鲁棒性。

关键要点

探索优于谨慎：
- 成功的模型（如 GPT-5.5 和 Claude Opus 4.8）表现出强烈的“探索”倾向，会根据市场变化不断尝试新策略，如加大获客力度、调整层级或预算分配。
- 保守策略（如 Claude Opus 4.7 的削减成本、保留现金）虽能避免破产，但无法实现盈利。在“赢家通吃”的商业逻辑中，仅仅“活着”没有意义，适度的风险承担是成功的关键。
关键能力维度：论文提炼了评估 AI CEO 的四个核心维度，表现优异的模型在这些方面均高于平均水平：
1. 发现隐藏信息：识别哪些广告渠道对特定客户群最有效。
2. 预测未来：以四周现金流预测的误差率衡量。
3. 快速适应变化：以察觉竞争对手动作的速度衡量。
4. 提前规划：以 Agent 笔记中 if-then 情景分析的出现频率衡量。
编程 Agent 并非万能：
- 当使用 Claude Code 运行 Opus 4.7，或用 Codex 运行 GPT-5.5 时，模型的表现反而大幅下降，行动次数显著减少。
- 原因分析：编程 Agent 的系统提示词是为软件开发场景优化的，将其强行套用于 CEO 角色反而形成了束缚（即“强加马鞍”）。这表明通用的 Harness 框架并不适用于所有场景。
垂直适配的重要性：
- 研究暗示，不同行业需要特定的 Harness 框架和垂直场景的深度适配。
- 通用 Agent 难以解决所有问题，未来市场将存在对极致化垂直产品（如写作 Agent、HR Agent、财务 Agent）的巨大需求，以降低用户的学习成本和交互门槛。

意义与影响

1. AI 自主决策的局限性显现

CEO-Bench 的结果表明，尽管头部模型（如 Fable 5、Opus 4.8、GPT-5.5）展现了惊人的商业潜力，但大多数模型在长程、高不确定性、多变量耦合的商业环境中仍显得力不从心。AI 尚无法完全替代人类 CEO 在极端不确定性下依靠直觉进行战略压缩和决策的能力。

2. “直觉”与“矩阵”仍属人类

文章引用了乔布斯回归苹果时画出 2x2 矩阵砍掉 70% 产品线的经典案例，以及黄仁勋押注深度学习、Ilya Sutskever 坚定 Scaling Law 等历史时刻。这些伟大转折往往源于人类在信息不全时的纯粹直觉和战略定力。目前的 AI 擅长在既定框架内填充细节（“画格子”），但定义框架本身（“画矩阵”）的能力依然属于人类。

3. 对 AI Agent 应用层的启示

去通用化：研究反驳了“编程 Agent + MCP + Skill 能吃掉一切”的乐观论调。通用 Agent 在复杂商业模拟中表现不佳，未来 AI 应用将向垂直化、场景化深度发展。
新增量空间：随着模型厂商侵蚀应用层，提供针对特定行业（如 SaaS、金融、人力）优化的专用 Harness 框架和垂直 Agent，将成为新的市场机会。
人机协作新范式：AI 可作为强大的执行者和数据分析工具，但在战略方向设定、风险权衡和直觉判断上，人类仍需占据主导地位。

4. 行业竞争格局

Fable 5 的断层领先证明了 Anthropic 在模型推理和长期规划能力上的优势，而 GPT-5.5 和 Opus 4.8 的紧随其后也显示了 OpenAI 和 Anthropic 在复杂任务处理上的激烈竞争。同时，Rule-based 算法的优异表现提醒开发者，在 AI 尚未完全成熟前，结合传统算法与规则引擎可能是更稳健的商业落地策略。

查看原文 →qbitai.com