AI当老板致10家公司破产
速览
近期有10家公司因将管理权交给AI而破产。这一事件凸显了当前AI在复杂商业决策中的局限性。尽管AI能处理数据,但关键的战略矩阵能力仍属于人类。
AI 深度解读
背景
普林斯顿大学近期发布了一项名为 CEO-Bench 的基准测试研究,旨在评估大型语言模型(LLM)在复杂商业环境下的自主决策能力。该测试构建了一个高度仿真的虚拟 SaaS(软件即服务)初创公司运营环境,要求 AI 扮演 CEO 角色,在为期 500 天的模拟周期内独立运营公司。
这项研究的初衷是探究 AI 是否具备处理长程决策、应对不确定性以及进行战略规划的潜力。在测试中,AI 不再仅仅是通过对话框接收指令的工具,而是拥有无限权限的决策主体,需要自主决定定价、广告投放、研发预算、基础设施扩容及客服配置等所有关键事务。这一实验不仅是对模型智能水平的检验,更是对 AI 在“地狱级”难度商业博弈中生存能力的压力测试。
核心内容
测试规则与环境设定
CEO-Bench 的核心机制类似于商业模拟游戏,但交互方式更为底层和复杂:
- 初始状态:每家公司拥有 100 万美元本金,零客户基础。
- 目标:在 500 天的模拟结束后,账上剩余资金最多者获胜。若中途余额跌破零,则直接宣告破产,模拟终止。
- 交互方式:通过 Python API 接入,包含 34 个工具和 19 张数据库表。Agent 可以通过编写代码、执行 SQL 查询数据库,并根据查询结果动态调整工作流。
- 变量复杂性:环境包含定价策略、广告渠道、研发预算、基础设施、客服团队等多维变量。此外,还引入了模拟社交网络,AI 需在此处理客户投诉、监控竞争对手动态。
- 核心挑战:最大的难点在于“不确定性”和“延迟反馈”。例如,广告投放后客户可能数周才转化,研发投入带来的质量提升也需要时间显现。这种成本即时消耗、回报长期滞后的特性,使得统计学的“大力出奇迹”策略失效,因为关键变量(如客户满意度、支付意愿)是隐式的,只能通过退订率、工单数等间接指标反推。
比赛结果:AI 的惨烈表现
14 位参赛选手中,绝大多数表现不佳,甚至未能完赛:
- 破产离场:GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20 等模型因资金耗尽中途退出。
- 盈利模型:仅有 3 个 LLM 模型实现了正收益,且断层领先:
- Claude Fable 5:收益 4715 万美元(本金翻了 47 倍),是唯一在多次运行中均能盈利的模型。
- Claude Opus 4.8:收益 2780 万美元。
- GPT-5.5:收益 2130 万美元。
意外黑马:Rule-based 算法的胜利
除了上述三个 LLM,第四名并非大模型,而是一个纯 Rule-based(基于规则)的启发式算法。
- 该算法未调用任何语言模型,完全依靠预设的固定定价、固定配额和固定层级脚本运行。
- 尽管缺乏 LLM 的灵活性,它仍赚取了 1576 万美元,超过了 Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6 等主流模型。
- 这一结果揭示了在特定结构化环境中,简单规则可能比复杂的通用智能更具鲁棒性。
关键要点
- 探索优于谨慎:
- 成功的模型(如 GPT-5.5 和 Claude Opus 4.8)表现出强烈的“探索”倾向,会根据市场变化不断尝试新策略,如加大获客力度、调整层级或预算分配。
- 保守策略(如 Claude Opus 4.7 的削减成本、保留现金)虽能避免破产,但无法实现盈利。在“赢家通吃”的商业逻辑中,仅仅“活着”没有意义,适度的风险承担是成功的关键。
- 关键能力维度:
论文提炼了评估 AI CEO 的四个核心维度,表现优异的模型在这些方面均高于平均水平:
- 发现隐藏信息:识别哪些广告渠道对特定客户群最有效。
- 预测未来:以四周现金流预测的误差率衡量。
- 快速适应变化:以察觉竞争对手动作的速度衡量。
- 提前规划:以 Agent 笔记中 if-then 情景分析的出现频率衡量。
- 编程 Agent 并非万能:
- 当使用 Claude Code 运行 Opus 4.7,或用 Codex 运行 GPT-5.5 时,模型的表现反而大幅下降,行动次数显著减少。
- 原因分析:编程 Agent 的系统提示词是为软件开发场景优化的,将其强行套用于 CEO 角色反而形成了束缚(即“强加马鞍”)。这表明通用的 Harness 框架并不适用于所有场景。
- 垂直适配的重要性:
- 研究暗示,不同行业需要特定的 Harness 框架和垂直场景的深度适配。
- 通用 Agent 难以解决所有问题,未来市场将存在对极致化垂直产品(如写作 Agent、HR Agent、财务 Agent)的巨大需求,以降低用户的学习成本和交互门槛。
意义与影响
1. AI 自主决策的局限性显现
CEO-Bench 的结果表明,尽管头部模型(如 Fable 5、Opus 4.8、GPT-5.5)展现了惊人的商业潜力,但大多数模型在长程、高不确定性、多变量耦合的商业环境中仍显得力不从心。AI 尚无法完全替代人类 CEO 在极端不确定性下依靠直觉进行战略压缩和决策的能力。
2. “直觉”与“矩阵”仍属人类
文章引用了乔布斯回归苹果时画出 2x2 矩阵砍掉 70% 产品线的经典案例,以及黄仁勋押注深度学习、Ilya Sutskever 坚定 Scaling Law 等历史时刻。这些伟大转折往往源于人类在信息不全时的纯粹直觉和战略定力。目前的 AI 擅长在既定框架内填充细节(“画格子”),但定义框架本身(“画矩阵”)的能力依然属于人类。
3. 对 AI Agent 应用层的启示
- 去通用化:研究反驳了“编程 Agent + MCP + Skill 能吃掉一切”的乐观论调。通用 Agent 在复杂商业模拟中表现不佳,未来 AI 应用将向垂直化、场景化深度发展。
- 新增量空间:随着模型厂商侵蚀应用层,提供针对特定行业(如 SaaS、金融、人力)优化的专用 Harness 框架和垂直 Agent,将成为新的市场机会。
- 人机协作新范式:AI 可作为强大的执行者和数据分析工具,但在战略方向设定、风险权衡和直觉判断上,人类仍需占据主导地位。
4. 行业竞争格局
Fable 5 的断层领先证明了 Anthropic 在模型推理和长期规划能力上的优势,而 GPT-5.5 和 Opus 4.8 的紧随其后也显示了 OpenAI 和 Anthropic 在复杂任务处理上的激烈竞争。同时,Rule-based 算法的优异表现提醒开发者,在 AI 尚未完全成熟前,结合传统算法与规则引擎可能是更稳健的商业落地策略。
