Anthropic与OpenAI每收100美元或耗资超1000美元
速览
最新分析显示,Anthropic和OpenAI在AI模型训练和推理上的巨额成本导致其每收取100美元用户费用,实际支出可能超过1000美元。这一发现揭示了当前大模型商业化面临的严峻盈利挑战。高昂的基础设施投入使得这些AI巨头在短期内难以实现收支平衡。
AI 深度解读
背景
在经历了长达15个月的休整期后(2025年6月和10月的文章不被视为严肃作品),作者重新开启了对生成式AI/大语言模型(LLM)的评论。本次回归旨在开启一个关于“使用大型‘语言’模型进行编程”的两部分系列文章的第一篇,因为“LLM编程”被普遍定位为LLM的“杀手级应用”。
作为该系列的引子,作者对 Anthropic 近期发布的博文《当AI构建自身时》(When AI builds itself)进行了简短的插叙和批判性解读。作者认为,这篇博文在修辞上堪称“暗示性写作”的教科书,虽然包含免责声明,但这些警示被淹没在大量夸张的陈述之中。例如,“我们可能会出错”这样的一句话,在数千字的文本中显得微不足道,且前提是假设他们没错。此外,作者对文中引用的基准测试数据表示怀疑,并指出 Anthropic 似乎聘请了 Google 的市场营销人员,其宣传风格让人联想到 Google 关于其量子计算芯片“Willow”的误导性言论。
核心内容
作者通过亲身实验“Claude Code 究竟表现如何”,揭示了 LLM 编程在经济可行性上的严峻现实。经过4个月(非全职)的实验,作者使用 Claude Code(基于 Opus 4.6 模型,中等努力设置)构建了一个功能完整但尚未完成的应用程序,累计生成约4万行代码。这一过程让作者得出了以下核心观察:
1. 生产力提升的表象与成本陷阱 对于经验丰富的程序员而言,LLM 编程的初始体验极具冲击力,因为它能在极短时间内完成原本需要大量时间和精力才能完成的工作。然而,这种效率的提升伴随着巨大的隐性成本。作者指出,Anthropic 的博文暗示“每天提交8倍代码行数”是好事,但这实际上反映了巨大的开销(overhead)。作者自己的经验显示,为了回溯 Claude Code 迷失的方向,他不得不频繁提交代码,最终提交的代码行数甚至是最终有效代码行数的7倍。因此,“8倍”并非生产力的提升,而是工作量的激增。
2. 订阅制补贴下的经济不可持续性 LLM 编程目前在经济上对大多数用途并不可行,其可行性完全依赖于订阅服务的重度补贴。作者计算发现,如果用户订阅 Anthropic 的 $100/月 Claude Max 计划,并完全采用“全代理编程”(即几乎无人工介入的模式)以触及每周限额,其所消耗的 Token 数量在按 API 定价计算时,成本将超过 $1000。这意味着,目前的订阅价格远低于实际算力成本。Anthropic 正在通过 Opus 4.7、4.8 等模型试图遏制这种“出血”,但这可能标志着实质性改进(即 S 曲线)的结束。
3. 复杂任务的 Token 消耗爆炸 虽然简单对话变得“便宜到无需计量”,但涉及递归、间接调用、工具使用或“思考”的高级任务(如编码、复杂推理),其 Token 消耗呈爆炸式增长。作者估算,使用顶级递归模型以高努力完成单一任务,按 API 费率计算成本约为 $75。他曾目睹单个查询消耗高达100万 Token,仅 API 费用就高达 $25。
4. 隐藏成本的商业模式 作者认为,当前向公众展示的商业模式,是基于用最大规模的“蛮力”来近似复杂任务的结果,同时隐藏真实成本或宣扬“便宜到无需计量”的概念。这种模式建立在用户尚未意识到实际推理成本的基础上。
5. 实验过程中的成本管控教训 在实验初期,作者使用 $20/月 的订阅计划,很快遇到使用限制。超出限制后按 API 价格购买 Token 极其昂贵。在 $20 计划期间,仅几天内就购买了约 $80 的额外 Token。相比之下,$100/月 的订阅计划显然更具性价比。这表明,一旦深入使用,API 按需付费的模式在经济上是不可持续的。
6. 研究方法的自反性 为了研究 LLM 的成本结构,作者甚至使用了 Gemini 和 Claude 等聊天机器人作为研究辅助工具。作者认为,尽管 LLM 可能在内容生成上出错,但它们作为基于内容而非页面排名的搜索引擎,在查找 ArXiv 论文等技术资料方面表现优异,这一观点得到了职场 LLM 用户的佐证。
关键要点
- Anthropic 宣传存在误导嫌疑:其博文《When AI builds itself》被批评为“暗示性写作”,通过隐藏免责声明和夸大基准测试(如代码行数增加)来掩盖实际效率问题。
- “代码行数”不是可靠的生产力指标:LLM 生成的代码往往包含大量冗余和错误,导致提交次数和代码行数虚高,实际有效产出远低于表面数据。
- 订阅制掩盖了高昂的真实成本:LLM 编程的经济可行性依赖于订阅补贴。若按 API 费率计算,全代理编程(Agentic Coding)的成本可能是订阅费的10倍以上($100 订阅 vs $1000+ API 成本)。
- 复杂任务成本极高:涉及递归、工具调用和深度推理的任务,单次任务成本可达 $75 甚至更高,Token 消耗巨大。
- API 按需付费模式不经济:对于重度用户,超出订阅限额后按 API 价格购买 Token 极其昂贵,远不如直接订阅更高级套餐划算。
- 技术改进可能触及瓶颈:Anthropic 试图通过新模型(Opus 4.7/4.8)控制成本,这可能意味着 LLM 性能提升的 S 曲线即将结束,实质性改进空间有限。
- LLM 作为研究工具的有效性:作者证实,LLM 在基于内容检索技术文献(如 ArXiv)方面表现出色,可作为有效的辅助研究工具。
意义与影响
这篇解读揭示了当前生成式 AI 行业,特别是 LLM 编程领域,存在严重的经济模型泡沫。
- 对开发者的警示:所谓的“AI 编程革命”目前建立在资本补贴之上。对于个人开发者和中小企业而言,如果脱离订阅补贴,直接按 API 调用成本计算,LLM 辅助编程的经济账可能根本算不过来。开发者需要警惕“便宜到无需计量”的营销话术,重新评估 AI 在复杂工程任务中的真实 ROI(投资回报率)。
- 对行业趋势的预判:作者指出,Anthropic 等公司正在努力遏制成本溢出,这可能意味着大模型性能提升的“黄金时代”正在接近尾声。未来的竞争焦点将从单纯的模型能力突破,转向更极致的成本控制和推理效率优化。
- 对“AI 构建自身”叙事的解构:Anthropic 提出的“AI 构建 AI”的愿景,在当前高昂的推理成本和低下的代码质量(相对于提交量)面前显得过于乐观。在成本结构未发生根本性逆转之前,AI 更可能作为辅助工具而非完全自主的构建者存在。
- 投资与战略建议:正如作者所言,“在船沉没之前尽情享受音乐,并准备好救生圈”。投资者和行业参与者应意识到当前商业模式的脆弱性,为可能的成本回归理性或技术瓶颈做好准备。
