AI Agent越复杂亏损越稳定:Token消耗不等于任务解决
速览
文章指出AI Agent的Token消耗增加往往反映任务失败后的重试,而非有效工作。高复杂度若未提升任务完成率,只会通过重试和转人工转化为稳定的运营成本。Token良率应关注任务结果而非调用量,避免被虚假增长误导。
AI 深度解读
背景
随着大语言模型(LLM)和 AI Agent 在企业端的快速部署,行业内部形成了一种普遍的认知偏差:认为 AI 系统的复杂度越高、调用链路越长,其价值就越大。许多团队习惯通过调用次数、Token 消耗量、Agent 执行步数等过程指标来证明 AI 已经深入工作流。
然而,这种“忙碌”的表象往往掩盖了任务未真正解决的真相。英伟达(Nvidia)将 Token 成本推向基础设施层面,Google 将 AI 产品推向更大规模,Token 已从工程师的技术语境进入云账单、企业预算和投资人的判断标准中。在这一背景下,如何区分“有效的 AI 协作”与“无效的 Token 浪费”,成为衡量 AI 项目真实商业价值的关键。
核心内容
文章指出,AI Agent 的复杂性并不等同于任务解决率,反而可能带来更稳定的亏损。
1. 表象与真相的错位 以客服退款场景为例,一个六步推理、调用三个工具的 Agent,虽然单次成本仅几分钱,但用户追问两轮后仍需转人工。后台记录显示“AI 接待”,但用户视角是问题未解决。这种“使用增长”中混入了用户被迫多问的数据,导致自动化率虚高,而重试率和转人工率同步上升。
2. Token 良率的重新定义 传统工业中,零件不合格有明确损耗标记,但 AI 系统的“废 Token”隐藏在用户下一次追问中。Token 良率不应按生成量或调用量计算,而应从任务结果倒推:
- 用户是否停止追问?
- 工单是否关闭?
- 代码是否通过测试?
- 内容是否被直接采用?
- 客服是否减少二次投诉?
3. 追问的两层含义
- 协作型追问:用户补充条件,要求 AI 基于上一轮结果继续加工(如让代码助手处理边界条件),这属于有效协作。
- 返工型追问:用户反复解释诉求,要求“重新说一遍”,最后转人工。这在后台是互动,在用户处是耐心消耗。 许多产品不区分这两者,导致增长曲线好看,但用户体验并未改善。
4. 复杂性的两种形态
- 必要的复杂:如法律检索、代码迁移、财务审计,多走几步是为了买确定性,避免漏证据或风险。
- 包装式的复杂:链路长、工具多、界面好看,但用户仍需人工收尾。这种复杂没有让任务完成得更好,只是让失败过程显得更像产品能力。
5. 数据警示 2026年4月,Longju Bai 等人在论文《How Do AI Agents Spend Your Money?》中分析 SWE-bench Verified 上的 agentic coding 任务发现:
- Agentic tasks 消耗的 Token 比 code reasoning 和 code chat 高 1000 倍。
- 同一任务不同运行的 Token 使用最多相差 30 倍。
- 更高 Token 使用不会自然带来更高准确率,准确率常在中等成本区间达到峰值后饱和。 这证明在边界清晰的任务中,Token 消耗与准确率无稳定线性关系,在边界模糊的场景中问题更难被看见。
6. 商业模式的隐患 低完成率 Agent 嵌入日常流程后,成本有了稳定入口。调用量越高、重试越多、转人工越多,自动化率越容易制造项目推进的错觉。这类似于移动互联网时代 DAU(日活跃用户数)曾掩盖 LTV(用户终身价值)和 CAC(获客成本)的问题。Token 调用量证明系统在跑,但不能证明任务被解决。
关键要点
- Token 消耗与任务解决无关:Token 越多不代表 AI 用得越深,可能只是任务未被解决,导致系统反复推理。
- 警惕“虚假繁荣”指标:调用量、会话数、平均响应时间、自动化率等过程指标可能掩盖用户被迫多问的事实。
- 建立“Token 良率”概念:衡量 AI 价值的核心应从过程转向结果,关注任务完成率、代码测试通过率、二次投诉减少量等结果指标。
- 区分有效协作与无效返工:用户补充条件的追问是协作,反复解释后转人工是返工,两者对成本和体验的影响截然不同。
- 复杂度不等于价值:缩短 Agent 链路若不影响任务完成率,则多余链路可能是演示成本或包装。
- 数据验证的重要性:研究显示,更高 Token 消耗不必然带来更高准确率,存在成本饱和点。
- 视角差异:模型厂商关注调用量和费用,客户关注结果;Google 等拥有高频场景的公司能通过后续动作(如完成邮件、购物)更准确判断任务完成度。
- 未来评估标准:仅问“调用量涨了多少”已过时,需关注平均重试次数、转人工率、结果重写率等更接近公司质量的数字。
意义与影响
1. 对企业 AI 战略的重塑 企业需从追求“AI 覆盖率”转向追求“AI 任务完成率”。在采购和评估 AI 产品时,不应仅看演示中的功能完整性或 Token 消耗规模,而应深入分析 Agent 在真实业务场景中的良率。对于低完成率的 Agent,嵌入日常流程只会将原本轻量的自动化尝试转化为固定的运营成本。
2. 对 AI 产品设计的启示 产品设计应致力于缩短非必要链路,提升任务一次性解决率。复杂的 Agent 架构若不能显著提升准确率,反而应被视为需要优化的对象。开发者需建立更精细的数据监控体系,区分“协作型”与“返工型”交互,避免将用户耐心消耗误判为活跃度。
3. 对行业估值逻辑的修正 资本市场对 AI 公司的判断将不再局限于调用量增长。依靠复杂 Agent 链路包装估值的公司,未来需在融资时解释其 Token 良率。行业将从关注“用了多少 Token”转向关注“办成了多少任务”,这将倒逼 AI 公司优化模型效率与任务匹配度,而非单纯堆砌算力与功能。
4. 基础设施与应用的闭环优化 如 Google 所示,拥有高频场景和大规模 Token 处理能力的公司,能将任务反馈接回模型和产品,从而优化哪些 Token 在真实场景中更有用。这推动了 AI 基础设施从单纯追求“最低 Token 成本”向“最高单位能源产出”和“最佳任务完成效果”演进。
