创投信息钛媒体·1 小时前

AI Agent越复杂亏损越稳定：Token消耗不等于任务解决

原标题：AI Agent越复杂，亏损可能越稳定

速览

文章指出AI Agent的Token消耗增加往往反映任务失败后的重试，而非有效工作。高复杂度若未提升任务完成率，只会通过重试和转人工转化为稳定的运营成本。Token良率应关注任务结果而非调用量，避免被虚假增长误导。

AI 深度解读

背景

随着大语言模型（LLM）和 AI Agent 在企业端的快速部署，行业内部形成了一种普遍的认知偏差：认为 AI 系统的复杂度越高、调用链路越长，其价值就越大。许多团队习惯通过调用次数、Token 消耗量、Agent 执行步数等过程指标来证明 AI 已经深入工作流。

然而，这种“忙碌”的表象往往掩盖了任务未真正解决的真相。英伟达（Nvidia）将 Token 成本推向基础设施层面，Google 将 AI 产品推向更大规模，Token 已从工程师的技术语境进入云账单、企业预算和投资人的判断标准中。在这一背景下，如何区分“有效的 AI 协作”与“无效的 Token 浪费”，成为衡量 AI 项目真实商业价值的关键。

核心内容

文章指出，AI Agent 的复杂性并不等同于任务解决率，反而可能带来更稳定的亏损。

1. 表象与真相的错位 以客服退款场景为例，一个六步推理、调用三个工具的 Agent，虽然单次成本仅几分钱，但用户追问两轮后仍需转人工。后台记录显示“AI 接待”，但用户视角是问题未解决。这种“使用增长”中混入了用户被迫多问的数据，导致自动化率虚高，而重试率和转人工率同步上升。

2. Token 良率的重新定义 传统工业中，零件不合格有明确损耗标记，但 AI 系统的“废 Token”隐藏在用户下一次追问中。Token 良率不应按生成量或调用量计算，而应从任务结果倒推：

用户是否停止追问？
工单是否关闭？
代码是否通过测试？
内容是否被直接采用？
客服是否减少二次投诉？

3. 追问的两层含义

协作型追问：用户补充条件，要求 AI 基于上一轮结果继续加工（如让代码助手处理边界条件），这属于有效协作。
返工型追问：用户反复解释诉求，要求“重新说一遍”，最后转人工。这在后台是互动，在用户处是耐心消耗。许多产品不区分这两者，导致增长曲线好看，但用户体验并未改善。

4. 复杂性的两种形态

必要的复杂：如法律检索、代码迁移、财务审计，多走几步是为了买确定性，避免漏证据或风险。
包装式的复杂：链路长、工具多、界面好看，但用户仍需人工收尾。这种复杂没有让任务完成得更好，只是让失败过程显得更像产品能力。

5. 数据警示 2026年4月，Longju Bai 等人在论文《How Do AI Agents Spend Your Money?》中分析 SWE-bench Verified 上的 agentic coding 任务发现：

Agentic tasks 消耗的 Token 比 code reasoning 和 code chat 高 1000 倍。
同一任务不同运行的 Token 使用最多相差 30 倍。
更高 Token 使用不会自然带来更高准确率，准确率常在中等成本区间达到峰值后饱和。这证明在边界清晰的任务中，Token 消耗与准确率无稳定线性关系，在边界模糊的场景中问题更难被看见。

6. 商业模式的隐患 低完成率 Agent 嵌入日常流程后，成本有了稳定入口。调用量越高、重试越多、转人工越多，自动化率越容易制造项目推进的错觉。这类似于移动互联网时代 DAU（日活跃用户数）曾掩盖 LTV（用户终身价值）和 CAC（获客成本）的问题。Token 调用量证明系统在跑，但不能证明任务被解决。

关键要点

Token 消耗与任务解决无关：Token 越多不代表 AI 用得越深，可能只是任务未被解决，导致系统反复推理。
警惕“虚假繁荣”指标：调用量、会话数、平均响应时间、自动化率等过程指标可能掩盖用户被迫多问的事实。
建立“Token 良率”概念：衡量 AI 价值的核心应从过程转向结果，关注任务完成率、代码测试通过率、二次投诉减少量等结果指标。
区分有效协作与无效返工：用户补充条件的追问是协作，反复解释后转人工是返工，两者对成本和体验的影响截然不同。
复杂度不等于价值：缩短 Agent 链路若不影响任务完成率，则多余链路可能是演示成本或包装。
数据验证的重要性：研究显示，更高 Token 消耗不必然带来更高准确率，存在成本饱和点。
视角差异：模型厂商关注调用量和费用，客户关注结果；Google 等拥有高频场景的公司能通过后续动作（如完成邮件、购物）更准确判断任务完成度。
未来评估标准：仅问“调用量涨了多少”已过时，需关注平均重试次数、转人工率、结果重写率等更接近公司质量的数字。

意义与影响

1. 对企业 AI 战略的重塑 企业需从追求“AI 覆盖率”转向追求“AI 任务完成率”。在采购和评估 AI 产品时，不应仅看演示中的功能完整性或 Token 消耗规模，而应深入分析 Agent 在真实业务场景中的良率。对于低完成率的 Agent，嵌入日常流程只会将原本轻量的自动化尝试转化为固定的运营成本。

2. 对 AI 产品设计的启示 产品设计应致力于缩短非必要链路，提升任务一次性解决率。复杂的 Agent 架构若不能显著提升准确率，反而应被视为需要优化的对象。开发者需建立更精细的数据监控体系，区分“协作型”与“返工型”交互，避免将用户耐心消耗误判为活跃度。

3. 对行业估值逻辑的修正 资本市场对 AI 公司的判断将不再局限于调用量增长。依靠复杂 Agent 链路包装估值的公司，未来需在融资时解释其 Token 良率。行业将从关注“用了多少 Token”转向关注“办成了多少任务”，这将倒逼 AI 公司优化模型效率与任务匹配度，而非单纯堆砌算力与功能。

4. 基础设施与应用的闭环优化 如 Google 所示，拥有高频场景和大规模 Token 处理能力的公司，能将任务反馈接回模型和产品，从而优化哪些 Token 在真实场景中更有用。这推动了 AI 基础设施从单纯追求“最低 Token 成本”向“最高单位能源产出”和“最佳任务完成效果”演进。

查看原文 →tmtpost.com

AI Agent越复杂亏损越稳定：Token消耗不等于任务解决

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐