← 返回信息流
AI 资讯Hacker News·1 小时前

AI 助生产力提升 20%,实测却慢 19%

原标题:The gauge broke: devs felt 20% faster with AI, measured 19% slower

速览

AI 工具给开发者带来生产力提升的感觉是 20%,而通过实际测量则显示变慢了 19%。这表明 AI 工具在实际使用中可能会带来意想不到的效能问题。相关讨论引发了科技社区对 AI 工具真实效果的广泛关注和反思。这为开发者在采用 AI 辅助开发时提供了重要参考依据。

AI 深度解读

The gauge broke: devs felt 20% faster with AI, measured 19% slower

背景

两年前,我在我的团队中观察到,AI 提供的速度感与实际速度之间出现了脱节。这一现象最初只是一些 Anecdote(轶事),无法得到有力证明。今年夏天,这一 Anecdote 终于获得了计时器的实证支持,结果比我预期的还要糟糕。

METR 对经验丰富的开源开发者进行了一项随机对照试验(RCT)。参与者使用当前前沿 AI 工具,在他们已知良好的代码库中完成工作。试验前,开发者预期工具会提升效率;试验后,他们自报提升约 20%。但实际测量显示,他们的速度慢了约 19%。自报与计时器显示的方向完全相反,偏差接近 40 个百分点。

试验规模较小,仅涉及 16 名开发者、246 个任务。作者特别强调,这不能证明 AI 在任何情况下都减速所有人。该效果对实习生和新项目(greenfield work)转为正面。试验的限制条件已在原文中明确说明。

核心内容

两年前的 Anecdote 终于有了 stopwatch,误差大于预期。METR 的 RCT 结果反转了人们对 AI 速度提升的认知:在已知代码库上,资深开发者实际运行速度下降约 19%,但自感提升约 20%。

AI 的核心机制是:它加速了打字(这对资深开发者从未是瓶颈),但同时引入了新的开销——提示工程、等待、审查经常不准确的输出。这些开销正是在之前已昂贵的审查环节上叠加。资深开发者在熟悉代码库中的审查成本并未因打字加速而节省,反而因 AI 输出质量和审查需求而显著增加。

团队级别的长期观测进一步印证了这一反转趋势:

  • Faros AI 分析超 10,000 名开发者:合并 PR 数量上升 98%,PR 大小增长超 150%,审查时间延长 91%,交付量无实质净增。31% PR 未经过审查即合并。
  • DORA 研究显示,AI 采用率与交付稳定性下降相关,影响持续至当年。
  • GitClear 分析 2 亿行变更代码:复制粘贴代码上升,重构占比降至 10% 以下,2024 年首次出现开发者复制粘贴代码多于重构的记录。

共同模式是:生成量增加、合并量增加、代码 churn(变动)增加,交付量不变,稳定性下降。生成变廉,验证变贵,旧瓶颈被移除,工作直接进入新瓶颈——审查。审查环节未重新配置资源,审查量爆炸式增长,而团队仪表盘无法捕捉下游影响(事故、churn、评审者 burnout)。

AI 工具构建者也公开承认这一点。今年 7 月,Windsurf 编辑器在周末被拆解;谷歌以数十亿美元收购 DeepMind 创始人团队,剩余资源用于 Devin 的创建者,目标转向“agent-first IDE”。去掉“agent-first”标签,其真实意图是转向审查代理产出并决定取舍的仪表盘——正是当前验证阶段最昂贵的环节。

最诚实的说法是,这可能是 J 曲线中的低谷,而非终点。新工具投入成本高于初期产出,大部分 felt-versus-real 差距正是成本显现而产出尚未到来的阶段。DORA 研究显示,吞吐量虽恢复,但稳定性仍滞后,这正是爬出低谷的典型特征。

关键要点

  • AI 主要加速打字,而资深开发者在熟悉代码库中打字从来不是瓶颈。
  • 审查输出质量和额外提示/等待环节成为新瓶颈,叠加在原有审查成本上。
  • 资深开发者在已有代码库上实际运行速度下降约 19%,自感却提升约 20%,仪表盘读数反转。
  • 长期团队观测(Faros、DORA、GitClear)显示 PR 数量、规模、审查时间大幅上升,交付量不变,代码 churn 增加,重构减少。
  • 工具构建者正在转向“agent-first IDE”,将工作重心从生成转向审查。
  • 该现象可能是 J 曲线低谷,对实习生和新项目为正面;资深开发者在已有代码库上的减速最显著。

意义与影响

这个结果挑战了 AI 采用的常规判断标准。团队领导层长期依赖的“felt sense of velocity”(团队自身速度感)已不再可靠。它不仅是噪声,而是主动误导性的指标——在最常见的真实工作场景(资深开发者、已有代码库)下读数完全反转。

因此,领导决策的关键在于:

  • 停止以“感觉速度”作为主要导向。
  • 优先衡量真正抵达生产并稳定运行的指标。
  • 重新配置资源以应对审查环节的堆积。
  • 将任何仅基于“感觉”的生产力声明视为未证明,直到计时器确认。

仪表盘读数在今年夏天彻底破裂。下一阶段赢得的团队,正是那些提前发现这一反转、替换旧仪表盘,并据此重置测量的团队。

查看原文 →intrepidkarthi.com