AI 资讯Hacker News·1 小时前

AI 助生产力提升 20%，实测却慢 19%

原标题：The gauge broke: devs felt 20% faster with AI, measured 19% slower

速览

AI 工具给开发者带来生产力提升的感觉是 20%，而通过实际测量则显示变慢了 19%。这表明 AI 工具在实际使用中可能会带来意想不到的效能问题。相关讨论引发了科技社区对 AI 工具真实效果的广泛关注和反思。这为开发者在采用 AI 辅助开发时提供了重要参考依据。

AI 深度解读

The gauge broke: devs felt 20% faster with AI, measured 19% slower

背景

两年前，我在我的团队中观察到，AI 提供的速度感与实际速度之间出现了脱节。这一现象最初只是一些 Anecdote（轶事），无法得到有力证明。今年夏天，这一 Anecdote 终于获得了计时器的实证支持，结果比我预期的还要糟糕。

METR 对经验丰富的开源开发者进行了一项随机对照试验（RCT）。参与者使用当前前沿 AI 工具，在他们已知良好的代码库中完成工作。试验前，开发者预期工具会提升效率；试验后，他们自报提升约 20%。但实际测量显示，他们的速度慢了约 19%。自报与计时器显示的方向完全相反，偏差接近 40 个百分点。

试验规模较小，仅涉及 16 名开发者、246 个任务。作者特别强调，这不能证明 AI 在任何情况下都减速所有人。该效果对实习生和新项目（greenfield work）转为正面。试验的限制条件已在原文中明确说明。

核心内容

两年前的 Anecdote 终于有了 stopwatch，误差大于预期。METR 的 RCT 结果反转了人们对 AI 速度提升的认知：在已知代码库上，资深开发者实际运行速度下降约 19%，但自感提升约 20%。

AI 的核心机制是：它加速了打字（这对资深开发者从未是瓶颈），但同时引入了新的开销——提示工程、等待、审查经常不准确的输出。这些开销正是在之前已昂贵的审查环节上叠加。资深开发者在熟悉代码库中的审查成本并未因打字加速而节省，反而因 AI 输出质量和审查需求而显著增加。

团队级别的长期观测进一步印证了这一反转趋势：

Faros AI 分析超 10,000 名开发者：合并 PR 数量上升 98%，PR 大小增长超 150%，审查时间延长 91%，交付量无实质净增。31% PR 未经过审查即合并。
DORA 研究显示，AI 采用率与交付稳定性下降相关，影响持续至当年。
GitClear 分析 2 亿行变更代码：复制粘贴代码上升，重构占比降至 10% 以下，2024 年首次出现开发者复制粘贴代码多于重构的记录。

共同模式是：生成量增加、合并量增加、代码 churn（变动）增加，交付量不变，稳定性下降。生成变廉，验证变贵，旧瓶颈被移除，工作直接进入新瓶颈——审查。审查环节未重新配置资源，审查量爆炸式增长，而团队仪表盘无法捕捉下游影响（事故、churn、评审者 burnout）。

AI 工具构建者也公开承认这一点。今年 7 月，Windsurf 编辑器在周末被拆解；谷歌以数十亿美元收购 DeepMind 创始人团队，剩余资源用于 Devin 的创建者，目标转向“agent-first IDE”。去掉“agent-first”标签，其真实意图是转向审查代理产出并决定取舍的仪表盘——正是当前验证阶段最昂贵的环节。

最诚实的说法是，这可能是 J 曲线中的低谷，而非终点。新工具投入成本高于初期产出，大部分 felt-versus-real 差距正是成本显现而产出尚未到来的阶段。DORA 研究显示，吞吐量虽恢复，但稳定性仍滞后，这正是爬出低谷的典型特征。

关键要点

AI 主要加速打字，而资深开发者在熟悉代码库中打字从来不是瓶颈。
审查输出质量和额外提示/等待环节成为新瓶颈，叠加在原有审查成本上。
资深开发者在已有代码库上实际运行速度下降约 19%，自感却提升约 20%，仪表盘读数反转。
长期团队观测（Faros、DORA、GitClear）显示 PR 数量、规模、审查时间大幅上升，交付量不变，代码 churn 增加，重构减少。
工具构建者正在转向“agent-first IDE”，将工作重心从生成转向审查。
该现象可能是 J 曲线低谷，对实习生和新项目为正面；资深开发者在已有代码库上的减速最显著。

意义与影响

这个结果挑战了 AI 采用的常规判断标准。团队领导层长期依赖的“felt sense of velocity”（团队自身速度感）已不再可靠。它不仅是噪声，而是主动误导性的指标——在最常见的真实工作场景（资深开发者、已有代码库）下读数完全反转。

因此，领导决策的关键在于：

停止以“感觉速度”作为主要导向。
优先衡量真正抵达生产并稳定运行的指标。
重新配置资源以应对审查环节的堆积。
将任何仅基于“感觉”的生产力声明视为未证明，直到计时器确认。

仪表盘读数在今年夏天彻底破裂。下一阶段赢得的团队，正是那些提前发现这一反转、替换旧仪表盘，并据此重置测量的团队。

查看原文 →intrepidkarthi.com

AI 助生产力提升 20%，实测却慢 19%

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐