AI仍无法替代我的工作:四年目标不断变动
速览
本文回顾了2022至2026年间AI技术发展,发现尽管模型持续升级,但在完成特定复杂工作方面仍显不足。作者强调,对AI能力的期望和评价标准随时间不断调整,导致“AI能否替代人类工作”这一议题始终悬而未决。文章通过四年间的观察,揭示了AI行业进步与公众预期之间的持久鸿沟。
AI 深度解读
背景
2022年12月,ChatGPT以一周百万用户的爆发力闯入公众视野。整个社交媒体被它道歉(为编译失败的代码)、捏造函数、虚构API的截图淹没——连一个经典小游戏Snake都写不好,蛇第一口就咬到自己。Stack Overflow在五天内紧急封禁,理由是“来自ChatGPT的答案正确率太低,对网站有害”。当时的共识很直接:这就是一只学会了模仿高级开发者语气、却从未真正碰过编译器的随机鹦鹉。
作者从那时起开始记录,本以为只是证明恐慌过度,却意外见证了持续四年、且仍在继续的“移动球门柱”(Moving Goalposts)现象——每当AI突破一个曾被喊作“不可能”的基准,批评者立刻把球门搬到更远处。
核心内容
第一阶段(2022-2023):从“连蛇都写不了”到“不过是复制粘贴”
- 2022年12月:ChatGPT发布。作者让它写Snake,它写了一个第一步就自噬的版本。Stack Overflow禁止AI生成回答。
- 2023年春天:GPT-4上线,同一个提示词就能写出可运行的Snake游戏。评论区的反应瞬间调整:“这不过是个简单游戏,GitHub上有一万份教程,纯粹是复制粘贴。等它能做训练数据里没有的东西再叫醒我。”
同一时期,OpenAI声称GPT-4在律师资格考试中达到90百分位;微软研究人员发表了标题为《通用人工智能的火花》的论文。后来的重新评估将该成绩调整到约60百分位(在已通过考生中排48百分位)。双方都抛出数字,但只有一方的数据所针对的目标在持续进步。
第二阶段(2024):从“脚本和考试不算工程”到“演示是演的”
- 2024年2月:NVIDIA CEO黄仁勋在迪拜预言“每个人的编程语言就是人类语言,世界上每个人现在都是程序员”。但作者认识的人里没有谁在那年辞职,只不过所有人悄悄装上了Copilot。
- 2024年春季:初创公司Cognition发布“首位AI软件工程师”Devin,演示视频风靡一周。一个月后,资深开发者Carl Brown(YouTube频道Internet of Bugs)逐帧分析,揭露令人印象深刻的部分是精心策划的:Devin并未完成演示中的Upwork任务,而是自己生成错误再英雄般修复。怀疑者赢得了当之无愧的批评胜利。
第三阶段(2024-2025):从“生成行不算工作”到“无灵魂的玩具”
- 2024年10月:Alphabet CEO Sundar Pichai透露“Google超过四分之一的新代码由AI生成,经工程师审查并接受”。评论不眨眼:那不过是自动补全的接受指标,模板代码不算,一半只是import语句。“但‘Google的四分之一’仍然是个奇怪的东西——人们还在管它叫把戏。”
- 2025年2月:Andrej Karpathy提出“vibe coding”(氛围编程)概念,“完全屈服于氛围,拥抱指数,忘记代码存在”。
- 2025年3月:独立开发者Pieter Levels花三小时通过提示词构建了一个多人3D飞行模拟器,零游戏开发经验。该站点fly.pieter.com上线后卖$29.99战斗机、卖飞艇广告,声称17天内达到100万美元年化收入。评论区的反应是:“没有氛围,连有趣的游戏都算不上,浮动的物理,资产翻新的图形,零游戏设计——这只是个带有Stripe账户的技术演示。”
- 同一季度:扎克伯格告诉Joe Rogan,Meta预计AI将在年内达到“中级工程师”水平;Dario Amodei(Anthropic CEO)预测六个月内AI可能编写90%的代码。“vibe coding”开始催生灾难:泄露的API密钥、开放的数据库、“我的应用被黑了,我不知道该看哪里”的事后分析。资深开发者不以为然,安全漏洞是真实的。
第四阶段(2026):怀疑者真的对了(暂时)
研究组织METR让16名经验丰富的开源开发者使用AI工具在自己的成熟仓库上工作。结果显示:开发者比不用AI时慢了19%,而他们自认为快了20%。这个结果一出来,评论区欢庆——这是继Devin事件以来怀疑者最好的一天。
同一个月,OpenAI和Google DeepMind在国际数学奥林匹克竞赛中用自然语言解决五道题中的六道(注:原意是六题中解决五题,原文“Five problems out of six”),且在人限定时间内完成。两件事同时为真——这是没人愿意正视的部分。
那一个月,没人需要移动球门柱。
现在(2026,原文写作时)
AI代理自行运行数小时,打开Pull Requests,且PR被合并。有些人这周就审核了这样一个PR而没有注意到。Stack Overflow的提问量恢复到作者初学编程时的水平——不是因为问题被回答,而是因为没有人再上论坛提问了。
“也许当前的球门柱会坚持住。我只提一点:上面的每条也都坚持住了——每条大约十八个月。”
未来预测(2027-2030)——作者对其准确性不负责
- 2027年:单次提示生成一个精良的可玩的开放世界游戏,协调的美术方向、调优的物理、多人联机、原声带。评论:“没灵魂,真正的游戏来自设计师多年痛苦,不是来自提示词。这是程序生成的垃圾,只有光照不错。说出一个真正原创的机制来。”
- 2028年:AI代理消化一个15年历史的单体应用(含有“不要移除”注释的cron作业),映射未文档化的业务规则,一季度内重构全部,测试全绿。评论:“它根本不懂业务,只是模式匹配了GitHub上所有历史迁移。顾问会问为什么发票逻辑那样工作,它从不问为什么。”
- 2030年:值班轮换由模型执行,事故自动诊断、修复、写事后报告,在任何人醒来前完成。评论:“运维一直是可以自动化的,所以我们会写runbooks。难的是知道要构建什么。它无法渴望什么,它从未对一个产品感到恼火而想去修复。”
- 未来的某个时刻:AI注意到一个未满足的需求,构建产品,找到第一批用户,并自己提出反馈。球门柱可能最终移动到“它根本不理解自己在做什么”。
全文以一句话结束:“线以下还什么都没有发生。这只是猜测。尽情笑吧——人们也曾笑过上一半的内容,而我有截图。”
关键要点
- 移动球门柱的模式:每一条曾被当作“不可能”的基准被突破后,批评标准自动升级。从“写不好Snake”→“只是复制粘贴”→“不是真正的工程”→“演示是演的”→“只是模板代码”→“没有灵魂”→“不能处理遗留代码”→“不能承担责任”→“不能想出创意”。
- 时间规律:每个球门柱大约维持十八个月,之后被实际进展或评论界共同“遗忘”。
- 陷阱的双向性:既有真实的技术进步(GPT-4考过律师资格、Fly.pieter.com的商业化),也有真实的怀疑论胜利(Devin演示造假、METR研究显示减速、安全性问题频发)。但怀疑论者往往强调后者而忽视前者。
- 心理防御机制:当人们恐惧被替代时,会不断抬高标准使目标显得不可达,以此维持自我价值感。作者在2022年也使用了这种论证,后来发现自己的球门柱也一次次被移动。
- 底层共识的丧失:Stack Overflow的衰落并非因为答案变好,而是因为提问者不再去论坛,直接问AI。这意味着知识传递方式正在根本改变,而“资深开发者”的身份可能正好在于知道该问什么。
意义与影响
这篇叙述揭示了AI领域最微妙也最深刻的动态:批评和进步是同一枚硬币的两面。怀疑论提供的“移动球门柱”看似不公平,实际上却是技术进步的加速器——每一个被满足的基准都迫使各方思考下一个真正有意义的挑战。但它的负面效应同样显著:它让公众对AI的能力认知停留在“还差得远”的错觉中,导致组织、个体在战略规划上滞后。
历史展示了一个鲜明模式:AI从未在“现在”完全胜任人类的工作,但每隔十八个月,它就能胜任上一轮“现在”认为不可能的事情。作者认为自己最终可能也会成为被移动球门柱的人——当AI真的“拥有一个
