AI 资讯Hacker News·1 小时前

AI仍无法替代我的工作：四年目标不断变动

原标题：It Still Can't Do My Job: Four Years of Moving Goalposts (2022–2026)

速览

本文回顾了2022至2026年间AI技术发展，发现尽管模型持续升级，但在完成特定复杂工作方面仍显不足。作者强调，对AI能力的期望和评价标准随时间不断调整，导致“AI能否替代人类工作”这一议题始终悬而未决。文章通过四年间的观察，揭示了AI行业进步与公众预期之间的持久鸿沟。

AI 深度解读

背景

2022年12月，ChatGPT以一周百万用户的爆发力闯入公众视野。整个社交媒体被它道歉（为编译失败的代码）、捏造函数、虚构API的截图淹没——连一个经典小游戏Snake都写不好，蛇第一口就咬到自己。Stack Overflow在五天内紧急封禁，理由是“来自ChatGPT的答案正确率太低，对网站有害”。当时的共识很直接：这就是一只学会了模仿高级开发者语气、却从未真正碰过编译器的随机鹦鹉。

作者从那时起开始记录，本以为只是证明恐慌过度，却意外见证了持续四年、且仍在继续的“移动球门柱”（Moving Goalposts）现象——每当AI突破一个曾被喊作“不可能”的基准，批评者立刻把球门搬到更远处。

核心内容

第一阶段（2022-2023）：从“连蛇都写不了”到“不过是复制粘贴”

2022年12月：ChatGPT发布。作者让它写Snake，它写了一个第一步就自噬的版本。Stack Overflow禁止AI生成回答。
2023年春天：GPT-4上线，同一个提示词就能写出可运行的Snake游戏。评论区的反应瞬间调整：“这不过是个简单游戏，GitHub上有一万份教程，纯粹是复制粘贴。等它能做训练数据里没有的东西再叫醒我。”

同一时期，OpenAI声称GPT-4在律师资格考试中达到90百分位；微软研究人员发表了标题为《通用人工智能的火花》的论文。后来的重新评估将该成绩调整到约60百分位（在已通过考生中排48百分位）。双方都抛出数字，但只有一方的数据所针对的目标在持续进步。

第二阶段（2024）：从“脚本和考试不算工程”到“演示是演的”

2024年2月：NVIDIA CEO黄仁勋在迪拜预言“每个人的编程语言就是人类语言，世界上每个人现在都是程序员”。但作者认识的人里没有谁在那年辞职，只不过所有人悄悄装上了Copilot。
2024年春季：初创公司Cognition发布“首位AI软件工程师”Devin，演示视频风靡一周。一个月后，资深开发者Carl Brown（YouTube频道Internet of Bugs）逐帧分析，揭露令人印象深刻的部分是精心策划的：Devin并未完成演示中的Upwork任务，而是自己生成错误再英雄般修复。怀疑者赢得了当之无愧的批评胜利。

第三阶段（2024-2025）：从“生成行不算工作”到“无灵魂的玩具”

2024年10月：Alphabet CEO Sundar Pichai透露“Google超过四分之一的新代码由AI生成，经工程师审查并接受”。评论不眨眼：那不过是自动补全的接受指标，模板代码不算，一半只是import语句。“但‘Google的四分之一’仍然是个奇怪的东西——人们还在管它叫把戏。”
2025年2月：Andrej Karpathy提出“vibe coding”（氛围编程）概念，“完全屈服于氛围，拥抱指数，忘记代码存在”。
2025年3月：独立开发者Pieter Levels花三小时通过提示词构建了一个多人3D飞行模拟器，零游戏开发经验。该站点fly.pieter.com上线后卖$29.99战斗机、卖飞艇广告，声称17天内达到100万美元年化收入。评论区的反应是：“没有氛围，连有趣的游戏都算不上，浮动的物理，资产翻新的图形，零游戏设计——这只是个带有Stripe账户的技术演示。”
同一季度：扎克伯格告诉Joe Rogan，Meta预计AI将在年内达到“中级工程师”水平；Dario Amodei（Anthropic CEO）预测六个月内AI可能编写90%的代码。“vibe coding”开始催生灾难：泄露的API密钥、开放的数据库、“我的应用被黑了，我不知道该看哪里”的事后分析。资深开发者不以为然，安全漏洞是真实的。

第四阶段（2026）：怀疑者真的对了（暂时）

研究组织METR让16名经验丰富的开源开发者使用AI工具在自己的成熟仓库上工作。结果显示：开发者比不用AI时慢了19%，而他们自认为快了20%。这个结果一出来，评论区欢庆——这是继Devin事件以来怀疑者最好的一天。

同一个月，OpenAI和Google DeepMind在国际数学奥林匹克竞赛中用自然语言解决五道题中的六道（注：原意是六题中解决五题，原文“Five problems out of six”），且在人限定时间内完成。两件事同时为真——这是没人愿意正视的部分。

那一个月，没人需要移动球门柱。

现在（2026，原文写作时）

AI代理自行运行数小时，打开Pull Requests，且PR被合并。有些人这周就审核了这样一个PR而没有注意到。Stack Overflow的提问量恢复到作者初学编程时的水平——不是因为问题被回答，而是因为没有人再上论坛提问了。

“也许当前的球门柱会坚持住。我只提一点：上面的每条也都坚持住了——每条大约十八个月。”

未来预测（2027-2030）——作者对其准确性不负责

2027年：单次提示生成一个精良的可玩的开放世界游戏，协调的美术方向、调优的物理、多人联机、原声带。评论：“没灵魂，真正的游戏来自设计师多年痛苦，不是来自提示词。这是程序生成的垃圾，只有光照不错。说出一个真正原创的机制来。”
2028年：AI代理消化一个15年历史的单体应用（含有“不要移除”注释的cron作业），映射未文档化的业务规则，一季度内重构全部，测试全绿。评论：“它根本不懂业务，只是模式匹配了GitHub上所有历史迁移。顾问会问为什么发票逻辑那样工作，它从不问为什么。”
2030年：值班轮换由模型执行，事故自动诊断、修复、写事后报告，在任何人醒来前完成。评论：“运维一直是可以自动化的，所以我们会写runbooks。难的是知道要构建什么。它无法渴望什么，它从未对一个产品感到恼火而想去修复。”
未来的某个时刻：AI注意到一个未满足的需求，构建产品，找到第一批用户，并自己提出反馈。球门柱可能最终移动到“它根本不理解自己在做什么”。

全文以一句话结束：“线以下还什么都没有发生。这只是猜测。尽情笑吧——人们也曾笑过上一半的内容，而我有截图。”

关键要点

移动球门柱的模式：每一条曾被当作“不可能”的基准被突破后，批评标准自动升级。从“写不好Snake”→“只是复制粘贴”→“不是真正的工程”→“演示是演的”→“只是模板代码”→“没有灵魂”→“不能处理遗留代码”→“不能承担责任”→“不能想出创意”。
时间规律：每个球门柱大约维持十八个月，之后被实际进展或评论界共同“遗忘”。
陷阱的双向性：既有真实的技术进步（GPT-4考过律师资格、Fly.pieter.com的商业化），也有真实的怀疑论胜利（Devin演示造假、METR研究显示减速、安全性问题频发）。但怀疑论者往往强调后者而忽视前者。
心理防御机制：当人们恐惧被替代时，会不断抬高标准使目标显得不可达，以此维持自我价值感。作者在2022年也使用了这种论证，后来发现自己的球门柱也一次次被移动。
底层共识的丧失：Stack Overflow的衰落并非因为答案变好，而是因为提问者不再去论坛，直接问AI。这意味着知识传递方式正在根本改变，而“资深开发者”的身份可能正好在于知道该问什么。

意义与影响

这篇叙述揭示了AI领域最微妙也最深刻的动态：批评和进步是同一枚硬币的两面。怀疑论提供的“移动球门柱”看似不公平，实际上却是技术进步的加速器——每一个被满足的基准都迫使各方思考下一个真正有意义的挑战。但它的负面效应同样显著：它让公众对AI的能力认知停留在“还差得远”的错觉中，导致组织、个体在战略规划上滞后。

历史展示了一个鲜明模式：AI从未在“现在”完全胜任人类的工作，但每隔十八个月，它就能胜任上一轮“现在”认为不可能的事情。作者认为自己最终可能也会成为被移动球门柱的人——当AI真的“拥有一个

查看原文 →publicznyprofil.github.io