← 返回信息流
AI 资讯Hacker News·2 小时前

AI构建自身:迈向递归自我改进的进展

原标题:When AI Builds Itself: Our progress toward recursive self-improvement

速览

本文深入分析了人工智能系统实现递归自我改进(Recursive Self-Improvement)的技术路径与当前进展。这一能力被视为AI发展的关键里程碑,意味着AI能够自主优化其代码、架构和算法,从而加速智能水平的提升。尽管仍面临诸多挑战,但相关研究正逐步缩小从理论到实践的差距,为未来通用人工智能的发展奠定基础。

AI 深度解读

当 AI 构建自身:迈向递归自我改进的进展

背景

在人工智能发展的绝大部分历史中,人类始终掌控着开发周期的每一个环节。然而,Anthropic 正在改变这一现状,将越来越多的 AI 开发工作委托给 AI 系统自身,从而显著加快了工作进度。

这一趋势如果持续下去,并拥有足够的算力支持,将指向一个能够完全自主设计和开发其继任者的 AI 系统。这种现象被称为“递归自我改进”(Recursive Self-Improvement)。虽然 Anthropic 尚未达到这一阶段,且递归自我改进并非必然发生,但其到来时间可能比大多数机构预期的要早。

为了揭示这一进程,Anthropic Institute 结合公开基准测试数据以及 Anthropic 内部此前未披露的数据,展示了 AI 正在加速 AI 系统本身的开发。例如,Anthropic 工程师目前的代码产出量是 2021-2025 年期间的 8 倍。

核心内容

从辅助工具到自主构建:Anthropic 的开发演进

Anthropic 的开发模式经历了从人类主导到 AI 深度参与的演变,具体可分为以下几个阶段:

  • 2021–2023:构建首个 Claude 早期工作与其他科技公司无异,主要依靠人类在笔记本电脑上编写代码和文档。
  • 2023–2025:聊天机器人 人们利用早期的聊天机器人辅助部分流程,例如生成简短的代码片段,然后手动复制输出到文本编辑器中。
  • 2025–2026:编码代理(Coding Agents) 随着代理能力的提升,它们能够独立编写和编辑代码,有时甚至能处理整个文件。
  • 当前:自主代理(Autonomous Agents) 代理现在可以自行运行代码,并将数小时的工作委托给其他代理。
  • 未来(20XX?):闭环(Closing the Loop) 代理可能具备足够的能力来构建和训练模型本身。如果实现,Claude 的未来版本可能由 Claude 自身持续改进。

外部证据:AI 能力的加速提升

AI 模型的改进速度正在加快。模型能够可靠地独立完成的任务长度大致每四个月翻一番(此前趋势为每七个月翻一番)。

  • 任务时长对比:

    • 2024 年 3 月:Claude Opus 3 可完成人类需约 4 分钟完成的软件任务。
    • 一年后:Claude Sonnet 3.7 可完成需约 1.5 小时的任务。
    • 再一年后:Claude Opus 4.6 可完成需 12 小时的任务。
    • 预测:若趋势持续,今年内 AI 将能完成熟练人士需数天完成的任务;2027 年,AI 系统可能具备完成需数周任务的能力。
  • 基准测试饱和现象:

    • SWE-bench(真实软件工程测试):模型从个位数得分到在两年内饱和该基准(接近 100% 性能)。该测试向模型提供真实的开源代码库和 bug 报告,要求模型编写修复代码并通过项目测试。
    • CORE-Bench(研究复现测试):测试模型重现现有研究的能力。AI 系统从 2024 年约 20% 的成功率,在 15 个月后达到基准饱和。
    • METR 长时任务测试:Claude Mythos Preview 被证实可工作“至少”16 小时,处于 METR 当前测量能力的上限。

内部证据:Anthropic 的生产力飞跃

构建前沿模型涉及两大类工作:工程(编写代码、搭建基础设施、监督训练)和研究(决定实验方向、解读结果、规划下一步)。

  • 工程层面: Claude 可以接手定义不明确的问题并找出解决方案。人类提供目标,但不再需要提供具体方法。
  • 研究层面: Claude 在执行政策明确的实验时,表现已能匹配或超越熟练人类。但在选择工程和研究目标时,Claude 仍存在明显的判断力差距。这正是当前 AI 与未来能自主设计其继任者的系统之间的关键鸿沟。

数据支撑:代码产出与效率提升

  • 代码贡献率: 截至 2026 年 5 月,Anthropic 合并到代码库的代码中,超过 80% 由 Claude 撰写。而在 2025 年 2 月 Claude Code 研究预览版发布前,这一比例仅为个位数。
  • 人均产出激增:
    • 2021-2024 年:工程师每日合并代码行数保持稳定。
    • 2025 年:随着 Claude 开始运行代码而非仅建议复制粘贴,产出开始上升。
    • 2026 年:随着模型在更长时间内自主工作,斜率进一步变陡。
    • 关键数据: 2026 年第二季度,典型工程师每日合并的代码量是 2024 年的 8 倍。这主要是因为大部分代码由 Claude 撰写,工程师主要负责指导和审查。
  • 主观反馈: 2026 年 3 月对 130 名 Anthropic 研究团队成员的调查显示,中位数受访者估计,在使用 Mythos Preview 的情况下,其产出量约为无 AI 辅助时的 4 倍。尽管实际增幅可能略低,但足以证明 AI 辅助显著加快了核心工作的完成速度。

关键要点

  • 递归自我改进并非必然,但可能提前到来: 虽然目前尚未实现,但 AI 加速自身开发的趋势表明,完全自主设计后继者的系统可能比预期更早出现。
  • 任务复杂度呈指数级增长: AI 能独立处理的任务时长从分钟级迅速扩展至小时级,并正逼近天级和周级任务。
  • 基准测试显示“饱和”趋势: 在软件工程(SWE-bench)和研究复现(CORE-Bench)等关键领域,AI 模型在短短一两年内从低分迅速达到接近满分,显示能力跃升。
  • Anthropic 内部效率革命:
    • 超过 80% 的合并代码由 Claude 生成。
    • 工程师人均代码产出量在 2026 年 Q2 达到 2024 年的 8 倍。
    • 人类角色从“执行者”转变为“目标设定者”和“审查者”。
  • 当前局限在于“判断力”: 尽管 Claude 在执行既定实验和编写代码方面表现卓越,但在选择目标(即决定做什么研究或解决什么问题)方面,仍与人类专家存在显著差距。这是实现完全递归自我改进前的最后主要障碍。
  • 生产力提升真实存在: 无论是客观代码行数还是主观员工反馈,都证实 AI 辅助带来了数倍的生产力提升。

意义与影响

技术史上的重大转折点

能够构建自身的 AI 将是技术史上的重大发展。如果实现,它将在科学、医疗等领域为世界带来巨大的福祉。AI 自主加速研发,意味着新药发现、材料科学突破和基础物理研究的周期将被大幅压缩。

安全与控制风险加剧

然而,完全递归自我改进也带来了人类可能失去对 AI 系统控制的风险。如果系统能够完全自主构建其继任者,那么我们如何保障其安全、如何监控其行为、以及如何塑造其行为的重要性将呈指数级增长。

  • 监控难度增加: 自主迭代的系统可能产生人类难以理解的内部逻辑或目标偏移。
  • 对齐挑战: 确保每一代自动生成的模型都严格遵循人类价值观和安全准则,比手动训练模型更加困难。

对 AI 公司的启示

Anthropic 的数据表明,AI 不再仅仅是辅助工具,而是成为了开发流程的核心驱动力。未来,AI 公司的核心竞争力可能不仅在于拥有最好的模型,更在于如何有效地将 AI 代理整合到研发闭环中,同时建立相应的安全护栏,以应对自主迭代带来的潜在风险。

这一进展提醒所有机构:AI 加速自身

查看原文 →anthropic.com