← 返回信息流
AI 资讯Hacker News·2 小时前

Superpowers 6 发布

原标题:Superpowers 6

速览

Superpowers 6 是一款面向 AI 应用开发的全新框架,旨在简化大模型集成与部署流程。该版本引入了多项性能优化和工具链升级,可显著提升开发效率。业内认为,这将为 AI 工程师提供更强大的底层支持。

AI 深度解读

背景

Superpowers 是一款 AI 编程辅助工具,采用多代理(multi-agent)协作架构来驱动软件开发流程。在即将发布 Superpowers 5.2 版本之际,Anthropic 短暂上线了名为 Fable 的模型。作者利用 Fable 对 Superpowers 的构建流程进行了深度优化,最终促成了 Superpowers 6 的诞生。

用户长期以来对 Superpowers 的主要抱怨集中在两点:token 消耗量大导致成本高,以及构建速度较慢。这些问题的根源在于 Superpowers 的工作机制——它会在前期进行大量规划,强制实施严格的红绿测试驱动开发(red-green TDD),并且协调器会逐项审查所有变更,确保实现精确符合要求且质量达标。这种严谨性不可避免地带来了时间和成本开销。

核心内容

意外的优化契机

作者原本只期望通过 Fable 实现约 15% 的 token 消耗削减,但实际成果远超预期。在约 36 小时的工作时间内(原本需要约 $650 的 token 费用),通过 Fable 驱动的自动研究循环(autoresearch loop),Superpowers 的构建时间减少了 50%,token 消耗降低了 60%。

优化路径

第一轮优化聚焦于协调器(coordinator)到审查器(reviewer)的交接环节。Fable 分析了数千次子代理驱动开发(Subagent Driven Development)会话,发现代码和规范合规审查子代理在执行审查时会运行大量 git 命令。通过将查找待审查 commit 的书面指令切换为预生成包含格式化 diff 和其他元数据的审查包(review package)的 shell 脚本,token 消耗和墙钟时间减少了约 10%。

随后,作者要求 Fable 在夜间自动运行实验,进一步削减 15% 的墙钟时间和 token 成本。令人惊讶的是,Fable 独立得出了与作者相同的结论——合并代码审查器和规范合规审查器——并在评估套件中验证了这一假设,成功实现了预期的 15% 成本削减。

自动研究循环

作者进一步启动了完整的自动研究循环,要求 Fable 运行至少 25 个实验来优化 Superpowers 构建循环的成本效率,使用 Opus 作为协调器。该循环在夜间自动完成,共关闭 25 个实验(另有 4 个记录为待办),总花费约 $165。

关键发现

  • 最终候选方案(E27):Opus 控制器 + 引出式计划(elicited plan)+ 条件性 Haiku 实现者 + 简洁审查协议(terse reviewer contract)+ 叙述配方(narration recipe)+ 最终审查层级固定 → 分形测试成本从 $11.67–14.84 降至 $6.24/$6.60
  • 量化收益:简洁审查协议减少 41% 审查器输出(裁决完整性不变);叙述配方减少 54%(零方差);条件性实现者分层每次运行节省约 $0.5–1
  • 已证伪的优化方向:限制控制器思考(thinking)反而适得其反——轮次从 92 增至 138,输出翻倍;计划字数预算会削减测试内容 62%;Sonnet 计划生成保持保真度但破坏任务结构
  • 风险发现:仅获得 diff 包的审查器会产生自信的规范裁决,但会静默地将"规范"重新定义为全局约束——5 个中有 0 个标记出缺失的简报

跨平台验证

在 Codex 上运行评估时,最初结果显示无任何改进。经排查发现,评估套件尚未与主机操作系统充分隔离,导致实际测试的是 Superpowers 5.1.0。修复隔离问题后,所有改进均得到验证。

评估套件的重要性

作者强调,Superpowers 的评估套件(superpowers-evals)对于测量和测试改进至关重要。该套件支持跨多种支持的 harness(如 Codex、OpenCode、Cursor)进行测试,并能量化各项改进对各类编码代理的影响。

关键要点

  • 性能提升:Superpowers 6 构建速度提升高达 50%,成本降低高达 60%
  • 自动研究循环:利用 Fable 运行了 25 个实验,系统性地优化构建循环,总花费约 $165
  • 核心优化手段
    • 合并代码审查器和规范合规审查器
    • 预生成审查包(review package),减少审查过程中的 git 命令运行
    • 优化协调器的代理层级选择策略(如条件性使用 Haiku 实现者)
  • 已证伪的优化方向:限制控制器思考、计划字数预算、Sonnet 计划生成等
  • 风险发现:审查器仅获得 diff 包时会静默重新定义规范,导致漏检
  • 跨平台一致性:修复评估套件隔离问题后,Codex 上的改进与 Anthropic 评估基准一致
  • 评估套件开源:superpowers-evals 已公开,支持跨 harness 的量化测试

意义与影响

AI 编程工具的效率边界

Superpowers 6 的优化表明,AI 驱动的软件开发流程在保持高质量输出的同时,仍有显著的成本和效率优化空间。通过系统性的实验和测量,可以在不牺牲质量的前提下实现 50% 的速度提升和 60% 的成本削减。

自动研究循环的示范效应

Fable 驱动的自动研究循环展示了 AI 自我优化的潜力。从假设生成、实验设计到结果分析,AI 能够独立完成整个优化流程,并在夜间无人值守的情况下完成 25 个实验。这种方法论可能成为未来 AI 工具优化的标准实践。

评估基础设施的重要性

作者反复强调评估套件的关键作用

查看原文 →blog.fsck.com