Superpowers 6 发布
速览
Superpowers 6 是一款面向 AI 应用开发的全新框架,旨在简化大模型集成与部署流程。该版本引入了多项性能优化和工具链升级,可显著提升开发效率。业内认为,这将为 AI 工程师提供更强大的底层支持。
AI 深度解读
背景
Superpowers 是一款 AI 编程辅助工具,采用多代理(multi-agent)协作架构来驱动软件开发流程。在即将发布 Superpowers 5.2 版本之际,Anthropic 短暂上线了名为 Fable 的模型。作者利用 Fable 对 Superpowers 的构建流程进行了深度优化,最终促成了 Superpowers 6 的诞生。
用户长期以来对 Superpowers 的主要抱怨集中在两点:token 消耗量大导致成本高,以及构建速度较慢。这些问题的根源在于 Superpowers 的工作机制——它会在前期进行大量规划,强制实施严格的红绿测试驱动开发(red-green TDD),并且协调器会逐项审查所有变更,确保实现精确符合要求且质量达标。这种严谨性不可避免地带来了时间和成本开销。
核心内容
意外的优化契机
作者原本只期望通过 Fable 实现约 15% 的 token 消耗削减,但实际成果远超预期。在约 36 小时的工作时间内(原本需要约 $650 的 token 费用),通过 Fable 驱动的自动研究循环(autoresearch loop),Superpowers 的构建时间减少了 50%,token 消耗降低了 60%。
优化路径
第一轮优化聚焦于协调器(coordinator)到审查器(reviewer)的交接环节。Fable 分析了数千次子代理驱动开发(Subagent Driven Development)会话,发现代码和规范合规审查子代理在执行审查时会运行大量 git 命令。通过将查找待审查 commit 的书面指令切换为预生成包含格式化 diff 和其他元数据的审查包(review package)的 shell 脚本,token 消耗和墙钟时间减少了约 10%。
随后,作者要求 Fable 在夜间自动运行实验,进一步削减 15% 的墙钟时间和 token 成本。令人惊讶的是,Fable 独立得出了与作者相同的结论——合并代码审查器和规范合规审查器——并在评估套件中验证了这一假设,成功实现了预期的 15% 成本削减。
自动研究循环
作者进一步启动了完整的自动研究循环,要求 Fable 运行至少 25 个实验来优化 Superpowers 构建循环的成本效率,使用 Opus 作为协调器。该循环在夜间自动完成,共关闭 25 个实验(另有 4 个记录为待办),总花费约 $165。
关键发现
- 最终候选方案(E27):Opus 控制器 + 引出式计划(elicited plan)+ 条件性 Haiku 实现者 + 简洁审查协议(terse reviewer contract)+ 叙述配方(narration recipe)+ 最终审查层级固定 → 分形测试成本从 $11.67–14.84 降至 $6.24/$6.60
- 量化收益:简洁审查协议减少 41% 审查器输出(裁决完整性不变);叙述配方减少 54%(零方差);条件性实现者分层每次运行节省约 $0.5–1
- 已证伪的优化方向:限制控制器思考(thinking)反而适得其反——轮次从 92 增至 138,输出翻倍;计划字数预算会削减测试内容 62%;Sonnet 计划生成保持保真度但破坏任务结构
- 风险发现:仅获得 diff 包的审查器会产生自信的规范裁决,但会静默地将"规范"重新定义为全局约束——5 个中有 0 个标记出缺失的简报
跨平台验证
在 Codex 上运行评估时,最初结果显示无任何改进。经排查发现,评估套件尚未与主机操作系统充分隔离,导致实际测试的是 Superpowers 5.1.0。修复隔离问题后,所有改进均得到验证。
评估套件的重要性
作者强调,Superpowers 的评估套件(superpowers-evals)对于测量和测试改进至关重要。该套件支持跨多种支持的 harness(如 Codex、OpenCode、Cursor)进行测试,并能量化各项改进对各类编码代理的影响。
关键要点
- 性能提升:Superpowers 6 构建速度提升高达 50%,成本降低高达 60%
- 自动研究循环:利用 Fable 运行了 25 个实验,系统性地优化构建循环,总花费约 $165
- 核心优化手段:
- 合并代码审查器和规范合规审查器
- 预生成审查包(review package),减少审查过程中的 git 命令运行
- 优化协调器的代理层级选择策略(如条件性使用 Haiku 实现者)
- 已证伪的优化方向:限制控制器思考、计划字数预算、Sonnet 计划生成等
- 风险发现:审查器仅获得 diff 包时会静默重新定义规范,导致漏检
- 跨平台一致性:修复评估套件隔离问题后,Codex 上的改进与 Anthropic 评估基准一致
- 评估套件开源:superpowers-evals 已公开,支持跨 harness 的量化测试
意义与影响
AI 编程工具的效率边界
Superpowers 6 的优化表明,AI 驱动的软件开发流程在保持高质量输出的同时,仍有显著的成本和效率优化空间。通过系统性的实验和测量,可以在不牺牲质量的前提下实现 50% 的速度提升和 60% 的成本削减。
自动研究循环的示范效应
Fable 驱动的自动研究循环展示了 AI 自我优化的潜力。从假设生成、实验设计到结果分析,AI 能够独立完成整个优化流程,并在夜间无人值守的情况下完成 25 个实验。这种方法论可能成为未来 AI 工具优化的标准实践。
评估基础设施的重要性
作者反复强调评估套件的关键作用
