AI 资讯Hacker News·2 小时前

Superpowers 6 发布

原标题：Superpowers 6

速览

Superpowers 6 是一款面向 AI 应用开发的全新框架，旨在简化大模型集成与部署流程。该版本引入了多项性能优化和工具链升级，可显著提升开发效率。业内认为，这将为 AI 工程师提供更强大的底层支持。

AI 深度解读

背景

Superpowers 是一款 AI 编程辅助工具，采用多代理（multi-agent）协作架构来驱动软件开发流程。在即将发布 Superpowers 5.2 版本之际，Anthropic 短暂上线了名为 Fable 的模型。作者利用 Fable 对 Superpowers 的构建流程进行了深度优化，最终促成了 Superpowers 6 的诞生。

用户长期以来对 Superpowers 的主要抱怨集中在两点：token 消耗量大导致成本高，以及构建速度较慢。这些问题的根源在于 Superpowers 的工作机制——它会在前期进行大量规划，强制实施严格的红绿测试驱动开发（red-green TDD），并且协调器会逐项审查所有变更，确保实现精确符合要求且质量达标。这种严谨性不可避免地带来了时间和成本开销。

核心内容

意外的优化契机

作者原本只期望通过 Fable 实现约 15% 的 token 消耗削减，但实际成果远超预期。在约 36 小时的工作时间内（原本需要约 $650 的 token 费用），通过 Fable 驱动的自动研究循环（autoresearch loop），Superpowers 的构建时间减少了 50%，token 消耗降低了 60%。

优化路径

第一轮优化聚焦于协调器（coordinator）到审查器（reviewer）的交接环节。Fable 分析了数千次子代理驱动开发（Subagent Driven Development）会话，发现代码和规范合规审查子代理在执行审查时会运行大量 git 命令。通过将查找待审查 commit 的书面指令切换为预生成包含格式化 diff 和其他元数据的审查包（review package）的 shell 脚本，token 消耗和墙钟时间减少了约 10%。

随后，作者要求 Fable 在夜间自动运行实验，进一步削减 15% 的墙钟时间和 token 成本。令人惊讶的是，Fable 独立得出了与作者相同的结论——合并代码审查器和规范合规审查器——并在评估套件中验证了这一假设，成功实现了预期的 15% 成本削减。

自动研究循环

作者进一步启动了完整的自动研究循环，要求 Fable 运行至少 25 个实验来优化 Superpowers 构建循环的成本效率，使用 Opus 作为协调器。该循环在夜间自动完成，共关闭 25 个实验（另有 4 个记录为待办），总花费约 $165。

关键发现

最终候选方案（E27）：Opus 控制器 + 引出式计划（elicited plan）+ 条件性 Haiku 实现者 + 简洁审查协议（terse reviewer contract）+ 叙述配方（narration recipe）+ 最终审查层级固定 → 分形测试成本从 $11.67–14.84 降至 $6.24/$6.60
量化收益：简洁审查协议减少 41% 审查器输出（裁决完整性不变）；叙述配方减少 54%（零方差）；条件性实现者分层每次运行节省约 $0.5–1
已证伪的优化方向：限制控制器思考（thinking）反而适得其反——轮次从 92 增至 138，输出翻倍；计划字数预算会削减测试内容 62%；Sonnet 计划生成保持保真度但破坏任务结构
风险发现：仅获得 diff 包的审查器会产生自信的规范裁决，但会静默地将"规范"重新定义为全局约束——5 个中有 0 个标记出缺失的简报

跨平台验证

在 Codex 上运行评估时，最初结果显示无任何改进。经排查发现，评估套件尚未与主机操作系统充分隔离，导致实际测试的是 Superpowers 5.1.0。修复隔离问题后，所有改进均得到验证。

评估套件的重要性

作者强调，Superpowers 的评估套件（superpowers-evals）对于测量和测试改进至关重要。该套件支持跨多种支持的 harness（如 Codex、OpenCode、Cursor）进行测试，并能量化各项改进对各类编码代理的影响。

关键要点

性能提升：Superpowers 6 构建速度提升高达 50%，成本降低高达 60%
自动研究循环：利用 Fable 运行了 25 个实验，系统性地优化构建循环，总花费约 $165
核心优化手段：
- 合并代码审查器和规范合规审查器
- 预生成审查包（review package），减少审查过程中的 git 命令运行
- 优化协调器的代理层级选择策略（如条件性使用 Haiku 实现者）
已证伪的优化方向：限制控制器思考、计划字数预算、Sonnet 计划生成等
风险发现：审查器仅获得 diff 包时会静默重新定义规范，导致漏检
跨平台一致性：修复评估套件隔离问题后，Codex 上的改进与 Anthropic 评估基准一致
评估套件开源：superpowers-evals 已公开，支持跨 harness 的量化测试

意义与影响

AI 编程工具的效率边界

Superpowers 6 的优化表明，AI 驱动的软件开发流程在保持高质量输出的同时，仍有显著的成本和效率优化空间。通过系统性的实验和测量，可以在不牺牲质量的前提下实现 50% 的速度提升和 60% 的成本削减。

自动研究循环的示范效应

Fable 驱动的自动研究循环展示了 AI 自我优化的潜力。从假设生成、实验设计到结果分析，AI 能够独立完成整个优化流程，并在夜间无人值守的情况下完成 25 个实验。这种方法论可能成为未来 AI 工具优化的标准实践。

评估基础设施的重要性

作者反复强调评估套件的关键作用

查看原文 →blog.fsck.com

Superpowers 6 发布

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐