← 返回信息流
GitHub 热榜GitHub Trending · 日·3 天前

Babysitter:面向智能体工作队的确定性自编排管控框架

原标题:a5c-ai/babysitter
JavaScript1,123 stars+58 今日

速览

Babysitter 通过确定性、无幻觉的自编排机制,强制规范智能体工作队的行为服从性。它使系统能够可靠地管理极度复杂的任务与工作流,适用于需要高可靠性和精确控制的 AI 代理集群场景。

AI 深度解读

这是什么

Babysitter 是一个由 a5c-ai 开发的开源 AI 代理编排框架(Agentic Workforce Orchestration Framework)。它并非一个独立的聊天机器人,而是一个运行在 AI 编码助手(如 Claude Code、Codex、Gemini CLI 等)之上的“监管层”或“编排引擎”。

其核心理念是将复杂的 AI 工作流从“自然语言对话”转变为“确定性代码执行”。通过定义 JavaScript 流程,Babysitter 强制 AI 代理严格按照既定步骤执行任务,确保每一步都通过质量门禁(Quality Gates),并在关键节点要求人类审批。它旨在解决 AI 代理在长期、复杂任务中容易出现的幻觉、偏离目标和不可控问题。

解决的问题

当前 AI 编码助手(如 Cursor、Claude Code 等)虽然强大,但在处理复杂工作流时存在显著痛点:

  1. 幻觉与偏离目标:AI 容易在长链条任务中“跑题”,忽略前置约束或产生错误的代码逻辑。
  2. 缺乏确定性:传统的 Prompt 驱动方式难以保证每次执行结果的一致性,无法形成可复用的标准化流程。
  3. 缺乏人工干预机制:在关键决策点(如架构变更、部署前检查)缺乏强制性的“人类在环”(Human-in-the-loop)控制,导致风险不可控。
  4. 工作流碎片化:不同任务(测试、部署、重构)通常分散在独立的对话中,缺乏统一的日志记录和状态管理。

Babysitter 通过“确定性编排”解决了这些问题,让 AI 代理变成受控的“劳动力”,而非不可预测的“黑盒”。

核心功能

1. 确定性自我编排(Deterministic Self-Orchestration)

Babysitter 允许用户用 JavaScript 代码定义工作流。AI 代理不再是自由发挥,而是执行代码中定义的 ctx.task(任务)和 ctx.breakpoint(断点)。

  • 代码即权威:流程逻辑由 JS 代码定义,AI 只能执行代码允许的操作。
  • 不可变日志:所有决策和执行步骤都被记录在不可变的日志中,便于审计和回溯。

2. 多智能体编排与内部 Harness

  • 内部 Harness(Internal Harness):无需外部 AI 代理即可运行流程,适用于 CI/CD 管道、自动化脚本和无头编排。它使用 SDK 内置的执行引擎,支持任务、断点、并行分发等所有能力。
  • 多代理路由:内部 Harness 可以动态发现并调用系统中安装的其他 AI 代理(如 Claude Code、Codex、Gemini CLI),将子任务委派给最适合的代理执行,实现多智能体协作。

3. 插件系统(Plugin System)

Babysitter 的插件机制与传统 IDE 插件不同。它不是扩展点代码,而是一套自然语言指令(Markdown)或确定性代码过程(JS)

  • AI 代理读取这些指令并执行。
  • 官方市场提供安全(gitleaks, ESLint)、测试(Vitest, Playwright)、部署(Terraform, Docker)、CI/CD 等插件。
  • 插件安装过程本身也是由 AI 代理通过 Babysitter 编排完成的,包括与用户交互、分析项目结构并配置环境。

4. 人类在环(Human-in-the-Loop)控制

  • 强制断点:在关键步骤设置 ctx.breakpoint,强制暂停并等待人类审批(如“批准计划?”)。
  • 质量门禁:在流程推进前,必须通过预定义的质量检查(如测试通过、代码规范检查)。

5. 全生命周期管理

  • CLI 工具:提供 babysitter harness:* 命令集,支持交互式运行、Yolo 模式(完全自主)、计划模式、恢复中断运行、健康诊断、历史回顾和清理。
  • 项目与用户配置:通过 /babysitter:user-install/babysitter:project-install 分别配置个人偏好和项目特定工作流。

亮点 / 与同类相比

| 特性 | 传统 AI 编码助手 (如 Cursor/Claude Code 原生) | Babysitter | | :--- | :--- | :--- | | 执行模式 | 自然语言对话驱动,自由度高但不可控 | 代码定义流程,确定性执行,受控 | | 流程管理 | 无状态或简单上下文窗口 | 完整的事件溯源日志,支持中断恢复 | | 人工干预 | 依赖用户主动停止或修改 Prompt | 强制断点,流程级质量门禁 | | 插件本质 | 代码扩展点(Extension Points) | 指令集/代码过程,AI 代理即运行时 | | 多代理协作 | 通常限于单个会话内的上下文 | 支持跨代理路由,内部 Harness 可调度其他 CLI | | 适用场景 | 单点代码生成、快速原型 | 复杂工作流、CI/CD 集成、团队协作标准 |

核心差异:Babysitter 不替代 AI 编码助手,而是增强它们。它将 AI 从“自由职业者”转变为“遵循严格 SOP 的员工”。

适合谁用 / 上手

适合谁用

  • 追求代码质量与一致性的开发团队:需要标准化工作流(如 TDD、安全审计、部署流程)的团队。
  • DevOps 与 SRE 工程师:希望在 CI/CD 管道中集成 AI 能力,实现自动化测试、 lint 和部署检查。
  • 复杂项目维护者:管理大型代码库,需要 AI 代理在长期任务中保持专注和上下文一致性。
  • AI 代理开发者:希望构建基于 AI 的工作流引擎,并需要可观测性和控制层的开发者。

上手指南

  1. 环境准备

    • Node.js 20.0.0+ (推荐 22.x LTS)。
    • 安装 AI 编码助手(如 Claude Code、Codex CLI 等)。
    • 安装 Git。
  2. 安装插件

    • Claude Code:通过 claude plugin marketplace add a5c-ai/babysitter 安装。
    • Codex CLI:在 CLI 中输入 /plugins 并安装 Babysitter。
    • Cursor/Gemini/GitHub Copilot:通过 npm 全局安装对应的 @a5c-ai/babysitter-* 包。
    • OpenCode/PI:使用各自的插件安装命令。
  3. 初始化配置

    • 在 AI 助手中运行 /babysitter:user-install 设置个人偏好。
    • 运行 /babysitter:project-install 分析项目并配置工作流。
    • 运行 /babysitter:doctor 验证安装状态。
  4. 开始使用

    • 交互式:在对话中使用 /babysitter:call implement user authentication with TDD
    • CLI 模式:使用 babysitter harness:call --harness claude-code --prompt "..." --workspace .
    • 自动化:在 CI/CD 中使用 babysitter harness:call --harness internal --process ... 进行无头执行。

Babysitter 通过其独特的“代码定义流程 + AI 执行”模式,为 AI 辅助开发引入了工业级的可靠性和可控性。

查看原文 →github.com