技术博客arXiv cs.AI·13 小时前

AIP：用有向图重构智能体技能，提升可靠性与可治理性

原标题：AIP: A Graph Representation for Learning and Governing Agent Skills

速览

Agent Instruction Protocol (AIP) 提出了一种将智能体技能建模为有向执行图的新方法，以解决传统自由文本描述带来的可靠性低和修改困难问题。该方法通过编译技术将人类编写的技能转化为包含确定性子步骤和类型化输入输出边的结构化格式。实验显示，在SkillsBench基准测试中，该方法使Claude Sonnet的任务奖励从0.60提升至0.71，通过率从53%升至67%。此外，基于模式的验证机制使得技能故障可被精确定位和修复，为智能体技能的治理、内省及强化学习提供了自然的操作空间。

AI 深度解读

AIP：一种用于学习和治理智能体技能（Agent Skills）的图表示法

背景

当前的智能体技能（Agent Skills）主要依赖于非结构化的自然语言描述（free-form prose）。在这种模式下，智能体在每一次会话中都需要阅读、解释并重新推导出行动逻辑。这种依赖自然语言的方式带来了两个叠加的负面成本：

可靠性降低：在执行高度依赖代码或具体操作的任务时，由于智能体需要“重新推导”指令，导致执行结果的不稳定性增加。
创建与改进困难：编辑自然语言文本是一个脆弱且低效的过程。无论是人类还是智能体，在面对模型训练数据中代表性不足的领域特定程序性知识（domain-specific procedural knowledge）时，都难以通过简单的文本修改来有效优化技能。

为了解决上述问题，研究人员提出了 Agent Instruction Protocol (AIP)。

核心内容

AIP 将技能建模为一个有向执行图（directed execution graph），通过结构化的方式替代传统的自然语言描述。其核心机制包括：

1. 技能的结构化表示

AIP 将技能分解为以下组件：

节点（Nodes）：代表离散的步骤，由确定性脚本（deterministic scripts）或自然语言描述支持。
边（Edges）：节点之间通过显式的、类型化的输入/输出（typed input/output）边连接，明确数据流向。
规范（Specification）：整个图由基于模式验证（schema-validated）的 YAML 规范进行治理，确保结构的合法性和一致性。

2. 编译器元技能（Compiler Meta-Skill）

AIP 引入了一种“编译器”元技能，能够将人类编写的现有自然语言技能自动转换为 AIP 图表示形式。这一过程将非结构化的文本转化为机器可理解、可执行的结构化数据。

3. 双重优势

AIP 的设计带来了两方面的显著收益：

执行层面的提升：通过将人类编写的技能编译为 AIP，智能体不再需要从自然语言中重新推导代码、命令和工具调用，而是直接获取经过验证的可运行单元。这提高了任务执行的准确性和效率。
创建与改进层面的优化：由于每个技能都经过模式验证、功能可测试，并且可以按节点进行寻址，因此故障诊断和修复变得精确。技能改进不再是模糊的文本重写，而是一个可测量的调优循环（measurable tuning loop）。

关键要点

性能显著提升：在 SkillsBench 的 27 个真实智能体任务中，将人类编写的技能编译为 AIP 后，Claude Sonnet 的平均任务奖励从 0.60 提升至 0.71，通过率从 53% 提升至 67%。
统计显著性：上述性能提升具有统计学意义（Wilcoxon 符号秩检验 p = 0.011）。在对比实验中，Claude Sonnet 在 12 个任务中获胜，2 个任务失败，13 个任务持平，且通常耗时更短。
故障诊断与修复：
- AIP 的结构使得故障可以精确定位到脚本级别。
- 案例显示，两个作者编写的技能失败被追溯至脚本层。通过调整 AIP 规范并重新编译，这两个技能均实现了零回归（zero regressions）的恢复，其中一个任务的表现从 0/5 提升至 5/5。
治理与可观测性：相同的图结构支持语料库级别的治理（corpus-level governance）和技能自省（skill introspection）。
强化学习适配：AIP 的图结构为基于技能的强化学习（reinforcement learning over skills）提供了自然的动作空间（action space）。

意义与影响

AIP 的提出标志着智能体技能管理从“自然语言驱动”向“结构化图驱动”的范式转变。

解决“重新推导”瓶颈：传统方法要求 LLM 在每次运行时重新理解并生成指令，这不仅消耗计算资源，还引入了不确定性。AIP 通过预编译和结构化，将技能转化为确定的执行单元，大幅提升了复杂任务（尤其是代码和工具调用密集型任务）的可靠性。
实现技能的工程化维护：将技能视为可测试、可调试的图结构，使得技能开发具备了软件工程般的可维护性。开发者可以像调试代码一样，针对特定节点进行修复和优化，从而将技能改进从一种“艺术”转变为一种可量化、可重复的工程过程。
为大规模智能体系统奠定基础：AIP 提供的标准化表示法和治理机制，有助于在大规模部署中管理成千上万个智能体技能，确保它们的一致性、安全性和可观测性。同时，其结构化的特性也为未来结合强化学习优化智能体行为提供了理想的基础设施。

查看原文 →arxiv.org