技术博客arXiv cs.AI·2 小时前

基于路由工作流语义分解的自动化技能构建框架

原标题：Workflow-to-Skill: Skill Creation via Routing-Workflow-Semantics-Attachments Decomposition

速览

针对大模型技能人工编写成本高且痕迹数据碎片化的问题，研究提出RWSA中间表示，将技能分解为工作流结构、执行语义和运行时附件。在此基础上构建W2S框架，通过分割痕迹、对齐结构和压缩冗余来自动生成高质量技能。实验表明，该方法在70个技能测试中比基线方法的行为回放一致性提升10.5%。

AI 深度解读

Workflow-to-Skill: 基于路由-工作流-语义-附件分解的技能构建

背景

随着大型语言模型（LLM）智能体（Agents）能力的不断提升，它们越来越依赖于 Skills（技能）来编码程序性知识（procedural knowledge）。在当前的智能体架构中，Skill 通常被定义为一种结构化的指令或代码片段，用于指导智能体执行特定的复杂任务或调用外部工具。

然而，尽管 Skill 的重要性日益凸显，高质量 Skill 的构建仍然面临巨大挑战。目前，Skill 主要依靠人工手写（hand-write），这不仅成本高昂，而且难以规模化。现有的自动化工具往往试图通过简单的总结（summarization）或提示工程（prompting）从交互记录中提取 Skill，但这种做法存在根本性的缺陷。

交互证据（interaction evidence）——包括演示（demonstrations）、智能体轨迹（agent trajectories）、工具调用痕迹（tool traces）以及执行日志（execution logs）——通常是碎片化的、冗余的，并且可能缺失那些罕见但关乎安全的关键行为。如果仅仅将这些痕迹视为可压缩的文本进行总结，往往会丢失执行过程中的控制流、状态管理和错误处理逻辑，导致生成的 Skill 在实际回放中表现不佳。

核心内容

为了解决上述问题，本文提出了一种名为 W2S (Workflow-to-Skill) 的框架，旨在通过自动化的方式从异构的交互证据中构建高质量的 Skill。该研究的核心论点在于：从痕迹（trace）到技能（skill）的构建不应被视为简单的文本总结任务，而应被视为对可执行运行时规范（executable runtime specifications）的重构。

1. RWSA：面向工作流的中间表示

W2S 框架的基础是引入了一种名为 RWSA 的面向工作流的中间表示（intermediate representation）。RWSA 将 Skill 分解为三个核心维度，以捕捉任务执行的完整逻辑：

Workflow（工作流结构）：描述任务分解、控制流（control flow）以及分支逻辑。它定义了 Skill 的执行路径和条件判断。
Semantics（执行语义）：定义具体的操作步骤、验证逻辑（verification）以及状态管理（state management）。它确保了每个步骤的语义正确性。
Attachments（运行时附件）：包含与安全（safety）、回滚（rollback）机制以及置信度注解（confidence annotations）相关的元数据。这些附件确保了 Skill 在运行时的鲁棒性和可追溯性。

通过这种分解，RWSA 能够更精确地捕捉 Skill 的结构化特征，而不仅仅是其表面文本。

2. W2S 框架的工作流程

基于 RWSA，W2S 框架执行以下关键步骤来从原始痕迹中生成 Skill：

痕迹分割（Segmentation）：将原始的、混杂的交互痕迹分解为独立的逻辑片段。
局部技能草稿生成（Induce Local Skill Drafts）：对每个片段生成初步的 Skill 草稿。
共享结构对齐（Align Shared Structures）：识别不同轨迹中的共同模式，对齐共享的工作流结构。
分支协调（Reconcile Branches）：处理不同执行路径之间的差异，确保逻辑的一致性。
冗余压缩（Compress Redundancy）：在保留证据和置信度注解的前提下，去除冗余信息，精简 Skill 内容。

3. 实验验证

研究者在 70 个 Skill 上进行了实验，对比了 W2S 与基于总结（summarization-based）和基于提示（prompting-based）的基线方法。结果显示，W2S 在行为回放一致性（behavioral replay consistency）方面提升了 10.5%。这一结果有力地证明了将痕迹视为可执行的运行时规范而非可压缩文本的重要性。

关键要点

Skill 构建的痛点：高质量 Skill 依赖人工手写，成本高昂；现有的自动化方法（如简单总结）无法处理痕迹的碎片化、冗余性和关键安全行为的缺失。
RWSA 中间表示：提出了一种新的分解范式，将 Skill 拆解为 Workflow（结构）、Semantics（语义）和 Attachments（附件），以全面捕捉控制流、验证、安全和状态管理。
W2S 框架机制：通过分割、草稿生成、结构对齐、分支协调和冗余压缩五个步骤，从异构交互证据（演示、轨迹、日志等）中自动构建 Skill。
性能提升：在 70 个 Skill 的实验中，W2S 相比基线方法在行为回放一致性上提升了 10.5%。
范式转变：研究强调应将交互痕迹视为“可执行的运行时规范”，而非普通的“可压缩文本”，这要求更精细的结构化提取和逻辑验证。

意义与影响

这项研究为 LLM 智能体的技能自动化构建提供了新的思路和技术路径。其意义主要体现在以下几个方面：

降低 Skill 工程门槛：通过自动化从丰富的交互数据中提取 Skill，大幅减少了人工编写和维护 Skill 的成本，使得智能体能够更快速地适应新任务。
提升智能体可靠性：通过引入 RWSA 分解，特别是强调安全、回滚和状态管理，生成的 Skill 在执行过程中更加稳健，减少了因逻辑缺失或状态不一致导致的错误。
推动智能体标准化：W2S 框架提供了一种标准化的中间表示和构建流程，有助于不同来源、不同格式的 Skill 进行整合和复用，促进智能体生态系统的互操作性。
深化对痕迹数据的理解：研究指出痕迹不仅是文本，更是可执行的规范，这为后续的研究者提供了新的视角，即在处理智能体交互数据时，应更注重其结构化和逻辑性，而非仅仅关注其语义内容。

总之，Workflow-to-Skill 不仅是一个技术框架，更是一种方法论上的创新，它强调了在智能体技能构建中结构化、可执行性和安全性的重要性，为未来更强大、更可靠的 LLM 智能体系统奠定了基础。

查看原文 →arxiv.org