← 返回信息流
技术博客arXiv cs.AI·2 小时前

声明式技能文件提升AI智能体工具使用工作流效率

原标题:Declarative Skills for AI Agents in Knowledge-Grounded Tool-Use Workflows

速览

该研究探讨了在非结构化知识库上执行客户服务的AI智能体编排机制。通过对比声明式、命令式及基线智能体,发现检索质量是主要瓶颈。在高质量检索下,声明式技能能显著提升任务准确率并减少编排错误。

AI 深度解读

声明式技能:知识驱动型工具使用工作流中 AI 智能体的编排机制

背景

随着大语言模型(LLM)在客户服务等复杂场景中的应用日益深入,如何有效地编排“工具使用型”AI 智能体(Tool-using AI Agents)成为了一个关键挑战。特别是在面对非结构化知识库(Unstructured Knowledge Base)时,智能体不仅需要理解自然语言指令,还需要准确地检索信息、调用外部工具,并遵循特定的业务流程。

传统的智能体编排方式通常依赖于硬编码的状态机或复杂的程序逻辑,这导致了系统缺乏灵活性且难以维护。与此同时,基于提示工程(Prompt Engineering)的“声明式”方法虽然简单,但其效能尚未在严谨的实验框架下得到充分验证。

本文旨在研究在现实世界的客户服务工作流中,不同编排机制对 AI 智能体表现的影响。作者提出并对比了三种不同的智能体范式:基于自然语言技能文件的声明式智能体、基于显式阶段的命令式智能体,以及无脚手架支持的基线智能体。研究的核心在于通过去中心化的部分可观察马尔可夫决策过程(Decentralized Partially-Observable Markov Decision Process, Dec-POMDP)形式化这些智能体,并从信息论和结构角度分析其差异,最终通过实证实验评估其在不同检索质量下的表现。

核心内容

1. 三种智能体范式的定义与对比

研究主要对比了以下三种智能体架构:

  • 声明式智能体 (DeclarativeAgent): 这是本文主张的有效编排范式。该智能体在推理时读取三个特定领域的“技能文件”(Skill Files),这些文件以自然语言形式编写,并附加到系统提示(System Prompt)中。智能体根据这些技能文件自行决定控制流(Control Flow),即它不需要预先定义的代码逻辑来指导每一步,而是依靠对自然语言指令的理解来动态规划行动。

  • 命令式智能体 (ImperativeAgent): 这是一种基于程序化状态机(Programmatic State Machine)的智能体,具有显式的阶段划分。其设计理念受到递归语言模型(Recursive Language Models)和基于图的编排框架中“外部化控制推理”(Externalised-control inference)的启发。在这种模式下,智能体的行为受到严格的代码逻辑和状态转换规则的限制。

  • 无脚手架基线智能体 (Un scaffolded Baseline Agent): 该基线智能体模仿了 $\tau$-Knowledge 基准测试中的智能体设计。它没有额外的技能文件引导,也没有复杂的程序化状态机约束,主要依赖模型本身的通用能力进行推理。

2. 理论框架:Dec-POMDP 形式化

为了深入分析这三种智能体的本质区别,作者将它们形式化为去中心化部分可观察马尔可夫决策过程(Dec-POMDP)中的策略类(Policy Classes)。

  • 信息论分析:通过分析不同智能体在决策过程中所依赖的信息量及其不确定性,作者探讨了声明式与命令式方法在信息处理效率上的差异。
  • 结构分析:从结构上看,命令式智能体具有固定的拓扑结构,而声明式智能体具有更高的动态适应性。

3. 实证实验设置

研究在五种不同的语言模型和两种检索机制(Retrieval Regimes)上进行了测试:

  • 语言模型:涵盖了当前主流的大语言模型,以验证结论的泛化能力。
  • 检索机制
    • 高质量检索:能够准确、完整地返回相关证据。
    • 低质量/有偏检索:返回的证据不完整或存在偏差,模拟现实世界中常见的检索失败场景。

4. 主要发现

  • 检索质量是主要瓶颈:实验结果明确指出,检索质量是影响 AI 智能体性能的主导因素。当证据不完整或有偏差时,所有类型的智能体(包括声明式和命令式)的表现都会大幅下降。在这种情况下,仅仅依靠技能文件无法恢复丢失的性能。
  • 声明式技能的优势:在高质量检索的前提下,声明式技能 consistently(一致地)提高了程序性任务(Procedural Tasks)的准确率,并减少了编排错误(Orchestration Errors)。
  • 命令式状态机的局限性:尽管命令式智能体具有严格的控制流,但其“脆弱性”(Brittleness)并未可靠地提升任务成功率或合规性。相反,僵化的状态机在面对细微的输入变化或检索噪声时,可能更容易出错。

关键要点

  • 声明式编排的有效性:在知识驱动的工具使用工作流中,将自然语言编写的技能文件附加到系统提示中,是一种高效且灵活的智能体编排范式。
  • 检索是决定性因素:AI 智能体的性能上限很大程度上取决于检索系统的质量。如果底层证据不可靠,任何高级的编排逻辑(无论是声明式还是命令式)都无法弥补性能损失。
  • 声明式 vs. 命令式
    • 声明式:通过自然语言技能文件赋予智能体自主决策权,在高质量数据下能显著提升准确性和减少错误。
    • 命令式:基于程序化状态机,虽然提供了显式的阶段控制,但其僵化的结构并未带来显著的性能优势,反而可能因缺乏灵活性而导致失败。
  • 基线模型的局限:缺乏专门引导的基线智能体在复杂工作流中表现不佳,凸显了专门化技能文件的重要性。
  • 鲁棒性挑战:所有智能体在面对不完美检索时都表现出显著的退化,表明当前的 AI 智能体系统对检索噪声的鲁棒性仍然不足。

意义与影响

这项研究对构建下一代企业级 AI 智能体具有重要的指导意义:

  1. 简化智能体开发:研究结果支持采用“声明式”方法,这意味着开发者可以通过编写自然语言技能文件来定义智能体行为,而无需编写复杂的代码状态机。这降低了开发门槛,提高了系统的可维护性和可扩展性。
  2. 重视检索系统优化:对于希望部署 AI 智能体的企业而言,投资优化检索系统(RAG 中的 Retrieval 部分)比优化智能体的编排逻辑更为关键。只有确保输入证据的高质量和高相关性,智能体的复杂逻辑才能发挥价值。
  3. 重新评估控制流设计:传统的“硬编码”控制流思维在 AI 时代可能需要重新审视。虽然显式控制提供了确定性,但在面对非结构化数据和动态环境时,基于自然语言理解的声明式控制可能更具适应性和鲁棒性。
  4. 未来研究方向:研究指出了当前智能体在应对低质量检索时的脆弱性,这为未来研究指明了方向——如何设计能够容忍检索噪声、具备更强推理和纠错能力的智能体架构,将是提升 AI 实用性的关键。

总之,本文通过严谨的理论分析和实证实验,确立了声明式技能文件在知识驱动型 AI 工作流中的核心地位,并强调了检索质量作为系统瓶颈的决定性作用。

查看原文 →arxiv.org