技术博客arXiv cs.CL·8 天前

SPEAR：代码增强的智能提示优化

原标题：SPEAR: Code-Augmented Agentic Prompt Optimization

速览

SPEAR是一种自由形式的智能提示优化器，它将代码作为行动范式引入自动提示工程。该优化器利用Python沙箱执行任意代码，进行混淆矩阵等结构化错误分析，并具备自动回滚机制以确保性能单调提升。在多项工业级LLM评估基准上，SPEAR的表现远超现有方法，证明了代码工具在复杂评估任务中的关键作用。

AI 深度解读

SPEAR：代码增强的代理式提示词优化

背景

自动提示词工程（Automatic Prompt Engineering, APE）旨在通过自动重写提示词来提升下游任务的性能。然而，现有的 APE 循环通常将优化器本身视为一个固定的流水线（fixed pipeline），缺乏灵活性和自主决策能力。这种静态结构限制了优化器在面对复杂任务时的适应能力，难以动态调整策略以应对不同的错误模式。

为了解决这一局限，研究者将 CodeAct（Wang et al., 2024a）中“代码即动作”（code-as-action）的范式引入到 APE 领域，提出了 SPEAR（SandBoxed Prompt Engineer with Active Roll-back，带主动回滚的沙盒提示词工程师）。SPEAR 是一个自由形式的代理式优化器，它拥有四个核心工具：evaluate（评估）、python（Python 代码执行）、set_prompt（设置提示词）和 finish（完成）。该代理能够自主决定何时以及如何使用这些工具，从而实现对提示词的动态优化。

核心内容

SPEAR 的核心创新在于其引入了 Python 沙盒 作为独特的工具。在这个沙盒中，优化代理可以编写并执行任意 Python 代码，直接作用于当前的评估数据集（DataFrame）。通过这种方式，代理能够执行结构化的错误分析，例如生成混淆矩阵、进行错误聚类以及计算分组指标。这些分析逻辑由代理自身编写，使其能够深入理解模型失败的具体原因，而不仅仅是依赖黑盒的评分。

为了确保长期运行的代理能够单调地提升性能，SPEAR 引入了两道安全护栏（guardrails）：

自动回滚（Auto-rollback）：当检测到指标出现倒退时，系统会自动回滚到之前的最佳状态。
可选的保护性指标下限（Guard metric floor）：设置一个最低性能阈值，防止优化过程陷入局部最优或性能崩溃。

在评估方面，SPEAR 在三个工业级 LLM-as-judge 套件（涵盖招聘筛选、对话记忆和查询优化系统中的 13 个评判任务）以及七个 BBH（Big-Bench Hard）任务和 GSM8K 数据集上进行了测试。

实验结果显示，SPEAR 在所有工业任务的主要指标上均取得了胜利：

在工具选择任务中，Kappa 系数为 0.857，显著优于基准的 0.359。
在过滤相关性任务中，F1-macro 达到 0.815，优于基准的 0.763。
在最难的提取维度上，Kappa 系数为 0.254，优于基准的 0.218。
在 BBH-7 任务中，SPEAR 的平均准确率为 0.938，远超 GEPA（0.628）和 TextGrad（0.484）。

消融实验进一步证实，Python 工具是提升复杂评判任务性能的最大单一杠杆。移除该工具会导致在 5 类工具选择评判任务中 Kappa 系数下降约 0.79，在最难的提取维度上下降约 0.35。其不可替代的贡献在于能够聚合类对混淆信息，这是长上下文 LLM 无法从原始评估数据框中可靠提取的。

关键要点

范式转移：SPEAR 将 APE 从固定的流水线转变为自由形式的代理式优化，引入了“代码即动作”的灵活性。
核心工具：提供四个自主决策工具：evaluate、python、set_prompt 和 finish，其中 Python 沙盒允许代理执行自定义的数据分析和错误诊断代码。
结构化错误分析：代理能够自主编写代码进行混淆矩阵分析、错误聚类和分组指标计算，从而深入定位模型弱点。
性能保障机制：通过“指标倒退自动回滚”和“可选的保护性指标下限”两道护栏，确保优化过程的单调性和稳定性。
工业级验证：在招聘、对话记忆和查询优化等 13 个工业级 LLM-as-judge 任务中全面超越基准。
基准测试优势：在 BBH-7 任务中，SPEAR 的准确率（0.938）显著高于 GEPA（0.628）和 TextGrad（0.484）。
Python 工具的决定性作用：消融实验表明，Python 工具是性能提升的关键，特别是在处理类对混淆聚合等需要结构化数据分析的任务中，其作用无法被长上下文 LLM 直接替代。

意义与影响

SPEAR 的提出标志着自动提示词工程从“静态迭代”向“动态代理决策”的重要转变。通过引入代码执行能力，SPEAR 不仅优化了提示词的文本内容，更优化了优化过程本身的数据洞察能力。这种将代码作为分析工具而非仅仅是生成工具的做法，解决了传统 APE 方法在复杂错误模式面前缺乏解释性和适应性的痛点。

在工业界，SPEAR 在招聘筛选、对话管理等复杂场景下的优异表现，证明了其在处理多维度、高噪声评估任务时的鲁棒性。特别是其能够处理 LLM-as-judge 中的细微差异，这对于提升大型语言模型在实际应用中的可靠性和一致性具有重要意义。此外，其自动回滚机制为长期运行的自动化优化任务提供了必要的安全保障，降低了自动化运维的风险。

总体而言，SPEAR 为构建更智能、更自主的 AI 系统提供了新的方法论，即通过赋予代理代码执行和结构化分析的能力，使其能够像人类专家一样诊断问题并制定优化策略，从而推动自动化工具链向更高水平的自主化迈进。

查看原文 →arxiv.org