技术博客arXiv cs.AI·3 小时前

Contrastive Reflection for Iterative Prompt Optimization

AI 深度解读

背景

随着大语言模型（LLM）代理在信息检索（IR）领域的核心地位日益凸显，它们不仅负责生成检索查询、合成答案，还越来越多地充当IR评估的裁判。然而，优化控制这些代理的提示词（prompt）本身就是一个复杂的优化问题。在实际的IR应用场景中，提示词的优化往往不像盲目的搜索，而更像是一个调试过程。工程师们迫切需要回答几个关键问题：哪个具体行为失败了？哪些邻近行为仍然有效？是什么导致了这两种行为的差异？以及，一次提示词的修改是否能在提升未知数据质量的同时，不引入新的回归问题？

核心内容

本文提出了Contrastive Reflection，一个用于智能体IR工作流的迭代式提示词优化框架。该框架的核心思想是“对比反思”，其工作流程始于一个以任务为中心的质量定义：QA代理会暴露其检索或推理轨迹，评分代理则会暴露维度级别的分数和理由。利用这些结构化追踪信息，系统能够识别出以错误为锚点的行为切片，并从同一区域添加邻近的成功案例，然后要求一个“教师LLM”提出一次有针对性的提示词编辑。候选编辑只有在验证集性能提升时才会被接受，并可选择性地进行回归检查。

论文将该框架实例化，采用了一个基于树的切片选择器，但其核心贡献在于“对比反思循环”本身，而非特定的树状结构。在公开的HotpotQA检索增强QA任务上的实验表明，一次由树状选择器选定的对比修复，就能将未知集的精确匹配准确率从51.4%显著提升至60.4%。相比之下，仅使用失败案例或使用随机证据的变体，其提升效果更差，并且会破坏更多原本正确的案例。一项轻量级的、仅使用指令的对比实验显示，该方法的性能已接近现代提示词优化器，其中MIPROv2达到59.4%，GEPA达到57.0%。这项工作为IR代理提供了一种可解释的优化循环，旨在使提示词修复过程更具可检视性，并由验证驱动。

关键要点

问题定位：将LLM代理的提示词优化从“盲目搜索”重新定义为“调试”过程，强调工程师需要理解失败原因、邻近成功案例以及修改的净效应。
核心框架：提出Contrastive Reflection框架，其核心是利用结构化轨迹进行“对比反思”，即通过对比失败行为切片与邻近的成功案例，引导教师LLM生成有针对性的提示词编辑。
工作流程：框架流程包括：1) 基于任务质量定义获取结构化追踪；2) 识别错误锚定的行为切片；3) 添加邻近成功案例作为对比；4) 教师LLM提出候选编辑；5) 通过验证集性能提升和可选的回归检查来接受编辑。
实验验证：在HotpotQA上，该方法将精确匹配准确率从51.4%提升至60.4%，显著优于“仅失败”或“随机证据”等基线方法，性能接近MIPROv2等现代提示词优化器。
核心贡献：论文的主要贡献在于“对比反思循环”这一通用框架，而非其具体实现（如树状切片选择器），该框架旨在使提示词优化过程更加可检视和可靠。

意义与影响

这项研究为复杂智能体工作流的提示词优化提供了一个全新的、更具可解释性的范式。它超越了传统的黑盒优化方法，通过引入结构化的对比分析，使工程师能够像调试代码一样理解和修复提示词问题。这种“对比反思”机制不仅提升了优化效率，更重要的是增强了优化过程的可控性和可靠性，确保提示词修改在带来增益的同时不会引入意外的回归错误。这为构建更稳健、更透明的IR代理系统铺平了道路，其核心思想对任何需要迭代优化LLM提示词的场景都具有广泛的借鉴意义。

查看原文 →arxiv.org

Contrastive Reflection for Iterative Prompt Optimization

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐