技术博客arXiv cs.CL·3 小时前

APEX框架：动态数据选择实现高效自动提示词工程

原标题：APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

速览

针对大语言模型对提示词敏感且现有进化算法数据效率低的问题，研究者提出APEX框架。该框架根据优化过程动态将数据集分为易、难和混合层级，优先利用混合层级数据以生成高价值变异并区分候选质量。实验表明，在固定评估预算下，APEX在多个基准测试中均优于初始提示词，证明了以数据为中心的方法对高效提示词优化的关键作用。

AI 深度解读

APEX：基于动态数据选择的自动化提示工程专家

背景

大型语言模型（LLMs）对提示词（Prompt）的构建方式极其敏感。为了充分释放这些模型的性能潜力，自动化的提示优化（Prompt Optimization）已成为不可或缺的技术环节。

目前，进化算法（Evolutionary Algorithms）已成为提示优化的主流范式。然而，现有方法存在一个关键的瓶颈：数据效率低下。当前的优化方法通常将开发数据集视为静态基准，这意味着在优化过程中，计算资源被大量浪费在那些对模型性能提升没有显著帮助（即信息量低）的数据样本上。这种“一刀切”的数据处理方式限制了提示优化的效率和效果。

核心内容

为了解决上述数据效率问题，研究人员提出了 APEX（Automated Prompt Engineering eXpert with Dynamic Data Selection，基于动态数据选择的自动化提示工程专家）。这是一个新颖的框架，其核心创新在于同时优化数据使用策略和提示搜索过程。

动态分层策略

APEX 不再将数据集视为静态整体，而是根据优化过程中的“优化谱系”（optimization lineage），动态地将数据集划分为三个层级：

Easy（简单层）：模型表现稳定且优异的数据。
Hard（困难层）：模型表现极差的数据。
Mixed（混合层）：模型表现参差不齐、具有不确定性的数据。

聚焦“混合层”的高杠杆价值

APEX 的核心策略是优先处理 Mixed（混合层） 数据。这类数据能够揭示模型能力的边界和不确定性。通过深入分析混合层数据，APEX 识别出了两个具有高杠杆效应的子集：

可解决前沿（Addressable Frontier）：用于生成具有高信息量的变异（mutations），即通过修改提示词来解决模型当前表现不佳的问题。
排名敏感前沿（Rank-sensitive Frontier）：用于区分候选提示词的质量，帮助算法更精准地评估不同提示词的优劣。

实验评估

研究者在三个多样化的基准测试中对 APEX 进行了评估：

IFBench
SimpleQA Verified
FACTS Grounding

在固定的 5,000 次评估调用 的计算预算下，得益于其高效的数据利用策略，APEX 的表现显著优于初始提示词：

在 Gemini 2.5 Flash 模型上，平均提升了 11.2%。
在 Gemma 3 27B 模型上，平均提升了 6.8%。

这一结果有力地证明了，以数据为中心的方法是实现高效且有效的提示优化的关键。

关键要点

痛点解决：传统进化算法在提示优化中浪费大量算力在低信息量的静态数据集上，APEX 通过动态数据选择解决了这一数据效率瓶颈。
动态分层机制：APEX 根据优化进程动态将数据分为 Easy、Hard 和 Mixed 三层，而非固定不变。
混合层（Mixed Tier）的核心地位：
- 混合层数据包含模型表现不一致的样本，是挖掘优化潜力的关键。
- 从中提取的“可解决前沿”用于生成 informative mutations（信息丰富的变异提示）。
- 从中提取的“排名敏感前沿”用于更精准地评估候选提示的质量。
显著的性能提升：在严格的 5,000 次评估预算限制下，APEX 在 Gemini 2.5 Flash 和 Gemma 3 27B 上分别实现了 11.2% 和 6.8% 的平均性能提升。
方法论转变：研究证实，从“仅优化提示”转向“提示与数据协同优化”的数据中心（Data-centric）方法，是提升自动化提示工程效率的关键路径。

意义与影响

APEX 的提出标志着自动化提示工程（Auto-Prompt Engineering）从单纯的算法搜索向数据感知型优化的转变。

降低计算成本：通过剔除低价值数据样本，APEX 能够在有限的计算预算（Evaluation Calls）下获得更高的模型性能。这对于资源受限的场景或需要频繁迭代的大型模型应用具有重要意义。
提升优化鲁棒性：动态选择数据使得优化过程能够自适应地关注模型当前的薄弱环节（Mixed 层），而不是盲目地在全量数据上进行搜索，从而提高了找到最优提示词的效率和成功率。
为后续研究提供新范式：APEX 证明了数据选择策略在 LLM 微调、提示优化等任务中的巨大潜力。未来的研究可能会进一步探索更细粒度的数据分层方法，或将此框架扩展到其他需要高效数据利用的模型适应任务中。

总之，APEX 不仅是一个具体的工具，更提供了一种在资源受限条件下最大化 LLM 性能的新思路：聪明的数据选择比盲目的数据堆砌更有效。

查看原文 →arxiv.org