技术博客arXiv cs.CL·23 小时前

环境反馈驱动LLM游戏智能体提示词自动优化

原标题：Environment-Grounded Automated Prompt Optimization for LLM Game Agents

速览

该研究提出了一种环境锚定的自动化提示词优化框架，将LLM智能体的观察-行动流程分解为目标条件描述器和动作选择器。通过LLM驱动的进化循环，结合行为分析器和变异器，根据环境反馈迭代优化提示词。在BALROG基准测试中，该方法无需更新模型权重，在PutNext任务中将成功率从0%提升至72.5%，证明了自动提示优化对增强LLM智能体能力的有效性。

AI 深度解读

Environment-Grounded Automated Prompt Optimization for LLM Game Agents：环境感知的自动化提示优化框架解读

背景

大型语言模型（LLM）智能体在交互式环境（如游戏、模拟仿真）中的表现，高度依赖于其提示词（Prompt）的设计。然而，当前的提示工程（Prompt Engineering）仍然是一个高度依赖人工、且针对特定任务定制的繁琐过程。这种手动调整不仅效率低下，而且难以保证在不同环境反馈下的鲁棒性。

尽管微调（Fine-tuning）模型权重是提升性能的一种常见手段，但其计算成本高昂且需要大量标注数据。因此，如何在不更新模型权重的前提下，通过自动化手段优化提示词，从而提升 LLM 智能体在复杂交互环境中的表现，成为了一个亟待解决的关键问题。

核心内容

本文提出了一种名为 Environment-Grounded Automated Prompt Optimization（环境感知的自动化提示优化）的新框架。该框架旨在通过自动化的迭代循环，优化 LLM 智能体的提示词，而无需进行模型微调。

1. 提示词分解与模块化设计

该框架将智能体从“观察”到“行动”的决策管道（observation-to-action pipeline）分解为两个独立的模块：

目标条件描述器智能体（Goal-Conditioned Descriptor Agent）：负责将环境观察转化为结构化的目标描述。
行动选择智能体（Action Selection Agent）：根据描述器的输出，选择具体的执行动作。

这种分解使得优化过程更加精细，可以分别针对“理解环境”和“做出决策”两个阶段进行提示词优化。

2. 基于环境反馈的进化循环

优化过程由一个由 LLM 驱动的进化循环（Evolutionary Loop）主导，其核心驱动力是环境回报（Environment Returns）。具体流程如下：

行为分析器（Behavior Analyzer）：分析智能体在特定回合（Episode）中的表现，将最终结果归因于提示词中的特定组件。例如，判断失败是因为描述不准确，还是行动选择错误。
变异器（Mutator）：基于行为分析器的归因结果，提出针对提示词的定向修改建议。
环境验证（Environment Rollouts）：将修改后的提示词投入环境中进行模拟运行，验证其实际效果。
迭代优化：根据验证结果更新提示词，进入下一轮优化。

3. 实验评估与结果

研究团队在 BALROG 基准测试的所有五个 BabyAI 任务上对该框架进行了评估，并与 BALROG 中的 RobustCoTAgent 进行了对比。实验涵盖了两种提示初始化条件：普通初始化（Plain）和引导式初始化（Guided）。

主要发现包括：

性能提升：在所有任务和条件下，优化后的提示词均带来了持续的性能提升。
无需微调：整个过程无需更新底层 LLM 的权重。
显著突破：在 PutNext 任务中（这是一个需要多步协调的复杂任务），基线模型 RobustCoTAgent 的成功率为 0%。而在相同底层 LLM 和相同参数下，经过本框架优化提示词后，智能体的成功率提升至 72.5%。

关键要点

自动化替代人工：该框架解决了提示工程依赖人工、任务特异性强的问题，实现了提示词的自动化迭代优化。
模块化优化策略：通过将“观察-行动”管道分解为描述器和行动选择器，实现了对提示词不同部分的精细化归因和优化。
零样本微调（Zero-Fine-Tuning）：优化仅针对提示词（Prompt），不涉及模型权重的更新，极大地降低了计算成本和部署门槛。
环境反馈驱动：优化过程完全由环境中的实际回报（Success/Failure）驱动，确保优化方向与任务目标一致。
解决长程依赖难题：在需要多步协调的复杂任务（如 BabyAI 的 PutNext）中，该方法能显著提升原本无法完成任务的智能体的成功率（从 0% 提升至 72.5%）。
多智能体框架优势：结合多智能体架构（描述器+行动选择器）与自动提示优化，能够在不增加模型复杂度的情况下增强 LLM 的能力。

意义与影响

这项研究为 LLM 智能体在交互式环境中的应用提供了一条新的技术路径。其核心意义在于证明了提示词优化本身可以作为一种强大的“软微调”手段。

降低部署门槛：对于资源受限的场景或无法访问模型权重的黑盒模型（如 API 调用的 LLM），该方法提供了一种低成本提升智能体性能的方案。
提升鲁棒性：通过环境反馈驱动的迭代优化，生成的提示词更能适应环境的动态变化，比静态的提示词工程更具鲁棒性。
可解释性增强：行为分析器将结果归因于特定的提示组件，使得优化过程具有一定的可解释性，有助于开发者理解智能体失败的原因。
推动 Agent 研究范式：该工作强调了“环境感知”在提示优化中的重要性，提示未来的研究应更多关注如何将环境反馈直接融入提示词的生成与优化过程中，而非仅仅依赖静态的指令或思维链（CoT）。

总之，该框架展示了一种无需微调即可显著提升 LLM 智能体在复杂任务中表现的有效方法，为构建更高效、更智能的 AI Agent 提供了重要的参考。

查看原文 →arxiv.org