技术博客arXiv cs.AI·7 小时前

大模型智能体不确定性分解助力主动澄清

原标题：Uncertainty Decomposition for Clarification Seeking in LLM Agents

速览

针对交互式大模型智能体，提出一种基于提示词的不确定性分解方法，将动作置信度与请求不确定性分离。该方法使智能体能在任务规范模糊时主动寻求澄清，克服了黑盒API和延迟限制。实验显示，该方法在多个主流大模型上显著提升了澄清准确率，验证了其泛化能力。

AI 深度解读

Uncertainty Decomposition for Clarification Seeking in LLM Agents：大模型智能体的不确定性分解与澄清机制

背景

近年来，随着大型语言模型（LLM）在构建自主智能体（Agents）方面的应用日益广泛，如何处理交互过程中的不确定性成为了一个核心挑战。传统的认知科学和机器学习框架通常将不确定性划分为两类：偶然不确定性（Aleatoric Uncertainty，由数据本身的噪声或随机性引起）和认知不确定性（Epistemic Uncertainty，由模型知识的缺失或训练数据不足引起）。

然而，近期发表的立场论文指出，这种经典的二分法框架对于交互式 LLM 智能体而言是不足的。在真实世界的交互场景中，智能体需要能够感知“规范缺失”（underspecification），即用户指令本身可能存在模糊、遗漏或矛盾之处。为了解锁诸如“主动寻求澄清”（proactive clarification seeking）和“构建共享心智模型”（shared mental-model building）等新能力，智能体需要一种可分解、可沟通的不确定性表示方法。

在实际部署中，智能体面临着严格的约束：

黑盒 API：许多商业 LLM 仅提供文本输入输出，无法直接访问内部概率分布或进行多次采样。
交互延迟预算：实时交互要求低延迟，复杂的基于采样的估计方法往往不可行。
缺乏标注轨迹：在部署阶段，通常没有带标签的数据轨迹用于训练复杂的校准模型。

这些约束排除了基于对数概率（logprob-based）、多采样（multi-sampling）和基于训练（training-based）的方法。因此，基于提示词（prompt-based）的估计方法成为了在部署时生成此类信号的最可行方案。

核心内容

本文提出了一种简单的基于提示词的不确定性分解方法，旨在解决上述问题。该方法的核心思想是将智能体的“行动置信度”（action confidence）与“请求不确定性”（request uncertainty, $u$）分离开来。

1. 方法机制：解耦行动与请求

传统的智能体往往难以区分“我不知道怎么做”（认知不确定性）和“我不知道你要我做什么”（规范缺失/请求不确定性）。本文提出的分解框架通过提示词工程，引导 LLM 评估两个维度的不确定性：

行动置信度：智能体对自己执行特定步骤的能力或逻辑的把握程度。
请求不确定性 ($u$)：智能体对用户指令清晰度、完整性和歧义性的评估。

当系统检测到“请求不确定性”较高时，智能体被设计为主动发起澄清请求，而不是盲目执行或陷入错误循环。这种机制使得智能体能够在任务规范模糊时，通过对话来消除歧义，从而构建更准确的共享心智模型。

2. 基准测试与评估体系

为了验证该方法的有效性，作者构建了两个专门用于评估澄清能力的基准测试：

WebShop-Clarification：基于 WebShop 电商购物环境的变体，其中 50% 的任务被故意设置为规范缺失（underspecified）。
ALFWorld-Clarification：基于 ALFWorld 家务导航环境的变体，同样包含 50% 的故意模糊任务。

此外，为了检测故障检测能力，还使用了标准的 WebShop、ALFWorld 和 REAL 基准进行测试。

3. 实验设置与结果

研究系统在五种不同的 LLM 后端上进行了系统比较：

GPT-5.1
DeepSeek-v3.2-exp
GLM-4.7
Qwen3.5-35B
GPT-OSS-120B

对比基线包括：

ReAct+UE：结合推理与行动的基线方法。
Uncertainty-Aware Memory (UAM)：不确定性感知记忆方法。

主要发现： 在五种后端模型的平均表现中，提出的分解方法在 ALFWorld-Clarification 基准上的澄清 F1 分数比 ReAct+UE 提高了 73%，比 UAM 提高了 36%。

更重要的是，该方法在 WebShop-Clarification 上的所有五个后端模型上，以及在 ALFWorld-Clarification 上的四个后端模型上，均实现了澄清 F1 分数的提升。这表明该增益具有泛化性，不仅仅局限于单一的 LLM 架构。

关键要点

传统框架的局限性：经典的偶然/认知不确定性二分法不足以支持交互式 LLM 智能体的高级功能，如主动澄清。
部署约束下的最优解：鉴于黑盒 API、延迟限制和无标签数据的现实约束，基于提示词（prompt-based）的不确定性估计是部署时最可行的技术路线。
不确定性解耦：提出的方法成功将“行动置信度”与“请求不确定性”分离，使智能体能够识别指令本身的模糊性，而非仅仅评估执行能力。
显著的效能提升：在 ALFWorld-Clarification 基准上，该方法相比 ReAct+UE 提升了 73% 的澄清 F1 分数，相比 UAM 提升了 36%。
跨模型泛化能力：在 GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B 和 GPT-OSS-120B 五种主流模型上均观察到性能提升，证明该方法不依赖特定模型架构。
基准贡献：引入了 WebShop-Clarification 和 ALFWorld-Clarification 两个新基准，其中 50% 的任务为故意模糊，为未来研究提供了标准化的评估工具。

意义与影响

这项研究对 LLM 智能体的实际部署具有重要的理论和实践意义。

首先，它解决了智能体在复杂、模糊的人类交互中“盲目行动”的痛点。通过引入主动澄清机制，智能体可以从被动的指令执行者转变为主动的信息协作者，显著降低因误解用户意图而导致的任务失败率。

其次，该方法证明了在不依赖昂贵模型微调或内部概率访问的情况下，仅通过提示词工程即可实现复杂的不确定性推理。这极大地降低了将高级不确定性感知能力集成到现有商业 LLM 服务中的门槛。

最后，所提出的两个澄清增强型基准（WebShop-Clarification 和 ALFWorld-Clarification）填补了该领域的评估空白。随着智能体从实验室走向真实世界，处理“规范缺失”将成为关键能力，这些基准将为衡量智能体的鲁棒性和交互智能提供重要标尺。

查看原文 →arxiv.org