技术博客arXiv cs.CL·14 小时前

自信的说谎者：利用对数概率与LLM-as-Judge诊断多智能体辩论

原标题：The Confident Liar: Diagnosing Multi-Agent Debate with Log-Probabilities and LLM-as-Judge

速览

本文通过日志概率分布和LLM-as-Judge评分，分析多智能体辩论中中间推理质量与最终答案准确性的关系。实验发现，Constructor角色的置信度与推理质量的相关性显著高于Auditor角色。该框架能有效检测关键推理失败，为优化多智能体系统提供新视角。

AI 深度解读

自信的谎言者：利用对数概率与 LLM-as-Judge 诊断多智能体辩论

背景

多智能体辩论（Multi-Agent Debate）系统近年来在大型语言模型（LLM）的研究与应用中备受关注。这类系统通常通过让多个智能体相互辩论、交换观点来优化最终的推理结果。然而，现有的评估体系存在一个显著的盲区：它们往往只关注最终答案是否正确，而忽视了辩论过程本身所应产生的中间推理质量。

这种“唯结果论”的评估方式掩盖了辩论机制在提升推理严谨性、纠正错误逻辑方面的潜在价值。为了深入理解多智能体辩论的内部运作机制，研究人员需要一种能够量化中间推理过程的方法。本文旨在填补这一空白，通过引入 token 级别的对数概率（Log-Probabilities）作为内部置信度信号，结合 LLM-as-Judge（以 LLM 作为裁判）的外部评分，来诊断多智能体辩论中的推理质量。

核心内容

本文深入研究了多智能体辩论中三个关键信号之间的关系：

推理 token 层面的对数概率分布：反映模型生成每个 token 时的内部置信度。
LLM-as-Judge 分配的评分：基于特定标准对推理质量进行外部评估。
最终任务准确率：辩论系统输出的最终答案是否正确。

研究的核心问题是：内部的置信度信号能否预测外部评估的推理质量？此外，这些信号是否与任务的正确性保持一致？研究涵盖了三个主要领域：基于标准的评分（Rubric-based scoring）、数学推理（Mathematical reasoning）以及事实性问答（Factual question answering）。

实验框架

为了进行系统性分析，作者构建了一个包含以下组件的实验框架：

双智能体辩论架构：
- Constructor（构建者）：负责生成初始推理和答案。
- Auditor（审计员）：负责审查、质疑并修正构建者的推理。
LLM-as-Judge 评估器：
- 对每个智能体的推理过程进行打分。
- 评估维度包括：指令遵循程度（Instruction following）、论证质量（Justification quality）以及证据 grounding（Evidence grounding）。
- 设置了一个“关键失败标志”（Critical-failure flag），用于标记严重的推理错误。

主要发现：基于标准的评分领域

在基于标准的评分领域，实验揭示了以下重要现象：

四阶段置信度轨迹：在多智能体辩论过程中，智能体的置信度表现出一致的四阶段变化轨迹。这表明辩论过程并非随机波动，而是遵循某种可预测的动态模式。
角色不对称性（Role Asymmetry）：
- 置信度与推理质量的相关性：对于 Constructor 而言，其内部置信度与 LLM-as-Judge 评估的推理质量之间的相关性，大约是 Auditor 的两倍。这意味着构建者的“自信”更能真实反映其推理的质量。
- 关键推理失败检测：基于置信度检测关键推理失败的可靠性在两个角色间存在显著差异。Constructor 的 AUROC（曲线下面积）为 0.804，表现出较高的可靠性；而 Auditor 的 AUROC 仅为 0.634，检测能力相对较弱。

这些发现表明，在多智能体辩论中，不同角色的内部信号具有不同的诊断价值。Constructor 的内部状态更能作为推理质量的可靠指标，而 Auditor 的内部置信度可能受到更多干扰或噪声的影响。这一结果也激励了作者将研究扩展到更广泛的跨领域场景，以验证这些发现的普适性。

关键要点

评估局限性的突破：传统多智能体辩论评估仅关注最终答案正确性，忽略了中间推理过程的质量。本文提出结合内部信号（对数概率）和外部信号（LLM-as-Judge）进行综合诊断。
内部置信度的预测价值：研究证实，token 级别的对数概率分布可以作为预测外部推理质量的有效内部信号，尤其是在特定角色（如 Constructor）中表现更为显著。
角色不对称性显著：
- Constructor 的置信度与推理质量的相关性约为 Auditor 的两倍。
- 在检测关键推理失败方面，Constructor 的可靠性（AUROC 0.804）远高于 Auditor（AUROC 0.634）。
四阶段置信度轨迹：在多智能体辩论过程中，智能体的置信度呈现出一致的四阶段变化模式，揭示了辩论动态的可预测性。
跨领域研究的必要性：基于标准评分领域的发现推动了更广泛的跨领域调查，包括数学推理和事实性问答，以验证这些机制在不同任务类型中的适用性。

意义与影响

这项研究对多智能体系统和 LLM 推理优化具有重要的理论和实践意义：

优化辩论机制设计：通过揭示 Constructor 和 Auditor 在置信度信号上的不对称性，研究人员可以更有针对性地设计辩论协议。例如，可以更多地依赖 Constructor 的内部置信度来早期识别潜在错误，或调整 Auditor 的审查策略以弥补其置信度信号较弱的问题。
提升推理可解释性与可控性：引入 LLM-as-Judge 和对数概率分析，使得原本黑盒化的多智能体辩论过程变得可观测、可量化。这有助于开发者理解辩论为何成功或失败，从而进行更精细的调试和优化。
推动自动化评估标准的发展：研究验证了 LLM-as-Judge 在评估推理质量方面的有效性，特别是在与内部信号结合时。这为未来建立更复杂、更细粒度的自动化评估基准提供了方法论支持。
增强系统可靠性：通过识别关键推理失败并关联到内部置信度信号，可以构建更鲁棒的错误检测机制，提高多智能体系统在高风险应用（如医疗、法律、金融）中的可靠性和安全性。

总之，本文不仅提供了一种诊断多智能体辩论的新工具，还深刻揭示了智能体内部状态与外部表现之间的复杂关系，为构建更智能、更可信的多智能体协作系统奠定了基础。

查看原文 →arxiv.org