技术博客arXiv cs.CL·2 小时前

多智能体互审推理提升大模型医疗问答准确率

原标题：Let LLMs Judge Each Other: Multi-Agent Peer-Reviewed Reasoning for Medical Question Answering

速览

研究提出多智能体同行评审推理方法，让多个大模型独立生成推理链并相互评估事实正确性与逻辑严密性。实验显示该方法在HeadQA等基准上表现优于单模型及多数投票基线，最佳组合平均准确率达0.820。该机制通过强调推理质量而非仅答案一致性，有效提升了医疗问答的准确性、可解释性和鲁棒性。

AI 深度解读

让大模型互相评判：多智能体同行评审推理在医疗问答中的应用

背景

随着大型语言模型（LLMs）在自然语言处理领域的飞速发展，其在医疗领域的应用潜力日益凸显。然而，医疗问答（Medical Question Answering, MedQA）具有极高的专业门槛和容错率极低的特点。传统的单一大模型推理方法，即便采用思维链（Chain-of-Thought, CoT）技术，仍面临幻觉、逻辑跳跃以及事实错误等挑战。此外，简单的多数投票机制（Majority Voting）虽然能利用集成学习提升稳定性，但往往忽略了推理过程的质量差异，仅凭答案的一致性来加权，可能导致“错误的共识”。

为了突破这一瓶颈，研究者提出了一种新的范式：不再仅仅依赖单一模型的输出或简单的统计聚合，而是引入“同行评审”机制。该研究旨在通过多智能体协作，让多个大模型既作为解题者生成推理过程，又作为评审者相互评估，从而在准确性、可解释性和鲁棒性上实现质的飞跃。

核心内容

本研究提出了一种多智能体同行评审推理方法（Multi-Agent Peer-Reviewed Reasoning），专门针对医疗问答任务进行优化。该方法的核心逻辑是将大模型的角色从单一的“生成者”扩展为“生成者+评审者”的双重身份。

方法论详解

独立生成推理链：系统部署多个独立的大语言模型智能体（LLM Agents）。每个智能体接收相同的医疗问题，并独立生成包含候选答案的思维链（Chain-of-Thought）推理过程。这一步确保了初始解法的多样性和独立性。
同行互评机制：生成的推理链并非直接输出，而是进入一个相互评估环节。各个智能体扮演“同行评审员”的角色，对其他智能体生成的推理链进行审查。评估维度主要聚焦于两点：
- 事实正确性（Factual Correctness）：推理中引用的医学知识是否准确。
- 逻辑严密性（Logical Soundness）：从前提到结论的推导过程是否合乎逻辑。
择优输出：经过多轮或单向的相互评分后，系统根据评审得分选出质量最高的推理链，并基于该推理链生成最终答案。

实验设置与结果

研究团队在五个当前最先进的大语言模型上进行了广泛实验，包括：

Llama-3.1-8B
Qwen2.5-7B
Phi-4
DeepSeek-LLM-7B
GPT-oss-20B

实验在三个权威的医疗基准数据集上进行：HeadQA、MedQA-USMLE 和 PubMedQA。

对比基线：

单模型思维链推理（Single-model CoT）
基于思维链的多数投票集成（CoT-based Majority Voting）

主要发现：

性能超越：同行评审推理方法在所有测试中均优于两种基线方法。
最佳表现：最佳模型组合在三个数据集上的平均准确率达到 0.820。
对比优势：这一成绩显著高于最强的单模型表现（0.777）以及多数投票集成方法的最佳表现（最高为 0.789）。
可扩展性：随着参与模型数量的增加，该方法表现出良好的可扩展性。
评审有效性：同行评估机制能够可靠地区分高质量和低质量的推理链，证明了评审过程本身的有效性。

关键要点

双重角色机制：LLM 既是解题者也是评估者，通过角色分离提升了决策的客观性。
质量导向而非数量导向：与多数投票依赖“答案一致性不同”，该方法依赖“推理质量”，更关注逻辑和事实的准确性。
显著的性能提升：在 MedQA 任务上，该方法比最强单模型高出约 4.3 个百分点，比最佳多数投票高出约 3.1 个百分点。
鲁棒性与可解释性增强：由于保留了完整的思维链并经过相互审查，最终输出的答案具有更高的可信度和可追溯性。
模型无关性：该方法适用于多种架构和规模的大模型（从 7B 到 20B 参数不等），显示出良好的通用性。

意义与影响

这项研究为构建可信赖的生物医学人工智能系统提供了一条极具前景的新路径。

首先，它解决了医疗 AI 中至关重要的信任问题。在临床辅助决策中，仅仅给出一个正确答案是不够的，医生需要知道模型是如何得出这个结论的。通过同行评审机制，系统不仅输出了答案，还输出了经过多方验证的高质量推理过程，极大地增强了模型的可解释性。

其次，该方法展示了**多智能体协作（Multi-Agent Collaboration）**在复杂推理任务中的巨大潜力。它证明了通过模拟人类学术界的“同行评审”流程，可以有效抑制大模型的幻觉和错误，提升系统的鲁棒性。

最后，随着大模型参数的增长和多样性的增加，这种基于质量评估而非简单投票的聚合策略，将成为未来构建高可靠性垂直领域 AI 系统的重要参考范式。它不仅适用于医疗领域，也可推广至法律、金融等对逻辑严密性和事实准确性要求极高的专业领域。

查看原文 →arxiv.org