技术博客arXiv cs.AI·2 小时前

委托聚合器在LLM多样本推理中超越多数投票

原标题：When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference

速览

针对大语言模型多样本推理中多数投票法丢弃有效信号的问题，研究提出了一种基于委托的无监督聚合器PPV。该方法通过字母熵和推理几何嵌入，动态分配投票权重，无需人工标注或辅助训练。实验显示，PPV在MMLU-Pro基准测试中整体准确率提升1.5个百分点，在非平凡子集上提升2.24个百分点，显著优于传统多数投票法。

AI 深度解读

何时委托优于多数决？一种基于委托的多样本大语言模型推理聚合器

背景

在大语言模型（LLM）的多样本推理场景中，多数投票（Majority Voting） 是目前占主导地位的非监督聚合方法。其基本逻辑是：通过多次采样生成多个答案，然后选择出现频率最高的那个作为最终输出。这种方法简单直观，且在许多基准测试中表现尚可。

然而，现有的多数投票机制存在明显的局限性。它仅利用了“答案出现的频率”这一单一信号，而丢弃了每次采样所携带的两个免费信号：组内字母熵（Within-group letter entropy） 和 组间推理几何结构（Between-group reasoning geometry）。这意味着，即使某些答案在语义上更一致或推理路径更紧密，只要它们不是“多数”，就会被忽略。

为了解决这一问题，研究人员提出了一种基于委托的聚合器——传播代理投票（Propagational Proxy Voting, PPV）。该方法旨在通过更精细的信号利用，在非监督条件下超越传统的多数投票机制。

核心内容

1. 核心创新：PPV 聚合器

PPV 的核心思想是将每个采样答案视为一个“选民”，并通过一种委托机制来达成共识。与简单计数不同，PPV 引入了两个关键的杠杆机制，分别对应两个被多数投票忽略的信号：

WHEN（何时委托/保留权重）：决定一个选民保留在其自身首选答案上的权重比例。这一机制由 字母级语义熵（Letter-level Semantic Entropy） 驱动。熵越低，说明该组答案在字符级别的一致性越高，选民越倾向于保留自己的投票。
WHOM（委托给谁）：决定选民将其剩余权重分配给其他“同行”（即其他采样答案）的比例。这一机制由 基于问题的嵌入余弦相似度（Per-question-centered embedding cosine） 驱动。如果两个答案在语义嵌入空间中距离较近（推理几何结构紧密），它们之间的委托权重就越高。

2. 方法论流程

PPV 是一种完全非监督的方法，不需要黄金标签（Gold Labels）或辅助训练。其具体步骤如下：

分组：对于每个问题，从 LLM 生成的 128 个采样答案中，将其划分为 16 个组。
计算信号：
- 计算每个组的 字母级语义熵，用于驱动 WHEN 机制。
- 计算每个组的 推理嵌入质心（Reasoning Embedding Centroid），用于驱动 WHOM 机制。
构建委托矩阵：将上述两个信号输入到一个随机委托矩阵中。
确定共识：通过计算该委托矩阵的 平稳分布（Stationary Distribution），选出最终的共识答案。

3. 案例解析：为何 PPV 能逆转多数决

文章通过一个具体案例展示了 PPV 的优势。在一个测试用例中，传统多数投票以 10:6 的比例支持错误的答案 A。

多数派（10票）：虽然票数多，但其内部几何结构松散，平均簇内余弦相似度仅为 -0.02，表明这些答案在推理路径上并不一致，甚至相互矛盾。
少数派（6票）：虽然票数少，但其内部高度紧密，平均簇内余弦相似度为 +0.26，表明这些答案在语义和推理上高度一致。

在这种情况下，尽管熵值可能让多数派略占优势，但 PPV 通过 WHOM 机制识别出少数派的高几何一致性，将大量的委托质量（Delegation Mass）集中到少数派的答案上，从而成功逆转了结果，选出了正确答案。

4. 实验结果

在 MMLU-Pro 基准测试上，PPV 的表现优于传统多数投票：

整体提升：+1.5 个百分点（pp）。
非平凡子集提升：+2.24 个百分点（pp）。
统计显著性：配对 McNemar 检验 p 值约为 $1.0 \times 10^{-14}$，样本量 $n = 8,099$，表明结果具有极高的统计显著性。

5. 负面结果与设计空间约束

研究还报告了一些失败的委托策略，这些负面结果有助于约束非监督 LLM 聚合的设计空间：

在问题内部对置信度模式（Confidence Modes）进行集成，无法缩小与理想情况（Oracle）之间的差距。这表明简单的置信度加权并非解决该问题的有效途径。

关键要点

超越频率：多数投票仅利用答案频率，忽略了采样中蕴含的语义一致性和推理几何结构信息。
双杠杆机制：PPV 通过 WHEN（基于熵的保留权重）和 WHOM（基于嵌入相似度的委托分配）两个杠杆，充分利用了被多数投票丢弃的两个免费信号。
无需训练：该方法完全非监督，无需黄金标签或额外的模型训练，直接基于采样结果的统计特性进行聚合。
几何一致性至关重要：案例表明，少数派答案若具有更高的内部几何一致性（紧密的推理路径），其质量可能高于松散的多數派答案。
显著提升：在 MMLU-Pro 上，PPV 相比多数投票有显著的性能提升，尤其是在非平凡问题上。
置信度集成的局限性：简单的基于置信度的问题内集成策略被证明无效，提示未来研究应关注更复杂的结构信号。

意义与影响

这项研究对大语言模型的推理聚合领域具有重要意义：

重新定义“质量”信号：它证明了在缺乏人工标注的情况下，除了答案频率外，语义熵和推理几何结构是评估 LLM 输出质量的关键信号。这为开发更鲁棒的非监督评估方法提供了新视角。
提升复杂推理能力：在 MMLU-Pro 等非平凡子集上的显著提升，表明 PPV 在处理需要深层推理和一致性的复杂任务时，比简单的多数投票更有效。这对于提升 LLM 在科学、数学和法律等高可靠性要求领域的应用价值至关重要。
方法论的通用性：PPV 框架不依赖于特定模型或任务，只要能够生成多个采样并计算嵌入，即可应用。这为构建通用的 LLM 推理后处理模块提供了可行的技术方案。
启发未来研究方向：通过明确排除无效的置信度集成策略，研究为后续工作划定了边界，引导研究者探索更深层的结构化信号（如推理路径的一致性、逻辑连贯性等）在聚合中的应用。

总之，PPV 提供了一种更精细、更智能的非监督聚合范式，通过挖掘采样数据中的隐含结构信息，显著提升了 LLM 多样本推理的准确性和可靠性。

查看原文 →arxiv.org