← 返回信息流
技术博客arXiv cs.AI·2 小时前

委托聚合器在LLM多样本推理中超越多数投票

原标题:When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference

速览

针对大语言模型多样本推理中多数投票法丢弃有效信号的问题,研究提出了一种基于委托的无监督聚合器PPV。该方法通过字母熵和推理几何嵌入,动态分配投票权重,无需人工标注或辅助训练。实验显示,PPV在MMLU-Pro基准测试中整体准确率提升1.5个百分点,在非平凡子集上提升2.24个百分点,显著优于传统多数投票法。

AI 深度解读

何时委托优于多数决?一种基于委托的多样本大语言模型推理聚合器

背景

在大语言模型(LLM)的多样本推理场景中,多数投票(Majority Voting) 是目前占主导地位的非监督聚合方法。其基本逻辑是:通过多次采样生成多个答案,然后选择出现频率最高的那个作为最终输出。这种方法简单直观,且在许多基准测试中表现尚可。

然而,现有的多数投票机制存在明显的局限性。它仅利用了“答案出现的频率”这一单一信号,而丢弃了每次采样所携带的两个免费信号:组内字母熵(Within-group letter entropy)组间推理几何结构(Between-group reasoning geometry)。这意味着,即使某些答案在语义上更一致或推理路径更紧密,只要它们不是“多数”,就会被忽略。

为了解决这一问题,研究人员提出了一种基于委托的聚合器——传播代理投票(Propagational Proxy Voting, PPV)。该方法旨在通过更精细的信号利用,在非监督条件下超越传统的多数投票机制。

核心内容

1. 核心创新:PPV 聚合器

PPV 的核心思想是将每个采样答案视为一个“选民”,并通过一种委托机制来达成共识。与简单计数不同,PPV 引入了两个关键的杠杆机制,分别对应两个被多数投票忽略的信号:

  • WHEN(何时委托/保留权重):决定一个选民保留在其自身首选答案上的权重比例。这一机制由 字母级语义熵(Letter-level Semantic Entropy) 驱动。熵越低,说明该组答案在字符级别的一致性越高,选民越倾向于保留自己的投票。
  • WHOM(委托给谁):决定选民将其剩余权重分配给其他“同行”(即其他采样答案)的比例。这一机制由 基于问题的嵌入余弦相似度(Per-question-centered embedding cosine) 驱动。如果两个答案在语义嵌入空间中距离较近(推理几何结构紧密),它们之间的委托权重就越高。

2. 方法论流程

PPV 是一种完全非监督的方法,不需要黄金标签(Gold Labels)或辅助训练。其具体步骤如下:

  1. 分组:对于每个问题,从 LLM 生成的 128 个采样答案中,将其划分为 16 个组。
  2. 计算信号
    • 计算每个组的 字母级语义熵,用于驱动 WHEN 机制。
    • 计算每个组的 推理嵌入质心(Reasoning Embedding Centroid),用于驱动 WHOM 机制。
  3. 构建委托矩阵:将上述两个信号输入到一个随机委托矩阵中。
  4. 确定共识:通过计算该委托矩阵的 平稳分布(Stationary Distribution),选出最终的共识答案。

3. 案例解析:为何 PPV 能逆转多数决

文章通过一个具体案例展示了 PPV 的优势。在一个测试用例中,传统多数投票以 10:6 的比例支持错误的答案 A。

  • 多数派(10票):虽然票数多,但其内部几何结构松散,平均簇内余弦相似度仅为 -0.02,表明这些答案在推理路径上并不一致,甚至相互矛盾。
  • 少数派(6票):虽然票数少,但其内部高度紧密,平均簇内余弦相似度为 +0.26,表明这些答案在语义和推理上高度一致。

在这种情况下,尽管熵值可能让多数派略占优势,但 PPV 通过 WHOM 机制识别出少数派的高几何一致性,将大量的委托质量(Delegation Mass)集中到少数派的答案上,从而成功逆转了结果,选出了正确答案。

4. 实验结果

MMLU-Pro 基准测试上,PPV 的表现优于传统多数投票:

  • 整体提升:+1.5 个百分点(pp)。
  • 非平凡子集提升:+2.24 个百分点(pp)。
  • 统计显著性:配对 McNemar 检验 p 值约为 $1.0 \times 10^{-14}$,样本量 $n = 8,099$,表明结果具有极高的统计显著性。

5. 负面结果与设计空间约束

研究还报告了一些失败的委托策略,这些负面结果有助于约束非监督 LLM 聚合的设计空间:

  • 在问题内部对置信度模式(Confidence Modes)进行集成,无法缩小与理想情况(Oracle)之间的差距。这表明简单的置信度加权并非解决该问题的有效途径。

关键要点

  • 超越频率:多数投票仅利用答案频率,忽略了采样中蕴含的语义一致性和推理几何结构信息。
  • 双杠杆机制:PPV 通过 WHEN(基于熵的保留权重)和 WHOM(基于嵌入相似度的委托分配)两个杠杆,充分利用了被多数投票丢弃的两个免费信号。
  • 无需训练:该方法完全非监督,无需黄金标签或额外的模型训练,直接基于采样结果的统计特性进行聚合。
  • 几何一致性至关重要:案例表明,少数派答案若具有更高的内部几何一致性(紧密的推理路径),其质量可能高于松散的多數派答案。
  • 显著提升:在 MMLU-Pro 上,PPV 相比多数投票有显著的性能提升,尤其是在非平凡问题上。
  • 置信度集成的局限性:简单的基于置信度的问题内集成策略被证明无效,提示未来研究应关注更复杂的结构信号。

意义与影响

这项研究对大语言模型的推理聚合领域具有重要意义:

  1. 重新定义“质量”信号:它证明了在缺乏人工标注的情况下,除了答案频率外,语义熵推理几何结构是评估 LLM 输出质量的关键信号。这为开发更鲁棒的非监督评估方法提供了新视角。
  2. 提升复杂推理能力:在 MMLU-Pro 等非平凡子集上的显著提升,表明 PPV 在处理需要深层推理和一致性的复杂任务时,比简单的多数投票更有效。这对于提升 LLM 在科学、数学和法律等高可靠性要求领域的应用价值至关重要。
  3. 方法论的通用性:PPV 框架不依赖于特定模型或任务,只要能够生成多个采样并计算嵌入,即可应用。这为构建通用的 LLM 推理后处理模块提供了可行的技术方案。
  4. 启发未来研究方向:通过明确排除无效的置信度集成策略,研究为后续工作划定了边界,引导研究者探索更深层的结构化信号(如推理路径的一致性、逻辑连贯性等)在聚合中的应用。

总之,PPV 提供了一种更精细、更智能的非监督聚合范式,通过挖掘采样数据中的隐含结构信息,显著提升了 LLM 多样本推理的准确性和可靠性。

查看原文 →arxiv.org