技术博客arXiv cs.AI·3 小时前

RoPoLL: Robust Panel of LLM Judges

AI 深度解读

背景

随着大语言模型（LLM）能力的快速迭代，如何可靠地评估模型输出质量成为关键瓶颈。人工评估成本高、可扩展性差，因此“LLM-as-a-Judge”——用另一个LLM来打分——成为一种流行的自动化替代方案。然而，单个LLM评判者存在系统性偏差：它可能因模式坍缩（mode collapse）而倾向于给出极端分数，因谄媚（sycophancy）而迎合输入中的暗示，或因安全拒绝（safety refusal）而拒绝评价某些内容。这些偏差并非随机噪声，而是有偏的、结构性的失败模式。

为了缓解单评判者的脆弱性，实践中出现了LLM Jury，即Panel of LLM Evaluators (PoLL)：让多个独立的LLM评判者分别打分，再通过平均或多数投票等简单聚合函数得到共识分数。PoLL在直觉上更稳健，但其统计行为长期缺乏理论刻画。本文的核心问题在于：当部分评判者以LLM典型的方式发生有偏失败时，PoLL的共识分数是否仍然可靠？

核心内容

1. LLM Jury的形式化与PoLL的无界偏差

论文在Huber污染模型下对LLM Jury进行形式化。该模型假设大部分评判者的输出是围绕真实分数的“好”样本，但存在一定比例的“坏”样本，这些坏样本可以来自任意分布，模拟评判者的有偏失败。

关键理论发现是：只要单个评判者以LLM典型的方式（模式坍缩、谄媚、安全拒绝）发生有偏失败，PoLL就会在任意正污染率下产生无界偏差，且这一结论与陪审团规模无关。也就是说，无论增加多少评判者，只要聚合函数是简单的均值或中位数，有偏污染都会使共识分数系统性偏离真实值，偏差可以任意大。这揭示了PoLL在统计上的根本脆弱性。

2. RoPoLL：稳健的LLM评判者面板

作者将LLM陪审团共识重新建模为经典的稳健均值估计问题，并提出RoPoLL (Robust Panel of LLM-as-Judge)。RoPoLL保留了PoLL的多评判者面板结构，但将聚合函数替换

查看原文 →arxiv.org

RoPoLL: Robust Panel of LLM Judges

AI 深度解读

背景

核心内容

1. LLM Jury的形式化与PoLL的无界偏差

2. RoPoLL：稳健的LLM评判者面板

相关推荐