RoPoLL: Robust Panel of LLM Judges
AI 深度解读
背景
随着大语言模型(LLM)能力的快速迭代,如何可靠地评估模型输出质量成为关键瓶颈。人工评估成本高、可扩展性差,因此“LLM-as-a-Judge”——用另一个LLM来打分——成为一种流行的自动化替代方案。然而,单个LLM评判者存在系统性偏差:它可能因模式坍缩(mode collapse)而倾向于给出极端分数,因谄媚(sycophancy)而迎合输入中的暗示,或因安全拒绝(safety refusal)而拒绝评价某些内容。这些偏差并非随机噪声,而是有偏的、结构性的失败模式。
为了缓解单评判者的脆弱性,实践中出现了LLM Jury,即Panel of LLM Evaluators (PoLL):让多个独立的LLM评判者分别打分,再通过平均或多数投票等简单聚合函数得到共识分数。PoLL在直觉上更稳健,但其统计行为长期缺乏理论刻画。本文的核心问题在于:当部分评判者以LLM典型的方式发生有偏失败时,PoLL的共识分数是否仍然可靠?
核心内容
1. LLM Jury的形式化与PoLL的无界偏差
论文在Huber污染模型下对LLM Jury进行形式化。该模型假设大部分评判者的输出是围绕真实分数的“好”样本,但存在一定比例的“坏”样本,这些坏样本可以来自任意分布,模拟评判者的有偏失败。
关键理论发现是:只要单个评判者以LLM典型的方式(模式坍缩、谄媚、安全拒绝)发生有偏失败,PoLL就会在任意正污染率下产生无界偏差,且这一结论与陪审团规模无关。也就是说,无论增加多少评判者,只要聚合函数是简单的均值或中位数,有偏污染都会使共识分数系统性偏离真实值,偏差可以任意大。这揭示了PoLL在统计上的根本脆弱性。
2. RoPoLL:稳健的LLM评判者面板
作者将LLM陪审团共识重新建模为经典的稳健均值估计问题,并提出RoPoLL (Robust Panel of LLM-as-Judge)。RoPoLL保留了PoLL的多评判者面板结构,但将聚合函数替换
