技术博客arXiv cs.CL·3 小时前

LLM-as-a-Judge存在英语偏好？新研究揭示语言切换影响

原标题：Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge

速览

大型语言模型常被用作自动裁判，但新研究指出其评估结果受语言影响。通过Judge-LS协议对LLMBar基准测试进行评估，发现中英及混合语言切换导致10.7%至14.4%的偏好翻转，且所有裁判在英语环境下准确率最高。尽管翻译等效的平局探针未显示系统性英语偏好，但该研究为评估LLM裁判的公平性提供了轻量级、无需训练的审计方法。

AI 深度解读

法官偏爱英语吗？评估 LLM-as-a-Judge 中的语言切换不变性

背景

随着大语言模型（LLMs）在自然语言处理领域的飞速发展，它们不仅被用于生成内容，还被广泛用作自动化的“裁判”（Judge），以评估其他模型在开放指令遵循任务中的表现。这种“LLM-as-a-Judge”范式因其便捷性、可扩展性以及对语义理解的敏锐度，逐渐取代了传统的基于参考文本的评估指标。

然而，这种评估方式引入了一个新的可靠性问题：当评估者本身也是语言模型时，它是否仅仅是在评估答案的质量，还是也会对比较过程中所使用的语言产生反应？如果评估结果受到语言偏好的影响，那么跨语言或混合语言环境下的模型评估将失去公平性和一致性。

为了解决这一疑虑，研究人员提出了 Judge-LS，一种轻量级的元评估协议，旨在检验 LLM 裁判在语言切换场景下的不变性（Invariance）。

核心内容

本研究通过构建 Judge-LS 协议，对四个可通过 API 访问的 LLM 裁判进行了系统性评估。研究基于完整的 LLMBar 基准测试（包含 419 个样本），生成了 13,408 次成功的成对判决。

1. 评估方法：语言切换与不变性检验

Judge-LS 协议的核心在于将 LLMBar 中的响应对转换为三种语言变体：

纯英语
纯中文
中英混合（Language-switched）

一个可靠的裁判应当具备“标签保留的语言变换不变性”，即在不改变答案语义和相对质量的前提下，无论使用何种语言呈现，其偏好判断应保持一致。此外，当两个答案在翻译上是等效的（即质量相当）时，裁判不应表现出对某种语言的系统性偏好。

2. 主要发现：英语优势与偏好翻转

实验结果显示，语言对裁判的决策有显著影响：

英语表现最佳：在所有测试模型中，英语环境下的裁判准确率最高。
偏好翻转现象：相对于英语基准，中文和中英混合语言的呈现方式导致了 10.7% 至 14.4% 的偏好翻转（Preference Flips）。这意味着，如果仅用中文或混合语言评估，可能会得出与英语评估截然不同的结论。

3. 公平性检验：翻译等效性探针

为了排除“裁判单纯因为喜欢英语而给高分”的嫌疑，研究引入了“翻译等效性对”（Translation-equivalent tie probes）进行压力测试。

结果：在这些探针中，大多数判决被判定为“平局”（Tie）。
细微偏差：在非平局的判决中，偏向中文的情况反而多于偏向英语的情况。
结论：这一结果并未揭示出裁判对英语存在系统性的、机械性的偏好。换言之，裁判并非因为“看到英语”就自动给高分，而是可能因为中文或混合语言下的语义解析差异导致了判断波动。

4. 方法论严谨性

为了确保结论的可靠性，研究团队采用了多种统计和审计手段：

添加了置信区间（Confidence Intervals）。
进行了配对显著性检验（Paired Significance Tests）。
实施了自动转换审计，并通过敏感性分析排除了被机械标记为高风险的变体。

5. 实验可行性

该实验无需对模型进行任何训练，仅依赖 API 调用，且在适度的本地硬件上即可运行，证明了该评估协议的低成本和易部署性。

关键要点

语言影响评估结果：LLM 裁判并非语言中立的。相对于英语，中文和混合语言环境会导致 10.7%–14.4% 的偏好翻转，且英语环境下的评估准确率最高。
不存在系统性英语偏见：虽然英语表现更好，但在翻译等效的答案对中，裁判并未表现出对英语的系统性偏好，甚至在非平局判决中更倾向于中文。这表明差异主要源于语言处理能力或语义解析的波动，而非简单的语言偏好。
Judge-LS 协议的有效性：提出的 Judge-LS 协议是一种轻量级、无需训练的元评估工具，能够有效地量化语言切换对 LLM 裁判一致性的影响。
评估标准需统一：在进行跨语言模型比较或评估时，必须考虑语言变量对裁判结果的影响，单一语言的评估结果可能不具备完全的泛化性。
低成本可复现：该评估方法仅使用 API 调用，无需微调模型，适合在资源受限的环境下快速实施。

意义与影响

这项研究对当前基于 LLM 的自动化评估体系提出了重要的警示和建议：

重新审视评估基准的公平性：目前许多主流基准测试（如 MMLU, GSM8K 等）主要以英语为主。本研究证实，当评估语言发生变化时，模型的表现排名可能会发生显著变化。因此，在构建多语言评估基准时，必须考虑语言切换带来的偏差，避免高估或低估某些模型在非英语环境下的真实能力。
推动“语言鲁棒性”成为新指标：未来的 LLM 评估不应仅关注准确率，还应将“语言切换不变性”作为衡量裁判可靠性的关键指标。一个优秀的裁判系统应当能够在不同语言环境下保持判断的一致性。
优化 LLM-as-a-Judge 的应用场景：对于依赖 LLM 进行自动化评测的企业和研究机构，建议在多语言场景下采用多语言裁判或进行语言敏感性测试。如果资源允许，使用多语言混合评估或针对特定语言进行校准，可能比单一语言评估更能反映模型的真实水平。
促进更透明的评估方法论：研究展示的 Judge-LS 协议为社区提供了一种标准化的工具，用于审计和比较不同裁判模型的语言鲁棒性。这将有助于推动更透明、更科学的自动化评估标准的发展。

总之，虽然 LLM-as-a-Judge 极大地提高了评估效率，但“语言”本身已成为一个不可忽视的混淆变量。忽视这一变量，可能导致对模型能力的误判。

查看原文 →arxiv.org