技术博客arXiv cs.CL·23 小时前

提示扰动提升大模型比较图评估可靠性

原标题：Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphs

速览

针对大模型成对评估中常见的循环偏好和排序不一致问题，本文提出一种提示扰动框架。该方法通过生成提示变体并过滤结构不一致的比较模式，将图级结构一致性显式纳入评估流程。这一方法能有效减少循环不一致性，为提升大模型排名的可靠性提供了一种简单且原则性的解决方案。

AI 深度解读

Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphs 深度解读

背景

在大型语言模型（LLM）快速发展的今天，如何准确评估其能力、对比不同系统的优劣，并支持可靠模型的落地部署，已成为人工智能领域的核心议题。对于开放式任务（open-ended tasks），两两比较（pairwise evaluation）已成为一种主流且流行的评估范式。

在该范式中，系统会对同一个提示词（prompt）生成的两个不同回答进行比较，得出偏好判断，随后将这些判断聚合为整体排名。然而，这一范式面临着一个核心挑战：传递性缺失（intransitivity）。

由于 LLM 的判断可能存在噪声或不一致性，诱导出的比较结果往往无法支持任何连贯的全局排名。例如，可能会出现循环偏好（cyclic preferences），如 $A \succ B \succ C \succ A$（A 优于 B，B 优于 C，但 C 又优于 A）；或者涉及平局的矛盾，如 $A \equiv B \equiv C \neq A$。这些逻辑上的矛盾导致排行榜（leaderboard）极不稳定，且难以解释。现有的评估方法往往直接聚合所有比较结果，忽略了这种图结构上的不一致性，从而影响了评估的可靠性。

核心内容

本文提出了一种基于**提示词扰动（Prompt Perturbation）**的框架，旨在提高 LLM 两两比较评估的一致性。该方法的核心思想是将图级别的结构性一致性显式地纳入评估流程，在排名聚合之前识别并过滤掉结构上不一致的比较模式。

具体而言，该框架的工作流程如下：

生成扰动变体：针对每一个原始提示词，生成多个扰动后的变体（perturbed variants）。这些变体在语义上保持等价，但在表面形式或细微措辞上有所差异。
构建比较图：利用这些扰动提示词生成的回答进行比较，构建出多个比较图（comparison graphs）。
识别与过滤不一致模式：通过分析这些比较图的结构，识别出导致循环偏好或逻辑矛盾的结构模式。框架会主动过滤掉那些引发结构性不一致的比较结果。
应用标准排名方法：在清理了不一致数据后，对剩余的、结构一致的比较结果应用标准的排名算法，从而得出更稳定的全局排名。

该框架的关键特性在于，它不仅仅依赖于单次比较的结果，而是通过引入扰动来增加样本的多样性，从而在图论层面显式地处理一致性约束。这为减少循环不一致性提供了一种简单且原则性的方法，显著提升了 LLM 排名的可靠性。

关键要点

解决传递性缺失问题：针对开放式任务中两两比较评估常见的循环偏好（如 A>B>C>A）和逻辑矛盾，提出了一种结构化的解决方案。
提示词扰动机制：通过对原始提示词进行扰动生成多个变体，利用这些变体产生的比较结果构建比较图，从而捕捉评估中的噪声和不一致性。
图结构一致性过滤：在排名聚合之前，显式地将图级别的结构性一致性纳入评估管道。通过识别并过滤掉导致循环或矛盾的结构模式，净化比较数据。
提升排名稳定性：该方法能够显著减少因 LLM 判断噪声导致的循环不一致性，使得最终生成的排行榜更加稳定、可信且易于解释。
通用且原则性的方法：该框架不依赖于特定的排名算法，而是作为一种前置的数据清洗和一致性增强步骤，可与现有的标准排名方法结合使用。

意义与影响

这项研究对 LLM 评估领域具有重要的理论和实践意义：

增强评估的可信度：当前的 LLM 排行榜（如 LMSYS Chatbot Arena 等）常因评估噪声而出现排名波动。本文提出的方法通过从根源上过滤结构性不一致，为构建更稳定、更可信的基准测试提供了新的技术路径。
推动评估范式的精细化：传统的两两比较往往假设判断是独立且一致的，而本文揭示了比较结果中的图结构特性，并提出了显式处理这些特性的方法，推动了评估范式从“简单聚合”向“结构化一致性感知”的转变。
促进模型开发的透明度：通过识别和过滤不一致的比较模式，研究人员可以更深入地理解 LLM 在哪些情况下容易产生判断偏差，从而为模型改进提供更有针对性的反馈。
为实际应用提供保障：在部署可靠的 LLM 系统时，稳定的评估结果是关键。该方法有助于确保所选模型在真实场景中的表现与评估结果高度一致，降低部署风险。

总之，Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphs 不仅提供了一种具体的技术解决方案，更强调了在复杂评估场景中引入结构一致性约束的重要性，为未来构建更加严谨、可靠的 LLM 评估体系奠定了重要基础。

查看原文 →arxiv.org