技术博客arXiv cs.AI·2 小时前

LLM评估漂移归因：系统变差还是裁判失灵？

原标题：Who Drifted: the System or the Judge? Anytime-Valid Attribution in LLM Evaluation Pipelines

速览

针对LLM产品持续评估中漂移报警难以区分是产品变差还是裁判模型更新的问题，研究提出了一种基于固定锚点集和过程不等式的归因框架。该方法通过对比裁判与人类标注的差异，实现了漂移来源的实时、无偏识别。实验表明，该方法能精准检测版本更新和提示词变更，且误报率远低于行业默认的滚动z检验。

AI 深度解读

Who Drifted: the System or the Judge? Anytime-Valid Attribution in LLM Evaluation Pipelines

背景

在大型语言模型（LLM）产品的持续评估中，业界普遍依赖一个强大的 LLM 作为“裁判”（Judge），并将其评分视为“地面真值”（Ground Truth）。这种架构通常表现为：一个低成本监控器对每一次交互进行打分，一旦分数出现下降趋势，团队就会收到警报。

然而，这种评估体系存在一个根本性的盲点：裁判本身也是一个模型，通常通过 API 提供服务。当裁判模型发生静默的版本更新（silent version bump）或评分提示词（scoring prompt）调整时，其打分逻辑会发生改变。这就导致了一个严重的歧义问题：当监控警报响起时，我们无法区分是产品本身的质量下降了，还是裁判的打分标准变了。

现有的工业界默认做法（如滚动 Z 检验）往往无法有效区分这两者，导致大量的误报（false-alarms）。本文旨在解决这一归因模糊性问题，提出了一种“随时有效”（Anytime-Valid）的归因机制。

核心内容

本文提出了一套名为 Who Drifted 的系统，用于在 LLM 评估流水线中实现无歧义的归因。该系统的核心思想是通过引入固定的人类标注锚点集（Anchor Set），将“系统性能变化”与“裁判行为变化”解耦。

1. 核心机制：锚点集与双重监控

固定锚点集（Fixed Anchor Set）： 系统维护一个由人类专家预先标注的高质量测试集（Anchor Set）。这个集合是固定的，不因时间或模型迭代而改变。
持续重评分： 当前的 LLM 裁判会定期（以稳定的间隔）对这些锚点集进行重新评分。
双重监控流程：
1. 主流程： 监控实际用户交互的评分变化。
2. 锚点流程： 监控裁判对固定锚点集的评分变化。

2. 归因逻辑：二项式赌注过程（Betting E-process）

系统利用一个第二层的赌注过程（Betting e-process）来量化“裁判”与“人类”之间的差距。通过统计学方法，系统可以判断锚点集分数的漂移是否显著。

3. 判决规则：守卫窗口（Guard-Window Rule）

系统设定了一个“守卫窗口”，根据主流程和锚点流程的相对表现，返回以下三种判决之一：

None（无）： 没有检测到显著漂移。
System（系统）： 判定为产品/系统本身的质量下降。
Judge（裁判）： 判定为裁判模型或评分逻辑发生了变化。

4. 理论保证

作者从理论上证明了该系统的几个关键属性：

随时有效性（Anytime-Validity）： 无论何时停止观察，统计推断都是有效的，无需预先设定样本量。
单向识别性（One-way Identification）： 只有裁判的变化才能移动锚点集的分数，系统本身的变化不会影响锚点集分数（因为锚点是固定的，只受裁判打分影响）。
归因竞赛定律（Attribution Race Law）： 锚点集的监控频率必须高于主流程，才能有效捕捉裁判的变化。
过程正交性（Process Orthogonality）： 两个监控过程在统计上是正交的，互不干扰。

5. 实验结果

真实场景测试： 在两次真实的裁判变更事件中：
- 静默版本更新： 在 60/60 次运行中均被正确识别为裁判漂移，且零误报（将裁判变化误判为系统问题）。
- 污染性严格提示词变更： 在守卫窗口宽度为 300 的情况下，120 次运行中有 110 次被正确归因。
对比工业界基准： 行业默认的滚动 Z 检验在 75% 的无漂移数据流中产生了误报，而本方法显著降低了误报率。
跨领域复现： 实验在另一个领域（TL;DR 摘要生成）中完全复现，且无需重新调整参数。由于该领域对严格提示词变更更敏感，锚点集触发更快，归因准确率达到了完美的 240/240。
成本效益： 该监控系统的运行成本约为使用强裁判对每个项目进行打分的 0.64 倍；在更便宜但灵敏度较低的模式下，成本仅为 0.21 倍。

关键要点

解决归因歧义： 传统监控无法区分“产品变差”和“裁判变严/变松”，本文方法通过固定锚点集实现了两者的解耦。
锚点集是关键： 必须使用固定的人类标注数据作为基准，定期由当前裁判重评分，以检测裁判自身的漂移。
统计严谨性： 采用“随时有效”的统计推断（e-process），避免了传统假设检验中多重比较带来的假阳性问题。
高准确率与低误报： 在真实场景中实现了零裁判-to-系统误报，并大幅降低了工业界常用方法的高误报率（从 75% 误报率显著降低）。
成本优化： 相比全量强裁判评估，该方法在保证检测能力的同时，将成本降低至 64% 甚至 21%。
通用性强： 方法在不同领域（如对话评估、摘要生成）中无需调参即可直接应用，且表现符合理论预测。

意义与影响

这篇文章对 LLM 产品的持续集成/持续部署（CI/CD）和质量保障体系具有重要的实践意义：

提升评估的可信度： 随着 LLM 应用从实验走向生产，评估的稳定性至关重要。本文方法为“谁出了问题”提供了明确的统计学答案，避免了因误判导致的资源浪费或错误回滚。
降低运维成本： 通过降低误报率，减少了工程团队在“假警报”上的排查时间。同时，其低成本特性使得高频、持续的评估成为可能。
推动评估标准化： 强调了“裁判本身也需要被监控”这一常被忽视的环节。它建议业界在构建评估流水线时，必须包含对评估器（Evaluator/Judge）本身的漂移检测机制。
理论结合实践： 将复杂的统计学概念（如 e-process、随时有效性）转化为可工程化的监控规则，为后续研究提供了可复现的框架。

总之，Who Drifted 不仅是一个监控工具，更是一种评估哲学：在 LLM 时代，评估器不再是静态的标尺，而是动态的参与者，必须对其进行持续的、独立的验证。

查看原文 →arxiv.org