技术博客arXiv cs.AI·6 天前

当模型产生分歧：重新思考用于公共评论分析的大语言模型评估

原标题：When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis

速览

联邦机构正利用大语言模型对公共评论进行分类，但传统评估无法检测不同模型产生的实质性差异。研究提出“解释性审计流程”，将多模型分歧视为解释复杂性的诊断指标，并引导人工审查聚焦于真正模糊的公共输入。实验显示，模型间的主题分歧超过提示词变化带来的差异，且专家评分标准虽抑制了深层分歧但未解决它。该研究主张基于分歧的评估应作为准确性指标的必要补充。

AI 深度解读

当模型产生分歧：重新审视用于公共评论分析的 LLM 评估

背景

随着联邦机构越来越多地部署大型语言模型（LLM）来处理海量的公共评论语料库，LLM 在政策制定过程中的角色日益关键。这些模型不仅是对文本进行分类，它们对记录的组织方式直接决定了政策制定者能看到什么，以及哪些论点会被纳入考量。

然而，传统的评估方法存在显著缺陷。目前的标准评估主要锚定于与少量经过验证的数据集相比的“立场准确性”（stance accuracy）。这种指标无法捕捉到一个核心问题：不同的模型可能对相同的公共输入产生实质性的分类差异。如果评估体系仅关注“是否准确”，而忽略了模型间在解释上的深层分歧，那么基于 LLM 的分析结果可能会掩盖公共意见中固有的复杂性和模糊性，从而导致政策制定依据的偏差。

核心内容

本文提出了一种名为“解释性审计管道”（Interpretive Audit Pipeline）的新框架，旨在通过审视多模型间的分歧来诊断解释的复杂性，并将人类审查的焦点引导至真正存在歧义的公共评论上。

研究方法与数据

研究团队分析了美国农业部（USDA）联邦档案中的 1,260 条公共评论，涉及四种不同的 LLM。此外，还进行了一项分层抽样研究，选取了 40 条评论的子样本，让四种 LLM 和一名人类标注员独立进行标注，随后在查看其他标注者的结果后进行修订。

主要发现

模型间分歧超过提示词变化： 分析显示，不同 LLM 之间的主题分歧（inter-model thematic divergence）远远超过了同一模型在不同提示词（prompt）下的变化。这意味着模型架构或训练数据的差异对分类结果的影响，大于提示工程带来的影响。
专家评分表的局限性： 研究发现，使用专家制定的评分表（expert rubric）虽然能抑制深层的解释性分歧，但并未真正解决这些分歧。评分表往往强行统一标准，掩盖了公共评论中原本存在的多重解释空间。
修订行为的差异性： 在两阶段标注研究中，不同标注者（包括 LLM 和人类）的修订行为表现出显著差异。值得注意的是，人类标注员在修订时，经常引入那些在集体输出（ensemble's collective output）中完全缺失的框架（framings）。这表明人类在理解语境和隐含意义时，具有模型难以复制的直觉和背景知识，但也可能引入模型未捕捉到的主观偏见。

提出的解决方案：解释性审计管道

该管道不将分歧视为错误，而是将其视为诊断工具。当多个模型对同一条评论产生不同分类时，这通常意味着该评论具有高度的解释复杂性或模糊性。此时，系统应自动将此类案例标记出来，优先交由人类专家进行审查，而不是简单地依赖多数投票或单一模型的输出。

关键要点

传统评估的盲区： 基于少量验证集的准确性指标无法检测不同模型对同一公共输入产生的实质性分类差异，可能导致政策制定者忽视重要的观点多样性。
分歧即信息： 多模型间的主题分歧是解释复杂性的有力诊断指标，反映了公共评论中固有的多义性。
提示工程并非万能： 同一模型在不同提示词下的表现差异，小于不同模型之间的表现差异。因此，单纯优化提示词不足以解决模型间的基本解释分歧。
评分表的双刃剑效应： 专家评分表可以标准化输出，但往往以牺牲深层解释的丰富性为代价，未能真正解决根本性的解释冲突。
人类标注的独特性： 人类标注员在修订过程中经常引入模型集体输出中不存在的框架，说明人类在语境理解和意义建构上具有独特价值，但也需警惕其引入的主观偏差。
评估范式的转变： 基于分歧的评估（disagreement-based evaluation）应成为 LLM 辅助解释性编码（interpretive coding）中不可或缺的补充，与传统的准确性指标并重。

意义与影响

这项研究对公共部门和技术社区具有深远的影响：

提升政策制定的透明度与公正性： 通过识别和审查模型分歧，政策制定者可以更清楚地了解公共意见中的争议点和模糊地带，避免被单一模型的分类结果所误导，从而做出更全面、更包容的政策决策。
优化人机协作流程： “解释性审计管道”为高效的人机协作提供了新路径。它将人类专家的精力集中在模型无法达成共识的高价值案例上，提高了审查效率，同时保留了人类在复杂语境下的判断力。
推动 LLM 评估标准的革新： 研究挑战了当前以准确性为核心的单一评估体系，呼吁建立包含“分歧分析”在内的多维评估标准。这对于开发更可靠、更可解释的 AI 系统至关重要，特别是在涉及社会、政治等敏感领域的自然语言处理任务中。
揭示 AI 解释的局限性： 研究揭示了当前 LLM 在处理复杂、多义文本时的局限性，强调了在关键决策场景中，不能完全依赖自动化分类，而需要保留人类监督和干预的机制。

总之，当模型“意见不合”时，不应简单视为错误，而应视为深入理解公共意见复杂性的契机。这一观点为未来 AI 在社会科学和政策分析中的应用提供了重要的方法论指导。

查看原文 →arxiv.org