技术博客arXiv cs.CL·8 天前

标注者立场作为信号：用于检测反自闭症能力主义的心理测量加权

原标题：Annotator Positionality as Signal: Psychometric Weighting for Anti-Autistic Ableism Detection

速览

该研究针对大型语言模型在决策任务中可能放大或抑制自闭症群体观点的问题，提出了一种基于标注者立场的心理测量加权评估框架。该框架以社区贴近的真实数据为基准，优于传统多数投票法，能更有效地检测反自闭症能力主义语言。研究发现，模型常因依赖表面关键词匹配而误判社区语言，并在匿名评估中表现出对自闭症人士更负面的态度。

AI 深度解读

标注者立场作为信号：用于反自闭症能力主义检测的心理测量加权

背景

大型语言模型（LLMs）正日益被应用于决策任务中。然而，在这些任务中，模型可能会放大或抑制特定的视角，这在涉及自闭症社区的高风险场景中引发了严重关切。尽管先前的研究已经识别出 LLM 中与残疾相关的偏见，但模型究竟如何概念化“能力主义”（ableism，即基于身体或精神能力的歧视），以及它们如何在文本中检测这种偏见，目前仍不清楚。

传统的偏见评估方法通常依赖多数投票（majority-vote）来聚合标注结果。然而，这种方法往往系统性地低估自闭症人士及自闭症接纳视角（autism-accepting perspectives）的声音。为了应对这一挑战，研究者提出了一种新的评估框架，旨在更准确地检测针对自闭症的反向能力主义语言。

核心内容

本文介绍了一种偏见感知评估框架（bias-aware evaluation framework），专门针对反自闭症能力主义语言进行检测。该框架的核心创新在于引入了心理测量加权（psychometric weighting），并构建了基于**标注者立场（annotator positionality）**的、贴近社区的“地面真值”（ground truth）。

1. 方法论：从多数投票到心理测量加权

传统的评估方法通常假设大多数标注者的意见是准确的，通过简单多数投票来确定文本是否包含偏见。然而，这种假设在涉及少数群体或边缘化视角时存在缺陷。

标注者立场作为信号：该框架认为，标注者的身份（例如，是否为自闭症人士，或是否持自闭症接纳观点）本身就是一种重要的信号。
心理测量加权：通过对不同立场的标注者赋予不同的权重，框架能够更公平地反映自闭症社区内部的真实感受和规范，而不是被非自闭症或神经典型（neurotypical）多数人的观点所主导。

2. 实验发现：LLM 的系统性缺陷

研究团队使用该框架对多个大型语言模型进行了评估，发现了以下关键问题：

有害输出频发：LLMs 经常产生有害的输出，未能有效识别或反而强化了反自闭症的能力主义言论。
误判社区重获语言：模型倾向于将自闭症社区内部重获并赋予积极意义的语言（reclaimed language，即社区成员重新定义并去污名化的词汇或表达）错误地标记为能力主义或冒犯性语言。
匿名评估下的负面态度：当评估工具中的说话者身份被隐藏（masked）时，模型对自闭症人士表现出更负面的态度。这表明模型缺乏对语境中社会身份和群体动态的理解。

3. 错误分析：表面匹配 vs. 语境理解

通过对模型错误的深入分析，研究者发现：

依赖表面关键词：模型主要依赖表面级别的关键词匹配来判定偏见，而非深入理解语境。
忽视关键语境因素：模型未能考虑以下关键因素：
- 说话者身份：是谁在说话？（例如，自闭症人士自我倡导 vs. 外部观察者）
- 语言的社会功能：该语言是促进了群体内部的团结（in-group solidarity），还是对外群体造成了伤害（out-group harm）？

关键要点

传统评估方法的局限性：常规的多数投票聚合方法会系统性地低估自闭症人士和自闭症接纳视角，导致评估结果偏离社区真实感受。
立场即信号：标注者的社会身份和立场（如是否为自闭症人士）应被视为评估偏见的重要信号，而非噪声。
心理测量加权框架：通过引入心理测量加权，构建贴近社区的“地面真值”，可以更准确地检测反自闭症能力主义语言。
LLM 的语境缺失：当前 LLMs 难以区分社区内部的重获语言（reclaimed language）与外部的冒犯性语言，常将前者误判为偏见。
身份隐藏导致偏见加剧：当文本中的说话者身份被隐藏时，模型对自闭症人士的负面态度显著增加，证明模型缺乏对社会身份和群体动态的深层理解。
表面匹配而非语境理解：模型主要依靠关键词匹配，忽视了说话者身份、群体团结或伤害等关键语境因素。

意义与影响

这项研究对 AI 伦理、自然语言处理（NLP）评估以及自闭症社区的数字权益具有深远意义：

推动更公平的 AI 评估标准：研究挑战了“多数即正确”的传统评估范式，证明了在涉及边缘群体时，必须考虑标注者的立场多样性。这为开发更公平、更具包容性的 AI 评估基准提供了方法论基础。
揭示 LLM 的深层偏见机制：研究明确指出，LLM 的偏见不仅源于训练数据中的刻板印象，还源于其缺乏对社会语境、群体动态和语言重获过程的理解。这为后续改进模型架构和训练策略指明了方向。
赋能自闭症社区：通过构建“贴近社区”的评估标准，研究强调了自闭症社区在定义自身话语权和识别偏见中的主体地位。这有助于防止 AI 系统进一步边缘化或误解自闭症人士的声音。
高风险场景下的应用警示：在医疗、教育、就业等高风险决策场景中，使用 LLM 时必须警惕其对自闭症相关语言的误判。研究建议在这些场景中引入人工审核或基于立场加权的评估机制，以减少对自闭症人士的伤害。

总之，该研究不仅提供了一种新的技术框架，更呼吁 AI 研究者和社会关注技术系统中的权力动态和身份政治，确保 AI 的发展真正服务于所有群体，特别是那些常被忽视的边缘群体。

查看原文 →arxiv.org