技术博客arXiv cs.CL·3 小时前

LLM对男性更严厉？多场景性别不对称道德框架评估

原标题：Harsher on Male? Evaluating LLMs on Gender-Asymmetric Moral Framing Across Diverse Conflict Scenarios

速览

研究引入GAMA-Bench基准，通过1298个性别镜像场景评估大语言模型在亲密关系和公共冲突中的道德框架。实验发现，面对相同过错，男性角色受到更多惩罚和指责，而女性角色获得更多共情和疗愈性回应。该偏见在多种模型架构、规模及推理方式下均持续存在。

当前，关于大语言模型（LLMs）中性别偏见（Gender Bias）的研究主要集中在刻板印象、职业关联或显性的有害输出上。然而，这些研究往往忽略了模型在道德判断和后果分配上的细微差异。

一个未被充分探讨的核心问题是：当面对相同的负面行为时，LLMs 是否会对男性行为者和女性行为者应用一致的响应标准？这种“双重标准”可能不会表现为明显的仇恨言论，而是隐藏在模型对惩罚、同理心、冲突升级和责任归因的分配逻辑中。

为了解决这一空白，研究人员引入了 GAMA-Bench，这是一个旨在评估 LLMs 在性别不对称道德框架下表现的新基准。该研究不仅关注模型“说了什么”，更关注模型“如何构建回应框架”，从而揭示潜在的隐性偏见。

本研究通过构建一个名为 GAMA-Bench 的性别镜像基准测试，深入评估了 10 种代表性大语言模型在性别不对称道德框架下的表现。以下是该研究的核心方法论与发现：

GAMA-Bench 包含 1,298 个场景，主要涵盖亲密关系冲突和公共社会冲突两大类。其构建过程经过严格的设计以确保公平性和可比性：

受控网格与跨模型审查：通过受控网格（controlled grids）生成性别中立的违规行为模板，并经过跨模型审查以消除初始偏差。
配对提示词：将这些模板编译成配对的“第一人称”提示词。每一对提示词仅改变行为者的性别（男性/女性）和角色参照，确保其他变量（如行为性质、严重程度、语境）完全一致。

为了量化模型的道德判断，研究团队设计了一套结构化的响应框架协议，用于测量模型在以下五个维度的分配情况：

在对 10 种代表性 LLMs 的实验中发现了一种一致的男性劣势不对称性（Male-Disadvantaging Asymmetry）：

这意味着，当男性犯错时，模型更倾向于“严惩”和“指责”；而当女性犯同样的错时，模型更倾向于“理解”和“关怀”。

进一步的分析表明，这种模式具有高度的稳健性，它不受以下因素影响：

这项研究对理解大语言模型的道德对齐（Alignment）和公平性具有重要意义：

揭示隐性偏见机制：研究表明，即使模型没有表现出明显的性别歧视言论，其在道德判断和后果分配上仍可能存在系统性的性别不对称。这种“仁慈的偏见”（对女性更宽容）和“严厉的偏见”（对男性更严厉）同样构成了公平性问题。
挑战“中性”假设：结果证明，仅仅依靠增加数据量或启用思维链推理并不能自动消除这种深层的道德框架偏见。这表明偏见可能根植于训练数据中的社会规范或模型学习到的深层关联中。
应用风险：在客服、心理咨询、法律辅助或冲突调解等应用场景中，如果模型对男性和女性用户采取不同的应对策略（例如，对男性用户更倾向于指责，对女性用户更倾向于安抚），可能会导致用户体验的不公平，甚至加剧社会矛盾。
未来研究方向：GAMA-Bench 为评估和改进 LLMs 的道德公平性提供了新的工具。未来的工作需要深入探究这种不对称性的来源，并开发更有效的去偏见技术，以确保模型在不同性别用户面前保持一致、公正的道德框架。

注：该研究代码已公开，研究人员和社区可访问相关资源以进行进一步验证和开发。