技术博客arXiv cs.CL·4 小时前

AI生成动物故事性别失衡：中性化策略反致边缘视角消失

原标题：Neutrality Bites: Gender Representation in AI-Generated Animal Stories

速览

针对AI生成故事中的性别偏见问题，研究分析了六大主流大语言模型在创作拟人化动物故事时的表现。结果显示，模型平均19%的情况回避性别设定，38.2%使用中性代词，而在明确分配性别时，男性角色占比高达40.6%，女性角色仅占2.2%。这一现象揭示了“中性化反噬”问题，即过度追求中立可能导致对边缘视角和身份的抹除，呼吁探索更均衡的分配策略。

AI 深度解读

Neutrality Bites: AI 生成动物故事中的性别代表性解读

背景

人工智能生成内容（AIGC）中的性别偏见是一个已被充分记录的问题。长期以来，学术界和工业界投入了大量精力去减少或缓解这种偏见。然而，一个常被忽视的关键问题是：现有的干预措施是否真的产生了更公平的结果？

为了探究这一问题，研究人员选择了一个极具代表性的叙事场景：关于会说话的动物的故事。这类故事在流行文化中非常普遍，其角色性别设定往往高度模糊，但同时也已知会紧密复现人类的刻板印象。通过这一“高歧义性”的测试场，研究者旨在考察大型语言模型（LLMs）在处理性别指派时的真实行为逻辑。

核心内容

本研究对六款领先的大型语言模型进行了系统性评估。研究人员向这些模型提供提示（Prompt），要求它们续写或完成一个关于七位不同拟人化动物角色的英文故事，且这些角色的性别在初始设定中均未明确说明。

为了全面捕捉模型的行为模式，研究还引入了四种不同的叙事背景设置，并调整了模型的温度参数（Temperature，控制生成随机性的指标）。最终，研究共分析了 23,800 篇生成的故事。

研究结果揭示了模型在处理性别问题时的两个显著现象：

回避与中性化倾向：模型倾向于避免为动物角色指定性别。数据显示，平均有 19% 的故事完全未对角色进行性别指派；另有 38.2% 的故事使用了如 “it”（它）或 “its”（它的）等中性代词。
强烈的男性偏见：当模型确实为角色分配了性别时，存在显著的男性偏向。女性动物角色几乎缺席，仅出现在 2.2% 的故事中，而男性角色则占据了 40.6% 的故事。

这一发现引出了一个更广泛的论点，作者将其概括为“中立性反噬”（Neutrality Bites）。换言之，那些为了应对社会偏见而优先考虑“中立性”的模型，实际上可能导致边缘化视角和身份的抹除。当模型选择使用中性代词或完全回避性别时，它并没有实现真正的公平，而是剥夺了角色展现多元性别身份的可能性。

关键要点

数据规模与模型范围：研究涵盖了 23,800 篇由六款主流 LLM 生成的故事，通过迭代不同的叙事背景和温度参数，确保了评估的全面性。
中性策略的普遍性：在生成故事中，模型平均有 57.2% 的概率（19% 无指派 + 38.2% 中性代词）选择不明确角色的性别。
性别分配的巨大失衡：在明确分配性别的案例中，男性角色占比高达 40.6%，而女性角色仅占 2.2%。这表明模型内部训练数据或对齐机制中存在深层的男性中心主义。
“中立性反噬”效应：研究指出，单纯追求技术上的“性别中立”（如使用 “it”）并非解决偏见的良方。这种策略在消除显性偏见的同时，也抹去了边缘群体（包括女性及非二元性别者）在叙事中的存在感。
拟人化故事的隐喻意义：选择动物故事作为测试对象，是因为这类故事既具有高度的文化普遍性，又在性别设定上具有天然的模糊空间，是检验模型刻板印象复现能力的理想实验室。

意义与影响

这项研究对当前 AI 伦理和模型对齐（Alignment）策略提出了深刻的挑战。

首先，它质疑了当前主流的“去偏见”方法论。许多开发者认为，让模型保持中立、不指定性别是消除偏见的最佳途径。然而，本研究表明，这种策略可能导致“隐形排斥”，即通过抹除身份来避免冲突，而非通过包容差异来实现公平。

其次，研究呼吁采取超越“中立性”的替代策略。作者建议，未来的模型优化不应止步于避免偏见，而应致力于在想象主体（imagined subjects）之间更均衡地分配社会可能性。这意味着模型需要被训练去主动、平等地生成包含不同性别身份的角色，而不是在遇到模糊指令时退缩到中性或默认的男性视角。

最后，这一发现对于理解 LLM 如何反映和强化社会结构至关重要。它提醒我们，算法的“客观性”可能掩盖了深层的社会不公。在开发面向公众的生成式 AI 产品时，必须重新审视“中立”的定义，确保技术不仅不制造偏见，更能积极地促进多元身份的可见性与代表性。

查看原文 →arxiv.org