技术博客arXiv cs.CL·3 天前

大模型全球叙事主导：英语重写本地知识

原标题：When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

速览

研究指出大语言模型作为跨语言接口时，常以全球主导叙事取代本地语境，表现为全球叙事主导。团队构建CulturalNB数据集，评估发现英语提问系统性增加全球替代和机构框架，减少本地视角覆盖。这表明大模型的文化缺陷不仅是知识缺失，更是 grounding 和叙事优先级的失败。

AI 深度解读

当英语重写本土知识：大语言模型中的全球叙事霸权

背景

大型语言模型（LLMs）正逐渐演变为跨语言知识交互的核心接口。然而，随着这些模型被广泛应用于非英语语境，一个隐蔽但深刻的问题浮现出来：当用户用英语提问时，模型往往倾向于输出反映全球主导叙事（Global Dominant Narratives）的内容，而非贴合当地文化语境的回答。

这种现象在低资源文化语境中尤为显著。以孟加拉语（Bangla）为例，其承载的独特社会规范、历史记忆和制度背景，在英语主导的训练数据和提示下，容易被边缘化或扭曲。本文旨在研究这一失败模式，将其定义为“全球叙事霸权”（Global Narrative Dominance），并探讨语言锚点如何影响模型的知识检索与叙事构建。

核心内容

本研究通过引入新构建的数据集 CulturalNB，深入剖析了大语言模型在孟加拉文化语境下的表现。该数据集包含 717 个经过人工精心策划的孟加拉文化实例，提供了并行的孟加拉语-英语问答对，并附带支持性证据、元数据以及社会文化标注。

研究团队采用两种提示策略进行评估：仅使用问题（Question-only）和使用证据（Evidence-based）。评估对象涵盖九种最先进的 LLMs，评估体系结合了人工评估和两个独立的 LLM 裁判，主要指标包括：

跨语言一致性（Cross-lingual Consistency）
语言锚定（Language Anchoring）
全球替代（Global Substitution）
制度偏见（Institutional Bias）
认识论视角覆盖度（Epistemic Perspective Coverage）

研究结果揭示了一个系统性偏差：当问题以英语提出时，模型显著增加了“全球替代”现象（即用全球通用叙事取代本地特定叙事）和“制度框架”（即倾向于使用西方或主流机构的视角），同时大幅降低了本地视角的覆盖度。

尽管引入本地证据（Local Evidence）能够提高事实一致性和视角覆盖度，但它并不能完全消除由语言诱导的认识论偏移（Epistemic Shifts）。这表明，LLMs 中的文化失败不仅仅是“知识缺失”错误，更是“接地”（Grounding）失败和“叙事优先级”排序失败的结果。

关键要点

全球叙事霸权现象：LLMs 在处理文化根基深厚的问题时，倾向于输出反映全球主导叙事的内容，而非本地语境内容。这种偏差在低资源文化语境（如孟加拉语）中尤为明显。
语言作为认知过滤器：提问语言直接影响模型的输出框架。英语提问系统性地导致模型采用全球通用叙事和主流制度视角，而压制本地视角。
CulturalNB 数据集：研究构建了包含 717 个孟加拉文化实例的数据集，提供孟加拉语-英语并行问答对及丰富的社会文化标注，为评估文化偏差提供了基准。
证据提示的局限性：虽然提供本地证据能改善事实准确性和视角多样性，但无法彻底解决由语言本身引发的认识论偏移。语言本身即是一种强大的叙事引导机制。
失败模式的重新定义：LLMs 的文化失败不应仅被视为知识检索错误（Missing-knowledge errors），更应被视为模型在“接地”（将知识与具体语境连接）和“叙事优先级”（选择何种视角讲述故事）上的结构性缺陷。

意义与影响

这项研究对 AI 伦理、多语言 NLP 以及全球南方（Global South）的知识主权具有深远意义。

首先，它挑战了“语言中立性”的假设。研究证明，语言不仅仅是信息的载体，更是认知框架的塑造者。英语作为全球通用语，其背后的文化预设会潜移默化地重写其他语言所承载的本土知识。这对于依赖 LLM 进行跨文化沟通、教育或政策制定的场景提出了警示。

其次，对于模型开发者而言，仅增加多语言数据量或提供事实性证据不足以解决深层的文化偏差。需要重新思考模型的“接地”机制，如何在训练和推理阶段平衡全球叙事与本地叙事，赋予本地视角更高的认识论权重。

最后，该研究强调了构建高质量、富含社会文化标注的低资源语言数据集的重要性。像 CulturalNB 这样的资源，不仅是评估工具，更是抵抗数字殖民主义、维护文化多样性的技术基础设施。它提醒我们，在追求模型通用能力的同时，必须警惕全球叙事对本土知识体系的系统性侵蚀。

查看原文 →arxiv.org