技术博客arXiv cs.CL·2 小时前

构建大模型文化对齐：以韩国文化连贯性为例

原标题：Korean Culture into LLM Alignment: Toward Cultural Coherence

速览

针对大模型文化对齐多聚焦负面抑制的问题，研究提出构建文化连贯性的正向定义。研究以韩国为例，设计了基于提示词的种子生成器和符合韩国法律与社会规范的安全响应策略。实验表明，对六个开源大模型进行DPO微调后，韩国文化安全率显著提升，且未损害通用能力。

当前，针对大型语言模型（LLM）的“文化对齐”（Cultural Alignment）研究存在一个显著的结构性偏差：其核心目标往往局限于“负面约束”，即主要关注模型应当抑制哪些输出。这种以“禁止”为导向的方法虽然能减少有害内容的生成，但缺乏对“何为文化连贯性响应”的建设性定义。

在跨文化语境下，仅仅知道“不能说什么”是不够的。特别是在韩国这样的非英语主导文化圈，社会规范、法律框架和解释惯例具有独特性。如果模型仅遵循通用的西方安全准则，可能会产生虽然“安全”但缺乏文化适切性、甚至显得生硬或不合时宜的回应。

因此，本研究提出需要一个建设性的对立面：不仅要定义模型应避免的内容，更要建立一套工作定义，明确什么是符合特定文化背景（以韩国为例）的连贯且安全的响应。

本文提出并实现了一个针对韩国文化的 LLM 对齐数据管道，旨在提升模型在韩语语境下的文化连贯性。该研究的核心逻辑是从“消极防御”转向“积极建构”，具体实施路径如下：

研究设计了一个基于提示（prompt-based）的 LLM 种子生成器。该生成器以现有的“韩国伤害分类体系”（Korean harm taxonomy）为基础，对其进行扩展和细化。这一步骤旨在更精准地识别在韩语语境下可能被视为有害或不恰当的内容类别，而不仅仅是通用的暴力或仇恨言论。

在数据管道的中心，研究制定了一套“韩国文化适应的安全响应策略”（Korean-culturally-adapted safe-response policy）。这一策略并非通用的安全规则，而是基于以下三个维度的每类别指南：

研究选取了三个前沿模型（frontier models），针对上述分类和指南，为每个类别生成候选响应。由此形成了“输入-拒绝/安全响应-文化适配响应”的三元组数据（triplets）。

利用这些数据，研究对六个开源权重 LLM（open-weight LLMs）进行了直接偏好优化（DPO, Direct Preference Optimization）微调。DPO 是一种无需额外奖励模型即可优化模型对齐效果的训练方法，它通过比较偏好响应和非偏好响应来调整模型参数。

量化指标：微调后的模型在六个开源 LLM 上显著提高了“韩国文化安全评分”（Korean cultural safe rate）。
通用能力保持：在提升文化安全性的同时，模型在韩语通用能力基准测试（general-capability benchmarks）中未出现大幅性能下降，证明了该对齐方法的有效性且未损害基础能力。
定性输出观察：人工评估显示，经过微调的模型能够：
- 准确引用韩国法律条文（Korean statutes）。
- 提供符合韩国体制的程序性信息。
- 在拒绝回答敏感问题时，能够恰当地提供具有韩国背景的建设性信息，而非简单的机械拒绝。

这项研究对 LLM 的全球化和本地化部署具有重要的理论与实践意义：

填补非英语文化的对齐空白：目前大多数 LLM 对齐研究以英语和西方文化为中心。本研究通过具体实例证明，针对特定非英语文化（如韩国）进行深度文化对齐是可行且必要的，为其他文化圈提供了可借鉴的方法论框架。
提升模型的社会责任感与实用性：通过引入法律和社会规范，模型不仅能避免法律风险，还能提供更符合当地用户期望的帮助。例如，在涉及法律建议或社会程序时，提供准确的本地法律依据比通用的安全拒绝更具价值。
推动“文化连贯性”作为独立评估维度：研究强调了“文化连贯性”应被视为与“安全性”同等重要的对齐目标。这促使业界重新思考评估指标，从单一的“无害性”转向更复杂的“文化适切性”和“建设性”。
开源社区的赋能：通过展示如何在开源 LLM 上应用 DPO 进行文化对齐，本研究降低了中小型企业或研究机构进行本地化模型定制的技术门槛，有助于构建更多样化的 AI 生态系统。

总之，该研究标志着 LLM 对齐技术从“通用安全”向“文化智能”迈进的重要一步，强调了在构建全球性 AI 系统时，尊重和理解本地文化语境的重要性。