技术博客arXiv cs.CL·2 小时前

一致性驱动强化学习提升跨语言事实召回

原标题：Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

速览

针对大模型在英语以外语言中事实表达不一致的问题，研究提出PolyFact大规模多语言事实QA数据集。实验表明，基于组相对策略优化（GRPO）的强化学习方法在提升跨语言事实召回和泛化能力上显著优于监督微调。机制分析显示，该方法通过重组多语言路由，促进了更共享的跨语言表示。

大型语言模型（LLMs）在训练过程中主要依赖英语数据，这使其编码了海量的世界知识。然而，这些模型在将知识迁移到其他语言时，往往表现出不稳定性，即无法可靠地用非英语语言表达其所学的知识。这种现象被称为“跨语言事实不一致性”（cross-lingual factual inconsistency）。

尽管英语能力强劲，但当用户询问非英语事实时，模型可能会出现幻觉、回答错误，或者在多种语言间切换时出现事实冲突。这一瓶颈限制了多语言大模型在真实全球场景下的应用可靠性。为了深入研究和解决这一问题，研究人员需要大规模、高质量的多语言平行事实数据集，以及能够优化模型跨语言一致性的有效训练方法。

本文提出了一种名为 PolyFact 的大规模并行多语言事实问答数据集，并基于此数据集对比了三种不同的训练策略，旨在提升 Qwen-2.5-7B 和 OLMo-2-1124-7B 两个7B参数规模模型的跨语言事实召回能力。

为了解决数据匮乏问题，作者构建了 PolyFact 数据集。该数据集包含 10 万个基于 Wikidata 验证的事实，覆盖了 12 种类型学上差异巨大的语言。通过引入 Wikidata 作为事实来源，确保了数据的高准确性和多语言平行性，为评估跨语言一致性提供了标准化的基准。

研究重点比较了以下三种提升跨语言事实召回的技术路径：

轻量级持续预训练（Continual Pretraining, CPT）：在平行多语言数据上继续预训练模型。
监督微调（Supervised Fine-Tuning, SFT）：使用监督信号对模型进行微调。
基于组相对策略优化（Group Relative Policy Optimization, GRPO）的强化学习：利用强化学习技术，通过奖励机制优化模型输出。

实验结果显示，GRPO 方法 consistently（一致地）优于 SFT。具体表现为：

通过机制性分析（Mechanistic Analyses），作者揭示了 GRPO 起作用的内在原因：

重组多语言路由（Multilingual Routing）：GRPO 改变了模型内部处理不同语言的方式。
降低语言特异性：它减少了多层感知机（MLP）层和注意力头（Attention Heads）中的语言专业化（language specialization）程度。
促进共享表示：这种变化促进了更共享的跨语言表示（shared cross-lingual representations），使得模型不再将每种语言视为完全独立的模块，而是建立了更紧密的语言间联系，从而提升了事实召回的鲁棒性。

问题定义：LLMs 在英语上表现优异，但在其他语言上存在严重的“跨语言事实不一致”问题。
数据贡献：发布了 PolyFact 数据集，包含 10 万条基于 Wikidata 的、覆盖 12 种语言的事实问答对，填补了多语言事实基准的空白。
方法优势：基于 GRPO 的强化学习方法在提升跨语言事实召回方面，显著优于传统的监督微调（SFT）和持续预训练（CPT）。
泛化效果：GRPO 不仅改善了训练语言的表现，还提升了对未见语言的泛化能力，证明了其学习到的是一种更通用的跨语言知识表示。
内部机制：GRPO 通过降低 MLP 层和注意力头中的语言特异性，重组了多语言路由，促进了跨语言共享表示的形成，这是其性能提升的关键机制。
开源承诺：作者已公开代码、模型权重以及 PolyFact 数据集，以促进社区进一步研究。

这项研究对多语言大语言模型的发展具有重要的理论和实践意义。

首先，它指出了单纯依靠增加多语言预训练数据（CPT）并不能有效解决事实一致性问题，强调了**对齐阶段（Alignment Phase）**中强化学习策略的重要性。这为后续的多语言模型优化指明了方向：即需要更精细的奖励机制来引导模型建立跨语言的共享知识表示，而非仅仅增加语言覆盖范围。

其次，PolyFact 数据集的发布为社区提供了一个标准化的评估基准。以往多语言评估往往缺乏统一的事实来源和并行结构，导致结果难以横向比较。Wikidata 的引入确保了事实的客观性和可验证性，有助于更准确地衡量模型的“真实”知识掌握程度。

最后，机制分析揭示了“降低语言特异性”有助于提升跨语言泛化，这一发现挑战了传统上认为每种语言应有独立处理通道的假设。它暗示，未来的多语言模型架构设计应更加注重促进语言间的表示共享，从而构建更加统一和鲁棒的世界知识图谱。这对于提升 LLM 在全球多语言环境下的可靠性和实用性具有深远影响。