技术博客arXiv cs.CL·8 天前

CroCo：基于自生成数据的跨语言对比偏好微调

原标题：CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

速览

该研究将基于自生成数据的对比偏好微调方法扩展至多语言环境。核心发现是，仅用英语训练的奖励模型即可在多数语言中实现有效的偏好排序，且无需特定语言的标注数据。该方法在结构化任务和开放式生成中均显著提升了模型性能，并避免了监督微调中的灾难性遗忘。

AI 深度解读

CroCo：基于自生成数据的跨语言对比偏好微调

背景

在大型语言模型（LLM）的发展进程中，基于人类反馈的强化学习（RLHF）及其变体（如直接偏好优化 DPO）已成为对齐模型行为、提升输出质量的关键技术。然而，现有的偏好微调工作主要集中在英语等少数高资源语言上。对于低资源语言或非英语语言，获取高质量的人类偏好标注数据成本高昂且稀缺，这限制了多语言模型在这些语言上的对齐效果。

此前，已有研究指出，通过奖励模型（Reward Model）对大语言模型自生成的响应进行受控的对比性排序，可以在英语中有效改善下游的偏好微调效果。这一发现为利用无标注或弱标注数据提升模型性能提供了新思路。CroCo 研究正是建立在这一基础之上，旨在探索是否可以将这种仅依赖自生成数据（Self-Generations）的对比偏好微调方法扩展到多种语言，并验证其在不依赖特定语言偏好标注的情况下，能否实现有效的跨语言迁移。

核心内容

CroCo（Cross-Lingual Contrastive Preference Tuning on Self-Generations）是一项针对多语言场景的偏好微调研究。该研究将此前在英语中验证有效的“基于自生成响应的对比偏好微调”方法扩展至多种语言，并在两个不同的模型架构上，针对总共 14 种高资源和低资源语言，在多样化的任务集上进行了全面评估。

方法论与实验设置

研究的核心假设是：跨语言的对比偏好微调可以在没有特定语言偏好标注数据的情况下实现迁移。具体实验设置如下：

基础模型与奖励模型：研究使用了基于多语言基础模型构建的奖励模型，该奖励模型仅在英语偏好数据上进行训练。
数据生成：利用该奖励模型对多语言输入生成的响应进行打分，从而在无需人工标注的情况下，获得跨语言的偏好排序数据（即“自生成”的对比对）。
微调策略：研究对比了单语言环境（Monolingual）和多语言环境（Multilingual）下的微调效果，并考察了在线偏好优化（Online Preference Optimization）与离线偏好优化（Offline Preference Optimization）的差异。
评估对象：主要评估了两个模型：EuroLLM-9B 和 Aya-3B。
评估语言：涵盖 14 种语言，包括高资源语言（如英语、德语、法语等）和低资源语言。
评估任务：分为结构化任务（Structured Tasks）和开放式生成（Open-ended Generation）。

主要发现

研究得出了以下几个关键结论：

跨语言迁移的有效性：仅使用英语训练的奖励模型，能够在大多数语言中产生有用的语言内排名（Within-language rankings）。这意味着，即使没有目标语言的偏好标注，英语奖励模型也能捕捉到多语言环境下的相对偏好信号。
微调环境的优势：无论是在单语言设置还是多语言设置下进行配对微调，CroCo 方法在大多数实验设置中均优于基线模型。更重要的是，该方法有效防止了监督微调（SFT）过程中常见的灾难性遗忘（Catastrophic Forgetting）现象，即在提升偏好对齐能力的同时，保留了模型的基础语言能力。
数据策略的关键性：研究观察到，性能提升高度依赖于“在线策略数据”（On-policy data）。
- 离线策略（Off-policy）的局限：使用离线策略生成的响应会减少性能增益。
- 在线优化的失败：在线偏好优化（Online Preference Optimization）未能比离线变体带来进一步的提升。这表明，在当前实验条件下，基于自生成的离线对比微调是更稳健且有效的路径。
具体任务表现：
- 结构化任务：在 7 种语言中，EuroLLM-9B 在 6 种语言上匹配或超过了基线模型；Aya-3B 在 7 种设置中的 4 种上表现相当或更优。
- 开放式生成：在评估的 11 种语言中，经过微调的两个模型在开放式生成任务上均战胜了各自的基线模型。

关键要点

零样本跨语言迁移：CroCo 证明了仅凭英语训练的奖励模型，即可为多种语言（包括低资源语言）生成有效的偏好信号，无需为目标语言收集昂贵的人类偏好标注。
防止灾难性遗忘：该方法在多语言设置下微调时，能够保持模型在监督微调阶段学到的基础知识，避免了性能倒退。
数据策略决定上限：性能提升依赖于 On-policy 数据。Off-policy 响应会降低收益，且在线优化在此场景下并未显示出优于离线优化的效果。
广泛的任务适应性：不仅在结构化任务中表现稳健，在开放式生成任务中也实现了跨语言的普遍性能提升（11/11 语言中胜出）。
模型通用性：该方法在参数量较大的 EuroLLM-9B 和较小的 Aya-3B 上均验证有效，显示出一定的模型规模无关性。

意义与影响

CroCo 的研究为多语言大语言模型的对齐提供了一条极具潜力且低成本的路径。

首先，它解决了多语言对齐中的核心瓶颈——数据稀缺。在英语等语言中，RLHF 和 DPO 等对齐技术已非常成熟，但在其他语言中，由于缺乏高质量的人类偏好数据，模型对齐往往滞后。CroCo 通过利用自生成数据和跨语言迁移能力，使得开发者可以利用现有的英语奖励模型资源，快速提升其他语言的模型对齐水平，极大地降低了多语言对齐的门槛。

其次，该方法强调了“自生成”数据在偏好学习中的价值。它表明，即使没有完美的外部反馈，模型自身生成的响应经过合理的排序和对比，也能蕴含丰富的偏好信息。这对于资源受限的场景尤为重要。

最后，研究结果对未来的多语言模型开发具有指导意义。它提示研究者，在尝试在线优化或引入复杂反馈机制之前，应优先确保数据策略（On-policy vs Off-policy）的合理性，并重视多语言混合训练在防止灾难性遗忘方面的作用。CroCo 展示了一种可扩展、高效且语言无关的偏好微调范式，为构建真正全球化的多语言 AI 系统奠定了重要基础。

查看原文 →arxiv.org

CroCo：基于自生成数据的跨语言对比偏好微调

速览

AI 深度解读

CroCo：基于自生成数据的跨语言对比偏好微调

背景

核心内容

方法论与实验设置

主要发现

关键要点

意义与影响

相关推荐