技术博客arXiv cs.CL·2 小时前

IndicTrans2通过经验回放与模型融合适配21种印度语言对话场景

原标题：Conversational Domain Adaptation of IndicTrans2 across 21 Indic Languages via Experience Replay and Model Soups

速览

IndicTrans2作为最强开源英译印系统，在对话场景下表现生硬。研究通过经验回放混合通用数据，并结合模型融合技术，成功适配21种印度语言。该方法在保持通用领域翻译质量的同时，显著提升了对话场景的chrF指标，为印度语言NLP提供了重要参考。

AI 深度解读

通过经验回放与模型汤（Model Soups）实现 IndicTrans2 在 21 种印度语言上的对话领域自适应

背景

IndicTrans2 是目前最强的开源英译印度语（Indic）翻译系统。然而，像大多数基于通用文本训练的机器翻译系统一样，IndicTrans2 在处理非正式、口语化的对话输入时，往往显得生硬且缺乏自然感。这种“语域”（register）的不匹配限制了其在日常交流场景中的实际可用性。

为了弥补这一差距，研究人员致力于将 IndicTrans2 适配到对话语域中。传统的微调方法虽然能改善对话翻译的流畅度，但往往会导致模型在通用领域知识上的“灾难性遗忘”。本研究旨在探索一种能够在保持通用领域性能的同时，显著提升对话领域翻译质量的技术路径。

核心内容

本研究主要围绕如何将 IndicTrans2-1B 模型适配到 21 种印度语言的对话语域展开，具体采用了以下策略和评估方法：

1. 数据与目标 研究仅使用公开可用的数据源进行适配，包括 OpenSubtitles、BPCC-H-Daily 和 Tatoeba。目标是将 IndicTrans2-1B 模型适配到所有 21 种印度语言的对话场景中。

2. 技术挑战：性能权衡 研究人员首先尝试了普通的微调（Plain fine-tuning）方法。结果显示，虽然微调提升了对话翻译的 chrF 分数，但导致了通用领域性能的显著下降。以印地语（Hindi）为例，在 FLORES 基准测试上，chrF 分数下降了 3.9 分。这揭示了在领域自适应中常见的“通用性”与“特定性”之间的权衡困境。

3. 解决方案：经验回放与模型汤 为了解决上述权衡问题，研究引入了两种技术：

经验回放（Experience Replay）：在微调过程中重新混合通用领域数据，以防止模型遗忘通用知识。
模型汤（Model Soups）：将微调后的权重与基础模型（Base model）的权重进行平均。

4. 实验结果 结合这两种技术后，新模型在 21 种印度语言上均取得了显著成果：

对话领域提升：在所有 21 种语言中，对话 chrF 分数均优于原始 IndicTrans2-1B，平均提升幅度为 +6.2。
通用领域保持：在 FLORES 基准测试上，模型性能与原始模型基本持平，平均变化仅为 -0.17，且所有语言的变化幅度均在 0.7 chrF 以内。
统计显著性：配对 Bootstrap 检验证实，对话领域的提升具有统计显著性（p <= 0.004），而 FLORES 测试并未出现显著退化。

5. 严谨的质量评估 研究团队对结果持审慎态度。他们明确指出，虽然 chrF 分数有所提升，但通过盲测人类评估以及多模型 LLM 检查，并未完全确认这些分数提升等同于感知质量的实质性改善。因此，研究将这种对话增益主要视为对参考译文语域（register）的匹配，而非翻译质量绝对提升的确凿证据。

6. 研究贡献定位 研究团队承认，经验回放和模型汤本身并非新技术。本研究的核心贡献在于针对印度语言对话场景，提供了一次诚实、端到端的实证研究，验证了这些技术在多语言、多语域适配中的实际效果。

关键要点

模型基础：基于最强的开源英译印度语系统 IndicTrans2-1B。
适配范围：涵盖 21 种印度语言。
数据来源：仅使用公开数据（OpenSubtitles, BPCC-H-Daily, Tatoeba）。
核心技术组合：
- 经验回放：混合通用数据以对抗灾难性遗忘。
- 模型汤（Model Soups）：平均微调权重与基础模型权重。
性能提升：
- 对话 chrF 平均提升 +6.2。
- FLORES 通用测试平均变化 -0.17（无显著退化）。
统计验证：对话增益具有统计显著性（p <= 0.004）。
局限性说明：chrF 分数的提升主要体现为语域匹配，未经过人类或 LLM 盲测确认为感知质量的绝对提升。
研究价值：提供了针对印度语言对话场景的完整、透明的端到端研究案例。

意义与影响

这项研究为开源多语言机器翻译模型的领域自适应提供了重要的实践参考。它证明了通过简单的权重平均（Model Soups）和数据重混合（Experience Replay），可以在不牺牲通用领域性能的前提下，有效解决模型在特定语域（如对话）中的生硬问题。

对于开发者和研究人员而言，该研究强调了在评估翻译质量时，除了依赖自动化指标（如 chrF），还需结合人类感知和多模型评估的必要性。同时，它展示了如何利用有限的公开数据，通过工程技巧优化现有大型基础模型，使其更贴合实际应用场景，这对于资源受限的多语言 AI 开发具有借鉴意义。

查看原文 →arxiv.org