← 返回信息流
技术博客arXiv cs.CL·1 天前

高效多语推理迁移:逐步代码切换实现语言一致

原标题:Efficient Multilingual Reasoning Transfer via Progressive Code-Switching

速览

论文提出PCS(Progressive Code-Switching),一种高效的多语言推理迁移框架。模型先通过部分英语推理步骤翻译成目标语言,初始化代码切换能力;再结合步级语言一致性强化学习课程,逐步提高目标语言比例,直至完全用目标语言推理。该设计避免直接迁移的 instability,提供平稳迁移路径。实验证明在多语言基准上显著缩小英文与目标语言推理差距,同时保持高准确率。

AI 深度解读

Efficient Multilingual Reasoning Transfer via Progressive Code-Switching

背景

大语言推理模型(Large Reasoning Models,简称 LRMs)已在英语中展现出强大的推理能力,但其在其他语言上进行推理时的性能会显著下降。

现有转移方法通常依赖于从更强的 LRMs 中蒸馏出目标语言的推理轨迹,或者使用在线监督来自外部评判模型,这些方式成本高昂且难以扩展。

核心内容

论文提出了一种名为 PCS(Progressive Code-Switching,逐步代码切换)的更高效转移框架,仅需轻量级翻译,无需更强的 LRM 进行蒸馏或评判。

PCS 首先通过将英文推理轨迹中部分步骤翻译成目标语言,构建代码切换的推理轨迹,并通过监督微调(supervised fine-tuning)初始化模型的代码切换能力。

随后,PCS 应用带步级语言一致性课程的强化学习(reinforcement learning with a step-level language consistency curriculum),逐步提高目标语言比例,直至模型完全以目标语言进行推理。

这种渐进式设计提供了一条平滑的转移路径,避免了直接强制目标语言推理时常见的稳定性问题和性能下降。

实验在多个基准测试和五种类型多样语言上验证了 PCS 的有效性,显著缩小了目标语言推理与英语推理之间的性能差距,实现了更语言一致的推理,同时保持了竞争力的准确性。

关键要点

  • 仅需轻量级翻译,无需更强模型:PCS 框架仅依赖轻量级翻译构建代码切换推理轨迹,不使用更强的 LRM 进行蒸馏或在线评判。
  • 分阶段初始化与提升:先通过监督微调学习代码切换能力,再通过强化学习逐步提高目标语言比例。
  • 课程式语言一致性:采用带步级语言一致性课程的强化学习,渐进式增加目标语言比例,直至完全切换到目标语言。
  • 避免直接强制问题:渐进设计防止常见稳定性问题和性能下降。
  • 多语言验证:在五个类型多样语言和多个基准上表现突出,缩小了英语与目标语言推理差距。

意义与影响

PCS 为解决多语言推理不一致问题提供了一种高效、可扩展且低成本的解决方案,特别适用于资源有限或目标语言数据稀缺的场景。

其代码切换机制不仅实现了语言能力的平滑迁移,还保持了推理准确性,这为构建真正多语言一致的大语言推理系统打开了新路径。

未来该方法有望成为多语言 AI 部署中的标准范式,推动更多语言支持的智能推理应用发展。

查看原文 →arxiv.org