技术博客arXiv cs.CL·1 天前

高效多语推理迁移：逐步代码切换实现语言一致

原标题：Efficient Multilingual Reasoning Transfer via Progressive Code-Switching

速览

论文提出PCS（Progressive Code-Switching），一种高效的多语言推理迁移框架。模型先通过部分英语推理步骤翻译成目标语言，初始化代码切换能力；再结合步级语言一致性强化学习课程，逐步提高目标语言比例，直至完全用目标语言推理。该设计避免直接迁移的 instability，提供平稳迁移路径。实验证明在多语言基准上显著缩小英文与目标语言推理差距，同时保持高准确率。

AI 深度解读

Efficient Multilingual Reasoning Transfer via Progressive Code-Switching

背景

大语言推理模型（Large Reasoning Models，简称 LRMs）已在英语中展现出强大的推理能力，但其在其他语言上进行推理时的性能会显著下降。

现有转移方法通常依赖于从更强的 LRMs 中蒸馏出目标语言的推理轨迹，或者使用在线监督来自外部评判模型，这些方式成本高昂且难以扩展。

核心内容

论文提出了一种名为 PCS（Progressive Code-Switching，逐步代码切换）的更高效转移框架，仅需轻量级翻译，无需更强的 LRM 进行蒸馏或评判。

PCS 首先通过将英文推理轨迹中部分步骤翻译成目标语言，构建代码切换的推理轨迹，并通过监督微调（supervised fine-tuning）初始化模型的代码切换能力。

随后，PCS 应用带步级语言一致性课程的强化学习（reinforcement learning with a step-level language consistency curriculum），逐步提高目标语言比例，直至模型完全以目标语言进行推理。

这种渐进式设计提供了一条平滑的转移路径，避免了直接强制目标语言推理时常见的稳定性问题和性能下降。

实验在多个基准测试和五种类型多样语言上验证了 PCS 的有效性，显著缩小了目标语言推理与英语推理之间的性能差距，实现了更语言一致的推理，同时保持了竞争力的准确性。

关键要点

仅需轻量级翻译，无需更强模型：PCS 框架仅依赖轻量级翻译构建代码切换推理轨迹，不使用更强的 LRM 进行蒸馏或在线评判。
分阶段初始化与提升：先通过监督微调学习代码切换能力，再通过强化学习逐步提高目标语言比例。
课程式语言一致性：采用带步级语言一致性课程的强化学习，渐进式增加目标语言比例，直至完全切换到目标语言。
避免直接强制问题：渐进设计防止常见稳定性问题和性能下降。
多语言验证：在五个类型多样语言和多个基准上表现突出，缩小了英语与目标语言推理差距。

意义与影响

PCS 为解决多语言推理不一致问题提供了一种高效、可扩展且低成本的解决方案，特别适用于资源有限或目标语言数据稀缺的场景。

其代码切换机制不仅实现了语言能力的平滑迁移，还保持了推理准确性，这为构建真正多语言一致的大语言推理系统打开了新路径。

未来该方法有望成为多语言 AI 部署中的标准范式，推动更多语言支持的智能推理应用发展。

查看原文 →arxiv.org

高效多语推理迁移：逐步代码切换实现语言一致

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐