技术博客arXiv cs.CL·2 小时前

强化学习驱动翻译工具使用，实现成本感知的语言自适应

原标题：Translate-R1: Cost-Aware Translation Tool Use via Reinforcement Learning

速览

针对大模型在多语言处理上的性能差距，研究提出一种无需手动规则、仅靠奖励信号学习的翻译策略。该方法在Qwen3-4B模型上通过强化学习训练，实现了语言与领域的自适应内省，仅在模型无法原生理解时才调用翻译工具。实验显示，该策略在低资源语言上奖励提升显著，且能以63%的成本保持全量奖励，达到帕累托最优。

AI 深度解读

Translate-R1：基于强化学习的成本感知翻译工具调用

背景

大型语言模型（LLMs）在不同语言间的性能差距是一个被广泛记录的事实。虽然通过在多语言语料库上进行预训练或微调可以原生地缩小这一差距，但对于大多数非主流语言而言，高质量的训练语料库并不存在。

翻译提供了一种替代方案：将输入转换为目标模型最擅长的主导语言（通常是英语），可以立即解锁模型的全部能力。然而，这种策略存在明显的效率问题：

过度翻译的浪费：如果对所有输入都应用翻译，对于模型已经能够良好处理的语言来说，这是一种计算资源的浪费。
模型自信导致的失败：如果将是否翻译的选择权交给模型本身，往往会失败。因为 LLMs 通常表现出过度自信（overconfident），即使它们无法理解输入内容，也会跳过翻译工具，导致任务失败。

此前的研究工作通常通过特定语言的规则、领域启发式方法、语言标识符或外部路由器来解决这一问题，但这些方法都需要大量的人工工程干预。

核心内容

本文提出了 Translate-R1，一种通过强化学习（RL）学习单一策略，仅凭奖励信号来决定何时调用翻译工具的方法。该方法开发了一种语言和领域自适应的内省机制，能够评估自身的理解能力，仅在无法原生解决任务时才调用翻译工具。

1. 方法论：置信度门控 GSPO

研究团队引入了 置信度门控广义策略优化（Confidence-Gated GSPO），以实现成本敏感的工具使用。其核心逻辑是：

内省机制：模型学会“审视”自己，判断当前输入是否在其原生能力范围内。
动态决策：只有当模型检测到自身置信度低或无法理解时，才触发翻译工具。
成本意识：在强化学习奖励函数中引入成本惩罚，平衡翻译带来的性能提升与计算开销。

2. 实验设置与数据构建

为了训练该策略，研究团队构建了一个**答案保留翻译管道（answer-preserving translation pipeline）**的数据集。实验基于以下设定：

基座模型：在 Qwen3-4B 模型上进行后续强化学习训练。
语言覆盖：涵盖 22 种语言，分为三个资源层级：
- High（高资源）
- Low（低资源）
- XLow（极低资源）
领域覆盖：5 个不同的应用领域。

3. 主要实验结果

性能提升

与基线模型相比，置信度门控策略在奖励得分上取得了显著提升：

High 资源语言：提升 +4.6
Low 资源语言：提升 +23.5
XLow 资源语言：提升 +17.5

成本效益分析

与一个几乎总是进行翻译的无约束策略相比，Translate-R1 在仅使用 63% 成本的情况下，保持了相同的完整奖励水平。在 87% 的成本敏感度范围内，该策略达到了 帕累托最优（Pareto-optimal），即在成本降低的同时没有牺牲性能。

泛化能力测试

为了模拟模型在完全未见过的语言上的表现，研究团队创建了两个合成语言（synthetic languages）。结果显示：

在面对这些不可理解的输入时，过度自信的基线模型未能充分利用翻译工具。
Translate-R1 的门控策略相比该基线提升了 +18.7 的奖励得分。
该策略能够 零样本（zero-shot） 迁移到 9 个保留的未见语言上，证明了其良好的泛化能力。

4. 训练过程分析

研究还分析了工具使用行为在训练过程中的演变，分别按语言和领域进行了观察，揭示了模型如何逐步学会区分何时需要翻译，何时可以原生处理。

关键要点

无需人工规则：Translate-R1 摒弃了传统的方法中需要手动编写语言规则或领域启发式逻辑的做法，完全通过强化学习的奖励信号来学习决策策略。
解决“过度自信”问题：针对 LLMs 在低资源语言上因过度自信而跳过必要工具的问题，该模型通过内省机制有效解决了这一痛点。
显著的性能-成本平衡：在极低资源（XLow）和低资源（Low）语言上，性能提升幅度最大（分别为 +17.5 和 +23.5），同时通过减少不必要的翻译操作，将成本降低至无约束策略的 63%。
强大的泛化性：模型不仅在训练涉及的 22 种语言上表现优异，还能零样本迁移到未见过的语言，甚至在合成语言测试中证明了其面对完全陌生输入时的鲁棒性。
技术架构：基于 Qwen3-4B 模型，结合答案保留翻译管道数据，采用置信度门控 GSPO 算法进行强化学习微调。

意义与影响

Translate-R1 的研究为多语言大语言模型的应用提供了一条新的技术路径。它证明了通过强化学习让模型具备“自知之明”是可行的，即模型可以学会判断自己的能力边界，并据此动态调用外部工具（如翻译器）。

这一方法不仅降低了多语言处理的计算成本，还提高了模型在低资源语言下的准确性和可靠性。对于需要处理多语言内容的企业或应用而言，这种成本感知且自适应的工具调用机制，能够在保证性能的同时优化资源分配，具有极高的实用价值。此外，该研究展示的零样本泛化能力也为未来扩展至更多小众语言或新兴语言提供了理论基础和技术参考。

查看原文 →arxiv.org