技术博客arXiv cs.CL·1 小时前

AdaMame：自适应多语言推理训练方案

原标题：AdaMame: A Training Recipe for Adaptive Multilingual Reasoning

速览

针对大推理模型在多语言场景下出现的语言坍缩及精度权衡问题，研究提出AdaMame训练方案。该方案包含SFT和RL两阶段，引入AdaMame-GRPO算法动态调整语言对齐因子。实验表明，该方法在12种语言上实现了推理精度、语言保真度和Token效率的帕累托最优。

AI 深度解读

AdaMame：自适应多语言推理的训练配方深度解读

背景

大型推理模型（Large Reasoning Models, LRMs）在英语环境下的表现已展现出卓越的能力，但在处理非英语查询时，往往会出现“语言坍缩”（Language Collapse）现象。具体而言，即使输入是其他语言，模型在生成推理过程（Reasoning Trace）时，仍倾向于切换回英语，导致最终答案的语言忠实度降低。

为了解决这一问题，现有的基于强化学习（RL）的修复方案通常采取一种简单粗暴的策略：在准确性目标（Accuracy Objective）之外，增加一个二元的语言忠实度奖励（Binary Language Fidelity Reward）。然而，这种加权方法往往带来显著的副作用：

准确性权衡：为了追求语言一致，模型的整体推理准确率下降。
中间过程代码切换：模型在推理链条中频繁在中英文之间切换，导致逻辑连贯性受损。
Token 使用过量：为了补偿语言切换带来的效率损失，模型往往需要生成更多的 Token，增加了计算成本。

因此，业界急需一种既能保持高推理准确率，又能实现推理语言与查询语言自适应对齐，且不过度消耗计算资源的方法。

核心内容

针对上述痛点，研究人员提出了 AdaMame，这是一种专为多语言数学推理设计的两阶段训练配方（Training Recipe）。AdaMame 的核心创新在于通过自适应对齐推理语言与查询语言，在不牺牲准确性的前提下，解决了语言坍缩问题。

第一阶段：监督微调（SFT）建立多语言能力

AdaMame 的第一阶段采用监督微调（Supervised Fine-Tuning, SFT）。研究人员利用自然产生的、涵盖五种不同语言的推理轨迹数据进行微调。这一阶段的目标并非直接优化语言对齐，而是旨在为模型建立基础的多语言推理能力，使其能够理解并生成多种语言的逻辑链条。

第二阶段：AdaMame-GRPO 强化学习优化

在第二阶段，研究团队引入了 AdaMame-GRPO，这是对 Group Relative Policy Optimization (GRPO) 算法的一种适应性改进。该阶段的核心机制是一个“查询条件对齐因子”（Query-conditioned Alignment Factor）。

这一因子的设计极具巧思：它在训练过程中是渐进式增长的。

早期阶段：对齐因子较小，鼓励模型探索多样化的推理语言，保持推理能力的多样性。
后期阶段：随着训练深入，对齐因子逐渐增大，引导模型从“探索”转向“利用”（Exploit），即更多地使用与查询语言一致的推理语言进行思考。

这种渐进式的引导机制，使得模型能够平滑地从多语言推理过渡到特定语言的高精度推理，避免了传统方法中因硬性约束导致的性能震荡。

实验验证

研究团队在两个基准测试（Benchmarks）、两个 LRMs 以及 12 种语言上对 AdaMame-GRPO 进行了全面评估。结果显示，该方法在推理准确性、语言忠实度和 Token 效率这三个关键指标上，均达到了帕累托最优（Pareto-optimal）性能，超越了所有基线模型。特别是在域外（Out-of-domain）和低资源语言上，AdaMame-GRPO 展现出了最强的性能提升。

关键要点

问题定义：大型推理模型存在“语言坍缩”现象，即在非英语查询下仍使用英语进行推理，导致语言忠实度低。
现有方案缺陷：传统的基于 RL 的二元语言奖励机制会导致准确性下降、中间过程代码切换频繁以及 Token 消耗增加。
AdaMame 架构：采用两阶段训练策略。
- SFT 阶段：使用五种语言的自然推理轨迹微调，建立基础多语言能力。
- RL 阶段：引入 AdaMame-GRPO，通过渐进式增长的查询条件对齐因子，平衡探索与利用。
性能优势：在准确性、语言忠实度和 Token 效率之间实现了帕累托最优，特别是在低资源和域外语言上表现突出。
技术贡献：提出了 GRPO 的一种新变体，通过动态调整对齐权重，解决了多语言推理中语言一致性与逻辑准确性难以兼得的难题。

意义与影响

AdaMame 的提出标志着多语言大模型推理能力的一个重要进展。它不仅仅是一个新的模型架构，更是一套可复用的“训练配方”（Training Recipe），为后续研究提供了重要的参考范式。

首先，解决了多语言推理的核心瓶颈。通过证明可以在不牺牲准确性的情况下实现语言自适应对齐，AdaMame 打破了以往“多语言”与“高精度”不可兼得的固有认知，为构建真正全球通用的 AI 助手扫清了关键障碍。

其次，提升了资源效率。通过减少不必要的 Token 使用和代码切换，AdaMame 降低了多语言推理的计算成本，这对于大规模部署多语言模型具有重要意义，尤其是在计算资源有限的低资源语言环境中。

最后，推动了 RLHF/RLAIF 技术的发展。AdaMame-GRPO 中对齐因子的渐进式调整策略，为强化学习在复杂逻辑任务中的应用提供了新的思路。这种动态平衡探索与利用的方法，可能推广到其他需要多模态或多语言对齐的复杂推理场景中，具有广泛的学术价值和工程应用前景。

查看原文 →arxiv.org