← 返回信息流
技术博客arXiv cs.CL·1 小时前

AdaMame:自适应多语言推理训练方案

原标题:AdaMame: A Training Recipe for Adaptive Multilingual Reasoning

速览

针对大推理模型在多语言场景下出现的语言坍缩及精度权衡问题,研究提出AdaMame训练方案。该方案包含SFT和RL两阶段,引入AdaMame-GRPO算法动态调整语言对齐因子。实验表明,该方法在12种语言上实现了推理精度、语言保真度和Token效率的帕累托最优。

AI 深度解读

AdaMame:自适应多语言推理的训练配方深度解读

背景

大型推理模型(Large Reasoning Models, LRMs)在英语环境下的表现已展现出卓越的能力,但在处理非英语查询时,往往会出现“语言坍缩”(Language Collapse)现象。具体而言,即使输入是其他语言,模型在生成推理过程(Reasoning Trace)时,仍倾向于切换回英语,导致最终答案的语言忠实度降低。

为了解决这一问题,现有的基于强化学习(RL)的修复方案通常采取一种简单粗暴的策略:在准确性目标(Accuracy Objective)之外,增加一个二元的语言忠实度奖励(Binary Language Fidelity Reward)。然而,这种加权方法往往带来显著的副作用:

  1. 准确性权衡:为了追求语言一致,模型的整体推理准确率下降。
  2. 中间过程代码切换:模型在推理链条中频繁在中英文之间切换,导致逻辑连贯性受损。
  3. Token 使用过量:为了补偿语言切换带来的效率损失,模型往往需要生成更多的 Token,增加了计算成本。

因此,业界急需一种既能保持高推理准确率,又能实现推理语言与查询语言自适应对齐,且不过度消耗计算资源的方法。

核心内容

针对上述痛点,研究人员提出了 AdaMame,这是一种专为多语言数学推理设计的两阶段训练配方(Training Recipe)。AdaMame 的核心创新在于通过自适应对齐推理语言与查询语言,在不牺牲准确性的前提下,解决了语言坍缩问题。

第一阶段:监督微调(SFT)建立多语言能力

AdaMame 的第一阶段采用监督微调(Supervised Fine-Tuning, SFT)。研究人员利用自然产生的、涵盖五种不同语言的推理轨迹数据进行微调。这一阶段的目标并非直接优化语言对齐,而是旨在为模型建立基础的多语言推理能力,使其能够理解并生成多种语言的逻辑链条。

第二阶段:AdaMame-GRPO 强化学习优化

在第二阶段,研究团队引入了 AdaMame-GRPO,这是对 Group Relative Policy Optimization (GRPO) 算法的一种适应性改进。该阶段的核心机制是一个“查询条件对齐因子”(Query-conditioned Alignment Factor)。

这一因子的设计极具巧思:它在训练过程中是渐进式增长的。

  • 早期阶段:对齐因子较小,鼓励模型探索多样化的推理语言,保持推理能力的多样性。
  • 后期阶段:随着训练深入,对齐因子逐渐增大,引导模型从“探索”转向“利用”(Exploit),即更多地使用与查询语言一致的推理语言进行思考。

这种渐进式的引导机制,使得模型能够平滑地从多语言推理过渡到特定语言的高精度推理,避免了传统方法中因硬性约束导致的性能震荡。

实验验证

研究团队在两个基准测试(Benchmarks)、两个 LRMs 以及 12 种语言上对 AdaMame-GRPO 进行了全面评估。结果显示,该方法在推理准确性、语言忠实度和 Token 效率这三个关键指标上,均达到了帕累托最优(Pareto-optimal)性能,超越了所有基线模型。特别是在域外(Out-of-domain)和低资源语言上,AdaMame-GRPO 展现出了最强的性能提升。

关键要点

  • 问题定义:大型推理模型存在“语言坍缩”现象,即在非英语查询下仍使用英语进行推理,导致语言忠实度低。
  • 现有方案缺陷:传统的基于 RL 的二元语言奖励机制会导致准确性下降、中间过程代码切换频繁以及 Token 消耗增加。
  • AdaMame 架构:采用两阶段训练策略。
    • SFT 阶段:使用五种语言的自然推理轨迹微调,建立基础多语言能力。
    • RL 阶段:引入 AdaMame-GRPO,通过渐进式增长的查询条件对齐因子,平衡探索与利用。
  • 性能优势:在准确性、语言忠实度和 Token 效率之间实现了帕累托最优,特别是在低资源和域外语言上表现突出。
  • 技术贡献:提出了 GRPO 的一种新变体,通过动态调整对齐权重,解决了多语言推理中语言一致性与逻辑准确性难以兼得的难题。

意义与影响

AdaMame 的提出标志着多语言大模型推理能力的一个重要进展。它不仅仅是一个新的模型架构,更是一套可复用的“训练配方”(Training Recipe),为后续研究提供了重要的参考范式。

首先,解决了多语言推理的核心瓶颈。通过证明可以在不牺牲准确性的情况下实现语言自适应对齐,AdaMame 打破了以往“多语言”与“高精度”不可兼得的固有认知,为构建真正全球通用的 AI 助手扫清了关键障碍。

其次,提升了资源效率。通过减少不必要的 Token 使用和代码切换,AdaMame 降低了多语言推理的计算成本,这对于大规模部署多语言模型具有重要意义,尤其是在计算资源有限的低资源语言环境中。

最后,推动了 RLHF/RLAIF 技术的发展。AdaMame-GRPO 中对齐因子的渐进式调整策略,为强化学习在复杂逻辑任务中的应用提供了新的思路。这种动态平衡探索与利用的方法,可能推广到其他需要多模态或多语言对齐的复杂推理场景中,具有广泛的学术价值和工程应用前景。

查看原文 →arxiv.org