技术博客arXiv cs.CL·7 天前

超越输入理解：利用有向无环追踪图诊断多语言数学推理

原标题：Beyond Input Understanding: Diagnosing Multilingual Mathematical Reasoning with Directed Acyclic Trace Graphs

速览

大型推理模型在非英语语言中的数学推理能力较弱，不仅因理解障碍，更因语言影响推理执行。研究提出DATG框架，将推理轨迹映射为语言无关的数学锚点与依赖关系以进行诊断。实验发现非英语推理存在锚点覆盖不足和依赖保真度低的问题。据此提出的重试机制有效提升了低资源语言下的推理性能。

AI 深度解读

Beyond Input Understanding: Diagnosing Multilingual数学推理与有向无环追踪图

背景

大型推理模型（Large Reasoning Models, LRMs）在英语环境下的数学推理能力已经取得了显著进展，但在许多低资源和中资源语言中，其表现却远不如英语可靠。这种性能差距通常被归因于模型对非英语问题陈述的理解能力不足——即模型无法正确解析输入的语言内容。

然而，这一传统观点可能是不完整的。研究人员发现，即使问题本身是用英语给出的，如果强制模型使用非英语进行推理（即控制模型的推理语言），其准确率也会大幅下降。这一现象暗示，语言不仅仅影响“输入理解”，还直接影响了“推理执行”本身。为了深入探究这一现象，我们需要一种能够解耦语言形式与数学逻辑的方法，从而诊断模型在跨语言推理中的具体失败模式。

核心内容

为了解决上述问题，研究团队提出了一种名为 DATG（Directed Acyclic Trace Graph，有向无环追踪图）的新框架。该框架旨在通过结构化分析，深入诊断多语言数学推理中的细微缺陷。

1. DATG 框架原理

DATG 的核心思想是将模型的推理轨迹（Reasoning Traces）映射到与语言无关的“数学锚点”（Mathematical Anchors）和“依赖关系”（Dependencies）上。

数学锚点：代表推理过程中必须执行的关键数学步骤或概念。
依赖关系：代表这些步骤之间的逻辑先后顺序。

通过这种方式，DATG 允许我们将目标语言生成的推理轨迹与参考的有向无环图（DAG）进行对齐。这种对齐使得研究者可以量化评估模型是否：

覆盖了所需的数学节点（Anchor Coverage）。
尊重了步骤间的依赖边（Dependency Fidelity）。
避免了有害的数学操作（Harmful Mathematical Actions）。

2. 实验发现

研究团队在 Qwen3 系列模型上进行了广泛实验，涵盖了 12 种不同的语言。实验结果揭示了一个关键问题：

在非英语推理中，模型往往表现出锚点覆盖率降低和依赖关系保真度减弱。
这种退化在低资源语言中尤为严重。

这意味着，即使模型理解了问题（输入理解没问题），它在执行非英语推理时，往往会在逻辑链条的完整性或步骤顺序上出现断裂或错误。

3. 解决方案：测试时控制

基于 DATG 诊断出的失败模式，研究者提出了两种简单的测试时控制（Test-time Controls）策略：

Loop-Retry（循环重试）：针对锚点覆盖不足的问题，通过循环机制确保关键数学步骤被正确执行。
Formula-Retry（公式重试）：针对依赖关系错误，通过重新验证公式应用的逻辑顺序来修正推理。

实验表明，这两种方法能够一致性地提升低资源语言下的推理性能，证明了通过结构化诊断来优化推理执行的有效性。

关键要点

推理语言影响执行：语言不仅影响输入理解，还直接影响推理执行的质量。即使输入是英语，使用非英语进行内部推理也会显著降低准确率。
DATG 框架创新：引入有向无环追踪图（DATG），将自然语言推理轨迹转化为语言无关的数学逻辑图（锚点+依赖），实现了可量化的诊断。
低资源语言困境：Qwen3 等模型在非英语推理中，主要弱点在于未能充分覆盖必要的数学锚点以及未能保持正确的逻辑依赖关系，低资源语言问题更突出。
简单有效的改进策略：提出的 Loop-Retry 和 Formula-Retry 是轻量级的测试时控制手段，无需重新训练模型即可显著提升低资源语言的推理准确率。
从“理解”到“执行”的范式转变：研究强调了诊断多语言推理时，不能仅关注语义理解，必须深入检查推理过程的逻辑结构。

意义与影响

这项研究对多语言大语言模型的发展具有重要的理论和实践意义：

重新定义多语言推理瓶颈：传统观点认为多语言性能差距主要源于数据稀缺导致的语义理解不足。本研究证明，推理执行层面的逻辑一致性也是一个关键瓶颈。这为后续研究指明了新方向：不仅要提升模型的词汇和语法能力，还要增强其跨语言的逻辑结构保持能力。
提供可解释的诊断工具：DATG 框架提供了一种细粒度的分析工具，使得研究人员能够具体定位模型在推理过程中的“断点”或“错误点”，而不仅仅是给出一个最终的准确率分数。这种可解释性对于调试和改进复杂推理模型至关重要。
低成本的性能提升路径：Loop-Retry 和 Formula-Retry 作为测试时控制策略，无需昂贵的模型微调或重新训练，即可显著改善低资源语言的表现。这为部署多语言 AI 应用提供了一种经济高效的优化方案，特别是对于资源受限的场景。
推动通用人工智能（AGI）的多语言能力：随着 AI 系统向全球多语言用户扩展，确保其在不同语言下都能保持稳定的逻辑推理能力是迈向真正通用智能的关键一步。本研究为构建更鲁棒、更公平的多语言推理系统奠定了方法论基础。

查看原文 →arxiv.org