技术博客arXiv cs.CL·7 天前

ReverseMath：用于可扩展且可验证数学问题生成的答案反转方法

原标题：ReverseMath: Answer Inversion for Scalable and Verifiable Mathematical Problem Generation

速览

该研究提出ReverseMath方法，通过掩码数值并将原答案作为条件，将数学题转化为可验证的新问题。在评估中，该方法揭示了模型存在记忆而非真正推理的行为。在训练中，生成的数据作为增强样本，显著提升了模型在多个基准上的数学推理性能。

大型语言模型（LLMs）在数学推理能力上的评估，长期以来依赖于现有的数学推理基准测试集。然而，这些基准测试集存在两个显著痛点：

静态性与数据污染风险：大多数基准测试集是静态的，且随着公开评估和训练管道的广泛使用，题目内容极易被模型“记忆”而非真正理解。这导致评估结果难以区分模型是具备真实的推理能力，还是仅仅记住了答案。
高质量数据构建成本高：手动构建新的数学问题并确保其答案的可靠性，是一项耗时且昂贵的工作，限制了大规模、高质量训练数据的供给。

为了解决上述问题，研究人员提出了 ReverseMath，一种通过“答案反转”技术来大规模生成新数学问题的方法。该方法旨在为评估提供动态变化的测试用例，并为训练提供自动标注的可验证数据。

ReverseMath 的核心思想是答案反转（Answer Inversion）。其基本流程如下：

该方法主要应用于两个场景：

评估场景（Evaluation）：
- 通过对比模型在原始问题与反转问题上的表现，揭示模型的行为变化。
- 实验发现，模型在反转问题上表现不佳，甚至会出现“错误地输出原始答案”的现象。这种行为模式暗示了模型可能存在类似记忆（memorization）的倾向，而非纯粹的逻辑推理。
训练场景（Training）：
- 将 ReverseMath 生成的自动标注反转问题作为数据增强手段，用于强化学习（Reinforcement Learning, RL）。
- 实验结果表明，引入 ReverseMath 生成的数据能够显著提升模型在多个基准测试上的数学推理性能。

ReverseMath 的提出对大语言模型在数学领域的研究和应用具有多重意义：

总之，ReverseMath 不仅是一种数据生成技术，更是一种评估和分析工具，为构建更可靠、更强大的数学推理模型提供了新的路径。