← 返回信息流
技术博客arXiv cs.AI·2 天前

KACE:知识自适应上下文工程提升数学推理能力

原标题:KACE: Knowledge-Adaptive Context Engineering for Mathematical Reasoning

速览

针对大模型在数学推理中因上下文膨胀导致的局限性,研究提出知识自适应上下文工程(KACE)。该方法将知识存储与使用分离,通过离线构建按难度和领域分层的知识树,并在推理时利用分层自一致性动态检索相关知识点。实验显示,KACE在AIME 2025上准确率达62.2%,显著优于现有基线方法。

AI 深度解读

KACE:面向数学推理的知识自适应上下文工程

背景

大型语言模型(LLMs)在数学推理任务中表现优异,但往往受限于上下文窗口的物理边界和计算成本。传统的“上下文工程”(Context Engineering)旨在通过优化输入提示(Prompt)来提升模型性能,而无需更新模型权重。然而,在数学推理场景中,这种方法面临一个核心瓶颈:上下文膨胀(Context Bloat)

随着模型在解决复杂问题时积累的反馈信息在单个增长的提示中不断累积,可用的“学习指导”信息量受到严格限制。现有的许多方法未能有效区分“存储”(跨多次运行学到的知识)与“使用”(针对特定问题包含在提示中的内容),导致它们继承了这种提示大小的天花板。当问题难度增加时,简单的上下文堆砌不仅效率低下,还容易引入噪声,干扰模型的推理过程。

核心内容

为了解决上述问题,研究团队提出了 KACE(Knowledge-Adaptive Context Engineering,知识自适应上下文工程)。KACE 的核心创新在于通过基于难度和领域的组织方式,将知识的“存储”与“使用”彻底分离。

1. 离线阶段:构建认知树(Epistemic Tree)

在离线训练阶段,KACE 利用一个自我反思的学习循环(Self-reflective learning loop),将训练轨迹蒸馏为一棵认知树。这棵树构成了一个结构化的知识库,其特点如下:

  • 类型化卡片(Typed Cards):知识库由类型化的卡片组成,每张卡片代表一个特定的知识点或解题策略。
  • 分层组织:这些卡片按照两个维度进行分层:
    1. 问题难度(Problem Difficulty)
    2. 认知领域(Epistemic Domain)
  • 错误溯源:每张卡片都被分配到一个特定的“难度-领域”节点,该节点对应于生成该卡片时所依据的失败案例(即模型在解决某类问题时出错的具体情境)。

2. 评估阶段:分层自洽性(Tiered Self-Consistency)

在推理评估阶段,KACE 采用了一种动态的分类与检索机制:

  • 动态难度分类:通过分层自洽性机制,并设置每层的同意门限(Agreement Gates),系统动态地将每个新问题分类为“简单”、“中等”或“困难”。
  • 差异化检索策略
    • 简单问题:直接输出答案,无需检索任何卡片。
    • 较难问题:仅检索认知树中匹配分支的卡片。这意味着模型只加载与其当前问题难度和领域相关的特定知识,避免了无关信息的干扰。

3. 性能表现

KACE 在多个基准测试中展示了显著优势:

  • AIME 2025:KACE 取得了 62.2% 的准确率。
    • 相比固定规模的 Best-of-5 自洽性方法,绝对提升 10.4 个百分点
    • 相比最强的学习上下文基线方法(Tiered + GEPA),提升 5.6 个百分点
    • 上述提升是在可比的求解器调用预算(Solver-call budget)下实现的。
  • 其他基准:在 MATH-HARD 和 OlymMATH 的可验证子集上也观察到了持续的性能增益。
  • 难度分类准确性:KACE 对问题难度的分类与人工判断具有 78% 的成对一致性(Pairwise concordance)。
  • 效率对比:该分层方案在计算资源消耗相当的情况下,性能匹配或超越了 Best-of-N 方法。

关键要点

  • 存储与使用分离:KACE 的核心贡献在于打破了传统上下文工程中存储与使用混同的局面,通过离线构建结构化知识库,实现了按需加载。
  • 认知树结构:引入基于难度和认知领域分层组织的“认知树”,利用类型化卡片存储从失败案例中蒸馏出的知识,使知识检索更具针对性。
  • 动态难度感知:利用分层自洽性机制动态判断问题难度,实现了“简单问题零检索、困难问题精准检索”的高效推理流程。
  • 显著的性能增益:在 AIME 2025 基准上达到 62.2% 的准确率,大幅超越现有的 Best-of-N 和最强学习上下文基线方法,且计算开销可控。
  • 高难度分类一致性:模型自动判断的问题难度与人类判断具有 78% 的一致性,证明了其难度评估机制的有效性。

意义与影响

KACE 的提出标志着大模型在数学推理领域从“暴力堆砌上下文”向“结构化知识检索”的范式转变。

  1. 突破上下文效率瓶颈:通过证明可以将知识从即时提示中剥离并结构化存储,KACE 为解决大模型上下文窗口限制和推理成本高昂的问题提供了新的思路。它表明,通过更智能的知识组织方式,可以在不增加计算预算的前提下显著提升推理能力。
  2. 提升推理的可解释性与可控性:基于难度和领域的分层结构使得模型的决策过程更加透明。研究人员可以分析哪些类型的知识卡片在哪些难度层级上被频繁调用,从而更好地理解模型的推理路径和失败模式。
  3. 推动通用推理框架的发展:虽然本文聚焦于数学推理,但 KACE 所提出的“自我反思蒸馏”和“分层检索”机制具有通用性。未来可能应用于代码生成、科学计算等其他需要复杂逻辑推理和大量背景知识的领域。
  4. 基准测试的新高度:KACE 在 AIME 2025 等高水平数学基准上的优异表现,为后续研究设定了新的性能标杆,同时也凸显了构建高质量、结构化知识基座对于提升大模型能力的重要性。
查看原文 →arxiv.org