技术博客arXiv cs.CL·8 天前

有界路径上下文：LLM知识图谱问答中可见路径历史的受控研究

原标题：Bounded Path Context: A Controlled Study of Visible Path History in LLM-Based Knowledge Graph Question Answering

速览

该研究提出有界路径上下文（BPC）方法，将路径存储与提示暴露解耦，仅向模型展示最近K跳信息。实验显示，在WebQSP和CWQ数据集上，限制历史长度不仅匹配或超越完整历史提示的效果，还显著减少了输入Token。这表明路径序列化长度应作为可调参数而非默认假设。

AI 深度解读

Bounded Path Context：LLM 基于知识图谱问答中的路径历史可见性控制研究

背景

在大语言模型（LLM）驱动的知识图谱问答（KGQA）系统中，核心挑战之一是如何有效地进行图遍历。传统的做法通常将 LLM 视为一个智能路由器，将每个自然语言问题分解为一系列局部的“关系选择”决策。这些决策在搜索束（beams）和跳数（hops）之间重复执行，最终通过路径上的实体和关系推导出答案。

然而，在实际的工程实现中，存在一个普遍但未经严格验证的默认假设：为了保持上下文的一致性，系统会将当前已探索的完整部分路径（partial path）序列化后，作为提示词（prompt）的一部分输入给 LLM。尽管系统控制器（controller）已经在符号内存（symbolic memory）中精确维护着这条路径状态，以便后续的答案提取和审计，但在每一步的关系选择提示中，依然会将整个历史路径重新发送给模型。

这种做法带来了两个潜在问题：

冗余性：控制器已经知道路径，LLM 再次接收完整路径可能并未带来额外的信息增益，反而增加了输入长度。
噪声干扰：过长的历史路径可能包含与当前决策无关的噪声，甚至可能误导模型做出错误的关系选择。

基于此，本文提出了一种名为 Bounded Path Context (BPC，有界路径上下文) 的新机制，旨在重新审视“LLM 需要看到多少历史路径”这一核心问题。

核心内容

BPC 的核心思想是将“符号状态管理”与“LLM 上下文输入”解耦。具体而言，控制器在符号内存中保留完整的路径信息，用于最终的答案提取和审计追踪；而在每一步的关系选择提示中，仅向 LLM 暴露最小必要信息。

1. 机制设计：解耦与有界历史

在 BPC 框架下，发送给 LLM 的关系选择提示仅包含以下元素：

原始问题（Question）
当前实体（Current Entity）
出边关系候选集（Outgoing Relation Candidates）
至多最后 K 跳的历史路径（At most the last K hops）

通过固定图邻域、束预算（beam budget）、深度、解码策略和答案提取格式，研究者对参数 $K$ 进行了受控扫描（controlled sweep），以评估不同历史长度对性能的影响。

2. 实验设置与结果

研究使用了 Qwen3.5-9B-AWQ 模型在两个基准数据集 WebQSP 和 CWQ 上进行了测试。

WebQSP 数据集表现：
- 当 $K=1$（仅显示最后 1 跳）时，答案集 F1 分数达到 0.487。
- 相比之下，使用完整历史路径（Full History）的 F1 分数为 0.472。
- 这意味着 $K=1$ 不仅匹配，而且优于完整历史提示，同时减少了 9.7% 的输入 token 数量。
CWQ 数据集表现：
- 当 $K=0$（不显示任何历史路径，仅显示当前实体和候选关系）时，F1 分数达到 0.287。
- 完整历史提示的 F1 分数为 0.274。
- $K=0$ 的设置减少了 12.1% 的输入 token 数量，且性能更优。
小模型规模验证：
- 在 4B 参数规模的模型上，$K=1$ 依然是两个基准测试中表现最强的设置。

3. 案例分析：历史何时有用？

通过对单个样本（per-example）的分析，研究发现：

71%-84% 的样本不受历史长度影响：对于这些大多数情况，无论是否提供历史路径，模型的表现基本一致。
受影响案例的特征：
- 消歧（Disambiguation）：在某些复杂场景中，前几跳的历史信息有助于消除实体或关系的歧义，此时较长的历史是有益的。
- 干扰（Distraction）：在另一些场景中，过长的历史路径引入了无关信息，反而分散了模型的注意力，导致性能下降。

关键要点

解耦设计优于默认假设：BPC 证明了将符号状态管理（用于审计和提取）与 LLM 上下文输入（用于推理）分离是有效的。控制器无需将完整路径序列化给 LLM。
短历史往往更优：在 Qwen3.5-9B-AWQ 模型上，$K=1$（WebQSP）和 $K=0$（CWQ）的表现均优于完整历史路径提示，且显著降低了计算成本（减少 9.7%-12.1% 的输入 token）。
历史长度是可调接口变量：路径序列化长度不应被视为固定默认值，而应作为一个可调节的超参数或接口变量进行优化。
历史的作用具有情境依赖性：历史路径在少数情况下用于消歧，但在多数情况下可能成为噪声。模型对历史信息的敏感度因数据集和任务复杂度而异。
小模型同样受益：即使在 4B 参数规模的较小模型上，有界路径上下文依然能带来性能提升，表明该策略具有广泛的适用性。

意义与影响

这项研究对 LLM 基于知识图谱的问答系统架构设计产生了重要影响：

效率提升：通过减少输入 token 数量，BPC 直接降低了推理成本（API 调用费用或本地部署的计算资源消耗），并可能加快推理速度。
架构简化与标准化：它挑战了“LLM 必须看到完整路径”的行业默认做法，推动开发者重新评估提示工程中的上下文窗口使用策略。
可解释性与鲁棒性：虽然 LLM 看到的上下文变短了，但控制器仍保留完整符号路径，这意味着系统的可审计性（auditability）并未受损。相反，减少噪声输入可能提高模型在复杂路径推理中的鲁棒性。
未来研究方向：研究结果表明，历史路径的作用并非线性相关（越长越好），而是存在一个“甜蜜点”（sweet spot）。未来的工作可以探索动态调整 $K$ 值的策略，即根据当前问题的复杂度或实体歧义程度，自适应地决定向 LLM 暴露多少历史路径。

总之，BPC 提供了一个简洁而有力的证据：在 LLM 图控制器中，少即是多（Less is More），但需精准控制“少”的边界。

查看原文 →arxiv.org