技术博客arXiv cs.CL·2 小时前

上下文压缩非单一方案：可读符号重述优于连贯摘要

原标题：Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget

速览

该研究针对小语言模型的多跳问答任务，提出了一种名为Telegraph English的可读符号格式。该格式将检索到的段落重写为结构化的实体-关系陈述，在降低Token成本的同时保留了推理证据。实验显示，其在MuSiQue等数据集上的表现优于字符删除、截断及随机采样等基线，并胜过同等预算下的连贯文本摘要。

AI 深度解读

Context Compression Is Not One Thing: Readable Symbolic Re-expression vs. Coherent Summary at Matched Budget

背景

在多跳问答（Multi-hop Question Answering）任务中，大型语言模型（LLMs）通常依赖检索增强生成（RAG）来获取外部知识。然而，随着检索到的文档片段（Passages）增多，上下文窗口（Context Window）的令牌（Token）消耗迅速增加，导致推理成本上升，且容易引入噪声干扰模型的推理能力。对于参数量较小的语言模型（Small Language Models, SLMs）而言，上下文压缩（Context Compression）不仅是降低成本的手段，更是提升其在有限资源下准确回答复杂多跳问题的关键能力。

现有的上下文压缩方法主要侧重于减少文本长度，例如通过截断、随机采样或基于字符的删除来降低令牌数量。然而，这些方法往往忽略了信息的语义密度和结构完整性，可能导致关键推理证据的丢失。与此同时，基于自然语言的摘要（Coherent Summary）虽然能保持文本的可读性，但在同等令牌预算下，其保留实体关系和推理链条的能力是否优于结构化表达，尚缺乏严谨的对比验证。

核心内容

本文提出了一种名为 Telegraph English 的可读符号格式，旨在解决小语言模型在多跳问答中的上下文压缩问题。该格式通过将检索到的段落重写为结构化的“实体-关系”语句（Entity-Relation Statements），在显著降低令牌成本的同时，保留了推理所需的关键证据。

1. 方法论：Telegraph English

Telegraph English 的核心思想是将非结构化的自然语言文本转化为一种紧凑但可读的符号化表达。这种表达形式类似于电报风格，去除了冗余的语法结构，但保留了核心的实体名称及其之间的逻辑关系。例如，将“John went to the library to borrow a book about history”转化为类似 John -> location -> library 或 John -> action -> borrow(book, history) 的结构化陈述。这种格式旨在以更高的信息密度存储实体内容，从而在相同的令牌预算下容纳更多的推理线索。

2. 实验设置与基线对比

研究者在三个标准的多跳问答数据集上进行了受控实验：MuSiQue、TwoWiki 和 HotpotQA。为了公平比较，实验设置了严格的“匹配预算”（Matched Budget）条件，即所有压缩方法的输出长度（令牌数）保持一致。

对比的基线方法包括：

字符级删除（Character-level deletion）：随机删除字符以缩短文本。
截断（Truncation）：直接切断文本末尾。
随机子采样（Random sub-sampling）：随机选取部分句子或段落。
连贯散文摘要（Coherent prose summary）：由相同的编码器生成的自然语言摘要。

3. 主要发现

性能优势：Telegraph English 在所有三个数据集上均优于上述三种基于令牌删除/采样的基线方法。具体而言，其 F1 分数提升了 13 到 20 个百分点。
优于自然语言摘要：即使在最复杂的数据集上，Telegraph English 的表现也优于由同一编码器生成的连贯自然语言摘要。这表明，在同等令牌限制下，结构化符号表达比自然语言摘要更能有效地保留推理所需的实体内容。
深度交互假设被证伪：研究预先注册了一个假设，即 Telegraph English 的优势会随着问题推理深度（Reasoning Depth）的增加而扩大。然而，实验结果否定了这一假设（Null Hypothesis）：其优势并未随数据集内推理深度的增加而显著增长。这意味着该方法在浅层和深层推理任务中均能提供稳定的增益，而非仅针对特定复杂度的问题有效。

关键要点

格式创新：提出了 Telegraph English，一种将检索段落重写为结构化实体-关系语句的可读符号格式，旨在以更低令牌成本保留推理证据。
显著性能提升：在 MuSiQue、TwoWiki 和 HotpotQA 数据集上，Telegraph English 相比字符删除、截断和随机采样基线，F1 分数提升 13-20%。
超越自然语言摘要：在匹配令牌预算的前提下，结构化符号表达优于由相同模型生成的连贯自然语言摘要，证明了其在信息密度上的优势。
推理深度无关性：实验结果驳斥了“优势随推理深度增加”的预设假设，表明该方法在不同复杂度的多跳问答任务中均能提供稳定且一致的改进。
小模型友好：该研究特别针对小语言模型（SLMs），证明了通过优化上下文表示形式，可以在资源受限环境下显著提升多跳推理能力。

意义与影响

这项研究对检索增强生成（RAG）系统和小型语言模型的应用具有重要的理论和实践意义：

重新定义上下文压缩：研究明确指出“上下文压缩并非单一概念”。它区分了简单的长度缩减（如截断）与信息密度的优化（如符号化重写）。这提示开发者，在优化 RAG 管道时，不应仅关注减少令牌数量，更应关注如何在有限预算内最大化关键实体和关系的保留率。
结构化数据的价值：结果证实，对于机器阅读理解而言，结构化的符号表达（Symbolic Re-expression）比流畅的自然语言更具信息效率。这为设计针对小模型的专用提示工程（Prompt Engineering）或中间表示层提供了新方向。
降低部署门槛：通过证明小模型在配合 Telegraph English 格式后能取得接近或优于大模型在长上下文下的表现，该研究为在边缘设备或低成本服务器上部署复杂的多跳问答系统提供了可行路径。
对摘要技术的启示：尽管自然语言摘要在人类阅读中具有优势，但在机器推理任务中，其信息密度可能不如结构化格式。这促使研究者重新评估在自动化推理管道中使用自然语言摘要的必要性，并探索混合表示方法。

总之，Telegraph English 提供了一种高效、低成本的上下文压缩策略，通过牺牲部分自然语言的流畅性换取更高的推理信息密度，为小语言模型在多跳问答领域的性能突破提供了新的技术路径。

查看原文 →arxiv.org