技术博客arXiv cs.CL·2 天前

SENSE：基于语义嵌入导航的检索式推测解码新方法

原标题：SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

速览

检索式推测解码（RSD）因依赖严格的词汇匹配，对表面形式变化敏感，导致检索和验证过程脆弱。为此，研究者提出SENSE方法，利用目标模型的隐藏状态进行语义嵌入导航，建立鲁棒的语义对齐。该方法通过软门控评估模块验证语义等价性而非表面形式，在LLaMA和Qwen等模型上实现了最高3.26倍的加速，同时保持生成质量。

AI 深度解读

SENSE：基于语义嵌入导航与软门控评估的检索式推测解码

背景

在大语言模型（LLM）的推理过程中，自回归生成（Autoregressive Generation）因其逐词生成的特性，往往成为计算瓶颈。推测解码（Speculative Decoding, SD）作为一种加速推理的技术，通过引入一个轻量级的草稿模型（Draft Model）来并行提出候选 token，随后由目标模型（Target Model）进行并行验证，从而在不牺牲生成质量的前提下显著提升推理速度。

在推测解码的多种实现路径中，基于检索的推测解码（Retrieval-based Speculative Decoding, RSD）因其“即插即用”的通用性而备受青睐。然而，现有的 RSD 方法存在明显的局限性：它们过度依赖严格的词汇匹配（Lexical Dependencies）。这意味着，如果检索到的文本与当前生成上下文在表面形式（Surface-level）上存在细微差异，即使语义完全一致，检索和验证过程也会变得脆弱且低效。这种对表面形式的刚性依赖，限制了 RSD 在实际应用中的潜力。

核心内容

为了解决上述问题，研究团队提出了 SENSE（Semantic Embedding Navigation with Soft-gated Evaluation，基于语义嵌入导航与软门控评估）。该方法的核心创新在于将检索锚定在目标模型的隐藏状态（Hidden States）上，从而建立鲁棒的语义对齐（Semantic Alignment）。

1. 语义嵌入导航（Semantic Embedding Navigation）

SENSE 不再仅仅依赖关键词匹配，而是利用目标模型的隐藏状态作为检索的锚点。通过这种方式，系统能够捕捉更深层次的语义信息，而非仅仅关注表层词汇。这种机制使得检索过程对表面形式的变化具有更强的鲁棒性。

2. 软门控评估（Soft-gated Evaluation）

在检索到候选文本后，SENSE 引入了一个软门控评估模块。该模块不再验证候选 token 是否与目标 token 完全相同，而是验证其语义等价性（Semantic Equivalence）。这意味着，即使候选词在拼写或形式上与目标词不同，只要其语义在嵌入空间中足够接近，就会被接受。

3. 统一的基准测试框架

为了确保严谨的基准测试，研究团队将现有的推测解码方法解构为原子原语（Atomic Primitives），并构建了一个统一的框架。这一框架使得研究人员能够进行细粒度、组件级别的比较，从而更准确地评估不同模块对整体性能的影响。

4. 实验结果

在 LLaMA 和 Qwen 系列模型上进行的广泛实验表明，SENSE 在多个领域均优于多种基线方法。具体指标如下：

平均接受长度（Mean Acceptance Length）：达到 4.09，意味着每次验证步骤平均可以接受 4 个 token，显著减少了目标模型的调用次数。
加速比：实现了高达 3.26 倍的推理加速。
生成质量：在加速的同时，保持了与标准自回归生成相当的质量。

关键要点

突破词汇刚性依赖：SENSE 通过引入语义嵌入导航，解决了传统检索式推测解码对表面词汇匹配过度依赖的问题，提升了对语义变体的鲁棒性。
语义等价性验证：软门控评估模块允许接受语义等价但形式不同的 token，从而扩大了可接受的候选空间，提高了推测解码的效率。
统一基准框架：研究团队提出的原子原语解构框架，为推测解码技术提供了更精细、更公平的比较基准，有助于后续研究的标准化。
显著的加速效果：在 LLaMA 和 Qwen 模型上，SENSE 实现了平均 4.09 的接受长度和 3.26 倍的加速，同时未牺牲生成质量。
即插即用的通用性：SENSE 保持了基于检索方法的通用优势，无需对目标模型进行微调即可部署，适用于多种应用场景。

意义与影响

SENSE 的提出标志着推测解码技术从“词汇匹配”向“语义理解”迈出了关键一步。通过引入语义嵌入导航和软门控评估，该方法不仅提升了推理效率，还增强了对自然语言多样性的适应能力。这对于降低大语言模型的部署成本、提高实时交互体验具有重要意义。

此外，研究团队提供的统一基准框架和原子原语解构方法，为学术界和工业界提供了更透明的评估工具，有助于推动推测解码技术的进一步发展和优化。随着代码的即将开源，SENSE 有望成为大模型推理加速领域的一个重要基准和参考实现。

查看原文 →arxiv.org