技术博客arXiv cs.CL·2 天前

ProactiveLLM：利用模型内生状态实现流式大模型主动交互

原标题：ProactiveLLM: Learning Active Interaction for Streaming Large Language Models

速览

针对流式大模型在交互时机决策上的不足，ProactiveLLM提出利用模型内生状态引导主动交互。该方法通过掩码流式建模和同步特权自蒸馏机制，使模型能从部分输入中感知语义充分性，无需外部标注。实验表明，该技术在文本和语音流式任务中显著降低了交互延迟，同时保持了生成质量。

标准的大语言模型（LLMs）通常遵循“先读取后生成”（read-then-generate）的范式。在这种模式下，模型必须等待所有输入数据完全接收并处理完毕后，才开始生成输出。这种机制导致了不必要的延迟和计算开销，特别是在处理长文本或实时语音流等场景时，用户体验往往受到显著影响。

为了解决这一问题，流式大语言模型（Streaming LLMs）应运而生。它们允许模型在接收输入的同时进行生成，从而大幅降低延迟。然而，现有的流式模型仍面临一个核心挑战：何时与输入流进行交互？ 也就是说，模型需要决定在接收到多少输入信息后开始生成，或者在生成过程中何时暂停以等待更多上下文。

目前，解决这一问题的现有方法存在明显局限：

硬编码规则：基于固定的阈值或规则来决定交互时机，缺乏灵活性。
依赖外部对齐信号：需要昂贵的标注数据，如时间标签（timing labels）、推理轨迹（reasoning trajectories）或更强的教师模型（stronger teachers）来指导决策。

这些限制使得现有的流式交互机制难以在保持生成质量的同时，实现高效、动态的主动交互。

针对上述挑战，研究人员提出了 ProactiveLLM，一种通过利用模型内部状态（endogenous states）来指导交互决策的新方法。ProactiveLLM 的核心目标是让模型学会“主动交互”，即根据对当前输入语义充分性的感知，自主决定何时开始或继续生成。

ProactiveLLM 首先解决的关键问题是：如何从部分输入中判断语义是否已经足够支持生成？为此，作者设计了两种互补的训练机制：

基于掩码的流式建模（Mask-based Streaming Modeling）：在训练过程中，该方法对输入应用单调随机掩码（monotonic random masking）。这模拟了输入信息逐步揭示的流式场景。通过这种方式，模型能够从部分输入的视角中学习局部语义依赖关系，从而理解在不完整上下文中的语义结构。
同步特权自蒸馏（Synchronized Privileged Self-Distillation, SPSD）：这是一种自蒸馏机制，旨在对齐“部分上下文的学生视图”与“全上下文的教师视图”。这里的“教师”并非外部模型，而是由同一个正在演化的模型生成的全上下文视图。通过这种方式，拥有特权的全上下文证据可以引导学生在观察不完整数据时的理解能力。

这两种机制共同作用，诱导模型产生内生的充分性线索（endogenous sufficiency cues）。这意味着模型不再依赖外部教师或人工标注，而是通过内部学习到的语义感知能力来判断交互时机。

这种内生机制提供了一个通用且灵活的基础，支持即插即用（plug-and-play）地集成各种决策头（decision heads）。这些决策头负责根据模型的内生状态输出最终的交互决策（如“继续等待”或“开始生成”）。

研究人员在文本和语音流式任务上进行了广泛的评估。结果表明，ProactiveLLM 在显著降低交互延迟的同时，能够保持高质量的生成效果。这验证了该方法在实现动态和主动交互方面的有效性。

解决核心痛点：ProactiveLLM 解决了流式 LLM 中“何时交互”的决策难题，避免了标准 LLM 的读取-生成范式带来的高延迟。
无需外部信号：与传统方法不同，ProactiveLLM 不依赖时间标签、推理轨迹或更强的外部教师模型，而是完全利用模型的内生状态进行决策。
双重训练机制：
- Mask-based Streaming Modeling：通过单调随机掩码模拟流式输入，学习局部语义依赖。
- SPSD：通过同步特权自蒸馏，利用全上下文视图指导部分上下文下的学生模型学习。
内生线索驱动：模型学会了感知“语义充分性”，即判断当前输入是否足以支持生成，从而做出主动交互决策。
即插即用架构：提出的内生充分性线索为集成多种决策头提供了通用基础，增强了模型的灵活性和适应性。
性能提升：在文本和语音流式任务中，ProactiveLLM 显著降低了交互延迟，同时保持了生成质量。

ProactiveLLM 的提出标志着流式大语言模型在交互效率与质量平衡上的重要进展。

降低计算与延迟成本：通过主动交互，模型可以更智能地分配计算资源，避免在语义不充分时过早生成导致的错误重试，或在语义充分时过度等待造成的延迟。这对于实时应用（如实时翻译、语音助手、低延迟对话系统）具有极高的实用价值。
摆脱对昂贵标注数据的依赖：现有的流式交互方法往往需要大量人工标注的时间标签或复杂的推理轨迹数据，训练成本高。ProactiveLLM 通过自蒸馏和内生状态学习，实现了无监督或弱监督下的交互决策学习，降低了部署和维护成本。
通用性潜力：其“即插即用”的决策头集成框架表明，该方法可能适用于多种不同的流式任务和数据类型（文本、语音等），为构建更通用、更高效的流式 AI 系统提供了新的技术路径。
推动端侧 AI 发展：更高效的流式交互意味着更低的资源需求和更快的响应速度，有助于大语言模型在资源受限的边缘设备或端侧设备上的部署和应用。

总之，ProactiveLLM 通过创新的内生语义感知机制，为大语言模型的流式处理提供了一种更高效、更智能的解决方案，有望推动下一代实时 AI 应用的落地。