技术博客arXiv cs.CL·2 小时前

LLM输入重写助力对话语篇解析零样本策略成效有限

原标题：Beyond Supervised Clarification: Input Rewriting with LLMs for Dialogue Discourse Parsing

速览

本研究分析LLM在零样本条件下通过输入重写提升对话话语解析器（DDP）的可行性。研究通过三个SDRT数据集和多个解析器实验，发现最后一句澄清重写不可靠，解析器无关重写往往带来更多错误而非修复。进一步分析显示，GRPO训练的解析器感知澄清器虽能减少37%回归，但仍难以实现选择性改善。最终指出输入重写仅为选择性干预，识别可修复性预测是优化冻结解析器的关键缺失能力，这对更广的代理管道优化意义重大。

AI 深度解读

背景

在现代NLP管道中，输入重写已成为一种常见策略，即通过重写输入来提升冻结的下游模型性能。针对增量对话话语解析（incremental dialogue discourse parsing，DDP）的研究显示，监督式澄清模型能够有效重写片段化或指代不足的语篇，例如解决省略或指代问题，从而显著提升解析准确率。

本研究在现实部署条件下重新审视这一思路：在这种场景下，无法获得澄清监督信号，澄清器必须依赖零-shot提示或来自冻结解析器的反馈。在跨越三个分段话语表示理论（Segmented Discourse Representation Theory，SDRT）数据集以及多款解析器测试后，研究发现最后一句的澄清可靠性远低于监督设置所暗示的水平。

核心内容

在现实部署条件下，澄清器无法获得监督信号，必须依赖零-shot提示或来自冻结解析器的反馈。具体而言，研究在三个SDRT数据集和多个解析器上进行了全面评估，发现最后一句的澄清可靠性远低于监督设置所暗示的水平。Parser-agnostic rewriting（解析器无关的重写）往往会引入比修复更多回归现象，因为许多编辑虽然能触发解析器的修复，但也破坏了解析器所依赖的话语线索。

进一步的“best-of-8 rewriting分析”揭示了实际天花板：大量错误并非通过输入重写就能修复。研究还引入了一种使用GRPO（Group Relative Policy Optimization）训练的解析器感知澄清器，该模型通过学习保守的 abstention（拒绝干预）策略，将回归现象降低了高达37%，但仍无法生成选择性感知的澄清，即无法始终如一地实现解析提升。

综上，研究将澄清重构为一种选择性干预问题（selective intervention problem）。研究者明确指出，输入重写侧优化的关键缺失能力是“rewritability prediction”（可重写性预测），即在干预前决定语篇是否可修复。这也为改进代理管道（agentic pipelines）提供了重要方向。

关键要点

输入重写已成为提升冻结下游模型的常见策略，监督式澄清模型已在增量DDP中取得显著效果。
现实部署中无监督信号，澄清器只能零-shot提示或依赖冻结解析器反馈。
最后一句澄清可靠性远低于监督设置预期。
Parser-agnostic rewriting易引入更多回归，因编辑触发修复但破坏话语线索。
Best-of-8分析显示，大量错误无法通过输入重写修复。
GRPO训练的解析器感知澄清器将回归减少高达37%，但仍无法产生选择性感知的澄清。
澄清应重构为选择性干预问题，rewritability prediction是关键缺失能力。
这一发现对代理管道的整体改进具有广泛启示。

意义与影响

本研究强调，在实际应用中输入重写并非万能方案，而是需谨慎应用的有限干预手段。它精准指出“rewritability prediction”这一核心能力缺失，为后续开发更智能的输入优化系统提供了明确路径。同时，这一结论有助于评估代理AI管道的真实潜力，避免过分依赖输入重写而忽略内在模型能力的局限。研究为对话系统、对话解析与代理框架的设计者提供了实用洞见，推动NLP领域向更可靠、选择性优化的方向演进。

查看原文 →arxiv.org

LLM输入重写助力对话语篇解析 零样本策略成效有限

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐

LLM输入重写助力对话语篇解析零样本策略成效有限