← 返回信息流
技术博客arXiv cs.CL·2 小时前

LLM输入重写助力对话语篇解析 零样本策略成效有限

原标题:Beyond Supervised Clarification: Input Rewriting with LLMs for Dialogue Discourse Parsing

速览

本研究分析LLM在零样本条件下通过输入重写提升对话话语解析器(DDP)的可行性。研究通过三个SDRT数据集和多个解析器实验,发现最后一句澄清重写不可靠,解析器无关重写往往带来更多错误而非修复。进一步分析显示,GRPO训练的解析器感知澄清器虽能减少37%回归,但仍难以实现选择性改善。最终指出输入重写仅为选择性干预,识别可修复性预测是优化冻结解析器的关键缺失能力,这对更广的代理管道优化意义重大。

AI 深度解读

背景

在现代NLP管道中,输入重写已成为一种常见策略,即通过重写输入来提升冻结的下游模型性能。针对增量对话话语解析(incremental dialogue discourse parsing,DDP)的研究显示,监督式澄清模型能够有效重写片段化或指代不足的语篇,例如解决省略或指代问题,从而显著提升解析准确率。

本研究在现实部署条件下重新审视这一思路:在这种场景下,无法获得澄清监督信号,澄清器必须依赖零-shot提示或来自冻结解析器的反馈。在跨越三个分段话语表示理论(Segmented Discourse Representation Theory,SDRT)数据集以及多款解析器测试后,研究发现最后一句的澄清可靠性远低于监督设置所暗示的水平。

核心内容

在现实部署条件下,澄清器无法获得监督信号,必须依赖零-shot提示或来自冻结解析器的反馈。具体而言,研究在三个SDRT数据集和多个解析器上进行了全面评估,发现最后一句的澄清可靠性远低于监督设置所暗示的水平。Parser-agnostic rewriting(解析器无关的重写)往往会引入比修复更多回归现象,因为许多编辑虽然能触发解析器的修复,但也破坏了解析器所依赖的话语线索。

进一步的“best-of-8 rewriting分析”揭示了实际天花板:大量错误并非通过输入重写就能修复。研究还引入了一种使用GRPO(Group Relative Policy Optimization)训练的解析器感知澄清器,该模型通过学习保守的 abstention(拒绝干预)策略,将回归现象降低了高达37%,但仍无法生成选择性感知的澄清,即无法始终如一地实现解析提升。

综上,研究将澄清重构为一种选择性干预问题(selective intervention problem)。研究者明确指出,输入重写侧优化的关键缺失能力是“rewritability prediction”(可重写性预测),即在干预前决定语篇是否可修复。这也为改进代理管道(agentic pipelines)提供了重要方向。

关键要点

  • 输入重写已成为提升冻结下游模型的常见策略,监督式澄清模型已在增量DDP中取得显著效果。
  • 现实部署中无监督信号,澄清器只能零-shot提示或依赖冻结解析器反馈。
  • 最后一句澄清可靠性远低于监督设置预期。
  • Parser-agnostic rewriting易引入更多回归,因编辑触发修复但破坏话语线索。
  • Best-of-8分析显示,大量错误无法通过输入重写修复。
  • GRPO训练的解析器感知澄清器将回归减少高达37%,但仍无法产生选择性感知的澄清。
  • 澄清应重构为选择性干预问题,rewritability prediction是关键缺失能力。
  • 这一发现对代理管道的整体改进具有广泛启示。

意义与影响

本研究强调,在实际应用中输入重写并非万能方案,而是需谨慎应用的有限干预手段。它精准指出“rewritability prediction”这一核心能力缺失,为后续开发更智能的输入优化系统提供了明确路径。同时,这一结论有助于评估代理AI管道的真实潜力,避免过分依赖输入重写而忽略内在模型能力的局限。研究为对话系统、对话解析与代理框架的设计者提供了实用洞见,推动NLP领域向更可靠、选择性优化的方向演进。

查看原文 →arxiv.org