技术博客arXiv cs.AI·2 小时前

DiagFlowBench: Evaluating How Language Models Handle Off-Procedure Inputs in Grounded Diagnostic Dialogue

AI 深度解读

DiagFlowBench：评估语言模型在接地诊断对话中处理非程序化输入的能力

背景

随着大型语言模型（LLMs）逐渐被部署为维护操作中的咨询系统，如何确保其输出的安全性与准确性成为了核心挑战。为了防止模型产生“幻觉”（hallucination），近期的系统倾向于将模型“接地”（grounding）到程序化文档中，通过约束模型仅使用批准的步骤来生成回答。

然而，在实际的工业或消费级设备维护场景中，操作员的查询往往不会严格遵循预设的流程路径。这些“离题”或“范围外”（out-of-scope）的输入要求模型具备在对话中途识别无效输入的能力。遗憾的是，当前的基准测试（benchmarks）很少优先考虑这种动态场景，导致我们对模型在真实复杂交互中的表现缺乏深入理解。

核心内容

为了解决上述评估缺口，研究团队引入了 DiagFlowBench，这是一个专门用于评估语言模型在接地诊断对话中处理非程序化输入能力的基准数据集。

数据集构建

DiagFlowBench 基于一家知名消费电子制造商的 50 个工业诊断流程图 构建。研究人员将这些流程图转化为了 1,676 轮多轮对话。这些对话的核心设计在于对比两种类型的用户输入：

合规输入（Compliant inputs）：严格遵循诊断流程的查询。
范围外输入（Out-of-scope utterances）：偏离既定流程、不在当前诊断路径内的查询。

模型评估与发现

研究团队对 10 个商业模型和开源权重模型 进行了评估，主要关注模型在面对非程序化输入时的“拒绝回答”（abstention）行为。主要发现包括：

拒绝率差异巨大：不同模型在面对范围外输入时，表现出极高的拒绝率变异性。有些模型能准确识别并拒绝回答，而另一些则试图强行回应。
错误类型分析：与人们通常担心的“编造事实”不同，模型更倾向于选择一个真实存在但上下文不恰当的步骤。也就是说，模型给出的建议本身可能是正确的维修步骤，但在当前的诊断语境下是错误的或无效的。
接地系统的脆弱性：这种“看似合理但方向错误”的建议暴露了接地系统的一个关键漏洞。由于建议具有内在的合理性和权威性，操作员可能难以察觉其错误，从而增加了误操作的风险。

关键要点

DiagFlowBench 的定义：这是一个包含 1,676 轮多轮对话的数据集，源自 50 个消费制造商的工业诊断流程图，专门用于测试模型在接地对话中识别和处理非程序化输入的能力。
评估对象：涵盖了 10 个主流的商业及开源大语言模型。
主要风险模式：模型在面对超出流程范围的查询时，很少直接编造虚假事实，而是更常提供“真实但语境错误”的建议。这种建议具有迷惑性，因为步骤本身是存在的，只是不适用于当前情况。
接地系统的局限性：现有的接地机制虽然能约束模型使用批准步骤，但未能有效解决模型在对话中途识别“离题”输入的能力，导致模型可能在错误的上下文中提供看似权威的建议。
基准测试的缺失：当前的 AI 基准测试普遍缺乏对“动态偏离流程”这一真实世界交互模式的重视，DiagFlowBench 旨在填补这一空白。

意义与影响

DiagFlowBench 的提出标志着 LLM 在工业应用评估中的一个重要转折点。它揭示了接地系统（Grounding Systems）的一个深层挑战：不仅在于防止幻觉，更在于防止“误导性正确”。

对于工业维护、医疗诊断等高可靠性要求的领域，模型不仅要“知道正确的步骤”，还要“知道何时不该使用这些步骤”。DiagFlowBench 为开发更鲁棒的对话系统提供了关键的评估工具，促使开发者关注模型在边界情况下的行为，而不仅仅是其在标准流程内的表现。这一基准有助于推动下一代 AI 咨询系统向更安全、更可靠的方向发展，特别是在那些操作员行为不可预测的实际应用场景中。

查看原文 →arxiv.org