技术博客arXiv cs.CL·1 小时前

PEC-Home：智能家电渐进式省略指令解析

原标题：PEC-Home: Interpretation of Progressively Elliptical Commands in Smart Homes

速览

随着大语言模型赋能智能家居，用户对话中因共享语境积累而产生的渐进式省略指令导致了指令歧义。现有助手难以准确解析此类指令，限制了实际应用效果。为此，研究团队推出了首个专为解析智能家居中渐进式省略指令而设计的模拟数据集PEC-Home。实验表明，即便具备对话历史检索能力，现有模型在执行省略指令时的准确率仍低于完整指令。

AI 深度解读

PEC-Home：智能家庭中渐进式省略命令的解读

背景

随着大型语言模型（LLMs）的快速发展，家庭助手（Home Assistants）已经具备了通过自然语言进行交互的能力。然而，在真实的人类对话场景中，随着共享上下文（shared context）的不断积累，说话者往往会采用“渐进式省略”（progressive omission）的策略，即通过省略已知信息来更高效地沟通。

目前的智能家庭助手大多忽略了这一人类对话的自然特性，导致它们在面对日益简略、省略的指令时，难以准确理解用户的真实意图。这种理解能力的缺失限制了智能助手在现实世界应用中的有效性。特别是在多用户、环境动态变化的智能家居场景中，助手面临着两大由省略命令引发的核心挑战：

指代歧义（Referential Ambiguity）：由于不同用户对当前环境状态的预期不同，导致对省略内容的指代对象产生混淆。
意图歧义（Intention Ambiguity）：用户的偏好会随时间推移或环境变化而演变，导致同样的省略指令在不同时间点可能指向不同的操作意图。

核心内容

为了解决上述挑战，研究团队提出了 PEC-Home，这是首个专门针对智能家庭中渐进式省略命令解读而设计的模拟家庭数据集。该研究不仅构建了数据资源，还通过广泛的实验评估了现有主流大语言模型在这一特定任务上的表现。

1. 研究动机与问题定义

现有的智能家居交互系统通常假设用户每次都会提供完整的、包含所有必要参数的命令（例如：“把客厅的灯打开”）。但在实际对话中，一旦上下文建立，用户往往会说：“把那边的也打开”或“调暗一点”。这种省略虽然提高了沟通效率，却给机器理解带来了巨大困难。PEC-Home 旨在填补这一空白，专门研究如何从这种“越来越简略”的对话序列中还原出完整的操作意图。

2. PEC-Home 数据集介绍

PEC-Home 是一个模拟的家庭环境数据集，其核心设计目标包括：

模拟多用户交互：考虑不同家庭成员对环境认知的差异。
模拟动态偏好：反映用户习惯随时间或环境变化而产生的调整。
渐进式省略结构：数据集中包含从完整命令到高度省略命令的连续对话序列，用于训练和测试模型对上下文的依赖理解能力。

3. 实验评估与结果

研究团队在包括 GPT-4o 在内的多种主流大语言模型上进行了广泛实验。实验结果揭示了当前技术存在的显著短板：

执行准确率低下：仅依靠省略命令，现有的家庭助手很难准确执行用户原本意图的操作。
历史记录的局限性：即使为模型配备了存储和检索用户对话历史（dialogue history）的工具，其执行准确率仍然低于使用完整命令时的表现。

这表明，仅仅拥有“记忆”功能并不足以解决省略命令带来的语义歧义问题，现有的 LLMs 在深层语境推理和动态意图消解方面仍存在不足。

关键要点

人类对话的高效性 vs. 机器理解的滞后性：人类倾向于在共享上下文积累后使用省略表达以提高效率，但当前智能家居助手缺乏对此类“渐进式省略”的理解能力。
两大核心挑战：
- 指代歧义：多用户对同一环境状态的不同预期导致指代不清。
- 意图歧义：用户偏好随时间或环境变化，导致相同省略指令含义不同。
PEC-Home 的创新性：作为首个专门针对智能家庭渐进式省略命令解读的数据集，它填补了该领域的研究空白。
现有模型的局限性：即使是 GPT-4o 等顶尖大语言模型，在处理纯省略命令时，其执行准确率也远低于处理完整命令。
工具增强效果有限：引入对话历史存储和检索工具并不能完全弥补模型在理解省略指令时的性能差距，准确率仍不及完整命令场景。

意义与影响

PEC-Home 的提出标志着智能家居交互研究从“静态完整指令”向“动态自然对话”的重要转变。

推动更自然的交互体验：通过解决省略命令的理解难题，未来的家庭助手将能够像人类一样，通过简短、自然的对话完成复杂操作，无需用户每次都重复冗长的指令。
揭示 LLMs 在垂直领域的短板：实验结果明确指出，通用大语言模型在特定场景（如智能家居）的深度语境推理和动态意图消解上仍有显著提升空间，为后续模型优化提供了明确方向。
促进多用户与个性化服务：PEC-Home 强调的多用户指代歧义和动态偏好变化，促使开发者关注个性化和情境感知的算法设计，从而提升多成员家庭环境下的服务精准度。
数据集的基准价值：PEC-Home 为学术界和工业界提供了一个标准化的基准，用于评估和改进智能助手在真实、复杂对话场景下的鲁棒性和准确性。

查看原文 →arxiv.org