技术博客arXiv cs.CL·23 小时前

大模型在会议对话中预测发言者表现优于人类

原标题：Evaluating Large Language Models Abilities for Addressee, Turn-change, and Next Speaker Prediction in Meetings

速览

本研究利用大语言模型（LLMs）和多模态大模型（MM-LLMs）评估会议对话中的发言者识别、换话轮及下一位发言者预测任务。实验显示，尽管未针对特定领域训练且无音视频输入，LLM在下一位发言者预测上仍优于监督模型和人类。多模态模型在发言者识别和换话轮预测上优于纯文本模型，但整体仍不及人类，凸显了利用原始音视频信号的难度。

AI 深度解读

评估大语言模型在会议场景下的对话者、换话轮及下一说话人预测能力

背景

在多模态多方对话（Multimodal Multi-party Conversations）中，对话的流畅性高度依赖于参与者对“谁在说话”、“对谁说话”以及“接下来谁会说话”的精准感知。这种动态的互动机制被称为话轮转换（Turn-taking）。传统的自动话轮检测系统通常依赖于特定的监督学习模型，且往往需要结合音频、视觉等多模态信号才能达到较好的效果。

随着大语言模型（LLMs）和多模态大语言模型（MM-LLMs）的兴起，研究者开始探索这些通用模型是否具备理解复杂社交互动线索的能力，尤其是在缺乏特定领域训练数据的情况下。本文旨在填补这一空白，通过构建一个全面的评估框架，深入分析 LLMs 在会议场景下的三项核心任务表现：对话者检测（Addressee Detection）、换话轮预测（Turn-change Prediction）以及下一说话人预测（Next Speaker Prediction）。

核心内容

本研究构建了一个评估框架，专门用于衡量不同模型在会议对话中的表现。研究选取了 AMI 语料库（AMI Corpus，一个广泛使用的多模态会议对话数据集）作为实验基准，并对比了以下四类主体：

针对特定任务训练的监督模型（Supervised Models）。
基于文本的大语言模型（Text-based LLMs）。
多模态大语言模型（MM-LLMs，能够处理音频和视觉信号）。
人类受试者。

研究主要围绕以下三个任务展开：

1. 对话者检测（Addressee Detection） 该任务旨在识别当前话语的目标接收者。实验结果显示，MM-LLMs 在此任务上的表现优于纯文本 LLMs。然而，尽管 MM-LLMs 能够访问原始的音频和视觉信号，其表现仍然低于人类水平。这表明，尽管多模态模型具备处理原始感官数据的能力，但在从复杂的非语言线索（如眼神接触、肢体语言）中精准推断对话意图方面，仍存在显著困难。

2. 换话轮预测（Turn-change Prediction） 该任务预测当前说话人何时结束发言并允许他人插话。同样地，MM-LLMs 的表现优于文本 LLMs，但未能超越人类表现。这一结果进一步印证了上述观点：即模型在利用原始多模态信号来捕捉细微的社会互动节奏方面存在局限。

3. 下一说话人预测（Next Speaker Prediction） 该任务预测在当前话轮结束后，谁将成为下一个说话人。这是实验中最令人瞩目的发现：LLMs（包括文本和多模态版本）在下一说话人预测任务上的表现，不仅超越了传统的监督模型，甚至超越了人类受试者。值得注意的是，这些 LLMs 并未经过会议领域数据的特定训练，且在测试过程中无法访问音频或视觉信息（仅基于文本上下文）。

消融分析与模式对比 研究通过消融实验发现，对话上下文（Conversational Context）对于预测任务至关重要，尤其是对于下一说话人预测而言，文本提供的语义连贯性和逻辑结构是模型做出准确判断的关键。

此外，研究者对比了人类与 LLMs 的预测模式，发现两者具有惊人的相似性。然而，在频繁发生话轮转换（即快速插话或重叠对话）的片段中，无论是人类还是 LLMs，预测准确率都显著下降。这说明高频互动的动态复杂性是当前模型和人类认知共同面临的挑战。

关键要点

LLMs 在下一说话人预测上超越人类：在 AMI 语料库实验中，未经过领域微调的 LLMs 在“下一说话人预测”任务上的准确率高于人类受试者和传统监督模型，且仅依赖文本输入。
多模态优势有限：MM-LLMs 在“对话者检测”和“换话轮预测”任务上优于文本 LLMs，证明多模态输入有一定帮助，但其表现仍低于人类水平。
多模态信号的利用瓶颈：MM-LLMs 未能超越人类表现，表明当前模型难以有效利用原始的音频和视觉信号来捕捉细微的非语言社交线索。
上下文至关重要：消融分析证实，对话上下文是模型进行准确预测的核心要素，特别是在下一说话人预测任务中。
人机预测模式相似性：人类和 LLMs 的预测逻辑存在相似之处，但在处理高频话轮转换（快速交替发言）的复杂场景时，两者均面临较大困难。
零样本/少样本能力：LLMs 在未针对会议领域进行专门训练且无多模态数据支持的情况下，仍能展现出强大的泛化能力，特别是在基于文本逻辑的预测任务中。

意义与影响

这项研究对理解大语言模型在社交智能（Social Intelligence）方面的能力边界具有重要意义。

首先，它揭示了 LLMs 在语义逻辑推理方面的强大优势。下一说话人预测本质上是一个基于对话历史和语义连贯性的推理任务，LLMs 在此任务上的优异表现说明，它们已经内化了人类对话中大量的结构性和逻辑性规律，甚至能捕捉到人类有时忽略的模式。

其次，研究指出了多模态大模型在细粒度社交感知上的不足。尽管 MM-LLMs 能够处理音频和视觉数据，但在需要结合眼神、语调、肢体动作等细微线索来判断“对谁说话”或“何时插话”时，它们的表现仍落后于人类。这意味着，当前的多模态融合技术尚未完全解决如何将非语言信号转化为有效的社交意图理解的问题。

最后，这一发现为未来的人机交互系统设计提供了方向。在会议助手、实时翻译或虚拟伴侣等应用场景中，利用 LLMs 进行下一说话人预测和话题流转管理是可行的，甚至可能比传统方法更鲁棒。然而，若需实现高度拟人化的自然互动（如精准的眼神交流反馈、自然的插话时机判断），仍需结合更先进的多模态感知技术或引入专门针对非语言线索优化的模块。

查看原文 →arxiv.org