技术博客arXiv cs.CL·2 天前

首个多模态多方对话语篇解析数据集DraDDP发布

原标题：DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

速览

本文发布了首个公开的多模态多方对话语篇解析数据集DraDDP，旨在解决现有研究局限于单模态或双方对话的问题。该数据集基于美国电视剧构建，包含495个对话片段、6374个话语及9.1小时视频内容，覆盖丰富的多方交互场景。实验表明，多模态信息在捕捉对话结构和关系类型方面具有重要价值，相关数据、标注指南和代码将开源以促进研究。

AI 深度解读

DraDDP：首个面向多模态多方对话的语篇解析数据集

背景

多方对话语篇解析（Multi-party dialogue discourse parsing）旨在识别对话中各话语（utterances）之间的依赖结构及关系类型。这一任务对于理解复杂的人际交互、构建更智能的对话系统至关重要。

然而，现有的研究大多局限于单一文本模态或双方对话（two-party dialogue）场景。这种局限性导致现有模型难以应对真实世界中常见的多模态（如视频、音频、视觉线索）以及多方参与（三人及以上）的复杂交互情境。为了填补这一空白，研究者需要构建能够同时涵盖多模态信息和多方交互结构的数据集，以推动该领域的深入发展。

核心内容

本文介绍了 DraDDP（Dialogue Discourse Parsing Dataset），这是首个公开的、面向多方对话语篇解析的多模态英文数据集。该数据集基于美国电视剧（American TV dramas）构建，旨在模拟真实且丰富的多方互动场景。

数据集规模与构成

规模：DraDDP 包含 495 个对话片段，共计 6,374 个话语（utterances）。
时长：涵盖 9.1 小时的平行视频内容。
场景：数据覆盖了丰富的多方交互场景，不仅包含语言信息，还整合了视频等多模态线索。

任务定义与基准建立

研究团队在 DraDDP 数据集上建立了全面的基准测试（benchmarks），主要工作包括：

多模态语篇解析任务评估：在 DraDDP 上评估多方对话语篇解析任务的性能。
模态影响分析：深入分析不同模态（如文本、视觉、音频等）对解析结果的影响，探究多模态信息在捕捉对话结构和关系类型中的具体价值。

实验结果

实验结果表明，引入多模态信息能够显著提升模型在捕捉对话结构和关系类型方面的能力。这证明了在多方对话场景中，仅依赖文本信息是不够的，多模态线索对于理解复杂的语篇依赖关系具有重要价值。

开源承诺

为了促进多模态对话理解领域的未来研究，作者将公开释放以下资源：

DraDDP 数据集
标注指南（Annotation guidelines）
相关代码

关键要点

填补领域空白：DraDDP 是首个公开的、面向多模态和多方对话的语篇解析数据集，解决了以往研究局限于文本或双方对话的问题。
数据来源真实丰富：基于美国电视剧构建，包含 9.1 小时视频、495 个片段和 6,374 个话语，提供了高保真的多方交互场景。
多模态价值验证：通过基准测试和模态影响分析，证实了多模态信息在识别对话依赖结构和关系类型中的关键作用。
全面开源：数据集、标注指南及代码均将公开，旨在降低研究门槛，推动多模态对话理解技术的发展。

意义与影响

DraDDP 的发布对自然语言处理（NLP）和多模态人工智能领域具有显著意义：

推动复杂对话理解研究：通过提供真实的多方、多模态数据，DraDDP 使得研究者能够探索更接近人类真实交流场景的语篇解析模型，突破了以往实验室环境下简化对话设置的局限。
促进多模态融合技术：该数据集强调了多模态信息在语篇结构识别中的重要性，鼓励开发者探索文本、视觉、音频等多源信息的深度融合机制，以提升模型对隐含意义和互动关系的捕捉能力。
加速开源生态建设：通过公开数据集和代码，DraDDP 为学术界和工业界提供了标准化的基准，有助于统一评估指标，加速多模态对话理解算法的迭代与创新。

随着大语言模型和多模态大模型的发展，如何理解复杂的社会性交互成为新的挑战。DraDDP 为这一挑战提供了宝贵的数据基础，有助于构建更具社会智能（Social Intelligence）的 AI 系统。

查看原文 →arxiv.org