← 返回信息流
技术博客arXiv cs.CL·1 小时前

Building a Multimodal Dataset of Academic Paper for Keyword Extraction

AI 深度解读

构建面向关键词抽取的多模态学术论文数据集

背景

关键词抽取是自然语言处理领域的基础任务之一,旨在从文档中自动提取出能够代表其核心主题的词汇。然而,传统的关键词抽取研究几乎完全依赖于纯文本数据。这种单一模态的处理方式存在明显短板:学术论文中往往包含丰富的图表(图像模态)以及可能附带的演示音频或讲解(音频模态),忽略这些视觉与音频特征会导致信息丰富度不足,错失模态间的潜在关联,从而限制模型对数据表征的学习能力与预测准确性。

此外,当前学术界专门针对多模态关键词抽取任务构建的公开数据集极其稀缺,这一数据瓶颈严重阻碍了多模态关键词抽取研究的进展。在此背景下,一篇提交于 arXiv cs.CL(计算与语言)分类下的论文,提出并构建了一个面向学术论文的多模态关键词抽取数据集,为该领域的探索提供了基础资源与实验参考。

核心内容

该研究针对现有多模态关键词抽取数据集匮乏的问题,构建了一个包含 1000 个样本的多模态学术论文数据集。该数据集的核心特征在于其多模态的完整性:每个样本均包含四个部分——论文文本、图像、音频以及对应的关键词。

在实验设计上,研究团队基于无监督和有监督两种主流的关键词抽取方法展开测试。实验不仅使用了论文的纯文本数据,还特别引入了从图像和音频中提取出的文本(即通过 OCR 等技术获取的图像文本,以及通过语音识别等技术获取的音频文本),旨在系统探究以下两个问题:第一,不同模态的信息在关键词抽取任务中表现出的性能差异;第二,多模态信息的融合能否带来性能提升。

实验结果揭示了两个重要发现:首先,来自不同模态的文本在模型中表现出截然不同的特征,说明图像和音频中蕴含的

查看原文 →arxiv.org