CORE框架:基于冲突推理的多模态伪造检测新方法
速览
针对生成式AI带来的多模态假新闻威胁,研究者提出CORE框架,通过冲突导向推理赋予多模态大模型显式的冲突捕捉能力。该方法构建冲突属性语料库,利用语义或物理不一致性进行表示增强与推理,从而在少样本甚至零样本场景下快速适应新型伪造类型。实验表明,CORE在检测性能上超越了当前最先进模型,相关数据集和代码已开源。
AI 深度解读
CORE:面向通用多模态操纵检测的冲突导向推理框架
背景
随着生成式人工智能(Generative AI)的迅猛发展,多模态虚假新闻(Multimodal Fake News)的制作门槛大幅降低,其逼真度和普及度日益提升,对公众信任和社会稳定构成了严重威胁。
现有的多模态操纵检测方法主要存在两个显著局限:
- 依赖特定模型:大多针对特定的操纵类型(如特定的图像篡改或文本伪造)训练专用模型,缺乏通用性。
- 数据依赖性强:高度依赖大规模标注数据,导致模型在面对新兴的、未见过的操纵类型时,泛化能力较差。
研究人员观察到,操纵性虚假信息的核心本质在于其内在的冲突(Conflicts)。这种冲突表现为模态之间(如图像与文本)的不一致,或者与常识性世界知识(World Knowledge)的矛盾。基于这一观察,研究团队提出了 CORE 框架,旨在赋予多模态大语言模型(MLLMs)显式的冲突捕捉与推理能力。
核心内容
CORE(Conflict-Oriented Reasoning,冲突导向推理)是一个有效的范式,它通过以下步骤实现鲁棒且可泛化的冲突检测:
1. 构建冲突归因语料库(Conflict Attribution Corpus, CAC)
为了提供后续冲突感知训练所需的数据支持,CORE 首先构建了一个名为 CAC 的语料库。该语料库包含细粒度的标注,详细记录了:
- 冲突因素:具体的不一致点(例如:图像中的物体与文本描述不符)。
- 冲突来源:冲突产生的根源(例如:物理规律违背、逻辑矛盾等)。
2. 冲突导向的表示增强与推理
基于 CAC 语料库,CORE 执行以下核心操作:
- 表示增强:通过引入冲突信息,增强多模态大语言模型对潜在矛盾特征的表示能力。
- 显式推理:训练模型进行“冲突导向”的推理,即不再仅仅依赖模式匹配,而是主动识别和验证模态间及模态与知识间的逻辑一致性。
3. 强大的泛化能力
得益于上述机制,CORE 能够有效地适应未见过的操纵类型。实验表明,该框架在仅有少量样本(Few-shot)甚至零样本(Zero-shot)设置下,都能实现快速且有效的检测。
4. 性能表现
广泛的实验数据显示,CORE 的性能超越了当前的最先进模型(State-of-the-art models),证明了其在通用多模态操纵检测任务上的优越性。
关键要点
- 核心洞察:操纵性虚假信息的本质是内在冲突(语义或物理不一致,或与常识知识矛盾)。
- 方法论创新:提出了 CORE 框架,将“冲突导向推理”引入多模态大语言模型,使其具备显式的冲突捕捉能力。
- 数据基础:构建了 Conflict Attribution Corpus (CAC),提供细粒度的冲突因素和来源标注,为模型训练提供关键数据支撑。
- 泛化优势:解决了现有方法对特定操纵类型和大规模标注数据依赖过重的问题,具备对新兴操纵类型的良好泛化能力。
- 低资源适应:在 Few-shot(少样本)甚至 Zero-shot(零样本)场景下均能保持高效检测,适应性强。
- 开源贡献:研究团队公开了数据集和代码,促进了该领域的进一步研究。
意义与影响
CORE 框架的提出标志着多模态虚假信息检测从“特定模式识别”向“通用逻辑推理”的转变。
- 提升检测的鲁棒性:通过关注信息内在的冲突而非表面特征,CORE 能够更准确地识别那些经过精心伪装、难以通过传统视觉或文本特征检测出的深度伪造内容。
- 降低数据依赖:其强大的零样本和少样本学习能力,意味着在面对新型生成式攻击时,无需重新收集海量标注数据进行训练,大大缩短了应对新威胁的时间窗口。
- 推动 MLLM 的安全应用:CORE 为多模态大语言模型提供了一种新的安全对齐思路,即通过显式引入冲突检测机制,增强模型对误导性信息的抵抗力,有助于维护数字生态系统的信任基石。
该研究不仅为学术界提供了新的检测范式和数据资源,也为工业界构建更可靠的内容安全系统提供了可行的技术路径。
