← 返回信息流
技术博客arXiv cs.AI·1 天前

ThinkDeception:基于渐进强化学习的可解释多模态欺骗检测框架

原标题:ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection

速览

针对现有多模态欺骗检测方法缺乏可解释性的问题,研究团队提出ThinkDeception框架。该框架引入多模态大语言模型,将检测转化为显式认知推理过程,并构建首个多模态思维链数据集。核心创新在于提出视觉-音频一致性组相对策略优化算法,通过渐进式训练策略显著提升推理质量与检测准确率。

AI 深度解读

ThinkDeception:一种用于可解释多模态欺骗检测的渐进式强化学习框架

背景

多模态欺骗检测在识别欺诈意图方面至关重要,尤其是在视频通话、在线面试或金融交易等场景中,通过结合视觉(面部表情、肢体语言)和听觉(语调、语速)信息来提高检测精度。然而,现有的主流方法主要依赖于端到端的“黑盒”范式。

这些传统方法存在两个显著缺陷:

  1. 缺乏可解释性:模型无法提供透明的推理轨迹,用户难以理解模型为何判定某人为“说谎者”。
  2. 难以捕捉细微特征:现有的黑盒模型难以显式地捕捉欺骗行为中固有的、跨模态的细微不一致性(例如,面部表情与语音语调之间的不协调)。

为突破这些局限,研究人员提出了 ThinkDeception,这是一个新颖且可解释的多模态欺骗检测框架。该框架的核心创新在于将欺骗检测从传统的二分类任务转化为一个显式的认知推理过程。

核心内容

ThinkDeception 框架通过引入多模态大语言模型(Multimodal Large Language Models, MLLMs),重构了欺骗检测的逻辑。其工作流程和核心技术组件如下:

1. 构建多模态思维链(CoT)数据集

为了训练模型具备“思考”能力,研究团队构建了该领域首个精心标注的逐步多模态思维链(Chain of Thought, CoT)数据集。这一数据集不仅包含最终的判断结果,还详细记录了模型在做出判断前的每一步推理过程,包括对视觉和听觉线索的分析以及跨模态一致性的评估。

2. ThinkDeception Base 基础模型

基于上述 CoT 数据集,研究团队开发了一个基础模型——ThinkDeception Base。实证研究验证了“模态不一致性”(Modal Inconsistency)在解码欺骗行为中的关键作用。该基础模型展示了模型如何通过显式的推理步骤来识别欺骗,而非仅仅依赖统计相关性。

3. 视觉-音频一致性组相对策略优化(VAC-GRPO)

这是 ThinkDeception 的核心创新点。研究团队提出了一种名为 VAC-GRPO 的强化学习算法,并配备了一种渐进式训练策略

  • 与传统 GRPO 的区别:标准的组相对策略优化(Group Relative Policy Optimization, GRPO)通常对所有数据进行同等处理。而 VAC-GRPO 将训练数据分层为四个渐进的难度层级
  • 认知过渡:这种分层策略引导模型经历一个基于心理学原理的“由易到难”的认知过渡过程。模型首先学习简单的模态一致性判断,逐步过渡到处理复杂、细微的跨模态不一致性。

4. 动态课程调度与多维奖励机制

为了进一步提升模型的推理质量,ThinkDeception 采用了以下机制:

  • 动态课程调度器(Dynamic Curriculum Scheduler):根据模型的学习进度,动态调整训练数据的难度和类型。
  • 多维、过程感知的奖励机制(Multi-dimensional, Process-aware Reward Mechanism):奖励不仅基于最终分类的准确性,还基于推理过程的质量(如逻辑连贯性、对不一致性的捕捉程度)。
  • 反思学习范式(Reflective Learning Paradigm):允许模型在推理过程中进行自我检查和修正,从而提升整体推理的鲁棒性。

关键要点

  • 范式转变:ThinkDeception 将欺骗检测从“黑盒二分类”转变为“白盒认知推理”,引入了 MLLMs 作为核心引擎。
  • 数据创新:发布了首个逐步标注的多模态思维链(CoT)数据集,为训练可解释模型提供了关键数据基础。
  • 算法创新:提出了 VAC-GRPO 算法,通过分层训练数据(四个难度层级)实现由易到难的渐进式学习,优于标准 GRPO。
  • 核心特征:强调“模态不一致性”是欺骗行为的关键信号,并通过多维奖励机制鼓励模型捕捉视觉与音频之间的细微矛盾。
  • 性能表现:在主流基准测试中,ThinkDeception 建立了新的最先进(SOTA)记录,不仅在检测准确率上显著优于现有方法,在推理理由(Rationale)的质量上也表现出色。

意义与影响

ThinkDeception 的工作对欺骗检测领域具有深远的影响:

  1. 提升可解释性:通过提供透明的推理轨迹,该框架解决了现有黑盒模型“不可信”的问题。决策者可以查看模型是如何得出“欺骗”结论的,这对于司法、金融等高敏感领域的应用至关重要。
  2. 推动多模态认知推理:该研究成功地将多模态大语言模型应用于欺骗检测,证明了 MLLMs 在捕捉复杂人类行为模式方面的潜力,为其他需要高可解释性的多模态任务提供了参考范式。
  3. 强化学习的新应用:VAC-GRPO 及其渐进式训练策略为强化学习在处理复杂、分层认知任务中的应用提供了新的思路,展示了如何通过课程学习(Curriculum Learning)提升模型的推理能力。
  4. 行业应用前景:随着检测精度和可解释性的双重提升,ThinkDeception 有望在反欺诈系统、在线身份验证、心理健康评估等领域得到更广泛和深入的部署。

总之,ThinkDeception 不仅是一个性能更强的检测工具,更是一个推动欺骗检测领域向可解释、多模态认知推理方向发展的里程碑式工作。

查看原文 →arxiv.org