技术博客arXiv cs.CL·4 小时前

结合传统可解释性与多模态大模型：基于XAI的分析

原标题：Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis

速览

该研究将Shapley值扩展至多模态大语言模型，通过Spectrogram-Guided Phonetic Alignment解决音频与文本粒度不匹配问题，并采用高效估算策略降低计算复杂度。研究开源了模型无关的Python包及GUI工具，并在VoiceBench等数据集上验证了多语言场景下的输入模态对归因波动的影响。

AI 深度解读

桥接传统可解释性方法与多模态多语言模型：基于 XAI 的分析

背景

多模态大语言模型（Multimodal Large Language Models, MLLMs）在复杂交互对话场景中，通过有效整合文本与音频数据来解读上下文，展现出强大的能力。然而，尽管模型性能不断提升，其内部机制中异构模态（如文本和音频）如何共同影响模型行为，目前仍然是一个“黑盒”，缺乏透明度。

在自然语言处理（NLP）领域，Shapley Values（沙普利值，SV）作为一种模型无关的框架，已被广泛用于提供局部可解释性。但在将这一框架扩展至多模态数据时，研究者面临着三大主要障碍：

跨通道依赖性：文本与音频之间存在复杂的相互影响。
对话结构的复杂性：多轮对话中的上下文依赖使得归因变得困难。
计算复杂性过高：音频数据通常具有密集的表示形式，直接计算会导致不可接受的计算成本。

因此，如何高效、准确地量化多模态输入对模型输出的贡献，成为当前可解释人工智能（XAI）领域亟待解决的关键问题。

核心内容

本研究提出了一种多模态扩展的 Shapley Value 框架，旨在解决上述挑战，并提供了相应的计算工具与实证分析。

1. 多模态 Shapley Value 的形式化定义

研究团队将离散文本 token 和对齐后的音频片段视为“合作特征”（cooperative features）。在这种框架下，模型被视为一个合作博弈，每个输入特征（无论是文本 token 还是音频片段）对最终输出的贡献通过 Shapley Value 进行公平分配。

2. 高效的估算策略

为了确保计算可行性，研究部署了一套高效的估算策略，以应对不同维度的输入：

低维输入：采用精确的 SV 计算方法。
高维/复杂输入：采用基于采样的近似方法，包括：
- 蒙特卡洛排列（Monte Carlo permutations）：通过随机采样来估计边际贡献。
- 分层采样（Stratified sampling）：结合 Neyman 最优分配，在受限的计算预算下最小化估计方差。

3. 解决粒度不匹配：SGPA 方法

音频信号通常是连续的高频流，而文本是离散的 token，两者存在天然的粒度不匹配。为此，研究提出了一种新颖的预处理方法——频谱图引导的音素对齐（Spectrogram-Guided Phonetic Alignment, SGPA）。该方法能够将高频音频流映射为可解释的、与单词对齐的片段，从而使得音频特征能够与文本特征在同一粒度上进行比较和归因。

4. 开源工具与可视化

研究贡献了两个主要产出：

一个开源、模型无关的 Python 包，用于计算多模态归因。
一个配套的图形用户界面（GUI），支持交互式可视化多模态归因结果，便于研究人员直观分析模型关注点。

5. 实验评估与发现

研究团队在 VoiceBench 和 Infinity Instruct 数据集的精心策划子集上，针对多种多语言场景对框架进行了评估。实验结果揭示了以下关键发现：

输入模态是归因波动性的主要驱动因素：不同模态（文本 vs. 音频）对模型输出的贡献稳定性存在显著差异。
传统句法重要性代理指标的局限性：在多模态、跨语言语境下，标准的句法重要性指标（如词频、句法位置等）往往无法准确预测模型的实际注意力机制。这意味着传统的 NLP 可解释性方法不能直接迁移到多模态场景。

关键要点

框架创新：提出了首个将 Shapley Value 系统性地扩展至多模态（文本+音频）对话场景的框架，将离散文本 token 和对齐音频片段视为合作特征。
计算优化：针对音频数据的高计算成本，引入了基于采样的近似算法（蒙特卡洛排列、带 Neyman 最优分配的分层采样），在计算预算与估计精度之间取得了平衡。
预处理突破：开发了 SGPA（频谱图引导的音素对齐）方法，解决了音频高频流与离散文本 token 之间的粒度不匹配问题，实现了跨模态的可比性。
工具开源：发布了开源 Python 包及可视化 GUI，降低了多模态 XAI 的研究门槛，促进了社区对模型内部机制的探索。
实证洞察：
- 证实了输入模态类型是影响归因稳定性的关键变量。
- 揭示了传统基于句法的可解释性指标在多模态跨语言场景下的失效，强调了开发专用多模态解释方法的必要性。

意义与影响

这项研究在多模态人工智能的可解释性领域具有重要的理论和实践意义：

填补方法论空白：现有的 XAI 研究多集中于纯文本或纯视觉领域，本研究为文本-音频多模态对话系统提供了严谨的数学框架和计算工具，填补了这一领域的空白。
提升模型透明度与可信度：通过提供细粒度的归因分析，研究人员和开发者可以更深入地理解模型如何结合语音语调、情感色彩与文本语义进行决策。这对于构建高可信度、高安全性的 AI 助手（如客服机器人、语音助手）至关重要。
推动多语言 AI 发展：研究特别关注多语言场景，指出跨语言语境下传统指标的失效，为开发更鲁棒的多语言多模态模型提供了新的评估视角和优化方向。
促进社区协作：通过开源代码和可视化工具，研究降低了多模态可解释性的技术门槛，鼓励更多研究者参与该领域的探索，加速 AI 可解释性技术的发展。

总之，该工作不仅提供了一种新的分析工具，更通过实证研究挑战了传统 NLP 可解释性假设，为未来多模态 AI 系统的透明化、可信化发展奠定了重要基础。

查看原文 →arxiv.org