技术博客arXiv cs.CL·3 小时前

MindAlign：利用多模态嵌入对齐从fMRI信号解码内心言语

原标题：MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data

速览

针对非侵入式脑信号解码内心言语面临的训练数据稀缺和个体差异大等挑战，研究提出MindAlign框架。该方法通过两阶段解耦策略，首先将fMRI活动映射到共享的多模态语义空间以提取潜在语义草图，随后结合视觉上下文提示冻结的多模态语言模型生成文本。实验表明，该方法在无声图像描述任务中显著优于基线，且学到的语义到语言投影具有跨被试泛化能力，为可扩展的脑文本解码提供了新方向。

AI 深度解读

MindAlign：有限数据下通过多模态嵌入对齐从 fMRI 信号解码内心独白

背景

从非侵入式脑信号中解码“内心独白”（Inner Speech）——即个体在脑海中默念而未发出的语言——一直是脑机接口（BCI）和神经科学领域的一个根本性挑战。这一难题主要源于三个核心障碍：

缺乏显性语言输出：由于没有实际发声，缺乏直接的声学或文本信号作为监督学习的强标签。
训练数据有限：收集高质量的功能性磁共振成像（fMRI）数据成本高昂且耗时，导致可用于训练模型的样本量极少。
个体间差异巨大：不同受试者的大脑结构和神经活动模式存在显著差异，使得跨受试者的模型泛化极为困难。

现有的“脑-文本”（Brain-to-Text）解码方法通常依赖于针对特定任务对解码器进行微调（Fine-tuning）。这种紧密耦合的方法不仅限制了系统的可扩展性，还使得适应新参与者变得复杂，因为每次面对新用户时都需要重新训练或调整解码器。

核心内容

针对上述挑战，研究团队提出了 MindAlign 框架。这是一个解耦的两阶段“脑-语言”框架，旨在无需修改底层语言模型的情况下，直接从 fMRI 信号生成开放式文本。

第一阶段：神经-语义对齐（Neural-Semantic Alignment）

这一阶段的核心目标是建立受试者特定的映射关系。

输入：受试者的 fMRI 神经活动信号。
处理：学习一种受试者特定的神经-语义对齐机制，将 fMRI 活动映射到一个共享的多模态语义空间（Shared Multimodal Semantic Space）。
输出：提取出内部生成句子的“潜在语义草图”（Latent Semantic Sketch）。这一步相当于将模糊的神经信号转化为结构化的语义表示，而不涉及具体的词汇生成。

第二阶段：多模态语言生成（Multimodal Language Generation）

这一阶段利用冻结的多模态语言模型进行最终文本生成。

输入：第一阶段的“潜在语义草图”以及视觉上下文信息（Visual Context）。
处理：将语义草图与视觉线索结合，作为提示（Prompt）输入到一个冻结的（Frozen）多模态语言模型中。
输出：自由形式的文本生成。由于语言模型是冻结的，这意味着该框架不需要对大型语言模型（LLM）进行微调，从而保留了其通用的语言生成能力。

实验验证

研究团队在静默图像描述任务中收集的 fMRI 数据上进行了实验。结果显示：

MindAlign 的方法一致地优于仅使用 fMRI 数据的基线模型以及随机基线。
研究进一步证明，学习到的“语义-语言”投影具有跨受试者的泛化能力。这意味着，当与受试者特定的神经对齐模块结合时，即使面对新的受试者，也能实现有效的解码。

关键要点

解耦架构设计：MindAlign 将神经信号处理与语言生成解耦。第一阶段负责将神经信号转化为语义，第二阶段负责将语义转化为文本。这种设计避免了直接端到端训练带来的数据需求过大问题。
无需微调语言模型：通过冻结多模态语言模型，仅调整前端的神经-语义映射，MindAlign 实现了开放式的文本生成，同时保持了大模型的语言能力。
跨受试者泛化能力：研究证实，语义到语言的投影层可以跨受试者通用。这意味着只需为每个新用户训练一个轻量级的“神经对齐”模块，即可复用通用的语言生成能力，极大地降低了部署新用户的成本。
超越视觉先验：实验结果表明，神经信号所调制的语义内容超越了单纯的图像驱动先验（Image-driven Priors）。这支持了脑-文本解码向可扩展、模块化方向发展的可能性。
多模态融合：通过结合视觉上下文和语义草图，模型能够更准确地还原受试者在观察图像时内心的语言描述，提高了生成的准确性和连贯性。

意义与影响

MindAlign 的提出为脑-文本解码领域提供了一个可扩展且模块化的新方向。

首先，它解决了现有方法在可扩展性上的瓶颈。通过解耦神经对齐和语言生成，系统可以轻松地适应新的受试者，只需收集少量的校准数据来训练神经对齐模块，而无需重新训练庞大的语言模型。

其次，该方法证明了在有限数据条件下，利用多模态嵌入对齐技术可以有效提取神经信号中的语义信息。这对于资源受限的临床环境或家用脑机接口设备具有重要意义，因为这类场景通常难以获取大规模的训练数据。

最后，MindAlign 展示了神经信号能够编码超越外部刺激（如图像）的丰富语义内容。这不仅深化了我们对大脑语言处理机制的理解，也为未来开发更自然、更高效的非侵入式脑机接口通信系统奠定了技术基础。

查看原文 →arxiv.org