技术博客arXiv cs.CL·2 小时前

利用语言模型稀疏特征解读大脑语言响应

原标题：Interpreting Brain Responses to Language with Sparse Features from Language Models

速览

该研究提出增强稀疏编码模型，用语言模型的稀疏自编码器特征替代密集隐藏状态，以解读人类语言皮层特征。通过7T fMRI实验，研究发现大脑语言网络响应与语言模型中捕捉通用信息的特征高度对应，证实了脑与模型表征间存在非平凡关联。

AI 深度解读

解读：利用语言模型的稀疏特征解释大脑对语言的响应

背景

认知神经科学的一个核心目标是刻画人类语言皮层所表征的特征。近年来，人工语言模型（Language Models, LMs）已成为解决这一挑战的有力工具。通过将模型内部的表示与大脑活动进行对比，研究人员试图理解大脑如何处理语言。

然而，这类研究经常受到批评，被认为是在将“一个黑盒”（人工语言模型）与“另一个黑盒”（大脑）进行关联，缺乏可解释性。为了解决这一方法论上的困境，并更精确地映射大脑对语言的处理机制，本研究引入了一种新的编码框架，旨在通过更具可解释性的特征来连接人工智能与神经科学。

核心内容

本研究提出了一种名为**增强型稀疏编码模型（Augmented Sparse Encoding Models）的新框架。该框架的核心创新在于使用分层组织的稀疏自编码器（Sparse Autoencoder, SAE）特征，替换了传统方法中使用的密集语言模型隐藏状态（dense LM hidden states），并显式地将 surprisal（惊讶度/信息量）**作为预测变量纳入模型。

研究团队利用高分辨率 7T fMRI 数据集，记录了八名参与者在聆听 200 个语言多样性丰富的句子时的脑部活动，并基于此框架进行了以下验证与分析：

框架验证与复现：首先，研究人员验证了该建模框架的有效性。通过该方法，他们成功恢复了先前已知的体素群（voxel populations）的解释，这些体素群被证实对“处理难度”和“意义抽象度”敏感。这证明了新框架在捕捉已知神经特征方面的可靠性。
发现新的神经表征：接着，研究人员解释了一组此前未被充分表征但具有高度可靠性的体素群。分析结果显示，这组体素群专门对**与人相关的内容（people-related content）**敏感。这一发现揭示了语言处理中特定于社会认知的神经基础。
语言网络的预测机制：研究考察了额颞部人类语言网络（fronto-temporal human language network）。结果显示，该网络的各个组成部分可以由一组共同的特征进行预测。然而，不同脑区的解释来源存在差异：
- 额叶区域（Frontal regions）：即使在没有基于语言模型（LM-based）的特征参与的情况下，仅凭 surprisal 就能相对很好地解释额叶区域的神经响应。
- 其他区域：则需要结合 SAE 特征才能更准确地预测。
大脑与语言模型的非平凡对应关系：最后，研究证明大脑在语言处理期间的响应并非仅仅可以从任意一组语言模型特征中预测出来。相反，大脑响应最能由那些倾向于捕捉语言模型表示中**最通用信息（most general information）**的特征来解释。这表明，大脑与语言模型在语言表征之间存在一种非平凡的、结构性的对应关系，而非简单的随机匹配。

关键要点

方法论创新：提出了“增强型稀疏编码模型”，用稀疏自编码器（SAE）特征替代密集的隐藏状态，显著提升了模型-大脑关联的可解释性，避免了“黑盒对黑盒”的批评。
Surprisal 的作用：显式引入 surprisal（信息量/预测误差）作为预测变量，发现其在解释额叶语言区域活动时具有主导作用，甚至在缺乏其他 LM 特征时依然有效。
新发现的神经调谐：识别并解释了一组此前未知的体素群，确认其专门调谐于“与人相关的内容”，丰富了我们对社会语言学神经基础的理解。
通用特征的重要性：大脑响应并非由 LM 中的任意特征驱动，而是由那些捕捉 LM 表示中“最通用信息”的特征最佳解释。这暗示了大脑语言处理机制与大型语言模型内部表征之间存在深层的、结构性的相似性。
高分辨率数据验证：研究基于 7T fMRI 的高精度数据，确保了神经信号采集的精细度，从而能够区分不同脑区（如额叶与颞叶）在语言处理中的不同预测机制。

意义与影响

这项工作在认知神经科学与人工智能的交叉领域具有重要意义：

提升可解释性：通过引入稀疏自编码器（SAE），该研究为“黑盒”语言模型提供了更透明的内部视角，使得研究人员能够具体指出大脑皮层响应的是哪些具体的语义或句法概念，而非模糊的整体激活模式。
深化对语言网络的理解：研究揭示了人类语言网络并非均匀运作，额叶区域可能更侧重于基于预测误差（surprisal）的处理，而其他区域则更依赖于复杂的语义特征提取。这种区域特异性的发现有助于构建更精细的计算神经科学模型。
验证 AI 与大脑的表征同构性：研究结果支持了大型语言模型在某种程度上模拟了人类语言处理机制的观点，特别是当模型学习到“通用”信息时，其内部表征与大脑活动的相关性最强。这为利用 AI 模型作为大脑功能的计算模型提供了强有力的实证支持。
方法论推广：Augmented Sparse Encoding Models 框架可以推广到其他认知领域的研究中，用于解码大脑对视觉、听觉或其他复杂刺激的响应，推动计算神经科学向更高精度、更高可解释性的方向发展。

查看原文 →arxiv.org