技术博客arXiv cs.CL·7 小时前

语言模型社交推理能力源自何处

原标题：Where Does Social Reasoning Come From? Capability Provenance in Language Models

速览

该研究利用训练数据归因技术，分析了OLMo3-7B模型中支持社交推理与STEM推理的预训练数据分布差异。结果显示，这两类推理能力源自性质截然不同的数据区域，且推理层面的区分度高于知识层面。研究还通过机器遗忘实验提供了部分因果验证，并开源了相关代码与数据。

AI 深度解读

社会推理能力从何而来？语言模型中的能力溯源研究

背景

大型语言模型（LLMs）在各类基准测试中展现出了惊人的能力，但关于这些能力究竟源自何处——即“能力溯源”（Capability Provenance）的问题，学界仍缺乏清晰的认知。传统的模型可解释性研究多集中于事实性知识的检索路径，而对于更复杂的推理能力（如社会推理与STEM推理）在预训练语料中的分布特征，知之甚少。

此外，现有的训练数据归因（Training-data attribution）方法虽然能衡量单个文档对模型预测的影响，但在文档层面往往噪声过大，难以精准定位支持特定能力的语料区域。本研究旨在利用训练数据归因作为可解释的工具，深入探索 OLMo3-7B 模型中社会推理与社会科学知识、STEM推理与STEM知识之间的差异，揭示不同能力类型在预训练语料库中的独特来源。

核心内容

本研究通过计算基于梯度的归因分数，系统地分析了 OLMo3-7B 模型中社会推理（Social Reasoning）与科学、技术、工程和数学推理（STEM Reasoning）的能力来源。研究团队采用了以下方法论和实验设计：

1. 数据归因方法：TrackStar (via Bergson) 研究使用了基于梯度的归因技术 TrackStar（通过 Bergson 实现），该技术在 Dolma3 混合语料库的去重子集上运行。TrackStar 能够量化每个训练文档对模型在特定基准测试中预测结果的影响强度。

2. 语料聚合策略：WebOrganizer 分类法 由于文档级别的归因分数噪声较大，研究团队将影响聚合到更高层级的语料区域。具体而言，他们使用了 WebOrganizer 的 24 格式 x 24 主题分类体系，构建了 576 个数据箱（Bins）。这种细粒度的分类使得研究者能够识别出哪些特定的主题或格式区域支持特定的推理能力。

3. 实验设计：2x2 对比框架 为了区分“推理”与“知识”的不同来源，研究设计了一个 2x2 的对比实验，变量包括领域（社会 vs. STEM）和能力类型（推理 vs. 知识）：

社会推理 vs. 社会知识：使用 SocialIQA（社会常识推理）与 MMLU Social Sciences（社会科学知识）进行对比。
STEM推理 vs. STEM知识：使用 ARC-Challenge（科学推理）与 MMLU STEM（STEM知识）进行对比。

4. 主要发现

语料区域的质性差异：社会推理和 STEM 推理从质上不同的语料区域中汲取养分。这意味着支持逻辑推导的数据分布与支持事实记忆的数据分布存在显著差异。
推理层面的对比更鲜明：在“推理”层面，社会与 STEM 语料来源的差异比在“知识”层面更为尖锐。这表明推理能力对语料的特异性要求更高，而知识类能力可能在更广泛的语料中重叠。

5. 因果验证：机器遗忘（Machine Unlearning） 为了验证归因结果的因果有效性，研究团队进行了靶向机器遗忘实验。他们选择高归因分数的主题箱（例如，对于 SocialIQA 测试中的“文学”类数据箱）进行“遗忘”处理。结果显示，遗忘这些高影响力数据箱导致的基准测试性能下降，显著高于在相同数据箱内随机选择数据进行遗忘的基线水平。这一结果证实了高归因分数确实对应着对特定能力有因果贡献的语料。

6. 开源贡献 研究团队开源了所有代码、采样清单（sampling manifests）、箱级影响矩阵（bin-level influence matrix）以及遗忘检查点（unlearning checkpoints），为后续研究提供了完整的数据支持。

关键要点

归因技术的精细化：通过 TrackStar 和 WebOrganizer 分类体系，将文档级的噪声归因聚合为 576 个细粒度语料箱，有效解决了传统方法噪声过大、难以定位特定能力来源的问题。
推理与知识的来源分离：研究证实，推理能力（无论是社会还是 STEM）与事实性知识在预训练语料中的分布存在显著差异，且推理能力的来源更具特异性。
社会与 STEM 推理的异质性：社会推理和 STEM 推理依赖于质上不同的语料区域，且这种差异在推理任务中比在知识任务中更加明显。
因果关系的实证支持：通过靶向机器遗忘实验，证明了高归因分数的语料箱对模型性能具有因果影响，而非仅仅是相关性。遗忘高影响力数据确实会导致性能显著下降。
可解释性工具的实用价值：训练数据归因不仅是一种分析工具，还可以用于指导数据筛选、模型优化甚至安全对齐，通过识别关键语料区域来增强或调整模型的特定能力。

意义与影响

这项研究为理解大型语言模型的能力构成提供了新的视角。以往的研究多关注模型“知道什么”，而本研究深入探讨了模型“如何推理”以及这种推理能力的数据根基。

首先，在模型开发与数据工程方面，研究结果提示开发者，若要提升模型的社会推理或 STEM 推理能力，不能仅依赖增加通用数据量，而应针对性地优化特定主题和格式的数据分布。例如，增强文学类数据可能对提升 SocialIQA 表现有直接帮助，而强化科学文献类数据则有助于 ARC-Challenge 的表现。

其次，在模型安全与对齐方面，能力溯源技术使得“靶向遗忘”成为可能。如果某些语料区域导致了模型产生有害的社会偏见或错误的科学推理，研究者可以精确地定位并移除或降低这些区域的影响，从而实现更精细的模型对齐和安全控制。

最后，在学术研究方向上，该研究推动了可解释人工智能（XAI）从黑盒分析向数据因果分析的转变。通过开源完整的归因矩阵和实验代码，本研究为后续探索其他能力（如代码生成、创意写作）的数据来源树立了标杆，有助于构建更透明、更可控的下一代语言模型。

查看原文 →arxiv.org