技术博客arXiv cs.AI·2 小时前

跨大模型推理一致性：共享交互模式证据

原标题：Cross-LLM Consistency in Inference: Evidence from Shared Interactions

速览

尽管大模型在架构、训练数据和优化程序上存在差异，但研究通过基于交互的解释发现，它们在预测相同目标词时往往表现出相似的内部推理模式。这种一致性在先进大模型中更为明显，且共享交互通常阶数较低，正负抵消效应较弱。结果表明，先进大模型可能隐式地朝着共同的推理模式进行优化。

AI 深度解读

跨大语言模型推理一致性：来自共享交互的证据

背景

随着大型语言模型（LLMs）在自然语言处理领域的迅速普及，不同模型之间的性能差异已成为研究热点。尽管当前的 LLMs 在架构设计、训练数据分布以及优化算法上存在显著差异，但它们在处理相同任务时往往表现出令人惊讶的相似性。这种跨模型的“一致性”现象引发了一个核心科学问题：在底层机制截然不同的情况下，模型是否演化出了某种通用的内部推理模式？

传统的模型可解释性研究多集中于单一模型内部的注意力机制或神经元激活分析，而较少关注不同模型在面对相同输入时是否会产生协同或一致的推理路径。本文旨在通过“基于交互的解释”（interaction-based explanations）这一视角，深入探究不同 LLM 在预测同一目标 token 时，其内部特征交互模式的重合度，从而揭示高级模型中潜在的共性推理规律。

核心内容

本文提出并验证了一个假设：尽管 LLMs 在架构、数据和优化过程上各不相同，但它们可能发展出相似的内部推理模式。为了验证这一假设，研究团队采用了基于交互的解释方法，重点分析模型在从相同提示（prompt）预测相同目标 token 时的特征交互行为。

研究发现，LLMs 在推理过程中确实存在显著的“共享交互模式”（shared interaction patterns）。具体而言，当多个不同的模型面对相同的输入提示并试图预测同一个输出 token 时，它们倾向于激活相似的特征组合。这种一致性在更先进（更强大）的 LLMs 中表现得尤为明显，暗示着模型规模的提升或训练质量的优化可能促使模型收敛于某种更优的推理范式。

此外，研究还深入分析了这些共享交互的数学特性。结果显示，共享交互往往具有较低的阶数（lower-order），这意味着它们主要涉及少数几个关键特征之间的直接相互作用，而非复杂的高阶非线性组合。同时，与非共享交互相比，共享交互表现出较弱的“正负抵消”（positive-negative cancellation）现象。在神经网络中，正负抵消通常意味着多个特征对最终输出的贡献相互抵消，导致净效应微弱；而较弱的抵消效应表明，共享交互中的特征对预测结果的贡献更加直接且稳定。

尽管这些结果强烈暗示高级 LLMs 可能在隐式层面上被优化向了共同的推理模式，但文章也指出，导致这种跨模型一致性的具体机制仍然是未解之谜。这为未来的可解释性 AI 研究留下了广阔的探索空间。

关键要点

跨模型推理一致性存在：不同的 LLM 在预测相同目标 token 时，往往共享相似的内部特征交互模式，证明了跨模型推理行为的可比性。
高级模型一致性更强：这种共享交互模式在更先进、性能更强的 LLMs 中更为显著，表明模型能力的提升可能与推理模式的收敛有关。
共享交互具有低阶特性：共享的交互模式倾向于低阶（lower-order），即主要依赖少量特征间的直接交互，而非复杂的高阶组合。
弱正负抵消效应：与非共享交互相比，共享交互表现出更弱的正负抵消现象，说明其内部特征对输出的贡献更加一致和稳定。
隐式优化假设：结果支持“高级 LLMs 可能被隐式优化 toward 共同推理模式”的假设，但具体导致这种一致性的底层机制仍需进一步研究。

意义与影响

这项研究为理解大型语言模型的泛化能力和内部工作原理提供了新的视角。首先，它挑战了“不同架构必然导致不同推理逻辑”的传统直觉，表明在强大的模型中，可能存在某种“最优推理路径”的收敛现象。这对于模型压缩、蒸馏以及跨模型知识迁移具有重要的理论指导意义——如果不同模型共享相似的底层交互模式，那么从一个模型学到的解释性知识可能部分适用于其他模型。

其次，发现共享交互具有低阶和弱抵消的特性，为简化模型解释提供了线索。这意味着在分析高级 LLM 时，关注低阶、稳定的特征交互可能比追踪复杂的高阶非线性关系更能捕捉到模型的核心推理逻辑。

最后，尽管文章指出了具体机制尚不明确，但它确立了一个新的研究方向：从“单一模型内部解释”转向“跨模型比较解释”。这种比较视角有助于剥离模型特有的噪声，识别出那些真正驱动智能行为的通用计算原理，从而推动可解释 AI 从描述性分析向规范性理解迈进。

查看原文 →arxiv.org