技术博客arXiv cs.CL·4 小时前

ABLE框架：基于归因的大模型嵌入表示与映射方法

原标题：ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

速览

针对大模型生态异构且文档缺失的问题，研究提出ABLE框架，通过基于归因的模型嵌入技术构建模型表示。该方法利用与分词器无关的词级对齐聚合梯度特征归因，捕捉模型特定的输入敏感性模式。理论分析证明该方法在可微Transformer模型下具有Lipschitz连续性和收敛保证。在239个开源大模型上的实验表明，该免训练方法在关系预测、模型路由和基准分数预测方面表现优异。

AI 深度解读

ABLE: 基于归因的大模型嵌入表示与映射

背景

随着大型语言模型（LLMs）的爆炸式增长，模型生态呈现出高度的异构性和文档缺失的特征。在这种背景下，对模型进行系统性比较变得日益重要，其应用场景涵盖溯源审计（provenance auditing）、安全分析以及模型选型等关键环节。

然而，现有的模型表示方法难以高效应对这一复杂场景。目前主要存在两类代表性方法，但均存在显著局限：

基于内部参数的方法：虽然当模型架构兼容时具有强大的分析能力，但在面对结构异构性时，面临严重的可扩展性障碍。
基于外部输出的方法：容易混淆具有相似行为但本质不同的模型，且在不同分词器（tokenizers）导致的丰富输出空间中，难以实现有效的对齐。

为了填补这一空白，研究人员提出了一种新的框架，旨在通过利用可解释性空间来构建更鲁棒、更具区分度的模型表示。

核心内容

本文提出了 ABLE（Attribution-Based Large-model Embedding，基于归因的大模型嵌入），这是一种旨在解决上述痛点的新框架。ABLE 的核心思想是利用模型的可解释性空间来构建模型表示，而非仅仅依赖表面输出或内部参数结构。

1. 方法论：基于梯度的特征归因

ABLE 的核心机制是通过聚合基于梯度的特征归因（gradient-based feature attributions）来捕捉模型对输入的敏感度模式。这种方法关注的是模型“为什么”做出特定预测，即输入特征对输出结果的贡献度，从而捕捉到模型特有的内在行为模式，而不仅仅是表面的输出结果。

2. 分词器无关的对齐策略

为了解决不同模型使用不同分词器导致输出空间无法对齐的问题，ABLE 采用了一种分词器无关（tokenizer-agnostic）的词级对齐机制。通过这种对齐方式，ABLE 能够在统一的语义空间中表示不同模型，使得跨模型的比较成为可能，避免了因分词差异带来的噪音和偏差。

3. 理论保证：稳定性与收敛性

除了实证效用外，研究团队还提供了严格的稳定性分析。研究表明，在可微 Transformer 风格模型的标准正则性假设下，ABLE 诱导了一个从参数到嵌入的 Lipschitz 连续映射。这意味着模型参数的微小变化不会导致嵌入表示的剧烈波动，保证了表示的稳定性。此外，该方法还具有有限样本收敛性保证，确保了在有限数据下的可靠性。

4. 实验验证

研究者在 239 个开源 LLM 上进行了广泛的实验。结果显示，这种**无需训练（training-free）**的方法在以下任务中取得了具有竞争力甚至更优的性能：

关系预测（Relation prediction）：预测模型之间的相似性或功能关系。
模型路由（Model routing）：根据任务需求自动选择最合适的模型。
基准分数预测（Benchmark score prediction）：预测模型在标准测试集上的表现。

关键要点

解决异构性问题：ABLE 通过利用可解释性空间，有效解决了不同架构、不同分词器的大模型之间难以直接比较的问题。
超越表面行为：与仅依赖输入输出对的方法不同，ABLE 捕捉的是模型对输入的敏感度模式（input-sensitivity patterns），能够区分行为相似但内部机制不同的模型。
无需训练的零样本能力：该方法是一种 training-free 的框架，无需针对特定任务进行微调即可生成高质量的模型嵌入。
理论严谨性：提供了 Lipschitz 连续性和有限样本收敛性的数学证明，为模型的稳定性提供了理论支撑。
广泛的适用性：在 239 个开源模型上的实验证明了其在模型路由、关系预测和性能预估等实际场景中的有效性。

意义与影响

ABLE 的提出为大规模语言模型的管理、审计和选择提供了一个强有力的新工具。

促进模型生态的透明度与审计：在模型来源复杂、文档缺失的生态系统中，ABLE 提供了一种无需访问内部参数即可深入理解模型行为特征的方法，有助于溯源审计和安全分析。
优化模型路由与部署：通过更准确地预测模型性能和行为特征，开发者可以更智能地在边缘设备、云端或混合环境中路由请求，从而优化资源利用和用户体验。
推动可解释性 AI 的实用化：ABLE 成功地将可解释性技术（如梯度归因）从单纯的“事后解释”工具转化为“模型表示”的基础设施，展示了可解释性技术在系统级应用中的巨大潜力。
降低模型比较门槛：通过分词器无关的对齐机制，降低了跨模型比较的技术门槛，使得研究人员和工程师能够更轻松地评估和选择最适合其需求的模型。

总之，ABLE 不仅在技术上提供了一种更鲁棒的模型表示方法，也在实践层面为解决大模型生态系统的碎片化问题提供了可行的路径。

查看原文 →arxiv.org