技术博客Hugging Face Blog·2 小时前

混合模型在哪些Token上的预测表现更优

原标题：Which tokens does a hybrid model predict better?

速览

本文分析了混合模型在处理不同Token时的预测能力。研究揭示了模型在特定类型Token上的优势与劣势。这一发现有助于优化模型架构并提升整体性能。

AI 深度解读

混合模型究竟在预测哪些 Token 时表现更佳？

背景

混合模型（Hybrid Models）作为一种新兴的大语言模型架构，正在逐渐挑战传统的 Transformer 架构。Hugging Face 团队通过其 Olmo Hybrid 项目对此进行了深入探索。虽然混合模型在标准基准测试中能够持平甚至超越 Transformer，但这些宏观的 headline numbers（ headline 数据/总体指标）往往掩盖了混合模型相对于 Transformer 的具体优势所在。

为了揭示这种架构差异在 Token 级别的具体表现，Hugging Face 团队进行了一项对比实验，直接比较了他们最强的 7B 参数 Transformer 模型 Olmo 3 与混合模型 Olmo Hybrid。由于这两个模型在数据、分词器（Tokenizer）和训练配方上尽可能保持一致，唯一的变量是架构本身。因此，两者在预测上的差异主要反映了架构特性。通过细粒度地分析不同类别 Token 的预测差异，研究人员旨在挖掘混合模型相较于 Transformer 的具体优势领域。

核心内容

注意力机制与循环机制的较量

要理解混合模型的优势，首先需要理解其底层组件的差异：

Transformer（注意力机制）：
- 每一层都使用注意力机制，能够同时直接访问之前的所有 Token，并根据相关性加权。
- 优势：擅长精确召回特定的早期 Token，即使该 Token 出现在输入的很远处。
- 劣势：计算成本随输入长度急剧增加（二次方复杂度）；虽然擅长聚合信息，但在表示随时间序列演化的信息时表现较弱。
混合模型（注意力 + 循环层）：
- 保留少数几层注意力层，其余替换为循环层（Recurrent Layers）。
- 机制：循环层从左到右读取 Token，并维护一个固定大小的记忆状态。每个新 Token 被折叠进记忆中，使得处理每个 Token 的成本保持恒定（线性复杂度），无论输入多长。
- 特性：记忆是压缩且有损的，因此无法像注意力机制那样回溯并精确匹配早期的特定 Token。
- 优势：非常适合维护随阅读过程动态变化的“运行状态”（running account），这与注意力机制形成互补。

实验方法与指标

为了隔离注意力层和循环层的强弱项，研究人员向 Olmo 3 和 Olmo Hybrid 输入了多种文本片段，包括文章、维基百科条目、书籍、科学论文，以及结构化文本如 Python、HTML 和 LaTeX。

评分方式：计算每个模型对给定样本中每个 Token 的预测概率，记录其真实下一个 Token 的概率。
损失差距（Loss Gap）：通过计算两个模型之间的损失差值来总结差异。
- 正差距：混合模型预测更准。
- 负差距：Transformer 预测更准。
统计分析：将 Token 分类并计算类别内的平均损失差距。为了排除类别稀有度或重复频率等因素的干扰，研究人员还使用了回归分析来估计类别本身的独立影响。

真实文本中的发现

实验结果显示，Olmo Hybrid 在大多数类型的 Token 上损失更低（表现更好），但优势程度不一：

内容词 vs. 功能词：
- 在散文文本中，最明显的分野在于内容词（承载意义的名词、动词、形容词）与功能词（如 "the", "of", "is"）。
- 混合模型在预测内容词时优势明显，损失差距约为特定数值（原文未给出具体数字，但强调差距显著）；而在功能词上，差距接近于零。
- 特别是在副词和形容词等类别中，混合模型的优势尤为突出。即使是像 "there" 这样的存在性功能词，混合模型也显示出较大优势。
- 结论：混合模型在决定句子“关于什么”的词汇上优势最大，而在仅靠语法即可几乎猜出的语法功能词上优势最小。
混合模型优势消失的场景：
- 闭合括号：在语言、代码和标记语言中，预测闭合括号（如 }, ], )）的模式是稳健的。研究表明，注意力机制足以表示括号匹配，因此仅靠注意力即可有效预测闭合括号，混合模型在此处无明显优势。
- 重复 Token：当下一个 Token 只是简单重复前文出现过的内容（即重复的 n-gram）时，混合模型的优势几乎完全消失。重复序列越长，混合模型的领先优势越小，直至趋近于零。这是 Transformer 的强项，因为答案就在那里，只需“查找”即可。
预训练阶段的早期信号：
- 受上述发现启发，研究人员探索使用针对特定类型 Token 的过滤损失（Filtered Losses）作为评估指标，以在预训练实验中更好地比较不同架构。
- 他们使用了此前 Olmo Hybrid 工作中三个 1B 参数模型：一个 Transformer、一个混合模型和一个纯循环模型（无任何注意力）。
- 结果：
  - 在非重复的意义承载 Token 上，混合模型和纯循环模型均超越了 Transformer，其中混合模型表现最佳。
  - 在重复 Token 上，纯循环模型（因缺乏注意力机制来回溯复制）落后于混合模型和 Transformer。
- 这表明，在预训练早期，过滤后的 Token 损失就能揭示架构间的细微差异，包括复制能力和内容词处理的差异，而这些在总体损失中往往不可见。

关键要点

混合模型的核心优势在于语义理解：混合模型在预测承载实际意义的 Token（如名词、动词、形容词、副词）时显著优于 Transformer。这可能与循环层强大的状态追踪（state-tracking）能力有关。
Transformer 的核心优势在于精确复制：在处理需要精确回溯前文信息的场景（如闭合括号匹配、重复 n-gram）时，Transformer 表现更好或持平。混合模型在此类“查找”任务上缺乏优势，因为其循环记忆是有损压缩的。
总体损失指标具有误导性：单一的总体损失（Average Loss）过于粗糙，无法有效区分 Transformer 和混合架构。通过细分 Token 类型（如过滤掉重复 Token 或仅关注内容词）进行评估，能更清晰地揭示架构的真实优劣。
架构互补性：注意力机制擅长全局聚合和精确召回，而循环机制擅长维护序列演化的状态且计算成本恒定。混合模型通过结合两者，在保持线性推理成本的同时，提升了对动态语义信息的处理能力。
评估方法的创新：使用“过滤损失”（Filtered Losses）作为预训练期间的评估指标，可以在早期阶段捕捉到架构在特定能力（如内容预测 vs. 复制能力）上的差异。

意义与影响

这项研究为理解大语言模型架构的本质差异提供了重要的微观视角。它证明了混合模型并非在所有方面都优于 Transformer，而是在特定类型的信息处理上具有结构性优势。

指导架构设计：未来的混合架构设计应更精细地平衡注意力层和循环层的比例，以最大化其在内容词预测上的优势，同时通过保留少量注意力层来弥补其在精确复制和括号匹配上的不足。
优化评估体系：对于 AI 社区而言，传统的基准测试分数可能不足以反映模型的真实能力分布。采用细粒度的 Token 级别评估（如区分内容词与功能词、重复与非重复）将成为评估新架构的重要补充手段。
推动高效推理：混合模型在长上下文处理上的线性成本优势，结合其在语义理解上的有效性，使其在需要长窗口且对语义连贯性要求高的应用场景中具有巨大潜力。

Hugging Face 团队鼓励研究人员阅读其完整报告，探索 Olmo 3 和 Olmo Hybrid 模型，并深入分析其开源成果，以共同推动对混合模型架构理解的深化。

查看原文 →huggingface.co