技术博客arXiv cs.CL·4 小时前

MultiHashFormer：基于哈希的生成式语言模型框架

原标题：MultiHashFormer: Hash-based Generative Language Models

速览

针对传统语言模型嵌入矩阵随词表线性扩展的问题，研究提出MultiHashFormer框架，利用多个独立哈希函数生成离散哈希ID序列作为令牌表示。该框架通过哈希编码器将签名压缩为潜在向量，并由解码器生成下一个令牌的哈希签名，从而在自回归场景中有效避免多对一碰撞。实验表明，在1亿至30亿参数规模下，该方法在多项基准测试中持续优于标准Transformer，并支持多语言词表扩展而无需增加参数量。

AI 深度解读

MultiHashFormer：基于哈希的生成式语言模型深度解读

背景

在当前的自然语言处理领域，大型语言模型（LLMs）的性能与规模紧密相关，但随之而来的是巨大的计算和存储开销。传统语言模型通常使用嵌入矩阵（embedding matrices）来表示词汇表中的每个 token。这种方法的参数规模与词汇表大小呈线性关系：词汇表越大，嵌入矩阵的参数量就越大，进而导致模型整体参数量的急剧膨胀。

为了解决参数冗余问题，研究人员在编码器模型（encoder-only models，如 BERT）中尝试过哈希技术，即将大量 token 映射到同一个向量中。虽然这种方法显著减少了参数 footprint（占用空间），但它引入了“多对一”（many-to-one）的碰撞问题。在需要严格顺序生成的因果语言模型（causal LMs，如 GPT 系列）中，这种碰撞会导致信息丢失，使得模型无法准确预测下一个 token，因此哈希技术此前难以直接应用于自回归生成任务。

核心内容

本文提出了 MultiHashFormer，一种全新的基于哈希的自回归语言模型框架。该框架旨在保留哈希技术的参数效率优势的同时，解决其在生成式任务中的碰撞难题。

1. 核心机制：哈希签名（Hash Signature）

MultiHashFormer 不再将单个 token 映射为单一向量，而是将其表示为一个独特的“哈希签名”。这个签名是一个由离散哈希 ID 组成的短序列，由多个独立的哈希函数生成。通过这种方式，每个 token 都被编码为一组独特的离散标识符，从而在保持紧凑表示的同时，最大程度地减少碰撞带来的歧义。

2. 架构设计

MultiHashFormer 的架构主要包含两个关键组件：

Hash Encoder（哈希编码器）：负责将上述的哈希签名压缩为一个单一的潜在向量（latent vector）。这个向量随后被输入到 Transformer 解码器中进行处理。这一步骤使得离散的哈希信息能够融入连续的空间，供 Transformer 架构高效处理。
Hash Decoder（哈希解码器）：在自回归生成过程中，解码器负责生成下一个 token 的哈希签名。生成完成后，系统会将这个哈希签名映射回具体的文本 token，从而完成从预测到输出的闭环。

3. 多语言与词汇扩展优势

该框架的一个显著特性是其对多语言词汇扩展的支持。由于哈希机制的特性，MultiHashFormer 在处理多语言词汇表扩张时，无需修改模型结构或增加参数规模，即可保持恒定的参数 footprint。这意味着模型可以无缝适应新的语言或扩展词汇量，而不会带来额外的计算负担。

4. 实验评估

研究团队在 100M、1B 和 3B 参数规模下对 MultiHashFormer 进行了评估。实验结果显示，MultiHashFormer 在多个基准测试中一致优于标准的 Transformer 语言模型。这不仅证明了哈希自回归方法的可行性，也展示了其在不同规模下的鲁棒性和有效性。

关键要点

解决碰撞难题：通过引入“哈希签名”（多个独立哈希函数生成的离散 ID 序列），MultiHashFormer 成功解决了传统哈希方法在因果语言模型中因“多对一”碰撞导致的生成错误问题。
参数效率极高：该方法通过哈希技术约束了参数规模，使得模型能够在保持高性能的同时，显著降低存储和计算需求。
恒定的扩展成本：在处理多语言或大规模词汇表扩展时，MultiHashFormer 无需增加参数，实现了常数级的参数开销，这对于多语言模型的部署极具优势。
性能超越标准模型：在 100M 至 3B 参数规模的实验中，MultiHashFormer 在多个基准测试中表现优于传统的 Transformer 语言模型，证明了其架构的有效性。
端到端自回归框架：提出了完整的 Hash Encoder 和 Hash Decoder 协同工作机制，实现了从文本到哈希签名、再到潜在向量、最后回归文本的完整自回归生成流程。

意义与影响

MultiHashFormer 的提出为语言模型的压缩与高效部署开辟了一条新路径。长期以来，哈希技术在 NLP 中的应用主要局限于非自回归或编码器模型，而 MultiHashFormer 证明了哈希技术同样可以应用于对精度和顺序要求极高的自回归生成任务。

这一突破具有深远的实际意义：

降低部署门槛：对于资源受限的边缘设备或移动端应用，MultiHashFormer 提供了一种在不显著牺牲性能的前提下，大幅减小模型体积的方案。
简化多语言支持：其恒定的参数扩展特性使得构建和维护多语言大模型变得更加经济高效，无需为每种语言或新词汇单独训练庞大的嵌入层。
推动模型架构创新：该工作挑战了“嵌入矩阵必须随词汇表线性增长”的传统范式，激发了社区探索更高效的 token 表示方法，可能促使未来出现更多基于离散表示或混合表示的高效语言模型架构。

总之，MultiHashFormer 不仅在理论上解决了哈希自回归的关键技术瓶颈，更在实践中展示了其在参数效率和多语言适应性方面的巨大潜力，为下一代高效语言模型的发展提供了重要的参考方向。

查看原文 →arxiv.org