技术博客Hugging Face Blog·2026/5/14

IBM发布Granite Embedding Multilingual R2：开源32K上下文多语言嵌入模型

原标题：Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

速览

IBM发布了名为Granite Embedding Multilingual R2的开源多语言嵌入模型，采用Apache 2.0许可证。该模型支持32K的长上下文窗口，能够在参数量低于1亿的情况下，提供业界领先的检索质量。这一发布为开发者提供了高效、低成本的多语言信息检索解决方案。

AI 深度解读

Granite Embedding Multilingual R2：开源 Apache 2.0 多语言嵌入模型，32K 上下文，亚 1 亿参数检索质量最佳

来源：Hugging Face Blog 模型：Granite Embedding Multilingual R2

背景

多语言嵌入模型长期面临一个持久的矛盾：广泛的语言覆盖通常以牺牲模型大小为代价，而小模型往往只能支持有限的语言。对于从事跨语言工作（如基于多语言语料的检索增强生成、跨语言搜索、国际团队的代码检索）的开发人员来说，通常不得不在“足够快”的模型和“足够好”的模型之间做出妥协。

IBM 推出的 Granite Embedding Multilingual R2 极大地缩小了这一差距。该版本基于 ModernBERT 架构重建，旨在提供企业级就绪、支持 200 多种语言、具备 32K 长上下文处理能力，并在亚 1 亿参数规模下实现顶尖的检索质量。

核心内容

本次发布包含两个新的多语言嵌入模型，均遵循 Apache 2.0 许可证，开箱即用，兼容 sentence-transformers 和 transformers 库，并可作为 LangChain、LlamaIndex、Haystack 和 Milvus 等框架的即插即用替换方案（仅需更改一行模型名称）。

1. 模型规格与性能

granite-embedding-311m-multilingual-r2（全尺寸模型）
- 参数量：3.11 亿。
- 维度：768 维，支持 Matryoshka（套娃）维度支持（即可以截取低维向量而损失极少性能）。
- 性能：在 MTEB 多语言检索基准测试中得分 65.2，在 5 亿参数以下的开源模型中排名第二。
- 上下文：支持 32,768 个 token（是前代 R1 的 64 倍）。
granite-embedding-97m-multilingual-r2（紧凑模型）
- 参数量：9700 万。
- 维度：384 维。
- 性能：在 MTEB 多语言检索基准测试中得分 60.3，是所有开源亚 1 亿参数多语言嵌入模型中的最高分。
- 对比优势：相比同尺寸的最佳竞品 multilingual-e5-small（得分 50.9），高出 9.4 分；相比其前代 R1 模型，MTEB 多语言检索得分提升 12.2 分。

2. 语言与代码支持

广泛覆盖：底层编码器在 200 多种语言的数据上预训练，生成通用嵌入向量。
增强支持：以下 52 种语言经过显式的检索对和跨语言训练，检索质量更高：
- 阿尔巴尼亚语、阿拉伯语、阿塞拜疆语、孟加拉语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、格鲁吉亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、哈萨克语、高棉语、韩语、拉脱维亚语、立陶宛语、马来语、马拉地语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语。
代码检索：模型在 9 种编程语言（Python, Go, Java, JavaScript, PHP, Ruby, SQL, C, C++）上进行了训练，支持跨语言代码检索。

3. 技术架构革新（R1 到 R2 的变化）

R2 版本是对 R1（基于 XLM-RoBERTa，512 token 上下文）的从头重建，主要变化包括：

ModernBERT 架构：
- 结合了过去五年 Transformer 研究的技术。
- 交替注意力长度：显著降低长序列的计算量，提高吞吐量。
- 旋转位置嵌入（Rotary Position Embeddings）：支持 32K 上下文窗口，无需旧架构中常见的插值技巧。
- Flash Attention 2.0：在现代 GPU 上加速编码。
Tokenizer 优化：
- 放弃了 XLM-RoBERTa 的 250K 词表。
- 311M 模型：使用 Gemma 3 tokenizer（262K 词表）。
- 97M 模型：从 GPT-OSS tokenizer 开始，剪枝至紧凑的 180K 词表，在保留广泛多语言覆盖的同时减少嵌入表参数。
- 注：Tokenizer 效率至关重要，高效的词表能更充分利用 32K 上下文窗口。

4. 训练流程

全尺寸 311M 模型训练：
1. 知识蒸馏：从 Granite 3.3 Instruct 和 Mistral v0.2 Instruct 解码器模型（经过文本嵌入微调）中同时学习，将检索特定知识转移到编码器架构中。
2. 对比微调：在 52 种语言和代码的检索对上进行标准对比训练，使用相关段落和困难负样本， sharpen 模型区分相关与不相关结果的能力。
3. 模型合并：合并不同训练阶段和配置的检查点，结合不同目标（如多语言广度 vs 英语深度）优化的优势，无需额外计算资源。
4. Matryoshka 表示学习：训练模型支持可变维度嵌入。
紧凑 97M 模型构建：
- 采用新颖的剪枝方法论，从较大的模型或架构中压缩而来，同时保持检索质量。

5. 企业就绪设计

数据治理：
- 训练数据混合了 IBM 策展的数据集、公开可用数据以及内部生成或合成数据。
- 公开网络数据经过 IBM 开发的质量、去重和治理流程筛选，以降低下游商业使用的风险。
- 避免使用 MS-MARCO 训练数据集及具有明确非商业许可限制的数据集。
- 使用 GneissWeb（IBM 策展的公开网络内容数据集）进行预训练，并经过 IBM 治理审查，评估许可考虑、所有权信号和个人数据风险。
部署优化：
- 提供 ONNX 和 OpenVINO 权重，针对 CPU 推理进行优化。

关键要点

性能突破：97M 参数模型在亚 1 亿参数开源多语言嵌入模型中检索质量第一（MTEB 得分 60.3）；311M 模型在 5 亿参数以下开源模型中排名第二（MTEB 得分 65.2）。
上下文扩展：支持 32K token 上下文，是前代 R1 的 64 倍，显著提升了长文档检索能力。
架构升级：基于 ModernBERT 架构，利用 Flash Attention 2.0 和旋转位置嵌入提升效率与长序列处理能力。
多语言与代码：覆盖 200+ 语言，其中 52 种语言经过增强训练；原生支持 9 种编程语言的代码检索。
企业友好：Apache 2.0 开源许可，数据经过

查看原文 →huggingface.co