← 返回信息流
技术博客Hugging Face Blog·2026/5/14

IBM发布Granite Embedding Multilingual R2:开源32K上下文多语言嵌入模型

原标题:Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

速览

IBM发布了名为Granite Embedding Multilingual R2的开源多语言嵌入模型,采用Apache 2.0许可证。该模型支持32K的长上下文窗口,能够在参数量低于1亿的情况下,提供业界领先的检索质量。这一发布为开发者提供了高效、低成本的多语言信息检索解决方案。

AI 深度解读

Granite Embedding Multilingual R2:开源 Apache 2.0 多语言嵌入模型,32K 上下文,亚 1 亿参数检索质量最佳

来源:Hugging Face Blog 模型:Granite Embedding Multilingual R2

背景

多语言嵌入模型长期面临一个持久的矛盾:广泛的语言覆盖通常以牺牲模型大小为代价,而小模型往往只能支持有限的语言。对于从事跨语言工作(如基于多语言语料的检索增强生成、跨语言搜索、国际团队的代码检索)的开发人员来说,通常不得不在“足够快”的模型和“足够好”的模型之间做出妥协。

IBM 推出的 Granite Embedding Multilingual R2 极大地缩小了这一差距。该版本基于 ModernBERT 架构重建,旨在提供企业级就绪、支持 200 多种语言、具备 32K 长上下文处理能力,并在亚 1 亿参数规模下实现顶尖的检索质量。

核心内容

本次发布包含两个新的多语言嵌入模型,均遵循 Apache 2.0 许可证,开箱即用,兼容 sentence-transformerstransformers 库,并可作为 LangChain、LlamaIndex、Haystack 和 Milvus 等框架的即插即用替换方案(仅需更改一行模型名称)。

1. 模型规格与性能

  • granite-embedding-311m-multilingual-r2(全尺寸模型)

    • 参数量:3.11 亿。
    • 维度:768 维,支持 Matryoshka(套娃)维度支持(即可以截取低维向量而损失极少性能)。
    • 性能:在 MTEB 多语言检索基准测试中得分 65.2,在 5 亿参数以下的开源模型中排名第二。
    • 上下文:支持 32,768 个 token(是前代 R1 的 64 倍)。
  • granite-embedding-97m-multilingual-r2(紧凑模型)

    • 参数量:9700 万。
    • 维度:384 维。
    • 性能:在 MTEB 多语言检索基准测试中得分 60.3,是所有开源亚 1 亿参数多语言嵌入模型中的最高分
    • 对比优势:相比同尺寸的最佳竞品 multilingual-e5-small(得分 50.9),高出 9.4 分;相比其前代 R1 模型,MTEB 多语言检索得分提升 12.2 分。

2. 语言与代码支持

  • 广泛覆盖:底层编码器在 200 多种语言的数据上预训练,生成通用嵌入向量。
  • 增强支持:以下 52 种语言经过显式的检索对和跨语言训练,检索质量更高:
    • 阿尔巴尼亚语、阿拉伯语、阿塞拜疆语、孟加拉语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、格鲁吉亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、哈萨克语、高棉语、韩语、拉脱维亚语、立陶宛语、马来语、马拉地语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语。
  • 代码检索:模型在 9 种编程语言(Python, Go, Java, JavaScript, PHP, Ruby, SQL, C, C++)上进行了训练,支持跨语言代码检索。

3. 技术架构革新(R1 到 R2 的变化)

R2 版本是对 R1(基于 XLM-RoBERTa,512 token 上下文)的从头重建,主要变化包括:

  • ModernBERT 架构
    • 结合了过去五年 Transformer 研究的技术。
    • 交替注意力长度:显著降低长序列的计算量,提高吞吐量。
    • 旋转位置嵌入(Rotary Position Embeddings):支持 32K 上下文窗口,无需旧架构中常见的插值技巧。
    • Flash Attention 2.0:在现代 GPU 上加速编码。
  • Tokenizer 优化
    • 放弃了 XLM-RoBERTa 的 250K 词表。
    • 311M 模型:使用 Gemma 3 tokenizer(262K 词表)。
    • 97M 模型:从 GPT-OSS tokenizer 开始,剪枝至紧凑的 180K 词表,在保留广泛多语言覆盖的同时减少嵌入表参数。
    • 注:Tokenizer 效率至关重要,高效的词表能更充分利用 32K 上下文窗口。

4. 训练流程

  • 全尺寸 311M 模型训练

    1. 知识蒸馏:从 Granite 3.3 Instruct 和 Mistral v0.2 Instruct 解码器模型(经过文本嵌入微调)中同时学习,将检索特定知识转移到编码器架构中。
    2. 对比微调:在 52 种语言和代码的检索对上进行标准对比训练,使用相关段落和困难负样本, sharpen 模型区分相关与不相关结果的能力。
    3. 模型合并:合并不同训练阶段和配置的检查点,结合不同目标(如多语言广度 vs 英语深度)优化的优势,无需额外计算资源。
    4. Matryoshka 表示学习:训练模型支持可变维度嵌入。
  • 紧凑 97M 模型构建

    • 采用新颖的剪枝方法论,从较大的模型或架构中压缩而来,同时保持检索质量。

5. 企业就绪设计

  • 数据治理
    • 训练数据混合了 IBM 策展的数据集、公开可用数据以及内部生成或合成数据。
    • 公开网络数据经过 IBM 开发的质量、去重和治理流程筛选,以降低下游商业使用的风险。
    • 避免使用 MS-MARCO 训练数据集及具有明确非商业许可限制的数据集。
    • 使用 GneissWeb(IBM 策展的公开网络内容数据集)进行预训练,并经过 IBM 治理审查,评估许可考虑、所有权信号和个人数据风险。
  • 部署优化
    • 提供 ONNXOpenVINO 权重,针对 CPU 推理进行优化。

关键要点

  • 性能突破:97M 参数模型在亚 1 亿参数开源多语言嵌入模型中检索质量第一(MTEB 得分 60.3);311M 模型在 5 亿参数以下开源模型中排名第二(MTEB 得分 65.2)。
  • 上下文扩展:支持 32K token 上下文,是前代 R1 的 64 倍,显著提升了长文档检索能力。
  • 架构升级:基于 ModernBERT 架构,利用 Flash Attention 2.0 和旋转位置嵌入提升效率与长序列处理能力。
  • 多语言与代码:覆盖 200+ 语言,其中 52 种语言经过增强训练;原生支持 9 种编程语言的代码检索。
  • 企业友好:Apache 2.0 开源许可,数据经过
查看原文 →huggingface.co