← 返回信息流
技术博客arXiv cs.CL·1 天前

ALEE:任何语言嵌入评估框架发布,跨语言语义测试新工具

原标题:ALEE: Any-Language Evaluation of Embeddings via English-Centric Minimal Pairs

速览

ALEE是Sentence Smith框架的跨语言扩展版本,它利用Abstract Meaning Representations生成英文最小对并翻译成目标语言,形成针对性诊断工具。研究覆盖275种语言和三组平行数据集,测试结果显示模型在语言流行度、子词分词和文本长度上存在明显差距。这不仅填补了现有基准的静态、领域局限和过拟合问题,还为大模型在全球语义任务中的公平评估打开新路径。代码已开源,助力AI行业提升跨语言表现。

AI 深度解读

ALEE: Any-Language Evaluation of Embeddings via English-Centric Minimal Pairs

背景

文本嵌入(text embeddings)是语义相似性任务的标准工具,但其评估长期以来仍面临挑战。现有基准测试静态、覆盖语言有限、常为领域特定、易过拟合,且对低资源语言代表性不足。中文科技编辑分析认为,这直接导致对嵌入模型在跨语言语义表示上的诊断能力不足,特别是在低资源语言和长文本场景下。

arXiv cs.CL 论文标题为 ALEE: Any-Language Evaluation of Embeddings via English-Centric Minimal Pairs,作者包括 Andrianos Michail、Stylianos Psychias、Michelle Wastl 等,提交于 2026 年 6 月 30 日。论文提出了一种新型评估框架,旨在解决上述局限。该框架基于 Sentence Smith(Li et al., 2025)扩展至跨语言和段落级别,利用 Abstract Meaning Representations(AMR)生成受控的英语最小对(minimal pairs),并将其与目标语言翻译配对。

此设计使任何具有英语平行数据的语言都能进行针对性诊断。论文通过大规模实证研究评估了多种嵌入模型和 275+ 语言,涵盖三套平行数据集。结果显示,模型性能在语言、文本长度和语言现象上存在显著差异,暴露了跨语言语义表示的持续差距,这些差距与训练资源中的语言普及度和子词分词(subword tokenization)密切相关。

论文代码、数据和评估集已在 GitHub 发布(https://github.com/Andrian0s/any-lang-embed-eval),以促进开放研究。

核心内容

论文核心内容围绕 ALEE 框架展开:它不是静态基准,而是动态、最小对驱动的评估体系。作者首先解析英语源句子为 AMR 图(Abstract Meaning Representation,一个形式语义表示,明确实体角色、否定、因果等关系),再对英语侧应用规则式语义编辑生成“foil”(混淆项或干扰项),接着从修改后的 AMR 生成新句子,并将原句子与 foil 配对翻译成目标语言。

这一过程形成英语-目标语言-foil 的三元组:英语源句子、英语 foil(语义微调后)和目标语言翻译。评估时,模型需判断是否将原英语句子与目标语言翻译的相似度高于英语 foil 与目标语言翻译的相似度。这体现了“英语中心”最小对:通过英语侧的精确语义控制,测试目标语言嵌入模型对细粒度语义差异(如极性、论元角色、反义词)的保留能力。

语义操作类型包括四种(映射至 Table 1):

  • Polarity Negation (PN):添加 :polarity 属性,否定谓词真值(如“相信”改为“不相信”)。区分矛盾/相反语义关系,测试句法与形态否定。
  • Role Swap (RS):交换 :ARG0(施事者)和 :ARG1(受事者),测试对论元结构的敏感度。
  • Antonym Replacement (AR):用 WordNet 反义词替换概念节点,测试词义对立。
  • Hypernym Substitution (HS):用上位词替换概念,测试抽象层次和双向蕴涵关系。

为确保 foil 质量,作者采用双向蕴涵过滤器(Steen et al., 2023 的鲁棒 NLI 模型):若原句与 foil 均蕴涵或任一方向蕴涵概率 >0.8,则舍弃候选。生成后支持迭代段落操作,使框架扩展至段落级别。

实证研究覆盖多样化嵌入模型(包括 Alibaba_NLP_gte_multilingual_base、BAAI_bge_m3、Qwen3_Embedding 系列、jina_embeddings_v3 等)和 275+ 语言。结果显示:

  • 性能在语言、文本长度、语言现象上显著差异。
  • 较短句子更易;较长多句文本显著更难,即使仅扰动一句。
  • 性能与训练语料中语言普及度、子词分词覆盖直接相关。
  • 特定操作难易度不同:极性否定易于分辨,论元角色反转、反义替换、抽象层次变化更难区分。
  • 即使强模型也无法解决所有最小对;解码器模型不优于编码器;预训练 vs 微调分布对 per-language 性能影响显著。

论文强调,ALEE 相比 Sentence Smith 实现了跨语言和段落扩展,使评估动态、可诊断且适用于任何有英语平行数据的语言。

关键要点

  • ALEE 通过 AMR 在英语侧生成受控最小对(PN、RS、AR、HS 四种操作),配对目标语言翻译,形成动态跨语言诊断框架。
  • 任何语言均可使用,依赖英语平行数据,不再局限于静态、高资源语言或特定领域。
  • 实证覆盖 275+ 语言、三套平行数据集,暴露语言普及度与子词分词对性能的强相关性。
  • 模型性能随文本长度(长文本更难)和语言现象(结构反转、抽象层次更难)显著变化,强模型仍无法解决全部最小对。
  • 框架结合英语语义控制与目标语言平行数据,提升嵌入模型解释性和细粒度诊断能力。

意义与影响

ALEE 标志着嵌入评估从静态、粗粒度转向动态、细粒度跨语言诊断,为研究者提供精准工具分析模型在语义表示中的局限(如对低资源语言或特定现象的欠敏感性)。这有助于提升模型可靠性,尤其在信息检索、聚类和跨语言对齐等任务中。

中文科技编辑指出,其发布的数据集和框架将促进社区开放研究,推动嵌入模型更透明、跨语言一致性提升。长期看,此方法或成为多语言 NLP 评估新标杆,加速低资源语言嵌入性能优化,并减少过拟合风险,为语义相似性应用提供更坚实基础。

查看原文 →arxiv.org