技术博客arXiv cs.CL·1 天前

ALEE：任何语言嵌入评估框架发布，跨语言语义测试新工具

原标题：ALEE: Any-Language Evaluation of Embeddings via English-Centric Minimal Pairs

速览

ALEE是Sentence Smith框架的跨语言扩展版本，它利用Abstract Meaning Representations生成英文最小对并翻译成目标语言，形成针对性诊断工具。研究覆盖275种语言和三组平行数据集，测试结果显示模型在语言流行度、子词分词和文本长度上存在明显差距。这不仅填补了现有基准的静态、领域局限和过拟合问题，还为大模型在全球语义任务中的公平评估打开新路径。代码已开源，助力AI行业提升跨语言表现。

AI 深度解读

ALEE: Any-Language Evaluation of Embeddings via English-Centric Minimal Pairs

背景

文本嵌入（text embeddings）是语义相似性任务的标准工具，但其评估长期以来仍面临挑战。现有基准测试静态、覆盖语言有限、常为领域特定、易过拟合，且对低资源语言代表性不足。中文科技编辑分析认为，这直接导致对嵌入模型在跨语言语义表示上的诊断能力不足，特别是在低资源语言和长文本场景下。

arXiv cs.CL 论文标题为 ALEE: Any-Language Evaluation of Embeddings via English-Centric Minimal Pairs，作者包括 Andrianos Michail、Stylianos Psychias、Michelle Wastl 等，提交于 2026 年 6 月 30 日。论文提出了一种新型评估框架，旨在解决上述局限。该框架基于 Sentence Smith（Li et al., 2025）扩展至跨语言和段落级别，利用 Abstract Meaning Representations（AMR）生成受控的英语最小对（minimal pairs），并将其与目标语言翻译配对。

此设计使任何具有英语平行数据的语言都能进行针对性诊断。论文通过大规模实证研究评估了多种嵌入模型和 275+ 语言，涵盖三套平行数据集。结果显示，模型性能在语言、文本长度和语言现象上存在显著差异，暴露了跨语言语义表示的持续差距，这些差距与训练资源中的语言普及度和子词分词（subword tokenization）密切相关。

论文代码、数据和评估集已在 GitHub 发布（https://github.com/Andrian0s/any-lang-embed-eval），以促进开放研究。

核心内容

论文核心内容围绕 ALEE 框架展开：它不是静态基准，而是动态、最小对驱动的评估体系。作者首先解析英语源句子为 AMR 图（Abstract Meaning Representation，一个形式语义表示，明确实体角色、否定、因果等关系），再对英语侧应用规则式语义编辑生成“foil”（混淆项或干扰项），接着从修改后的 AMR 生成新句子，并将原句子与 foil 配对翻译成目标语言。

这一过程形成英语-目标语言-foil 的三元组：英语源句子、英语 foil（语义微调后）和目标语言翻译。评估时，模型需判断是否将原英语句子与目标语言翻译的相似度高于英语 foil 与目标语言翻译的相似度。这体现了“英语中心”最小对：通过英语侧的精确语义控制，测试目标语言嵌入模型对细粒度语义差异（如极性、论元角色、反义词）的保留能力。

语义操作类型包括四种（映射至 Table 1）：

Polarity Negation (PN)：添加 :polarity 属性，否定谓词真值（如“相信”改为“不相信”）。区分矛盾/相反语义关系，测试句法与形态否定。
Role Swap (RS)：交换 :ARG0（施事者）和 :ARG1（受事者），测试对论元结构的敏感度。
Antonym Replacement (AR)：用 WordNet 反义词替换概念节点，测试词义对立。
Hypernym Substitution (HS)：用上位词替换概念，测试抽象层次和双向蕴涵关系。

为确保 foil 质量，作者采用双向蕴涵过滤器（Steen et al., 2023 的鲁棒 NLI 模型）：若原句与 foil 均蕴涵或任一方向蕴涵概率 >0.8，则舍弃候选。生成后支持迭代段落操作，使框架扩展至段落级别。

实证研究覆盖多样化嵌入模型（包括 Alibaba_NLP_gte_multilingual_base、BAAI_bge_m3、Qwen3_Embedding 系列、jina_embeddings_v3 等）和 275+ 语言。结果显示：

性能在语言、文本长度、语言现象上显著差异。
较短句子更易；较长多句文本显著更难，即使仅扰动一句。
性能与训练语料中语言普及度、子词分词覆盖直接相关。
特定操作难易度不同：极性否定易于分辨，论元角色反转、反义替换、抽象层次变化更难区分。
即使强模型也无法解决所有最小对；解码器模型不优于编码器；预训练 vs 微调分布对 per-language 性能影响显著。

论文强调，ALEE 相比 Sentence Smith 实现了跨语言和段落扩展，使评估动态、可诊断且适用于任何有英语平行数据的语言。

关键要点

ALEE 通过 AMR 在英语侧生成受控最小对（PN、RS、AR、HS 四种操作），配对目标语言翻译，形成动态跨语言诊断框架。
任何语言均可使用，依赖英语平行数据，不再局限于静态、高资源语言或特定领域。
实证覆盖 275+ 语言、三套平行数据集，暴露语言普及度与子词分词对性能的强相关性。
模型性能随文本长度（长文本更难）和语言现象（结构反转、抽象层次更难）显著变化，强模型仍无法解决全部最小对。
框架结合英语语义控制与目标语言平行数据，提升嵌入模型解释性和细粒度诊断能力。

意义与影响

ALEE 标志着嵌入评估从静态、粗粒度转向动态、细粒度跨语言诊断，为研究者提供精准工具分析模型在语义表示中的局限（如对低资源语言或特定现象的欠敏感性）。这有助于提升模型可靠性，尤其在信息检索、聚类和跨语言对齐等任务中。

中文科技编辑指出，其发布的数据集和框架将促进社区开放研究，推动嵌入模型更透明、跨语言一致性提升。长期看，此方法或成为多语言 NLP 评估新标杆，加速低资源语言嵌入性能优化，并减少过拟合风险，为语义相似性应用提供更坚实基础。

查看原文 →arxiv.org

ALEE：任何语言嵌入评估框架发布，跨语言语义测试新工具

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐