技术博客arXiv cs.CL·1 小时前

公平与效率兼得：东南亚语言大模型分词器实证研究

原标题：Equity with Efficiency: An Empirical Study of Tokenizers for Multilingual Large Language Models

速览

针对东南亚等低资源语言，研究系统比较了不同分词器在多语言大模型中的表现。结果显示，Parity-aware BPE在压缩效率与跨语言公平性之间实现了最佳权衡，而Morphology-Driven Byte Encoding虽语义推理更强但成本较高。该研究证明跨语言公平性与分词效率并非对立，为设计公平的多语言模型提供了实践指导。

AI 深度解读

Equity with Efficiency: An Empirical Study of Tokenizers for Multilingual Large Language Models

背景

多语言大型语言模型（Multilingual LLMs）的核心挑战之一在于如何高效地将离散的文本转化为连续的神经表示。目前，最先进的多语言 LLM 普遍采用基于字节级的字节对编码（Byte-level Byte-Pair Encoding, BPE）作为分词器（Tokenizer）。这种技术方案在结构上天然偏向高资源语言（如英语）和拉丁字母脚本。

对于使用代表性不足语言（Underrepresented Languages）的用户而言，尤其是东南亚地区的语言使用者，这种结构性偏见导致了两个严重后果：

推理成本激增：由于低资源语言的词汇在 BPE 分词下往往被拆分为更多的子词单元，导致序列长度增加，从而推高了计算和存储成本。
跨语言能力差距扩大：模型在处理这些语言时的性能显著低于高资源语言，加剧了数字鸿沟。

尽管“公平性”与“效率”常被视为权衡关系，但本文旨在通过实证研究探讨是否存在一种既能保证分词效率，又能实现跨语言公平性的解决方案。

核心内容

本研究首次在一个涵盖 11 种东南亚语言的统一基准测试上，系统性地比较了不同公平性导向的分词器。研究不仅停留在分词器层面的压缩效率和公平性分析，还通过控制变量法，使用相同的训练数据训练了参数量为 1.5B 的语言模型，以评估下游任务的实际表现。

研究主要对比了以下几种分词策略及其对模型性能的影响：

1. 研究方法与基准

语言范围：涵盖 11 种东南亚语言，这些语言大多属于低资源或中等资源语言，且文字系统多样（包括拉丁字母、东南亚本土文字等）。
评估维度：
- 压缩效率：衡量分词器将文本转换为 token 的紧凑程度。
- 跨语言公平性：衡量不同语言之间在压缩率、困惑度（Perplexity）等指标上的差异程度。
- 下游任务性能：通过训练 1.5B 参数的语言模型，评估其在实际 NLP 任务中的表现。

2. 主要分词器表现分析

Parity-aware BPE（公平感知 BPE）

表现：在“效率-公平”权衡的帕累托前沿（Pareto frontier）上表现优异。
特点：它实现了具有竞争力的压缩率，同时在不同语言间保持了较强的压缩公平性。
结论：这是一种在成本和性能之间取得良好平衡的方案，适合对计算资源敏感且需要兼顾多语言公平性的场景。

Morphology-Driven Byte Encoding（形态驱动字节编码）

表现：在语义推理任务中取得了最佳性能。
特点：通过保留更丰富的形态学信息（Morphologically richer representations），模型能够更好地理解语言结构。
代价：这种性能提升伴随着更高的计算开销，因为形态信息通常意味着更长的序列或更复杂的处理逻辑。

Byte Latent Transformer (BLT)

表现：在下游任务中表现不佳，低于预期。
原因推测：BLT 架构基于特定的假设（如直接处理字节序列以捕捉局部结构），但这些假设可能与低资源训练数据的局限性不匹配。在数据量有限的情况下，BLT 未能充分发挥其架构优势，甚至可能因为缺乏足够的数据来学习其复杂的隐式表示而导致性能下降。

3. 核心发现

研究结果表明，跨语言公平性与分词效率并非根本对立。通过选择合适的分词策略（如 Parity-aware BPE 或 Morphology-Driven Byte Encoding），可以在不显著牺牲效率的前提下，显著提升低资源语言的处理能力。

关键要点

现有偏见：主流的 Byte-level BPE 分词器在结构上有利于高资源语言和拉丁脚本，导致东南亚等低资源语言面临更高的推理成本和更低的模型性能。
公平与效率可兼得：研究证明，通过精心设计的分词器（如 Parity-aware BPE），可以在帕累托前沿上实现压缩效率与跨语言公平性的最佳平衡。
形态学信息的价值：Morphology-Driven Byte Encoding 通过提供更丰富的形态学表示，显著提升了模型的语义推理能力，尽管其计算成本较高。
架构与数据的匹配至关重要：Byte Latent Transformer (BLT) 在低资源场景下表现不佳，提示我们架构设计必须考虑训练数据的规模和特性，不能盲目套用高资源语言的成功经验。
实证评估的重要性：仅分析分词器的压缩率是不够的，必须通过训练完整的语言模型并评估下游任务，才能真实反映分词策略对模型最终能力的影响。

意义与影响

这项研究对多语言大模型的开发具有重要的指导意义：

推动技术普惠：通过揭示分词器带来的结构性偏见，研究为缩小跨语言能力差距提供了技术路径。这对于开发真正全球化的 AI 模型、服务东南亚及其他非拉丁语系用户群体至关重要。
优化资源分配：对于开发者而言，选择 Parity-aware BPE 可以在控制成本的同时提升多语言性能；而对于追求极致语义理解且算力充足的场景，Morphology-Driven Byte Encoding 是更好的选择。这为模型选型提供了明确的实证依据。
警示架构设计陷阱：BLT 的表现提醒研究者，先进的架构假设需要在足够的数据支持下才能生效。在低资源语言建模中，简单、稳健且对数据依赖较低的分词策略可能比复杂的隐式表示架构更具实用性。
确立评估标准：研究建立了一套涵盖压缩效率、公平性和下游任务性能的全面评估框架，为未来多语言 NLP 研究提供了可复现的基准。

总之，本文不仅是一份技术对比报告，更是呼吁 AI 社区关注语言公平性的实证宣言。它表明，通过工程上的细微调整（如分词策略的选择），我们可以在不牺牲效率的前提下，构建更加包容和高效的多语言人工智能系统。

查看原文 →arxiv.org