技术博客arXiv cs.CL·1 小时前

Morpheus: 面向土耳其语的可逆形态感知神经分词器

原标题：Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

速览

Morpheus是一款针对土耳其语设计的神经形态边界模型，兼具无损分词与词嵌入功能。它通过可微动态规划技术，在训练和推理中分别实现软形态归属与精确分词，确保编码解码可逆。实验表明，Morpheus在压缩率、形态对齐精度及内存效率上均超越现有子词分词器，并在词汇检索任务中表现优异。

AI 深度解读

Morpheus：专为土耳其语设计的形态感知神经分词器与词嵌入模型

背景

土耳其语是一种典型的黏着语（agglutinative language）。在这类语言中，词义主要通过词缀（morphemes，即最小的意义单位）的叠加来构建，而非像孤立语那样依赖独立的词汇。然而，现代大语言模型（LLMs）通常依赖基于语料库统计信息的子词分词器（subword tokenizers，如 BPE、WordPiece 等）来处理文本。

这种通用的分词策略在处理土耳其语时存在显著缺陷：

语义碎片化：统计驱动的分词方式往往会切断承载关键语义的词缀，导致模型难以捕捉完整的词义结构。
不可逆性：特别是 WordPiece 和基于规则的分析器，往往无法将分词输出无损地还原回原始文本，这在需要生成任务的场景中是一个致命弱点。

为了解决这一痛点，研究人员提出了 Morpheus。这是一个专为土耳其语设计的神经形态边界模型，它兼具无损、形态感知的分词器功能，同时还能生成词嵌入（word embeddings）。

核心内容

Morpheus 的核心创新在于其独特的架构设计，旨在同时解决分词的“可逆性”和“形态感知”问题。

1. 可逆的分词机制

Morpheus 是一个无损的分词器。它不依赖任何字符串归一化（string normalization）操作，而是通过构建一个可逆的映射关系，确保数学上的恒等式成立： $$ \mathrm{decode}(\mathrm{encode}(w)) = w $$ 这意味着，无论输入多么复杂的土耳其语长词，经过编码再解码后，都能完美还原为原始文本。这对于生成式任务至关重要，因为只有在分词完全可逆的情况下，生成的文本才能被准确解码。

2. 可微分的动态规划算法

在训练阶段，Morpheus 利用一种**可微分的泊松二项动态规划（differentiable Poisson-binomial dynamic program）**算法。该算法将每个字符层面的边界概率转化为软性的形态成员归属（soft morpheme memberships）。而在推理（inference）阶段，它则输出精确的分割结果。这种设计使得模型能够在保持梯度流动以进行端到端训练的同时，在测试时获得确定性的形态分割。

3. 分词与嵌入的统一

由于 Morpheus 是一个神经网络模型，其前向传播过程具有双重功能：

一方面，它执行形态感知的分词。
另一方面，它直接输出结构化的词嵌入（structured word embedding）。这意味着模型无需额外的步骤即可为每个词生成高质量的向量表示，实现了分词与语义表示的同步优化。

关键要点

极低的比特率：在可逆分词器中，Morpheus 达到了最低的字符比特率（bits-per-character），仅为 1.425。这表明其编码效率极高，能够用更少的信息量表示复杂的土耳其语形态。
形态对齐精度翻倍：Morpheus 在黄金标准形态对齐任务上的表现远超传统子词家族模型。其 MorphScore 宏 F1 值达到 0.61，而传统子词方法仅为 ~0.32，精度几乎翻倍。
显存占用更低：与拥有 64K 词汇量的子词分词器相比，Morpheus 的 GPU 内存使用量减少了约 19%。这对于部署大规模语言模型具有显著的经济和性能优势。
词嵌入性能卓越：
- 在冻结（frozen）状态下，Morpheus 生成的向量在词汇检索任务（root-family MAP）中达到 0.85，在根词验证任务（ROC-AUC）中达到完美的 1.00。
- 它超越了多语言检索器 BGE-M3 和专门针对土耳其语的 BERTurk 模型。
上下文任务的权衡：在依赖上下文和屈折变化的任务（如命名实体识别 NER、格/数探测）中，更厚重的上下文编码器（contextual encoders）仍然占据优势。作者将这一现象归因于 Morpheus 以“词根为中心”的几何结构特性，暗示其在深层句法理解上仍有提升空间，但在形态学和基础语义检索上表现优异。

意义与影响

Morpheus 的提出为非英语、特别是黏着语的大语言模型处理提供了新的范式。

打破英语中心主义的分词局限：现有的主流分词策略大多基于英语等印欧语系语言设计，难以适应土耳其语、芬兰语、匈牙利语等黏着语复杂的形态结构。Morpheus 证明了通过神经形态感知方法，可以更高效地处理这类语言。
提升生成式 AI 的可靠性：由于 Morpheus 是可逆的，它解决了生成任务中常见的“解码错误”问题，使得基于土耳其语的大模型在文本生成、翻译等应用中更加可靠。
资源效率优化：更低的显存占用和更高的编码效率，使得在资源受限的环境中部署高性能土耳其语 NLP 模型成为可能。
形态学研究的工具：Morpheus 不仅是一个工程工具，其高精度的形态对齐能力也为计算形态学（computational morphology）研究提供了高质量的数据和基准。

总之，Morpheus 通过结合神经网络的灵活性与形态学的语言学约束，为土耳其语 NLP 树立了一个新的性能基准，并为其他黏着语的处理提供了宝贵的参考。

查看原文 →arxiv.org