技术博客arXiv cs.AI·7 小时前

TOTEN：基于本体论的巴西葡萄牙语物理量与符号分词框架

原标题：Toten: Knowledge-Based Ontological Tokenization Of Physical Quantities And Technical Notation In Brazilian Portuguese

速览

TOTEN是一种基于知识本体论的分词框架，旨在解决Byte-Pair Encoding在结构化技术实体处理上的语义盲区。该框架通过形式化工程实体本体，将文本映射为类型化区域，并结合Pint、Unicode和RSLP等外部预言机确保鲁棒性。实验表明，TOTEN在单位本体原子性和数值重建指标上均显著优于Quantulum3等最先进基线模型。

AI 深度解读

Toten：基于本体的巴西葡萄牙语物理量与技术符号标记化框架

背景

在自然语言处理（NLP）领域，特别是针对工程、科学和技术文档的处理中，如何将非结构化文本转化为模型可理解的 token（词元）是一个核心挑战。目前主流的 Byte-Pair Encoding (BPE) 等统计标记化方法虽然在词汇压缩上具有极高的效率，但它们本质上是“语义盲”的。这意味着它们无法识别结构化技术实体，往往将物理量、数字、单位以及符号表达式拆解为基于词汇统计的子词片段。这种碎片化处理破坏了技术实体的内在逻辑结构，导致下游任务（如信息抽取、科学计算推理）难以准确理解文本中的数值和单位关系。

为了解决这一问题，研究人员提出了一种新的思路：不再依赖纯粹的统计推导，而是引入知识工程的方法。本文介绍了 TOTEN（Toten: Knowledge-Based Ontological Tokenization），这是一个基于本体的标记化框架，旨在通过形式化工程实体本体（Ontology of Engineering Entities, OEE），对巴西葡萄牙语中的物理量和技术符号进行精确、结构化的标记化。

核心内容

TOTEN 框架的核心在于用“声明式分类”取代“统计推导”。该框架建立在三个关键组成部分之上：

本体构建 (O)：构建了一个形式化的工程实体本体（OEE）。该本体不仅收集了实体类型，还定义了结构原则、组成关系以及可保持的不变量（invariants）。这为理解物理量的构成提供了知识基础。
分类函数 (classify)：该函数负责将原始文本映射为具有类型的区域（typed regions）。它不仅仅是切分文本，而是识别出哪些部分属于数字、单位、变量或符号，并赋予其语义标签。
实例化器族 ({inst_tau})：这一组件生成自描述的结构化表示。通过实例化本体中的概念，系统能够输出包含丰富语义信息的结构化数据，而不仅仅是扁平的 token 列表。

为了确保系统的鲁棒性，TOTEN 确定性地耦合了三个外部“神谕”（Oracles，即权威参考源）：

Pint：用于处理维度分析（dimensional analysis），确保物理量的单位一致性。
Unicode Character Database：用于处理排版符号（typographic），确保特殊符号和字符的正确识别。
RSLP：用于处理葡萄牙语形态学（Portuguese morphology），确保对巴西葡萄牙语语法结构的准确解析。

在评估方面，研究团队构建了一个内部基准测试集 EngQuant（N=800，经过物理验证），并使用了四个巴西葡萄牙语的外部语料库（共 N=1771 个合格案例）。评估指标涵盖了四个通过构造可验证的属性：

本体原子性 (Ontological Atomicity)：实体是否被完整识别，未被错误拆分。
维度等价性 (Dimensional Equivalence)：物理量的维度关系是否保持正确。
排版鲁棒性 (Typographic Robustness)：对特殊符号和格式的适应能力。
数值重建 (Numerical Reconstruction)：从标记化结果中能否准确还原原始数值。

此外，研究还报告了检测召回率（detection recall），以区分“覆盖范围”和“条件原子性”。

关键要点

方法论创新：TOTEN 摒弃了传统的统计标记化，采用基于本体知识的声明式分类。它将物理量视为由数字、单位和符号组成的复合结构，而非简单的字符序列。
多源知识融合：系统通过耦合 Pint（维度）、Unicode（排版）和 RSLP（形态学）三个外部权威工具，实现了跨领域的知识互补，显著提升了处理的准确性和鲁棒性。
性能优势显著：
- 在四个巴西葡萄牙语外部语料库上，TOTEN 实现了 0.775-0.904 的数值重建率，而表现最好的基线模型（Quantulum3）仅为 0.627-0.703。
- 在内部基准 EngQuant 上，TOTEN 的数值重建率达到 0.780，远超基线模型的 0.340。
- 在所有对比实验中，TOTEN 均实现了单位本体原子性。
- 统计检验（McNemar 检验配合 Holm 校正）显示，TOTEN 与基线模型之间的差异具有统计学显著性。
验证有效性：内部基准与外部语料库排名之间的斯皮尔曼相关系数（Spearman correlation）证实了控制基准的并发效度（concurrent validity）。
维度一致性：在维度等价性测试中，TOTEN 表现出与 Pint（其维度权威的来源）统计上的无差异（statistical parity），证明了其在物理维度理解上的可靠性。

意义与影响

TOTEN 的提出标志着技术文本处理从“统计驱动”向“知识驱动”的重要转变。对于依赖高精度技术信息提取的应用场景（如科学文献挖掘、工程数据自动化处理、智能问答系统等），TOTEN 提供了一种更可靠的基础设施。

首先，它解决了传统标记化方法在物理量处理上的根本缺陷。通过保持物理量的结构完整性，下游模型可以更准确地理解数值与单位之间的关系，从而减少因语义碎片化导致的错误推理。

其次，TOTEN 对巴西葡萄牙语的支持填补了非英语技术语言处理领域的空白。通过整合 RSLP 等本地化工具，该框架展示了如何将通用本体论方法与特定语言的形态学特征相结合，为其他低资源或形态复杂的语言提供了可借鉴的技术路径。

最后，TOTEN 的评估体系强调了“可验证性”和“鲁棒性”。通过引入外部权威工具作为校验标准，并构建经过物理验证的基准测试，该研究为技术 NLP 系统的评估树立了新的标准，即不仅要看统计指标，更要看对领域知识结构的保留程度。这对于推动 AI 在科学和工程领域的深度应用具有重要意义。

查看原文 →arxiv.org