技术博客arXiv cs.CL·1 小时前

AthDGC：首个跨八时期古希腊语依存树库开源发布

原标题：AthDGC: An Open Diachronic Greek Treebank with Indo-European Parallels

速览

AthDGC是首个开源且端到端的古希腊语依存解析树库，涵盖从古风时期到现代希腊语的八个历时阶段。该数据集基于PROIEL XML 2.0标准，实现了《新约》与拉丁语、哥特语等语言的跨语言对齐。研究团队利用Stanza、LaBSE及AwesomeAlign等技术完成标注，为历史语言学和计算语言学提供了重要资源。

AI 深度解读

AthDGC：首个跨历时八阶段的开源希腊语依存句法树库

背景

古希腊语及其后续演变形式（从古风时期到现代希腊语）跨越了数千年的历史，是印欧语系研究中的核心语言之一。然而，长期以来，针对希腊语的自动化自然语言处理（NLP）资源相对匮乏，尤其是缺乏覆盖长历史跨度、具备统一标注标准且开放许可的句法分析数据。

传统的语言学研究往往局限于特定历史时期，难以进行跨时代的比较语言学分析。此外，现有的希腊语语料库大多封闭或仅覆盖单一时期，缺乏像 PROIEL Treebank Family 那样在印欧语系内部进行平行对齐的标准化资源。这种数据缺口限制了基于深度学习的方法在历史语言学、计算语文学以及跨语言对齐任务中的应用。

在此背景下，AthDGC（Athens-PROIEL）项目应运而生。它旨在填补这一空白，提供一个端到端的工作流程和数据集，不仅涵盖希腊语自身的历时演变，还通过与拉丁语、哥特语、古教会斯拉夫语和古典亚美尼亚语的平行对齐，构建了一个具有广泛印欧语系参照价值的资源库。

核心内容

AthDGC 是一个开放许可的依存句法树库（Dependency-parsed Treebank），其核心特征在于其前所未有的历时覆盖范围和标准化的技术架构。

1. 历时覆盖与数据范围 AthDGC 是首个开放许可的希腊语依存句法树库，其数据横跨八个历时阶段：

古风希腊语 (Archaic Greek)
古典希腊语 (Classical Greek)
通用希腊语 (Koine Greek)
晚期古代希腊语 (Late Antique Greek)
拜占庭希腊语 (Byzantine Greek)
晚期拜占庭希腊语 (Late Byzantine Greek)
早期现代希腊语 (Early Modern Greek)
现代希腊语 (Modern Greek)

所有数据均遵循统一的 PROIEL XML 2.0 模式（Schema）。该树库建立在 PROIEL Treebank Family 的基础之上，该家族项目此前已确立了标注模式并为通用希腊语提供了参考集。

2. 跨语言平行对齐 AthDGC 的一个显著创新在于其 verse-level（诗节/经文级别）的跨语言对齐能力。特别是针对《新约圣经》（New Testament），项目实现了与以下四种印欧语系语言的平行对齐：

拉丁语 (Vulgate, 武加大译本)
哥特语 (Wulfila, 乌尔菲拉译本)
古教会斯拉夫语 (Marianus, 马里安努斯译本)
古典亚美尼亚语 (Classical Armenian)

这种对齐使得研究者能够深入探究印欧语系内部不同分支在句法结构和词汇对应上的演变规律。

3. 技术栈与标注流程 该项目采用了一套端到端的自动化与半自动化工作流程：

句法标注：使用基于 Stanford Stanza 的 PROIEL 训练工作流进行依存句法分析。
句子级对齐：利用多语言句子嵌入模型 LaBSE (Language-BERT Sentence Embeddings) 实现句子级别的对齐。
词汇级对齐：通过 AwesomeAlign 程序，利用多语言 BERT 的注意力机制（Attention）实现词汇级别的精细对齐。

4. 发布状态与许可

当前版本：v0.4 版本提供了经过策展的样本数据以及开源工具包。
完整数据：完整的标注语料库分区目前处于 v0.5 版本的审计阶段，托管于希腊国家高性能计算中心（Greek national HPC）。
元数据：定量规模、每个见证者（witness）的诗节计数以及每个时期的标注行数等详细统计信息，将在 v0.5 审计完成后在发布说明中公布。
DOI：Concept DOI: https://doi.org/10.5281/zenodo.20439182

关键要点

首创性：这是已知首个开放许可、覆盖八个历时阶段的希腊语依存句法树库。
统一标准：所有历史阶段的数据均统一在 PROIEL XML 2.0 模式下，确保了数据的一致性和可比性。
多语言平行资源：特别针对《新约圣经》实现了与拉丁语、哥特语、古教会斯拉夫语和古典亚美尼亚语的跨语言对齐，为印欧语系比较研究提供了宝贵资源。
现代化技术栈：结合了 Stanford Stanza、LaBSE 和 AwesomeAlign 等先进的 NLP 模型，实现了从句法分析到跨语言对齐的自动化流程。
开放与透明：采用开放许可，提供开源工具包，并通过 Zenodo 提供 DOI，符合开放科学（Open Science）原则。
持续迭代：项目处于 v0.4 到 v0.5 的过渡期，完整数据正在接受审计，预计将包含更详尽的统计信息。

意义与影响

AthDGC 的发布对计算语言学、历史语言学和数字人文领域具有深远的影响。

首先，它为计算历史语言学提供了关键的基础设施。通过覆盖从古风到现代希腊语的完整时间线，研究者可以量化分析希腊语语法、词汇和句法结构的演变轨迹，验证语言学理论关于语言变化的假设。

其次，其跨语言对齐特性极大地促进了印欧语系比较研究。通过将希腊语与拉丁语、哥特语等亲属语言对齐，研究人员可以更深入地理解原始印欧语（Proto-Indo-European）的句法特征如何在不同分支中分化和发展。这对于重构语言历史和探索语言共性具有重要意义。

此外，AthDGC 的开放许可和标准化格式降低了研究门槛。它使得全球的研究者能够轻松访问高质量的历史语言数据，促进了可重复性研究和协作创新。基于 Stanza 和 BERT 等现代模型的工作流程也为其他低资源或历史语言的处理提供了可借鉴的技术范式。

最后，该项目体现了数字人文与人工智能的深度融合。通过自动化手段处理古老的手稿和文本，AthDGC 不仅保护了文化遗产，还赋予了其新的分析维度，使得千年前的文本能够以机器可读的方式参与现代学术对话。

查看原文 →arxiv.org