技术博客arXiv cs.CL·3 小时前

计算文体学揭示巴利三藏英译本词汇特征

原标题：Three Buddhist Vocabularies: Computational Stylometry of the English Pali Canon across Sutta, Vinaya, and Abhidhamma

速览

本研究对巴利三藏（经、律、论）的英译本进行计算文体学分析，涵盖超过13万语料段。研究发现各文本均符合齐普夫定律，其中论藏词汇多样性最高，律藏则展现出跨部派的词汇重叠。该工作开源了代码与数据，为宗教文本的量化研究提供了新视角。

AI 深度解读

佛教词汇的三种面貌：跨《经藏》、《律藏》与《论藏》的英语巴利三藏计算文体学分析

背景

巴利三藏（Tipitaka）是南传上座部佛教的核心经典文献，由《经藏》（Sutta Pitaka）、《律藏》（Vinaya Pitaka）和《论藏》（Abhidhamma Pitaka）三部分组成。长期以来，针对巴利三藏的研究多集中于语言学、历史学或宗教学领域，而利用计算语言学方法进行的系统性文体学（Stylometry）分析相对较少。

早期的研究主要集中在《经藏》部分。然而，要全面理解佛教经典的文体特征，必须考察不同体裁之间的差异。《经藏》多为佛陀的教义宣讲，风格偏向叙事与对话；《律藏》是僧团的戒律规范，具有强烈的法律文本特征；《论藏》则是高度系统化的哲学与心理学分类汇编。

本文旨在通过计算文体学方法，对英语翻译版本的巴利三藏进行全面分析。研究不仅扩展了此前仅针对《经藏》的工作，还引入了不同传统（如法藏部、说一切有部）的律藏文本以及不同译者的版本，以量化方式揭示这三类经典在词汇分布、丰富度及术语使用上的显著差异。

核心内容

本研究构建了一个涵盖134,831个文本片段的大型语料库，并采用多种计算指标进行分析。

1. 语料库构成

研究使用的数据主要来源于以下部分，所有数据均以英语翻译版本为基础：

《经藏》（Sutta Pitaka）：基于 Bhikkhu Sujato 的翻译，包含 114,591 个片段（CC0 许可）。
《律藏》（Vinaya Pitaka）：
- Bhikkhu Brahmali 的翻译，包含 7,923 个片段（CC0 2026 许可）。
- I.B. Horner 1938 年的经典翻译，包含 2,826 个片段。
《论藏》相关文本：
- 三部不同英语译本的《阿毗达摩概要》（Abhidhammattha Sangaha，一部论藏入门纲要），共 2,077 个片段。
跨传统律藏文本：
- 来自法藏部（Dharmaguptaka）和说一切有部（Mulasarvastivada）的律藏文本，用于对比不同佛教传统的法律文本特征。

2. 分析方法

研究采用了以下四种主要的计算文体学指标：

齐普夫定律（Zipf's Law）分布：通过普通最小二乘法（OLS）拟合幂指数，分析词频与排名的关系。
移动平均型种数比（MATTR-500）：用于衡量词汇多样性，控制文本长度带来的偏差。
数字-词汇密度：计算数字与词汇的比例，反映文本中量化信息的密集程度。
词汇重叠度：使用 Jaccard 系数和 Szymkiewicz-Simpson 系数衡量不同语料库之间的词汇共享程度。

3. 主要发现

(1) 齐普夫分布的一致性

所有语料库均表现出符合齐普夫定律的分布特征（$R^2 > 0.989$）。

《律藏》的分布最接近理想的齐普夫斜率 -1。
《阿毗达摩概要》（Sangaha）语料库偏离最大。在排名第8的位置，高频词“consciousness”（意识）取代了通常在此位置出现的语法虚词，显示出其作为哲学分类文本的特殊性。

(2) 词汇多样性对比

通过 MATTR-500 指标衡量：

《经藏》和上座部《律藏》的词汇多样性几乎相同（分别为 0.399 和 0.400）。
《阿毗达摩概要》语料库的词汇多样性显著更高（0.560）。这一结果经过大小控制的子采样验证，确认了其并非由文本长度差异导致，而是源于其系统性枚举心理和物质类别的特性。

(3) 数字-词汇密度

《阿毗达摩概要》语料库拥有最高的数字-词汇密度（3.26%）。这与其内容高度一致：该文本系统地枚举了各种心理状态（心所）和物质现象（色法），因此包含大量分类编号和量化描述。

(4) 跨传统的律藏词汇重叠

说一切有部（Mulasarvastivada）的律藏与上座部（Theravada）的律藏在词汇上显示出显著的重叠：

Jaccard 系数为 20.0%。
重叠系数（Overlap coefficient）为 49.1%。这种高重叠度反映了两派佛教在长达两千年的时间里共享的法律传统和戒律渊源。

(5) 同一源文本的不同译本差异

研究对比了同一部律藏源文本的两个英语译本，两者相隔88年出版，但词汇重叠度仅为 24.2%。最具诊断意义的术语转换包括：

Jhana（禅那）：一个译本使用 "musing"（沉思），另一个使用 "absorption"（入定/专注）。
Parajika（波罗夷/重罪）：一个译本使用 "defeat"（击败/破戒），另一个使用 "expulsion"（驱逐）。这些差异揭示了不同译者对佛教核心概念的理解和翻译策略的巨大分歧。

关键要点

体裁决定文体：《经藏》与《律藏》在词汇多样性上高度相似，而《论藏》（以《阿毗达摩概要》为代表）因其系统分类和枚举性质，表现出更高的词汇多样性和独特的词频分布（如高频出现“意识”等实词而非虚词）。
律藏的法律属性：《律藏》的齐普夫分布最接近理想状态，且不同佛教传统（上座部与说一切有部）的律藏文本在词汇上具有高度的历史延续性和共享性，印证了其作为法律文本的稳定性。
翻译的主观性：即使是针对同一源文本，相隔数十年的不同译本在核心术语的选择上可能存在巨大差异（如 Jhana 的翻译），导致词汇重叠度极低。这表明在比较不同佛教文献时，必须考虑翻译版本带来的噪音。
量化的哲学特征：《阿毗达摩》文本中极高的数字-词汇密度（3.26%）是其作为“心理学/哲学分类法”的直接证据，区别于其他两类经典的叙事或法律风格。
方法论局限：本研究仅提供点估计（Point Estimates），未进行统计显著性检验。所有结果均基于描述性统计和计算指标。

意义与影响

这项研究为数字人文和佛教研究提供了一个新的量化视角。

验证经典分类的文体差异：通过数据证实了《经》、《律》、《论》三类经典在文体上的本质区别，为自动文本分类、经典真伪鉴别或作者归属研究提供了基准特征。
揭示翻译对文本分析的影响：研究明确指出，不同译本之间的巨大差异可能掩盖源文本的真实特征。在进行跨文本或跨时代的比较研究时，必须谨慎处理翻译版本的选择，或采用对齐翻译的方法。
促进跨传统比较：通过量化上座部与说一切有部律藏的相似性，为佛教部派分裂前后的法律传统演变提供了实证支持。
开源资源贡献：研究代码和数据作为 Darshana Graph 语料库（arXiv:2606.18222）的开源扩展发布，为后续的计算宗教学、历史语言学研究者提供了宝贵的基准数据集。

总之，该研究展示了计算文体学如何帮助我们从宏观数据层面理解佛教经典的内在结构、历史联系及翻译复杂性

查看原文 →arxiv.org