计算语言学揭示孟加拉佛教与性力派词汇传承
速览
该研究通过计算语料库方法,分析了孟加拉和梵语8至19世纪八层传统文献的词汇关系。核心发现证实,佛教密宗词汇在帕拉王朝寺院崩溃后,确实被孟加拉性力派传统吸收,且这种词汇重叠具有特定性而非梵语通用特征。研究首次为历史上关于孟加拉佛教与性力派融合的观点提供了定量多传统佐证。
AI 深度解读
从金刚乘度母到孟加拉巴乌:孟加拉地区佛教、性力派与毗湿奴派传统间的词汇传播计算研究
背景
孟加拉地区(Bengal)拥有极其丰富且层累深厚的宗教文学传统,其历史跨度从公元8世纪一直延续至19世纪。这一时期涵盖了多种主要宗教流派的发展与交融,包括佛教金刚乘(Vajrayana)、性力派坦特罗(Shakta Tantra)、毗湿奴派(Vaishnava)以及后来的巴乌(Baul)神秘主义传统。
长期以来,历史学家和语言学家提出过一个假设:随着帕拉王朝(Pala Dynasty)寺院体系的崩溃,佛教金刚乘的词汇并未完全消失,而是被吸收并融入了孟加拉地区的性力派坦特罗传统中。然而,这一观点长期停留在定性描述和历史论证阶段,缺乏量化的数据支持。此外,不同宗教传统之间的词汇借用、融合与排斥关系,也缺乏系统的计算语言学分析。
本研究旨在通过计算语料库方法,填补这一空白。研究团队构建了一个包含75部文本的语料库,涵盖孟加拉语和梵语两种语言,时间跨度长达千年,试图量化验证上述历史假设,并揭示不同宗教传统间词汇传播的具体路径。
核心内容
研究方法与数据
研究团队收集了8个传统层级的孟加拉语和梵语虔诚文学文本,总计75部作品。为了捕捉词汇层面的细微关系,研究采用了以下技术路线:
- 字符级 N-gram 向量化:使用 TF-IDF(词频-逆文档频率)算法对字符级 N-gram(n-gram)进行向量化处理。这种方法不仅关注单词本身,还能捕捉词缀、复合词结构等形态学特征,对于分析古老语言中的词汇演变尤为有效。
- 余弦相似度分析:通过计算向量之间的余弦相似度,量化不同文本或文本集合之间的词汇重叠程度。相似度越高,表明两者在词汇使用上越接近。
核心发现:佛教与性力派的特定词汇关联
研究最核心的发现在于证实了“佛教-性力派”词汇重叠的特异性(Specificity)。
为了证明这种重叠不是梵语虔诚文学的普遍现象,研究人员引入了一个对照组:12世纪的毗湿奴派梵语经典《吉塔戈文达》(Gitagovinda)。结果显示:
- 对照组结果:《吉塔戈文达》与性力派迦梨(Kali)文本之间的余弦相似度为 0。这意味着,在同一世纪、同一语言(梵语)背景下,毗湿奴派与性力派在词汇上几乎没有重叠。
- 实验组结果:处于佛教向性力派过渡时期的《桥塔拉》(Bridge Tara)文本,与性力派迦梨文本的余弦相似度高达 0.54。
这一 8.5倍 的差异(0.54 vs 0)有力地证明:佛教与性力派之间的词汇相似性并非梵语宗教文学的通用属性,而是特定于“佛教-性力派”这一传播链条的历史遗留结果。
词汇过渡的量化证据
研究进一步分析了三部《布里汉尼拉坦特拉》(Brihannilatantra)中的塔拉(Tara)文本,这些文本被视为性力派向佛教过渡或双向影响的证据。数据显示,这些文本中性力派词汇与佛教词汇的比例在 2.0 到 4.0 之间。这构成了词汇在传播链条中发生实质性过渡的可测量证据。
历史文本中的词汇残留
在18世纪的孟加拉语诗歌中,著名诗人拉姆普拉萨德·森(Ramprasad Sen)创作的迦梨歌曲(Kali songs)保留了明显的佛教词汇残留。统计显示,在这些歌曲中,“迦梨”(Kali)出现了103次,而原本属于佛教金刚乘的“塔拉”(Tara)出现了 56次。这一高频率的共存现象,直观地展示了两种传统在民间信仰层面的深度融合。
巴乌传统的词汇来源
研究还追踪了现代巴乌(Baul)神秘主义传统的词汇来源。巴乌传统深受孟加拉民间宗教影响,其词汇构成呈现出双轨并行的特征:
- 佛教萨希吉亚(Sahajiya)链条:通过早期的《查里亚帕达》(Charyapada)佛教歌曲传承,与巴乌词汇的相似度为 0.31。
- 毗湿奴派孟加拉链条:通过孟加拉语毗湿奴派文学传承,与巴乌词汇的相似度为 0.29。
数据显示,佛教萨希吉亚链条对现代巴乌词汇的影响略强于毗湿奴派链条,但两者均构成了巴乌词汇的重要基础。
关键要点
- 首次量化验证:这是首次通过定量多传统语料库分析,证实了历史上关于孟加拉地区佛教-性力派融合(syncretism)的学术假设。
- 词汇重叠的特异性:佛教与性力派之间的词汇相似性(余弦相似度0.54)显著高于同期毗湿奴派与性力派的相似度(0),证明这种重叠是特定历史传播路径的结果,而非语言本身的普遍特征。
- 过渡文本的证据:《布里汉尼拉坦特拉》中的塔拉文本显示了明确的性力派-佛教词汇比例(2.0-4.0),为词汇过渡提供了可测量的数据支持。
- 民间文学的词汇化石:18世纪拉姆普拉萨德·森的迦梨歌曲中保留了大量佛教词汇(如56次出现的“Tara”),显示了佛教词汇在印度教民间信仰中的长期存续。
- 巴乌传统的多元起源:现代巴乌神秘主义的词汇主要源自两条链条:佛教萨希吉亚链条(相似度0.31)和毗湿奴派链条(相似度0.29),前者影响略大。
- 方法论创新:使用字符级 N-gram 和 TF-IDF 向量化方法,成功捕捉了古老宗教文本中细微的形态学和词汇学关系,超越了传统基于单词计数的分析局限。
意义与影响
这项研究在计算语言学、宗教史学和数字人文领域均具有重要的意义。
首先,它弥合了历史假设与实证数据之间的鸿沟。长期以来,关于孟加拉宗教融合的讨论多基于文献解读和历史推测,本研究通过严谨的数据分析,为“佛教词汇在性力派传统中幸存并被吸收”这一观点提供了坚实的量化证据。
其次,它揭示了宗教传播的复杂网络。研究不仅关注佛教向性力派的单向影响,还指出了毗湿奴派传统对巴乌词汇的贡献,以及佛教萨希吉亚传统在其中的关键角色。这表明孟加拉地区的宗教文化并非简单的线性替代,而是一个多传统交织、词汇相互渗透的动态过程。
最后,该研究展示了计算人文(Computational Humanities)的潜力。通过大规模语料库分析和向量相似度计算,研究者能够处理跨越千年、多种语言、多种宗教传统的复杂文本数据,从而发现人类学者难以凭直觉察觉的宏观模式和细微联系。这种方法为未来研究其他地区的宗教文献传播、文化融合提供了可复制的方法论框架。
总之,从金刚乘的度母到孟加拉的巴乌歌手,这项研究通过数据重现了一段跨越千年的文化记忆,证明了语言不仅是交流的工具,更是历史变迁和文化融合的活化石。
