技术博客arXiv cs.CL·1 小时前

计算分析唐诗地域语言指纹以预测诗人籍贯

原标题：Predicting Poets' Origins from Verse: A Computational Analysis of Regional Linguistic Fingerprints in the Complete Tang Poems

速览

该研究基于《全唐诗》和CBDB数据库，将诗人籍贯预测转化为多分类问题，发现语言特征可有效区分南北诗人。研究指出语言距离随地理距离增加而增大，且南北差异在晚唐最为显著，反映了宫廷语言同质化后的区域分化。此外，模型错误具有历史意义，表明可解释机器学习可为文学史研究提供新假设。

AI 深度解读

从诗句预测诗人籍贯：《全唐诗》中区域语言指纹的计算分析

背景

中国古典文学研究长期以来依赖于文本细读和历史文献考证，但在面对海量文本时，传统方法往往难以捕捉宏观的语言演变规律。随着计算语言学和数字人文的发展，利用机器学习模型挖掘古籍中的隐性模式成为可能。

唐代是中国诗歌的巅峰时期，诗人分布广泛，南北方文化差异显著。然而，这种地理和文化差异是否具体投射到了诗人的遣词造句中？即，我们能否仅通过分析诗句的文本特征，就推断出诗人的地理出身？

本研究基于《全唐诗》（Complete Tang Poems）这一庞大的语料库，结合中国传记数据库（China Biographical Database, CBDB）中的历史地理信息，旨在回答一个核心问题：唐代诗人的地理起源是否在其作品中留下了可检测的语言痕迹？

核心内容

数据构建与任务定义

研究团队首先构建了诗人级别的语料库。通过整合《全唐诗》中归属于每位作者的所有诗作，并利用 CBDB 将诗人与其籍贯所在的唐代行政区域（道，Circuit）进行关联，最终涵盖了十个唐代道区的 357 位诗人。

研究将“籍贯预测”框架化为一个多分类问题（Multi-class Classification），旨在预测诗人的广义区域（南方 vs. 北方）以及更精细的道级籍贯。

模型与方法

为了捕捉语言特征，研究采用了两种主要方法：

传统机器学习特征：使用字符级 $n$-gram 的 TF-IDF（词频-逆文档频率）向量，并结合可解释的领域特征，如意象（imagery）、季节（season）和典故（allusion）。
深度学习模型：使用了基于古典中文的 Transformer 模型 GuwenBERT。

主要发现

1. 预测准确率显著高于随机猜测

模型在预测诗人的广义区域（南方 vs. 北方）时，达到了 0.69 的准确率，远高于 0.53 的多数类基线（Majority Baseline）。在更精细的道级籍贯预测上，准确率也高于随机水平。这表明诗人的籍贯确实与特定的语言模式相关。

2. 语言距离与地理距离的相关性

研究发现，不同道区之间的语言距离随着地理距离的增加而增大（Mantel $r=0.40$, $p\approx0.09$，针对九个道区计算）。这为诗歌语言中的“距离衰减效应”（Distance-decay effect）提供了证据，即地理上越接近的地区，其诗歌语言风格越相似。

3. 时间维度的信号交互

语言信号与历史时期存在显著交互：

盛唐时期：南北方的可分离性处于随机水平（Chance level）。这符合历史背景，即帝国鼎盛时期，朝廷推动的语言标准化导致了文化同质化。
晚唐时期：南北差异最为显著。这反映了在帝国中心影响力减弱后，区域语言特征重新凸显并分化。

4. 错误分类的历史意义

模型在早期唐代（Early Tang）出现的“自信错误”具有深刻的历史含义。在这一时期，所有被误判为北方的诗人实际上都是南方人。这反映了当时北方宫廷语言（Northern court idiom）的崇高地位，导致南方诗人可能在创作中无意识地模仿或受到北方标准语的影响。

5. 传统特征与深度学习的对比

研究进一步测试了 GuwenBERT 的表现。当通过分层冻结编码器（hierarchical frozen-encoder representation）处理整个语料库时，GuwenBERT 的表现仅与简单的 TF-IDF 持平，并未超越它。此外，将两者结合并未带来性能提升。这一结果暗示，字符级 $n$-gram 已经充分捕捉到了区域语言信号，复杂的深层语义模型在此任务中并未展现出额外优势。

关键要点

语言指纹存在：唐代诗人的地理籍贯在其诗歌文本中留下了可被计算模型检测到的语言指纹。
预测性能：基于字符 $n$-gram TF-IDF 和领域特征的模型，在区分诗人南北籍贯时准确率达到 0.69，显著优于基线。
地理语言学证据：诗歌语言差异与地理距离呈正相关，验证了语言传播中的距离衰减效应。
历史动态演变：
- 盛唐时期因朝廷推动的语言同质化，南北诗歌语言差异不明显。
- 晚唐时期区域语言特征重新分化，差异达到最大。
社会语言学洞察：早期唐代南方诗人被误判为北方，揭示了当时北方宫廷语言的文化霸权及其对诗人创作的潜在影响。
模型效能对比：对于此类区域语言特征提取任务，简单的统计特征（字符 $n$-gram）与复杂的古典中文 Transformer 模型（GuwenBERT）表现相当，且结合两者无增益，说明浅层统计特征已足够捕捉该信号。

意义与影响

这项研究不仅展示了计算语言学在文学历史研究中的应用潜力，更提供了一个新的方法论视角：可解释的机器学习可以作为文学历史假设的生成器。

量化文学风格：通过数据驱动的方式，将模糊的“风格”概念转化为可量化的语言特征，为研究文学风格的地理分布和时间演变提供了客观依据。
验证历史假说：研究结果有力地支持了关于唐代语言标准化与区域分化历史进程的既有学术观点，并通过数据提供了新的量化证据。
方法论启示：在数字人文领域，并非所有任务都需要最复杂的深度学习模型。对于捕捉特定的、结构化的语言模式，经过精心设计的传统机器学习特征往往更具效率且同样有效，这为后续相关研究提供了模型选择的参考。

总之，该研究证明了通过计算分析《全唐诗》，我们可以从文本中重构出唐代诗人的地理和文化背景，为理解中国古典文学的地理语言学维度开辟了新的路径。

查看原文 →arxiv.org