技术博客arXiv cs.CL·1 天前

研究评估大模型将泰卢固古典诗歌译为现代散文的能力

原标题：Translating Classical Poetry into Modern Prose

速览

研究团队发布了Padyam2Gadyam数据集，包含600首13至17世纪泰卢固古典诗歌及其人工验证的现代泰卢固语和英语散文译文。研究对五个主流大语言模型进行了测试，结果显示尽管各模型存在差异，但在两种语言的翻译任务上整体表现仍有较大提升空间。通过定性分析，研究进一步探讨了当前机器翻译评估方法在该特定任务中的能力与局限性。

AI 深度解读

从古典诗歌到现代散文：Padyam2Gadyam 数据集与跨时代语言转换的挑战

背景

自然语言处理（NLP）领域长期以来致力于机器翻译（Machine Translation, MT）和文本摘要任务，但针对文学性极强、结构高度凝练的古典诗歌的自动化转换研究相对较少。特别是对于泰卢固语（Telugu）这类拥有丰富古典文学传统但数字化资源相对稀缺的语言，如何将其13至17世纪的古典诗歌准确、流畅地转化为现代泰卢固语及英语散文，是一个极具挑战性的任务。

这一过程不仅涉及语言层面的转换，更涉及文化语境、修辞手法以及诗歌韵律向散文逻辑的重构。现有的大型语言模型（LLMs）在处理此类任务时，往往难以兼顾诗意保留与散文的清晰表达。为此，研究者提出了 Padyam2Gadyam 数据集，旨在填补这一空白，为评估和改进古典文学到现代散文的自动翻译提供基准。

核心内容

本研究引入了 Padyam2Gadyam，这是一个专门用于将13至17世纪泰卢固古典诗歌翻译为当代泰卢固语和英语散文的数据集。该数据集的核心构成与评估过程如下：

1. 数据集构建

规模与来源：数据集包含600首泰卢固古典诗歌，时间跨度涵盖13世纪至17世纪。
标注质量：所有诗歌均配备了经过人工验证（human-verified）的现代泰卢固语散文译文和英语散文译文。这种高质量的人工标注确保了评估基准的可靠性，避免了机器生成数据可能带来的误差累积。

2. 模型评估

研究者选取了5个当代主流的大型语言模型（LLMs），测试其在以下两个维度的表现：

目标语言：泰卢固语（源语言到现代目标语言）和英语（源语言到跨语言目标语言）。
任务类型：从诗歌形式到散文形式的转换。

3. 实验结果

性能差距：评估结果显示，尽管不同LLM之间存在性能差异，但它们在泰卢固语和英语上的整体表现均显示出巨大的提升空间。目前的模型尚未能完美解决古典诗歌中复杂的隐喻、双关语以及文化特定表达向现代散文转换的问题。
语言差异：模型在英语翻译上的表现通常优于泰卢固语，这反映了低资源语言在LLM训练数据中的代表性不足问题。

4. 定性分析

研究不仅关注定量指标，还通过定性分析探讨了当前机器翻译评估方法在处理此类文学转换任务时的能力与局限性。研究发现，传统的自动评估指标（如BLEU、ROUGE等）往往无法准确捕捉文学翻译中的语义保真度和风格适应性，因此需要结合人工评估和更细致的语言学分析。

关键要点

首创性数据集：Padyam2Gadyam 是首个专注于13-17世纪泰卢固古典诗歌到现代散文翻译的大规模数据集，包含600首经过人工验证的双语（泰卢固语/英语）译本。
LLM 表现不佳：当前5个主流大型语言模型在该任务上的表现均未达到理想状态，表明现有模型在处理高语境、高修辞密度的古典文学转换时存在显著缺陷。
低资源语言挑战：泰卢固语作为低资源语言，其翻译质量普遍低于英语，凸显了多语言LLM在训练数据均衡性上的不足。
评估方法的局限性：传统的自动评估指标难以有效衡量文学翻译的质量，研究强调了结合定性分析和人工评估的必要性。
跨时代语言转换的复杂性：从古典诗歌到现代散文的转换不仅是语言翻译，更是文体、修辞和文化语境的深度重构，这对AI的理解和生成能力提出了更高要求。

意义与影响

Padyam2Gadyam 数据集的发布对计算语言学、数字人文以及低资源语言处理领域具有多重意义：

推动低资源语言研究：泰卢固语是达罗毗荼语系的重要语言，拥有悠久的文学传统。该数据集的建立有助于缓解低资源语言在NLP研究中的边缘化问题，促进更多针对非英语、非印欧语系语言的研究投入。
深化文学计算研究：该研究为“计算文学”（Computational Literary Studies）提供了新的视角，展示了AI如何辅助古典文献的现代化解读和传播，为数字人文研究提供了新的工具和数据基础。
揭示LLM的局限性：通过暴露当前LLM在文学翻译任务上的不足，该研究为模型优化指明了方向，即需要增强模型对文化语境、修辞手法和文体差异的理解能力，而不仅仅是词汇和句法的映射。
促进文化遗产数字化：自动化将古典诗歌转化为现代散文，有助于降低公众阅读古典文学的门槛，促进文化遗产的普及和传承，使古老智慧以更易于理解的形式服务于现代受众。

总之，这项研究不仅提供了一个高质量的数据基准，更引发了对当前AI在处理复杂、高文化负载文本任务时能力的深刻反思，为未来开发更智能、更具文化敏感性的语言模型奠定了基础。

查看原文 →arxiv.org