技术博客arXiv cs.CL·14 小时前

大模型文学翻译存在情绪指纹，后编辑可重塑情感倾向

原标题：Emotion Profiling in LLM-Based Literary Translation: Systematic Shifts Across MT and Post-Editing

速览

本文通过对比玛格丽特·阿特伍德作品的机器翻译、后编辑版本及人工翻译，发现大模型在翻译中引入了具有统计显著性的特定情绪指纹。这种系统性的情绪偏差导致作者原有声音的保留有限。研究指出，通过后编辑可以有效重塑翻译的情感轮廓，使其更符合人类规范。

随着大型语言模型（LLM）在自然语言处理领域的迅猛发展，其在机器翻译（MT）任务上的表现已日益成熟。然而，文学翻译不仅仅是语义的转换，更涉及风格、语调以及作者独特“声音”的保留，其中情感色彩的传达尤为关键。

长期以来，学界和业界关注的一个核心问题是：LLM生成的翻译是否保留了源文本的情感特征？或者说，模型本身是否会引入特定的、系统性的情感偏差？此外，当人类译者介入进行译后编辑（Post-Editing, PE）时，这些由模型引入的情感指纹是否会被修正，从而更接近人类译者的情感表达规范？

本研究旨在通过对比分析，深入探讨 LLM 在文学翻译中产生的可识别情感画像，以及译后编辑如何重塑这些情感特征，使其趋向于人类规范。

本研究以玛格丽特·阿特伍德（Margaret Atwood）的著名科幻文学作品《Oryx and Crake》（中文常译作《羚羊与秧鸡》或《奥瑞斯与克雷克》）为测试对象，构建了一个多维度的情感分析框架。

1. 实验设计与数据基准 研究团队选取了该作品的 LLM 翻译版本及其经过人工译后编辑（PE）的版本，并将其与公认的人类翻译版本进行对比。为了建立一个客观的情感基线（Baseline），研究还引入了一个大规模的当代意大利科幻小说语料库，用以衡量不同系统间的情感变异。

2. 分析方法 研究采用了两种主要的情感分析手段：

通过这两种方法的结合，研究对各个翻译系统间的情感细微变化进行了细粒度的分析。

3. 主要发现 研究结果揭示了一个显著现象：机器翻译系统会在翻译过程中引入具有模型特异性（model-specific）且统计显著的情感“指纹”（emotional fingerprints）。这意味着，不同的 LLM 模型倾向于以某种固定的、可预测的方式扭曲或重塑原文的情感色彩。

这种系统性的情感偏移导致了一个直接后果：在未经过充分人工干预的情况下，LLM 翻译难以充分保留原作者独特的声音（author's voice）。换句话说，模型自身的“性格”或训练数据中的情感倾向，往往掩盖了作者原本细腻的情感表达。

LLM 存在情感指纹： 不同的 LLM 模型在翻译文学作品时，会表现出统计上显著且模型特有的情感偏差。这种偏差不是随机的噪声，而是系统性的“指纹”。
作者声音的流失： 由于上述情感指纹的存在，直接使用 LLM 进行文学翻译会导致对原作者独特风格和情感色彩的保留有限。
译后编辑的重塑作用： 虽然原文摘要未详细展开 PE 的具体修正数据，但研究明确指出其核心目标是考察 PE 如何将 LLM 生成的情感画像重塑为“类人规范”（human-like norms）。这暗示了人工干预在纠正模型情感偏差中的关键作用。
多维度评估体系： 研究结合了基于词典的方法和先进的多语言建模技术，提供了比单一指标更细致、更可靠的情感分析视角。
基线对比的重要性： 通过引入大规模当代意大利科幻小说语料库作为基线，研究能够更准确地界定什么是“正常”的情感分布，从而凸显出 LLM 翻译中的异常偏移。

这项研究对文学翻译领域和 NLP 模型开发具有重要的启示意义：

对机器翻译质量的重新定义： 传统的机器翻译评估指标（如 BLEU、TER）主要关注词汇和句法的准确性，往往忽略了文学翻译中至关重要的情感保真度。本研究指出，评估 LLM 翻译质量时，必须纳入情感一致性作为关键维度。
人机协作模式的优化： 研究结果支持“人机协作”而非“完全自动化”的翻译模式。既然 LLM 会引入系统性的情感偏差，那么译后编辑（PE）不仅仅是纠错，更是“情感矫正”的过程。这为培训专业译后编辑人员提供了理论依据——他们需要特别关注模型带来的情感偏移。
模型可解释性与控制： 识别出“模型特异性”的情感指纹，意味着我们可以通过分析这些指纹来理解模型的内在偏好。未来，开发者可能通过微调或提示工程（Prompt Engineering）来抑制这些不必要的系统性情感偏差，从而更好地模拟特定作者的风格。
文学数字化的新视角： 对于希望利用 AI 进行经典文学作品数字化或跨语言传播的出版机构而言，本研究提醒他们不能盲目依赖自动翻译，必须建立严格的人工审核机制，特别是针对情感色彩和风格一致性的审核，以保护文学作品的艺术完整性。

总之，这项研究揭示了当前 LLM 在文学翻译中的局限性——即情感表达的机械化与系统性偏移，并强调了人工智能在“情感矫正”环节不可替代的价值。