技术博客arXiv cs.CL·1 天前

G2C-MT：基于图引导上下文选择提升文档级机器翻译

原标题：G^2C-MT: Graph-Guided Context Selection for Document-Level Machine Translation

速览

针对文档级机器翻译中长距离话语依赖建模难题，研究提出G2C-MT框架。该方法将上下文选择视为轻量级话语图上的结构化路径发现，通过语义相似度、邻接性和关键词重叠构建节点关系，并利用深度偏置随机游走采样回溯上下文路径。实验表明，该方法在DeepSeek-V3、Gemini及Qwen等多款大模型上均优于基线，且支持多路径采样以增强对歧义输入的鲁棒性。

AI 深度解读

G^2C-MT：基于图引导上下文选择的文档级机器翻译

背景

文档级机器翻译（Document-level Machine Translation, DocMT）的核心挑战在于捕捉长距离的语篇依赖关系。与传统的句子级翻译不同，DocMT 需要理解文档中不同段落之间的逻辑联系，以确保译文在连贯性、指代消解和术语一致性上的质量。

近年来，研究者们探索了基于检索（retrieval-based）和语篇感知（discourse-aware）的上下文选择方法，试图从文档的其他部分提取相关信息来辅助翻译。然而，现有的方法往往存在局限性：它们通常缺乏显式的机制来建模文档中遥远段落之间结构化的语篇依赖关系。许多方法要么检索非结构化的上下文集合，要么依赖计算成本高昂的大语言模型（LLM）来进行复杂的语篇建模，这在效率和效果之间难以取得平衡。

核心内容

为了解决上述问题，本文提出了 G^2C-MT（Graph-Guided Context for Machine Translation，图引导机器翻译上下文选择框架）。该框架将 DocMT 的上下文选择问题重新定义为一个在轻量级语篇图（lightweight discourse graph）上进行的结构化路径发现（structured path discovery）问题，而非简单地检索非结构化上下文或依赖昂贵的 LLM 语篇建模。

具体实现机制如下：

构建轻量级语篇图：
- 将文档中的每个段落表示为图中的一个节点（node）。
- 对每一对节点之间的关系进行建模，综合考虑三个关键因素：
  - 语义相似度（Semantic similarity）：段落内容在语义上的接近程度。
  - 邻接性（Adjacency）：段落在文档中的物理位置关系。
  - 关键词重叠（Keyword overlap）：段落间共享词汇的程度。
深度偏置随机游走（Depth-biased Random Walk）：
- 为了为每个目标段落采样回溯上下文路径（backward context path），研究者在构建的图上执行深度偏置随机游走算法。
- 这种方法能够有效地探索图结构，找到与当前目标段落最相关且结构上合理的历史段落序列，作为翻译时的提示（prompt）上下文。
LLM 翻译与多路径采样：
- 采样得到的上下文路径被用作提示，输入到大语言模型（LLM）中进行翻译生成。
- 该框架天然支持多路径上下文采样（multi-path context sampling）。对于存在语篇歧义（discourse-ambiguous）的输入，系统可以生成多样化的翻译候选项，并通过聚合这些候选项来提高最终结果的鲁棒性。
实验验证：
- 研究者在多个领域进行了实验，评估了 G^2C-MT 的性能。
- 结果显示，该方法在包括 DeepSeek-V3、Gemini-2.5-Flash-lite 以及 Qwen-2.5/3 系列在内的多种大型语言模型上，均优于强大的基线模型（strong baselines）。

关键要点

问题重构：G^2C-MT 创新性地将上下文选择从“检索非结构化片段”转变为“在结构化图上寻找路径”，更贴合语篇的逻辑结构。
轻量级建模：通过结合语义相似度、邻接性和关键词重叠来构建图关系，避免了使用复杂且昂贵的 LLM 进行全篇语篇建模，兼顾了效果与效率。
结构化路径发现：利用深度偏置随机游走算法，能够精准捕捉长距离的段落依赖，特别适用于处理跨越多个段落的指代和逻辑连贯性问题。
鲁棒性增强：支持多路径采样机制，通过聚合多样化的翻译候选项，有效缓解了语篇歧义带来的翻译错误，提升了模型在复杂场景下的稳定性。
广泛适用性：实验证明该方法具有模型无关性（model-agnostic），在 DeepSeek、Gemini、Qwen 等不同架构的主流 LLM 上均能显著提升翻译性能。

意义与影响

G^2C-MT 的提出为文档级机器翻译提供了一种新的技术范式。它证明了通过显式的结构化建模（如图算法）来引导上下文选择，可以有效弥补纯检索方法在捕捉长距离依赖方面的不足，同时避免了端到端语篇建模的高计算成本。

这一方法不仅提升了现有大语言模型在长文档翻译任务上的表现，也为后续研究如何高效利用文档结构信息提供了参考。特别是在处理法律、医疗、技术文档等对连贯性和术语一致性要求极高的领域，G^2C-MT 所代表的“图引导+LLM”框架具有重要的应用潜力和学术价值。

查看原文 →arxiv.org