多阶段大模型流水线实现Marathi政府文档结构保留翻译
速览
针对印度Marathi语政府文档翻译中结构丢失和术语不一致问题,提出一种端到端的结构保留翻译框架。该系统结合布局感知OCR、坐标文本提取及大模型翻译,通过HTML重构实现布局保真。实验表明,该方法在结构保持、翻译连贯性和术语一致性上优于传统纯文本翻译流水线。
AI 深度解读
结构保持型文档翻译:基于多阶段 LLM 管道的马拉地语案例研究
背景
在印度的行政体系中,政府文件主要使用马拉地语(Marathi)等区域语言发布。这种语言分布虽然符合本地化需求,但也为母语非马拉地语的读者、跨邦行政机构以及政策分析师带来了巨大的访问障碍。
尽管近年来神经机器翻译(Neural Machine Translation, NMT)在句子级别的翻译质量上取得了显著进步,但现有的翻译系统在处理正式政府文档时存在明显的局限性。主要问题集中在以下三个方面:
- 忽视文档结构:现有系统往往将文档视为纯文本流,忽略了段落、标题、列表等层级结构。
- 格式完整性缺失:翻译后的文档难以保留原始文件的排版布局,导致阅读体验断裂。
- 领域术语不一致:缺乏对政府公文特定术语的上下文感知,导致翻译准确性下降。
这些缺陷限制了现有机器翻译技术在官方文档处理中的实际应用价值。因此,亟需一种能够端到端处理文档,同时保持布局保真度和结构一致性的翻译框架。
核心内容
本文提出了一种结构保持型的马拉地语至英语政府文档翻译框架。该框架旨在通过多阶段大型语言模型(LLM)管道,实现从原始 PDF 文档到结构化 HTML 文档的端到端转换,同时严格维持文档的布局保真度。
该系统的核心工作流程包含以下关键阶段:
-
布局感知的光学字符识别(Layout-aware OCR): 系统首先对输入的马拉地语 PDF 进行 OCR 处理。与传统 OCR 不同,该阶段不仅提取文本内容,还识别文档的视觉布局信息,如文本块的位置、字体大小和层级关系。
-
基于坐标的文本提取(Coordinate-based Text Extraction): 利用 OCR 输出的空间信息,系统提取带有坐标标签的文本片段。这一步骤确保了文本与其在原始文档中的物理位置精确对应,为后续的结构重建奠定基础。
-
基于大型语言模型的翻译(LLM-based Translation): 提取的文本片段被送入大型语言模型进行翻译。在此阶段,系统不仅进行语言转换,还利用 LLM 的语义理解能力,确保翻译结果在上下文连贯性和领域术语一致性上符合政府公文标准。
-
通过 HTML 表示的结构化文档重建(Structured Document Reconstruction via HTML): 翻译后的文本结合原始的空间坐标信息,被重新映射到 HTML 结构中。系统通过强制执行空间对齐约束,将翻译后的文本嵌入到对应的 HTML 标签(如
<h1>,<p>,<ul>等)中,从而重建出与源文档结构一致的英文文档。
该框架的核心创新在于通过空间对齐约束和保留层级文档元素,确保了源文档与翻译后文档之间的结构一致性。
关键要点
- 端到端处理:系统实现了从非结构化 PDF 到结构化 HTML 文档的完整转换流程,无需人工干预中间步骤。
- 布局保真度:通过引入布局感知 OCR 和基于坐标的提取机制,翻译后的文档在视觉布局上与原文档保持高度一致。
- 结构一致性:框架强制实施空间对齐约束,确保标题、段落、列表等层级元素在翻译过程中不被破坏或错位。
- 术语与连贯性优化:利用 LLM 的上下文理解能力,解决了传统 NMT 在政府公文特定术语翻译上的不一致问题,提升了翻译的连贯性。
- 实证效果:在真实的马拉地语政府 PDF 数据集上的实验表明,该框架在结构保持、翻译连贯性和术语一致性方面均优于传统的纯文本翻译管道。
意义与影响
这项研究对于提升电子政务(e-governance)和行政文档处理的效率与可访问性具有重要意义:
- 打破语言壁垒:为跨邦行政机构、政策分析师以及非马拉地语母语者提供了高质量的政府文档访问途径,促进了信息的公平获取。
- 标准化文档处理:提供了一种可扩展的多语言可访问性解决方案,有助于政府机构标准化其文档发布和翻译流程。
- 技术范式转移:证明了将 LLM 与传统文档处理技术(如 OCR 和 HTML 重建)相结合,可以有效解决复杂文档翻译中的结构和格式难题,为其他区域语言和政府文档的数字化处理提供了可借鉴的范式。
总之,该框架不仅是一项技术改进,更是推动印度多语言行政体系数字化和透明化的重要一步。
