Bridging Scientific Heritage: An Arabic--Russian Parallel Corpus and LLM Benchmark for Sustainable Knowledge Transfer
AI 深度解读
背景
俄语和阿拉伯语均是全球科学交流的核心语言,承载着庞大的科研成果与文化遗产。然而,这两种语言社区之间存在的显著语言壁垒,严重阻碍了研究成果的双向流动与共享。这种隔阂不仅限制了国际科研合作的广度与深度,更在客观上拖慢了全球可持续发展相关领域的科研进展。当前,针对阿拉伯语-俄语这一特定语言对的高质量科学翻译资源与评估基准仍显不足,亟需专门的语料库与模型来打破这一知识孤岛。
核心内容
本文针对阿拉伯语与俄语之间的科学翻译难题,提出了一套完整的基准测试方案,并配套构建了高质量的平行语料库。
1. 混合平行语料库构建 研究团队编译了一个包含约 27,000 个句子对的阿拉伯语-俄语混合平行语料库。该语料库的语料来源具有广泛性,不仅包含了核心的科学摘要,还引入了通用领域文本(如
查看原文 →arxiv.org
