技术博客arXiv cs.CL·7 小时前

MiqraBERT：基于回归微调的圣经希伯来语平行文本检测模型

原标题：MiqraBERT: Regression-Based Sentence-BERT Finetuning for Biblical Hebrew Parallel Detection

速览

针对传统基于词汇重叠的方法在应对改写和同义词替换时失效的问题，研究团队推出了MiqraBERT模型。该模型基于现代希伯来语编码器AlephBERT进行微调，利用1650对标注数据通过余弦相似度回归学习嵌入空间。实验表明，MiqraBERT在分布分离度上比预训练基线提升2.7倍，模糊重叠区域从24%降至6%，在叙事类平行文本检测中召回率达到87.1%。

AI 深度解读

MiqraBERT：基于回归的 Sentence-BERT 微调，用于圣经希伯来语平行文本检测

背景

希伯来圣经（Hebrew Bible）中普遍存在“文本复用”（textual reuse）现象，即同一故事或段落在不同书卷中以不同形式重现。然而，目前计算语言学领域用于检测此类平行文本的方法，在很大程度上仍依赖于简单的词汇重叠（lexical overlap）。这种方法在面对复杂的文本改写时显得力不从心，特别是当平行文本涉及意译（paraphrase）、词汇替换（lexical substitution）或句法重构（syntactic reworking）时，传统方法往往会失效。

为了突破这一局限，研究人员引入了 MiqraBERT。这是一个基于 Sentence-BERT 架构的模型，由 AlephBERT（一个现代希伯来语编码器）微调而来，专门用于检测圣经希伯来语在经文层级（verse-level）的语义相似性。

核心内容

1. 模型构建与训练数据 MiqraBERT 的核心在于其训练数据集的构建。研究团队创建了一个包含 1,650 对标注好的经文及半经文（half-verse）配对的数据集：

正样本（825对）：选自《历代志》（Chronicles）的同步材料（synoptic material，指《历代志》与《撒母耳记》《列王纪》中重叠记载的部分），以及关于诗歌平行主义（poetic parallelism）的基础研究。
负样本（825对）：随机采样的非平行经文对，以确保数据平衡。

2. 方法论：余弦相似度回归 不同于传统的分类任务，MiqraBERT 采用余弦相似度回归（cosine-similarity regression）进行训练。其目标是学习一个嵌入空间（embedding space），使得平行的经文在空间中紧密聚集，而不相关的经文则相互远离。

3. 评估指标与结果 研究通过基于分布的指标（distribution-based metrics），包括 Wasserstein 距离和重叠系数（overlap coefficient），在十个随机种子下对模型的分离效果进行了评估。主要发现如下：

分布分离提升：与预训练基线相比，MiqraBERT 将分布分离度提高了 2.7倍。
模糊区域缩小：模型将难以区分的“模糊重叠区域”从约 24% 大幅降低至约 6%。
叙事文本表现优异：在叙事性同步平行文本中，Recall@10 达到了 87.1%。
诗歌文本表现受限：诗歌平行文本的检测仍然困难，Recall@10 低于 9%。

关键要点

技术路线创新：MiqraBERT 并非从头训练，而是利用现代希伯来语预训练模型 AlephBERT 进行微调，解决了古代语言数据稀缺的问题，并针对圣经希伯来语的语义特性进行了适配。
回归而非分类：通过回归任务学习嵌入空间，使得模型能够量化经文间的语义相似度，而不仅仅是给出“是/否”的二元判断，这有助于更精细地分析文本关系。
体裁依赖性显著：模型在叙事文本（narrative）上的表现远优于诗歌文本（poetic）。这种体裁依赖性的不对称性表明，MiqraBERT 目前可靠的适用范围主要局限于叙事性文本复用。
数据平衡策略：通过精确匹配正负样本数量（各825对），确保了模型在训练过程中不会因数据偏差而产生偏向性。
开源共享：MiqraBERT 模型已公开可用，促进了数字人文和计算语言学领域的进一步研究。

意义与影响

MiqraBERT 的出现标志着计算圣经研究从“词汇匹配”向“语义理解”的重要转变。

解决长尾问题：传统基于词汇重叠的方法无法捕捉意译和句法变化，MiqraBERT 通过语义嵌入空间，能够有效识别那些经过改写但核心意义相同的平行文本，填补了现有方法的空白。
量化文本相似性：引入 Wasserstein 距离和重叠系数等分布指标，为评估模型性能提供了更严谨的统计学依据，而不仅仅是依赖准确率或召回率。
明确应用边界：研究诚实地揭示了模型在诗歌平行检测上的局限性（低于9%的 Recall@10）。这一发现对于数字人文研究者至关重要，它提醒我们在处理不同文学体裁时需采用不同的策略，避免对模型能力产生误判。
推动跨时代语言研究：利用现代希伯来语模型（AlephBERT）微调来服务古代文本，展示了迁移学习在低资源历史语言处理中的巨大潜力，为其他古代语言的研究提供了可借鉴的范式。

总体而言，MiqraBERT 是一个在特定领域（叙事性圣经希伯来语平行检测）具有显著优势的工具，它通过先进的 NLP 技术提升了我们对古代文本复杂关系的理解能力。

查看原文 →arxiv.org