技术博客arXiv cs.CL·7 天前

MERIT：基于评分标准指导训练的专家匹配审稿人分配方法

原标题：MERIT: Matching Expertise via Rubric-Informed Training for Reviewer Assignment

速览

针对大规模会议审稿人匹配难题，MERIT提出一种两阶段框架，将基于标准的专家匹配转化为可扩展的监督信号。第一阶段利用强化学习和LLM裁判训练审稿人评估器，精准识别论文所需expertise维度；第二阶段将评估器知识蒸馏为基于嵌入的检索器，实现高效大规模分配。实验表明，该方法在多项基准测试中达到最先进水平。

AI 深度解读

MERIT：基于评分标准引导训练的审稿人匹配专家系统

背景

随着学术出版规模的不断扩大，顶级会议和期刊面临着日益严峻的挑战：如何在海量投稿中，为每一篇论文精准匹配最合适的审稿人（Reviewer Assignment）。这是一个典型的“大规模匹配”难题。

现有的自动化匹配方法主要存在两类缺陷：

信号粗糙：许多方法依赖简单的关键词重叠或作者共现等代理信号（proxy signals）。这些信号往往混淆了“一般相关性”与“真正的专业适宜性”，导致匹配结果不够精准。
标注成本高：另一类方法虽然更精准，但严重依赖昂贵的人工标注数据来训练模型。这种数据获取方式难以扩展，无法适应大规模学术出版的需求。

因此，业界亟需一种既能利用细粒度的专业标准，又能实现大规模可扩展训练的解决方案。

核心内容

针对上述痛点，研究团队提出了 MERIT（Matching Expertise via Rubric-Informed Training，基于评分标准引导训练的专家匹配）框架。这是一个两阶段的系统，旨在将“基于标准的专家匹配”转化为可扩展的“适宜性监督学习”问题。

第一阶段：基于强化学习的审稿人评估器（Reviewer Assessor）

在第一阶段，研究团队训练了一个 Reviewer Assessor（审稿人评估器）。该模块的核心逻辑如下：

需求识别：评估器首先分析论文，识别出论文所需的具体“专业知识维度”（expertise dimensions）。
匹配与决策：将这些需求与审稿人过往发表的工作进行比对，从而生成一个关于“适宜性”（suitability）的决策。
LLM 裁判与奖励机制：这是该阶段的关键创新。系统引入了一个由 LLM Judge（大语言模型裁判）驱动的强化学习框架。裁判依据针对特定论文定制的“专业知识评分标准”（expertise rubrics）来评估匹配质量，并据此提供奖励信号（rewards）。

通过这种方式，系统不再依赖静态的标签，而是通过动态的、基于标准的反馈来优化匹配逻辑。

第二阶段：基于嵌入的检索器蒸馏（Embedding-based Retriever Distillation）

为了将第一阶段的复杂推理能力应用到大规模场景中，研究团队进行了模型蒸馏：

知识蒸馏：将第一阶段训练好的 4B 参数审稿人评估器的预测结果，蒸馏到一个基于嵌入（embedding-based）的检索器中。
高效大规模分配：这个轻量级的检索器能够以极高的效率处理大规模论文与审稿人的匹配任务，实现了从“高精度推理”到“高吞吐量检索”的转化。

实验结果

评估器性能：MERIT 的 4B 参数审稿人评估器在适宜性分类任务上，表现优于更大规模的一般用途 LLM。
检索器性能：最终生成的检索器在 LR-Bench 和 CMU Gold 数据集上均取得了最先进（SOTA）的性能表现。

关键要点

解决核心矛盾：MERIT 成功 bridging（弥合）了“细粒度专业匹配”与“大规模可扩展性”之间的鸿沟。
两阶段架构：
- Stage 1：使用强化学习训练一个复杂的评估器，利用 LLM 裁判和自定义评分标准提供奖励。
- Stage 2：将评估器的能力蒸馏为高效的嵌入检索器，用于实际的大规模部署。
LLM 作为裁判：利用 LLM Judge 结合论文特定的专业知识评分标准（paper-specific expertise rubrics）来生成训练奖励，避免了传统方法中对通用相关性的过度依赖。
性能超越基线：
- 4B 参数的专用评估器优于更大的通用 LLM。
- 最终检索器在 LR-Bench 和 CMU Gold 数据集上达到 SOTA。
开源承诺：代码已开源，促进了学术出版自动化领域的进一步研究。

意义与影响

MERIT 的提出对学术出版生态具有多重重要意义：

提升审稿质量：通过更精准地匹配“专业知识维度”而非仅仅依靠关键词，MERIT 有助于确保审稿人真正具备评估论文特定技术细节的能力，从而可能提高审稿意见的质量和公平性。
降低人工成本：该方法减少了对昂贵人工标注数据的依赖，通过 LLM 驱动的自动奖励机制实现了训练数据的规模化生成，为其他领域的大规模匹配问题提供了可借鉴的范式。
推动 AI 辅助学术出版：随着顶级会议投稿量激增，传统的人工或半自动匹配方式已难以为继。MERIT 展示了如何利用前沿的 LLM 和强化学习技术，构建既智能又高效的自动化基础设施，是 AI for Science 在学术治理层面的重要实践。
方法论创新：将“评分标准”（Rubrics）引入强化学习的奖励函数设计，是一种新颖的思路。它证明了将人类专家的评价逻辑（通过 Rubrics 形式化）转化为机器可优化的目标函数是可行的，这为其他需要复杂标准评估的任务（如代码审查、医疗诊断辅助等）提供了新的技术路径。

查看原文 →arxiv.org