技术博客arXiv cs.CL·12 小时前

大规模研究揭示：生物医学RAG检索提升有限

原标题：When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

速览

针对生物医学问答的高风险特性，研究对7B至72B参数的多种开源模型进行了大规模评估。结果显示，相比无检索基线，检索仅带来1-2分的微小且不一致的提升，且模型选择的影响远大于检索器或语料库。这表明主要瓶颈并非检索质量，而是模型有效利用检索证据的能力不足。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）