技术博客arXiv cs.CL·3 天前

基于RAG与多模型投票评估ChatGPT生成生物医学关联

原标题：Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

速览

该研究提出了一种评估ChatGPT生成以疾病为中心的生物医学关联能力的协议。通过结合生物医学本体验证实体，并利用文献验证关联，确保生成内容的准确性。为解决本体精确匹配限制，研究引入了基于检索增强生成（RAG）和开源大语言模型的多模型多数投票工作流，以建立内容真实性并有效揭示大模型的幻觉问题。

AI 深度解读

基于 RAG 与跨模型多数投票工作流评估 ChatGPT 在生物医学关联生成与验证中的表现

背景

随着大型语言模型（LLMs）在自然语言处理领域的飞速发展，其在生物医学领域的应用潜力日益凸显。然而，LLMs 固有的“幻觉”问题（即生成看似合理但事实错误的内容）在严谨的生物医学研究中构成了重大障碍。特别是在疾病为中心的生物医学关联生成任务中，准确识别实体（如基因、蛋白质、疾病）及其相互关系至关重要。

现有的评估方法往往局限于简单的文本匹配或单一模型的自我验证，难以全面反映模型在复杂生物医学知识图谱中的真实能力。此外，生物医学本体（Ontologies）的精确匹配限制使得自动化的实体验证变得困难。因此，亟需一种能够结合外部知识检索、多模型交叉验证以及严格本体对齐的标准化评估协议，以量化 ChatGPT 等模型在生成和验证生物医学关联时的可靠性。

核心内容

本文提出了一套完整的协议，旨在评估 ChatGPT 生成以疾病为中心的生物医学关联的能力。该协议不仅涵盖了关联生成的流程，还详细阐述了如何利用生物医学本体验证生物实体，以及如何通过文献验证这些关联。

1. 生成与验证流程

该协议的核心在于构建一个闭环工作流：

关联生成：利用 ChatGPT 生成以特定疾病为中心的潜在生物医学关联。
实体验证：使用生物医学本体（如 UMLS、MeSH 等）对生成的生物实体进行标准化和验证，确保其符合标准术语体系。
关联验证：通过检索相关科学文献来验证生成的关联是否具有文献支持。

2. 自一致性策略（Self-Consistency Strategy）

为了评估生成模型在不同 ChatGPT 模型版本或不同运行条件下的可靠性，协议引入了一种自一致性策略。通过多次运行生成任务并比较结果的一致性，可以量化模型的生成稳定性，从而识别出那些虽然单次生成看似合理但缺乏稳定性的“幻觉”内容。

3. 基于 RAG 的语义验证工作流

针对生物医学本体在“精确匹配”（Exact-match）上的局限性，本文提出了一种基于检索增强生成（RAG）的解决方案。该工作流利用开源大型语言模型（LLMs）作为底层引擎：

跨模型真理确立：开源 LLMs 被用来审查和验证由 ChatGPT 生成的内容。这种“LLM 验证 LLM”的机制有助于暴露 ChatGPT 的幻觉。
语义验证：通过 RAG 技术，系统能够检索与生成内容相关的上下文信息，并进行语义层面的比对，而不仅仅是依赖关键词匹配。这使得即使在没有完全匹配的本体术语时，也能通过语义相似度判断关联的有效性。

4. 技术架构

整个工作流依赖于 RAG 架构，它允许模型在生成答案之前先检索外部知识库。结合开源 LLMs 的强大处理能力，该协议实现了一个自动化、可扩展的评估框架，能够大规模地处理生物医学数据。

关键要点

标准化评估协议：提出了一套从生成、实体本体验证到文献验证的全流程评估标准，填补了生物医学 LLM 评估领域的空白。
解决本体匹配局限：通过引入基于 RAG 的语义验证工作流，克服了传统生物医学本体精确匹配带来的僵化问题，提高了验证的灵活性和准确性。
跨模型多数投票机制：利用开源 LLMs 对 ChatGPT 生成的内容进行交叉验证，通过“多数投票”或一致性检查来识别和过滤幻觉。
自一致性评估：引入自一致性策略，用于衡量 ChatGPT 在不同模型或参数设置下的生成可靠性，为模型选择提供依据。
开源 LLM 的关键角色：强调开源 LLMs 在验证闭源模型（如 ChatGPT）输出中的重要作用，展示了开源模型在构建可信 AI 工作流中的价值。
RAG 赋能的真理确立：证明了 RAG 技术结合 LLMs 能够有效建立生成内容的“真理”基准，显著降低生物医学领域的错误信息传播风险。

意义与影响

这项研究对于推动大型语言模型在生物医学领域的可信应用具有重要意义。首先，它提供了一套可复现、标准化的评估方法，使得研究人员能够客观地比较不同 LLM 在生物医学任务中的表现，而不仅仅依赖于主观判断。

其次，该协议揭示了当前主流商业模型（如 ChatGPT）在生物医学知识准确性方面的局限性，并展示了如何通过技术手段（如 RAG 和跨模型验证）来缓解这些问题。这对于开发更可靠的生物医学辅助诊断、药物发现和知识图谱构建工具至关重要。

最后，该工作流强调了开源 LLMs 在验证闭源模型输出中的独特价值，为构建更加透明、可解释且安全的 AI 系统提供了新的思路。随着生物医学数据的爆炸式增长，此类自动化、高精度的评估和验证协议将成为连接 AI 技术与生物医学研究的关键桥梁。

查看原文 →arxiv.org