技术博客arXiv cs.CL·7 天前

OralAgent：集成推理、工具与知识的交互式牙科图像分析

原标题：OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis

速览

本文提出首个牙科专用AI智能体OralAgent，统一了多模态推理、基于工具决策和知识检索。该框架整合22种视觉分析工具与368本经典牙科教材，支持自主规划与多步工作流执行。实验表明，OralAgent在多项基准测试中达到最先进水平，具备高有效性、可解释性及临床适应性。

AI 深度解读

OralAgent：融合推理、工具与知识的交互式牙科影像分析智能体

背景

牙科影像分析在口腔医疗保健中扮演着至关重要的角色，是支持精准诊断和治疗规划的核心环节。尽管近期涌现出针对特定任务和单一成像模态的牙科 AI 模型，但这些模型往往设计孤立，缺乏整合性，限制了其在现实世界临床工作流中的实际应用。现有的解决方案难以应对复杂的临床场景，无法同时处理多模态数据、动态决策以及海量专业知识检索的需求。

为了打破这一局限，研究者提出了 OralAgent，这是首个专为牙科领域设计的 AI 智能体（AI Agent）。它旨在通过端到端的自动化框架，统一多模态推理、基于工具的决策制定以及基于知识的检索，从而弥合专用 AI 模型与复杂临床需求之间的鸿沟。

核心内容

OralAgent 是一个创新的牙科专用 AI 智能体框架，其核心在于将视觉分析、逻辑推理、工具调用和专业知识检索深度融合。以下是该系统的详细构成与功能：

1. 统一的端到端自动化框架

OralAgent 不仅仅是一个单一的预测模型，而是一个能够自主执行复杂工作流的智能体。它集成了以下关键能力：

自主推理与规划：能够根据输入影像和临床问题，自主制定诊断步骤。
工具使用：内置了丰富的分析工具，能够执行具体的图像处理和分析任务。
多步工作流执行：支持从影像输入到最终诊断输出的全流程自动化处理。

2. 强大的工具与知识库集成

为了实现高精度的诊断，OralAgent 接入了庞大的外部资源：

22 种视觉分析工具：涵盖牙科影像处理中的各类具体操作，如分割、测量、特征提取等。
368 本经典牙科教科书：系统整合了广泛使用的经典牙科文献，为智能体提供坚实的理论基础和知识支撑，使其决策具有可解释性和专业性。

3. OralCorpus：大规模双语牙科语料库

为了支持基于检索增强生成（RAG, Retrieval-Augmented Generation）的技术，研究团队构建了 OralCorpus。

规模与质量：这是一个大规模、高质量的双语（中英）文本资源。
数据量：包含 1.348 亿个 token（词元）。
用途：专门用于优化牙科领域的 RAG 系统，确保智能体能够检索到准确、相关的专业知识以辅助推理。

4. OralQA-ZH：中文牙科知识基准

为了评估模型在多学科牙科知识方面的表现，研究团队构建了 OralQA-ZH。

形式：中文多项选择题基准测试集。
规模：包含 798 个问题。
覆盖范围：涵盖 11 个口腔亚专科领域，全面考察模型的专业知识储备。

5. 性能评估与结果

在多个基准测试中，OralAgent 展示了卓越的性能：

MMOral-Uni：在多模态通用牙科任务中表现优异。
MMOral-OPG：在全景片（OPG）分析任务中达到最先进水平。
OralQA-ZH：在中文牙科知识问答中表现突出。

实验结果表明，OralAgent 不仅在准确性上达到了 SOTA（State-of-the-Art）水平，还具备高度的可解释性（通过引用教科书和展示推理路径）和适应性（能够适应不同的临床场景）。

关键要点

首创性：OralAgent 是首个将多模态推理、工具调用和知识检索统一在一个端到端框架内的牙科专用 AI 智能体。
资源集成：系统集成了 22 种视觉分析工具和 368 本经典牙科教科书，实现了“感知-决策-知识”的闭环。
数据基础设施：发布了 OralCorpus（1.348 亿 token 的双语牙科语料库）和 OralQA-ZH（798 题的中文多学科基准），填补了高质量牙科 AI 训练与评估资源的空白。
技术架构：采用检索增强生成（RAG）技术，结合自主规划与工具使用，解决了传统孤立模型无法应对复杂临床工作流的问题。
临床价值：通过实验验证，OralAgent 在多个基准测试中达到 SOTA 性能，证明了其在真实临床环境中的有效性、可解释性和适应性。
开源开放：代码和模型已公开，促进了牙科 AI 领域的进一步研究和应用。

意义与影响

OralAgent 的提出标志着牙科 AI 从“单一任务模型”向“通用智能体”的重要转变。其意义主要体现在以下几个方面：

提升临床工作流的效率与准确性：通过整合推理、工具和知识，OralAgent 能够模拟资深牙医的诊疗思维过程，不仅给出诊断结果，还能提供推理依据和参考知识，有助于提高诊断的准确性和医生的工作效率。
解决“黑盒”问题，增强可解释性：传统深度学习模型往往缺乏可解释性，难以获得临床医生的信任。OralAgent 通过引用教科书和展示工具使用过程，使决策过程透明化，增强了 AI 在医疗场景中的可信度。
推动牙科 AI 生态建设：通过开源 OralCorpus 和 OralQA-ZH，研究团队为社区提供了宝贵的数据和基准，有助于降低牙科 AI 研究的门槛，促进更多高质量模型的开发和评估。
促进多学科融合：OralQA-ZH 覆盖 11 个口腔亚专科，表明该智能体具备处理复杂、多学科交叉问题的能力，为未来开发更全面的口腔健康管理系统奠定了基础。

总之，OralAgent 不仅是一个技术突破，更是牙科 AI 走向临床实用化的重要一步，为未来智能辅助诊断系统的开发提供了新的范式。

查看原文 →arxiv.org