技术博客arXiv cs.AI·6 天前

临床试验中AI与人类-AI交互的趋势：一种混合人机探索

原标题：Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration

速览

本文基于ClinicalTrials.gov数据，分析了AI术语的时间趋势及地理分布，发现相关试验数量显著增加，中美占据主导，欧洲多国增长明显。研究采用GPT-5.5结合人工审核的混合方法，评估了人机在分类AI应用及交互类型上的一致性。结果表明混合筛查可行，但需更清晰的试验报告以解决交互定义的模糊性。

AI 深度解读

AI与临床试验中的人机交互趋势：一种混合式人机探索解读

背景

随着人工智能（AI）技术在医疗领域的渗透，临床试验作为验证新技术安全性和有效性的关键环节，其记录中关于AI术语的使用频率及地域分布呈现出显著变化。然而，如何准确识别和分类临床试验中真正涉及AI的应用，尤其是区分“实质性使用AI”与“仅提及AI概念”，一直是研究中的难点。

本文基于 arXiv 平台发布的预印本论文《Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration》（临床试验中AI与人机交互的趋势——一种混合式人机探索），旨在通过数据分析揭示这一领域的动态演变。研究团队利用来自 ClinicalTrials.gov 注册库的数据，不仅分析了时间维上的术语趋势和地理分布，还尝试了一种前沿的混合工作流：结合生成式 AI 模型（GPT-5.5）与人工审核，以探索更高效、准确地分析临床试验中人机交互特征的方法。

核心内容

1. 研究方法与混合工作流

本研究的核心创新点在于提出并验证了一种“混合人机”（Hybrid Human-AI）的分析流程。具体步骤如下：

数据源：从 ClinicalTrials.gov 检索相关临床试验记录。
筛选机制：采用针对 AI 的特定搜索策略获取记录。
分类执行：
- AI 端：使用前沿生成式 AI 模型 GPT-5.5 对检索到的记录进行初步筛选和分类。
- 人类端：由人工专家对同一批记录进行复核和分类。
对比分析：比较 AI 分类结果与人工分类结果的一致性，重点评估在识别“非实质性 AI 使用”和“人机交互类型”上的表现。

2. 时间趋势：AI 术语的爆发式增长

通过对历史记录的时间序列分析，研究发现与 AI 相关的临床试验数量随时间推移呈现显著上升趋势。近期增长尤为迅猛，主要驱动力来自以下具体技术领域的提及：

机器学习（Machine Learning）
深度学习（Deep Learning）
聊天机器人（Chatbots）
GPTs（生成式预训练 Transformer 模型）
大型语言模型（Large Language Models, LLMs）

这表明临床研发正迅速从传统的统计辅助工具转向基于深度学习和自然语言处理的复杂 AI 系统。

3. 地理分布：中美主导，多国崛起

在地理分布上，全球 AI 相关临床试验呈现出高度集中的特点，但新兴力量正在崛起：

主要贡献者：中国和美国占据了全球 AI 相关临床试验数量的最大份额，显示出两国在该领域的领先地位和投入力度。
新兴热点：近期，包括意大利、法国、西班牙、英国和**土耳其（Türkiye）**在内的多个国家也出现了显著的增长。这反映了 AI 在医疗领域的应用正在从少数科技强国向更广泛的欧洲及欧亚地区扩散。

4. 混合评估结果：一致性与挑战

研究团队随机抽取了 100 份临床试验记录，对 AI（GPT-5.5）与人工分类器进行了对比测试，得出以下关键发现：

高一致性领域：在识别“未实质性使用 AI 的研究”方面，人类和 AI 分类器表现出良好的一致性。这意味着 AI 能够有效地过滤掉那些仅泛泛提及 AI 但实际未应用的研究。
低一致性领域：在分类“人机交互”（Human-AI Interaction）类型时，两者的 agreement（一致性）较低。
主要难点：分歧主要集中在健康专业人员与 AI 交互的描述模糊或信息不足的情况下。当试验方案未清晰界定医生、护士或患者如何与 AI 系统互动时，无论是 AI 还是人类都难以做出精确分类。

关键要点

混合工作流可行性：研究结果表明，采用“AI 初筛 + 人工复核”的混合模式筛选临床试验记录是潜在可行的，能够提高处理效率。
技术热点转移：临床试验中的 AI 应用已从早期的基础机器学习，迅速扩展到以 GPTs 和大型语言模型为代表的生成式 AI 领域。
地域格局：中国和美国是 AI 临床试验的双极中心，但欧洲多国（意、法、西、英）及土耳其的增长势头不容忽视。
报告质量瓶颈：当前临床试验记录中关于“人机交互”的描述普遍存在模糊性，这是导致自动化分类困难的主要原因。
改进方向：为了提高 AI 辅助审查的准确性，未来需要更清晰的临床试验报告标准，以及对“人机交互”定义更加精确的规范。

意义与影响

这项研究不仅描绘了 AI 在临床试验中发展的宏观图景，更对医疗科技监管和研发流程产生了深远影响：

提升监管与审查效率：随着 AI 临床试验数量的激增，传统的人工审查模式面临巨大压力。本研究验证了利用 GPT-5.5 等前沿模型进行初步筛选的有效性，为监管机构（如 FDA、NMPA）和伦理委员会提供了一种可扩展的辅助工具，有助于加快优质 AI 医疗产品的审批进程。
揭示研发盲区：人机交互分类的低一致性暴露了当前临床试验报告规范的不足。这提示研究者和管理者，必须在试验设计阶段就明确定义 AI 的角色、交互界面及责任归属，而不仅仅是将其作为黑盒工具提及。
指导全球研发策略：地理分布数据为跨国药企和 AI 医疗初创公司提供了市场洞察。除了深耕中美市场外，欧洲和土耳其等地正在成为新的增长极，企业可据此调整全球临床试验布局。
推动标准化建设：研究结论强调了“更清晰的报告”和“更精确的定义”的重要性。这将推动行业建立更统一的 AI 临床试验报告标准（类似 CONSORT-AI 等指南的细化），确保数据可解释性、可复现性及安全性评估的严谨性。

总之，该研究标志着 AI 在临床试验中的应用已从“概念验证”阶段进入“规模化探索”阶段，而人机协作的审查模式将成为应对这一挑战的关键基础设施。

查看原文 →arxiv.org