技术博客arXiv cs.CL·1 天前

PaperPilot：通过工作流诱导实现多轮科学文献搜索代理

原标题：Multi-Turn Agentic Scientific Literature Search via Workflow Induction

速览

PaperPilot是一种多轮科学文献搜索代理，其核心创新是将科学文献搜索建模为工作流诱导问题。给定锚论文和用户查询，PaperPilot构建包含关键词搜索、引用扩展、过滤、评分、重新排序和证据提取等操作的DAG，并通过用户反馈迭代优化查询和流程。我们采用监督式工作流模仿学习和偏好优化训练模型，在多轮交互中显著提升性能。实验表明，PaperPilot-9B相比基线Qwen3.5-9B工具集代理，Hit@5从58.0提升至77.0，MRR从47.5提升至59.4，nDCG@10从26.8提升至32.5，工作流执行错误率从9.5%降至0%。这项研究为文献搜索代理提供了可控、可解释的接口，有助于用户精准对齐复杂科学意图，推动AI辅助科研的效率和可靠性。

AI 深度解读

背景

科学文献检索常常不止于从单一查询中检索论文：用户意图通常是未明确指定的、依赖偏好且在交互过程中不断演变。现有的搜索代理通常依赖固定的流水线或隐式的语言仅推理，这使得它们的搜索策略难以控制、检查和改进。我们提出 PaperPilot，一个多轮文献检索代理，将科学搜索建模为工作流归纳。给定一个锚定论文和用户查询，PaperPilot 构建一个可执行的有向无环图（DAG），包括关键词搜索、引文扩展、过滤、评分、重新排序和证据提取。用户反馈随后用于优化查询和整个工作流本身。我们使用监督式工作流模仿和偏好优化训练 PaperPilot，训练对象是受控工作流破坏。实验表明，PaperPilot-9B 在多轮交互下优于基础 Qwen3.5-9B 工具集代理，Hit@5 从 58.0 提高到 77.0，MRR 从 47.5 提高到 59.4，nDCG@10 从 26.8 提高到 32.5，同时将工作流执行错误从 9.5% 降低到 0%。这些结果表明，显式、可编辑的搜索工作流为将文献检索代理与复杂的科学意图对齐提供了一种有效且可控的界面。

核心内容

科学文献搜索通常涉及不止一次的交互。用户查询常常未明确指定其具体意图、偏好或目标，这使得单轮检索无法满足需求。用户意图会随时间和交互而演变，需要通过多轮对话来澄清和迭代。现有搜索代理多依赖固定的流水线（pipeline），这种方法难以适应动态变化；或者仅依赖语言模型的隐式推理（implicit language-only reasoning），这导致搜索策略难以被用户控制、检查和人工修正。代理的行为黑盒性质让用户难以理解为什么选择了某些结果，也难以指导代理改进方向。

PaperPilot 引入一个创新框架，将科学文献搜索明确建模为工作流归纳（workflow induction）。在给定锚定论文（anchor paper）和用户初始查询的情况下，PaperPilot 自动构建一个可执行的有向无环图（executable DAG）。这个 DAG 由一系列 paper-search operators 组成，包括：

关键词搜索（keyword search）：基于查询和锚定论文生成初始关键词列表，进行初步检索。
引文扩展（citation expansion）：利用锚定论文的引用和被引用文献来扩展检索范围。
过滤（filtering）：对检索结果进行质量过滤，移除低相关或重复内容。
评分（scoring）：为每个结果分配相关性分数。
重新排序（reranking）：根据分数调整结果顺序，提升高质量结果的排名。
证据提取（evidence extraction）：从结果中提取支撑原始查询的直接证据段落或引用。

整个 DAG 设计为可执行结构，意味着它可以被代理独立运行，并支持后续的修改。用户反馈（包括对结果的偏好选择或迭代查询）被整合到两方面：一是更新查询本身，二是对整个工作流进行微调。PaperPilot 训练过程分为两步：

第一步，使用监督式工作流模仿（supervised workflow imitation），让模型学习模仿人类专家定义的理想工作流。通过控制工作流破坏（controlled workflow corruptions），训练样本包含原始正确 DAG 与经过破坏（如增加冗余操作、错误过滤或无效排序）的变体，模型学会从破坏中恢复出正确结构。

第二步，采用偏好优化（preference optimization），利用用户对检索结果的偏好标签进行强化学习优化。偏好数据来自多轮交互，目标是使 PaperPilot 学会产生更符合用户意图的 DAG。

实验设置在多轮交互场景下进行：代理从用户查询和锚定论文开始，逐步迭代直到满足用户目标。测试基准包括 Hit@5（前 5 条结果中至少一条相关）、MRR（平均倒数排名）和 nDCG@10（归一化折损累计增益）。PaperPilot-9B 参数规模与基础 Qwen3.5-9B 工具集代理相当，但在多轮交互中表现显著优越：Hit@5 从 58.0 提升至 77.0，MRR 从 47.5 提升至 59.4，nDCG@10 从 26.8 提升至 32.5。同时，工作流执行错误率从 9.5% 降至 0%，即完全避免了因无效操作或逻辑错误导致的执行失败。这些数据证明，显式的工作流结构使代理的推理和决策过程可解释、可编辑，从而更高效地对齐复杂科学意图。

关键要点

问题痛点：现有搜索代理策略固定或隐式推理，无法灵活应对用户意图演变和偏好变化，难以控制和修正。
核心创新：PaperPilot 将文献检索显式建模为可执行有向无环图（DAG），包含关键词搜索、引文扩展、过滤、评分、重新排序和证据提取六类操作。
训练方法：通过监督式工作流模仿学习从破坏中恢复正确结构，并结合偏好优化使结果更符合用户多轮交互反馈。
性能提升：PaperPilot-9B 在多轮场景下 Hit@5 提升至 77.0（+19.0），MRR 提升至 59.4（+11.9），nDCG@10 提升至 32.5（+5.7），同时将错误率降至 0%。
优势体现：显式可编辑的工作流提供可控界面，帮助代理精准对齐复杂科学意图，无需依赖黑盒推理。

意义与影响

PaperPilot 代表了文献检索代理从“黑盒搜索”向“可编辑工作流”转型的重要一步。它解决了科学文献探索中用户意图动态性和复杂性的核心挑战，使得代理不再依赖固定管道或纯语言模型推理，而是通过显式结构让用户随时干预和优化。这不仅提高了检索效率和准确率（尤其是多轮交互场景），还增强了代理的可解释性和可调试性，为后续代理系统（如专门的科学助理）奠定了基础。

在实际应用中，PaperPilot 可被集成到研究工具中，帮助学者在 arXiv、Google Scholar 或数据库中高效定位相关论文，同时保留人工控制权，避免因错误参数导致的检索偏差。研究层面，它推动了“工作流归纳”技术在计算语言学和信息检索领域的应用，未来可能扩展到其他领域（如化学或物理文献）。商业或服务层面，若商业化，可能形成订阅式科学搜索平台，用户通过简单反馈即可迭代优化代理，显著降低文献调研门槛。

总体而言，PaperPilot 体现了 AI 代理从“模仿人类”到“可编辑模仿”演进的方向，标志着下一代科学文献工具的核心竞争力在于可控性和透明度。随着工具迭代和数据积累，其对齐复杂科学意图的能力将进一步增强，推动 AI 在知识探索中的普惠应用。

查看原文 →arxiv.org

PaperPilot：通过工作流诱导实现多轮科学文献搜索代理

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐