← 返回信息流
技术博客arXiv cs.AI·3 小时前

LLM智能体盲目服从GNN工具,模型越强越盲从

原标题:When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More

速览

研究揭示配备图神经网络(GNN)作为工具的LLM智能体并未发挥判断力,而是盲目采纳GNN输出,沦为“鹦鹉”。实验表明,随着LLM骨干模型能力提升,这种盲从现象反而加剧。尽管存在更优的替代方案,智能体仍倾向于依赖冻结的GNN,表明可靠的选择性调用受限于可用信息而非仅由路由设计决定。

AI 深度解读

当工具做决定时:LLM 智能体对图神经网络的盲目服从,以及更强基座模型更倾向于服从

背景

随着大语言模型(LLM)智能体(Agents)在复杂任务中的表现日益受到关注,一种常见的增强策略是为智能体配备外部工具(Tools),以弥补其自身能力的不足。其中,将图神经网络(GNN)作为可调用工具嵌入 LLM 智能体,成为处理结构化或关系型数据(如社交网络、引文网络)的一个热门研究方向。

现有的研究通常隐含一个假设:LLM 智能体具备“判断力”(Judgment),能够根据具体情境决定何时、以及如何依赖这些外部工具。然而,这种假设是否成立?智能体是真的在“使用”工具,还是仅仅在“服从”工具?

这篇来自 arXiv(cs.AI,2026年6月提交)的论文《When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More》直接挑战了这一假设。作者通过受控实验,测试了 LLM 智能体在面对冻结的(Frozen)GNN 工具时的真实行为,揭示了智能体在工具调用中存在的严重“盲目服从”现象,并发现这种服从行为随着模型基座能力的增强而加剧。

核心内容

实验设置与方法

为了验证智能体是否具备对工具的判断力,作者设计了一个严格的实验环境:

  1. 任务场景:节点分类(Node Classification)。
  2. 数据集:使用文本属性图数据集 ogbn-arxiv,并在 WikiCS 上进行了复现。
  3. 工具配置:将一个冻结的 GNN 作为显式工具暴露给采用 ReAct 范式(Reasoning and Acting)的 LLM 智能体。冻结意味着 GNN 的参数不会随智能体的交互而更新,其输出是静态的、确定的。
  4. 评估指标:测量智能体的最终预测与原始 GNN 输出的一致性(Agreement),以及智能体是否真正执行了推理,还是直接采纳了 GNN 的结果。

主要发现:从“使用”到“鹦鹉学舌”

实验结果令人震惊:LLM 智能体并没有表现出对工具的独立判断。

  • 极高的服从率:在 5 次随机种子实验中,智能体的预测结果与原始 GNN 的输出一致率高达 97.6% - 99.2%
  • 行为本质:智能体并没有利用 GNN 的输出作为推理的一个环节,而是直接将其作为最终答案。这种行为被作者形象地描述为“GNN 鹦鹉”(GNN Parrot)——智能体全盘采纳了工具的输出,完全绕过了自身的推理过程。

模型能力与服从度的正相关

作者进一步扫描了不同规模的基座模型(Backbone),从 Qwen2.5 的 0.5B 到 7B 参数,以排除“服从”仅仅是因为模型太弱而无法独立完成任务这一可能性。

  • 服从度随能力增强:数据表明,服从并非弱模型的缺陷。相反,在能够成功调用工具的模型中,随着模型规模从 1.5B 增加到 7B,其与 GNN 输出的一致性从 0.60 飙升至 0.98。
  • 结论:更强的基座模型不仅没有表现出更多的独立判断,反而更加倾向于盲目服从 GNN 工具。

盲目服从的成本与替代方案的潜力

如果智能体能像“预言机”(Oracle)那样,根据具体情况选择是否调用 GNN,或者选择其他更简单的工具,性能会有多大提升?

  1. 性能差距扩大

    • 当智能体具备选择权时(Per-node Oracle),其性能显著优于“鹦鹉”模式。
    • 在 3B 模型上,Oracle 比鹦鹉模式高出 0.09-0.18;在 7B 模型上,差距扩大至 0.12-0.22。
    • 在高同质性(High Homophily,即邻居节点标签倾向于相同)的数据集中,这一差距几乎翻倍。这是因为“鹦鹉”模式被锁定在固定的 GNN 输出上,而智能体的其他替代方案(如简单的邻居标签工具)在高同质性场景下表现更好。
    • 具体案例:在 7B 模型下,一个简单的“邻居标签工具”(Neighbour-label tool)在高同质性场景下的准确率(0.81)甚至超过了 GNN(0.71),但智能体依然选择服从 GNN。
  2. 选择性调用的局限性

    • 作者尝试引入一个简单的“选择性调用门控”(Selective-invocation gate),试图让智能体在必要时才调用 GNN。
    • 结果:该门控仅恢复了高同质性差距的一半左右(从 0.71 提升至 0.83),并未带来全局性能的提升。
    • 根本原因:在标准测试集特征下,最佳可实现的选择性门控性能上限仅能达到 Oracle 提升空间的三分之一左右。这表明,可靠的“选择性调用”受限于智能体可用的信息量,而不仅仅是路由算法(Router Design)的设计问题。

关键要点

  • 智能体缺乏判断力:LLM 智能体在配备 GNN 工具时,并未行使“何时使用”的判断权,而是以 97.6%-99.2% 的一致性直接采纳 GNN 输出,沦为“鹦鹉”。
  • 强者更强地服从:盲目服从不是弱模型的缺陷。随着基座模型(Qwen2.5 1.5B-7B)能力的增强,其对 GNN 的服从度反而从 0.60 上升至 0.98。
  • 固定工具的僵化性:由于 GNN 是冻结的,智能体无法根据数据特性(如高同质性)灵活切换更优策略。例如,在高同质性场景下,简单的邻居标签工具优于 GNN,但智能体仍固执地选择 GNN。
  • 信息瓶颈限制优化:简单的选择性调用机制无法完全解决盲目服从带来的性能损失。受限于输入特征提供的信息,智能体难以在测试时实现完美的动态路由。
  • 评估范式的警示:当前对“智能体+工具”系统的评估往往错误地假设智能体能叠加判断力。实验证明,这种假设在 GNN 工具场景下是不成立的。

意义与影响

这篇论文对当前 LLM 智能体与外部工具集成的研究提出了重要的警示:

  1. 重新审视“智能体”的定义:在工具增强型智能体中,所谓的“智能”可能只是工具能力的镜像。如果智能体只是简单地转发工具输出,那么将其称为“智能体”可能名不副实。研究者需要区分“工具调用”与“工具服从”。
  2. 工具设计的必要性:不能指望通过单纯扩大 LLM 基座规模来涌现出“选择性调用”的能力。必须从架构层面显式设计选择性调用机制(Selective Invocation),并考虑如何为智能体提供更丰富的上下文信息,以支持其做出更优的工具选择决策。
  3. 对 GNN+LLM 混合架构的反思:在将 GNN 作为 LLM 工具时,必须警惕 GNN 的静态性(Frozen)与 LLM 的动态推理需求之间的冲突。如果 GNN 无法适应不同数据分布(如高/低同质性),强制 LLM 依赖它将导致性能瓶颈。
  4. 未来研究方向:未来的研究应关注如何让智能体获得足够的信息以进行真正的判断,或者开发可微分、可训练的工具接口,而非仅仅将预训练模型作为黑盒工具调用。
查看原文 →arxiv.org