技术博客arXiv cs.AI·3 小时前

LLM智能体盲目服从GNN工具，模型越强越盲从

原标题：When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More

速览

研究揭示配备图神经网络（GNN）作为工具的LLM智能体并未发挥判断力，而是盲目采纳GNN输出，沦为“鹦鹉”。实验表明，随着LLM骨干模型能力提升，这种盲从现象反而加剧。尽管存在更优的替代方案，智能体仍倾向于依赖冻结的GNN，表明可靠的选择性调用受限于可用信息而非仅由路由设计决定。

AI 深度解读

当工具做决定时：LLM 智能体对图神经网络的盲目服从，以及更强基座模型更倾向于服从

背景

随着大语言模型（LLM）智能体（Agents）在复杂任务中的表现日益受到关注，一种常见的增强策略是为智能体配备外部工具（Tools），以弥补其自身能力的不足。其中，将图神经网络（GNN）作为可调用工具嵌入 LLM 智能体，成为处理结构化或关系型数据（如社交网络、引文网络）的一个热门研究方向。

现有的研究通常隐含一个假设：LLM 智能体具备“判断力”（Judgment），能够根据具体情境决定何时、以及如何依赖这些外部工具。然而，这种假设是否成立？智能体是真的在“使用”工具，还是仅仅在“服从”工具？

这篇来自 arXiv（cs.AI，2026年6月提交）的论文《When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More》直接挑战了这一假设。作者通过受控实验，测试了 LLM 智能体在面对冻结的（Frozen）GNN 工具时的真实行为，揭示了智能体在工具调用中存在的严重“盲目服从”现象，并发现这种服从行为随着模型基座能力的增强而加剧。

核心内容

实验设置与方法

为了验证智能体是否具备对工具的判断力，作者设计了一个严格的实验环境：

任务场景：节点分类（Node Classification）。
数据集：使用文本属性图数据集 ogbn-arxiv，并在 WikiCS 上进行了复现。
工具配置：将一个冻结的 GNN 作为显式工具暴露给采用 ReAct 范式（Reasoning and Acting）的 LLM 智能体。冻结意味着 GNN 的参数不会随智能体的交互而更新，其输出是静态的、确定的。
评估指标：测量智能体的最终预测与原始 GNN 输出的一致性（Agreement），以及智能体是否真正执行了推理，还是直接采纳了 GNN 的结果。

主要发现：从“使用”到“鹦鹉学舌”

实验结果令人震惊：LLM 智能体并没有表现出对工具的独立判断。

极高的服从率：在 5 次随机种子实验中，智能体的预测结果与原始 GNN 的输出一致率高达 97.6% - 99.2%。
行为本质：智能体并没有利用 GNN 的输出作为推理的一个环节，而是直接将其作为最终答案。这种行为被作者形象地描述为“GNN 鹦鹉”（GNN Parrot）——智能体全盘采纳了工具的输出，完全绕过了自身的推理过程。

模型能力与服从度的正相关

作者进一步扫描了不同规模的基座模型（Backbone），从 Qwen2.5 的 0.5B 到 7B 参数，以排除“服从”仅仅是因为模型太弱而无法独立完成任务这一可能性。

服从度随能力增强：数据表明，服从并非弱模型的缺陷。相反，在能够成功调用工具的模型中，随着模型规模从 1.5B 增加到 7B，其与 GNN 输出的一致性从 0.60 飙升至 0.98。
结论：更强的基座模型不仅没有表现出更多的独立判断，反而更加倾向于盲目服从 GNN 工具。

盲目服从的成本与替代方案的潜力

如果智能体能像“预言机”（Oracle）那样，根据具体情况选择是否调用 GNN，或者选择其他更简单的工具，性能会有多大提升？

性能差距扩大：
- 当智能体具备选择权时（Per-node Oracle），其性能显著优于“鹦鹉”模式。
- 在 3B 模型上，Oracle 比鹦鹉模式高出 0.09-0.18；在 7B 模型上，差距扩大至 0.12-0.22。
- 在高同质性（High Homophily，即邻居节点标签倾向于相同）的数据集中，这一差距几乎翻倍。这是因为“鹦鹉”模式被锁定在固定的 GNN 输出上，而智能体的其他替代方案（如简单的邻居标签工具）在高同质性场景下表现更好。
- 具体案例：在 7B 模型下，一个简单的“邻居标签工具”（Neighbour-label tool）在高同质性场景下的准确率（0.81）甚至超过了 GNN（0.71），但智能体依然选择服从 GNN。
选择性调用的局限性：
- 作者尝试引入一个简单的“选择性调用门控”（Selective-invocation gate），试图让智能体在必要时才调用 GNN。
- 结果：该门控仅恢复了高同质性差距的一半左右（从 0.71 提升至 0.83），并未带来全局性能的提升。
- 根本原因：在标准测试集特征下，最佳可实现的选择性门控性能上限仅能达到 Oracle 提升空间的三分之一左右。这表明，可靠的“选择性调用”受限于智能体可用的信息量，而不仅仅是路由算法（Router Design）的设计问题。

关键要点

智能体缺乏判断力：LLM 智能体在配备 GNN 工具时，并未行使“何时使用”的判断权，而是以 97.6%-99.2% 的一致性直接采纳 GNN 输出，沦为“鹦鹉”。
强者更强地服从：盲目服从不是弱模型的缺陷。随着基座模型（Qwen2.5 1.5B-7B）能力的增强，其对 GNN 的服从度反而从 0.60 上升至 0.98。
固定工具的僵化性：由于 GNN 是冻结的，智能体无法根据数据特性（如高同质性）灵活切换更优策略。例如，在高同质性场景下，简单的邻居标签工具优于 GNN，但智能体仍固执地选择 GNN。
信息瓶颈限制优化：简单的选择性调用机制无法完全解决盲目服从带来的性能损失。受限于输入特征提供的信息，智能体难以在测试时实现完美的动态路由。
评估范式的警示：当前对“智能体+工具”系统的评估往往错误地假设智能体能叠加判断力。实验证明，这种假设在 GNN 工具场景下是不成立的。

意义与影响

这篇论文对当前 LLM 智能体与外部工具集成的研究提出了重要的警示：

重新审视“智能体”的定义：在工具增强型智能体中，所谓的“智能”可能只是工具能力的镜像。如果智能体只是简单地转发工具输出，那么将其称为“智能体”可能名不副实。研究者需要区分“工具调用”与“工具服从”。
工具设计的必要性：不能指望通过单纯扩大 LLM 基座规模来涌现出“选择性调用”的能力。必须从架构层面显式设计选择性调用机制（Selective Invocation），并考虑如何为智能体提供更丰富的上下文信息，以支持其做出更优的工具选择决策。
对 GNN+LLM 混合架构的反思：在将 GNN 作为 LLM 工具时，必须警惕 GNN 的静态性（Frozen）与 LLM 的动态推理需求之间的冲突。如果 GNN 无法适应不同数据分布（如高/低同质性），强制 LLM 依赖它将导致性能瓶颈。
未来研究方向：未来的研究应关注如何让智能体获得足够的信息以进行真正的判断，或者开发可微分、可训练的工具接口，而非仅仅将预训练模型作为黑盒工具调用。

查看原文 →arxiv.org