技术博客arXiv cs.AI·1 小时前

PHREEQC-MCQ-200基准测试：科学模拟代理工具增强的诊断方法

原标题：PHREEQC-MCQ-200: A Diagnostic Benchmark for Tool-Augmented Scientific Simulator Agents

速览

PHREEQC-MCQ-200是专为工具增强科学模拟代理设计的诊断基准，包含200道多选题源自21个验证的PHREEQC场景。代理需构建输入、执行模拟、检查输出并给出答案。实验证明工具访问能显著提升前端与中级模型的聚合准确率，但存在非单调的回归现象，且输出访问协议对性能有关键影响。PHREEQC-MCQ-200将科学工具使用视为端到端诊断问题，推动AI代理评估应纳入项目级保留率、输出敏感度等指标。

AI 深度解读

PHREEQC-MCQ-200: A Diagnostic Benchmark for Tool-Augmented Scientific Simulator Agents

背景

随着大型语言模型（LLM）代理越来越多地与科学软件连接，当前阶段仍未明确当代理获得工具访问权限时，科学计算是否会变得更可靠而非单纯更复杂。为此，本文提出 PHREEQC-MCQ-200，这是一个针对评估工具增强型代理在确定性水-岩石地球化学模拟方面的基准测试。该基准测试包含200道多选题，这些题目基于21个经过验证的PHREEQC场景，要求代理构建模拟器输入、执行PHREEQC、检查结构化输出，并得出最终答案。

核心内容

文章首先指出，大型语言模型代理正日益与科学软件集成。然而，在此过程中，工具访问是否能可靠提升科学计算表现仍不清楚。作者为此引入了PHREEQC-MCQ-200基准测试，该测试专门评估工具增强型代理在确定性水-岩石地球化学模拟任务中的表现。基准测试由200道多选题构成，这些题目均来源于21个经过严格验证的PHREEQC模拟场景。每个题目的设计要求代理完成以下四个步骤：1）构造模拟器的输入文件；2）执行PHREEQC模拟器；3）检查结构化的输出结果；4）基于以上过程得出最终的多选答案。

为了评估代理的表现，作者在多个前沿模型家族和中档模型家族上进行了测试。实验结果表明，配备模拟器访问权限的代理在整体准确率上显著提升，这有力地证实了对于许多科学计算任务，接地气的执行是必不可少的。相较于单纯依赖工具调用，工具增强型代理能够更准确地处理需要模拟器支持的任务。

然而，准确率提升并非单调的。研究发现，工具增强型代理在某些具体项目上反而会失去原本能正确回答的题目，这些“回归”现象单纯用平均准确率是无法揭示的。进一步分析发现，输出访问协议（output-access protocol）对代理性能影响显著。一种包含目录表（table-of-contents）的界面接口，既能降低令牌消耗成本，同时还能为更强大的模型保留甚至提升准确率；但对于中档模型而言，这种接口却会降低其性能，因为中档模型往往难以可靠地导航结构化的模拟器输出。

基于上述发现，PHREEQC-MCQ-200将科学工具使用框架化为一个端到端的诊断问题，而非简单的工具调用能力。作者明确指出，未来科学代理的评估不应仅停留在准确率指标上，还应额外报告：逐项保留情况（item-level retention）、输出访问敏感度（output-access sensitivity）、轨迹失败模式（trajectory failures），以及整个计算链条的断裂位置。

文章附带了参考文献、引用工具、数据和代码的相关链接，以及arXivLabs支持的开放共享平台。这些资源为后续研究提供了完整的技术支持和复现环境。

关键要点

PHREEQC-MCQ-200是一个包含200道多选题的基准测试，题目来源于21个经过验证的PHREEQC场景，要求代理完整执行输入构造、模拟执行、输出检查和答案提交的四步流程。
工具增强型代理在多个模型家族上的测试显示，模拟器访问能显著提升整体准确率，证明接地执行是科学计算任务不可或缺的支撑。
准确率提升不具单调性，代理在部分题目上会出现工具使用导致的错误回归现象，平均准确率无法捕捉这些细节。
输出访问协议至关重要：目录表接口可降低成本并提升强模型性能，但对中档模型会造成性能退化。
PHREEQC-MCQ-200强调应采用端到端诊断视角评估科学代理，报告准确率外还需关注逐项保留、输出敏感度、轨迹失败及计算链断裂点。
文章提供arXiv、代码、数据及共享平台链接，支持后续研究复现与协作。

意义与影响

PHREEQC-MCQ-200为科学代理的评估提供了一个全新的诊断框架，标志着从简单的“工具调用”能力测试转向对科学计算全链条可靠性的系统性验证。这一基准直接挑战了现有评估方法的局限性——单纯依赖准确率难以反映工具使用带来的实际风险与收益——并为研究者指明了改进方向：必须同时评估代理在工具支持下的优势和潜在退化点。

其影响在于，推动科学LLM代理从“更复杂”向“更可靠”演进，尤其是在水-岩石地球化学等高确定性领域。这一工作为后续代理设计提供了标准化评估标准，也为行业界定了明确的未来评估范式，即综合报告准确率、逐项表现、协议敏感度和链条断裂位置。通过PHREEQC-MCQ-200，研究界有望更快地识别并克服科学模拟代理的局限性，从而加速其在真实科学任务中的实用化落地。

查看原文 →arxiv.org