技术博客arXiv cs.CL·4 小时前

Ko-WideSearch：面向韩国网络智能体的广度搜索基准

原标题：Ko-WideSearch: A Korean Breadth-Search Benchmark for Exhaustive Set Enumeration by Web Agents

速览

Ko-WideSearch是一个专为韩国网络智能体设计的广度搜索基准，旨在解决现有基准过度关注深度而忽视广度枚举的问题。该基准通过自动化合成与验证管道构建，涵盖190个实体和16个类别，要求智能体完整列出集合成员并填充属性表格。测试结果显示，尽管智能体能识别集合，但在具体行数据填充上表现不佳，且随着难度增加准确率持续下降。

AI 深度解读

Ko-WideSearch：面向网络智能体的韩语广度搜索基准测试深度解读

背景

在当前的自然语言处理与人工智能领域，针对“网络智能体”（Web Agents）——即能够自主浏览网页、获取信息并完成任务的AI系统——的评估基准（Benchmarks）存在显著的结构性偏差。现有的主流基准测试大多侧重于衡量智能体的“深度”（Depth）能力。这种深度评估通常表现为：给定一个复杂的约束条件链，要求智能体在层层嵌套的信息中定位到一个极其隐蔽或 obscure 的答案。

然而，现实世界中的许多信息检索任务并非寻找单一答案，而是需要“广度”（Breadth）搜索。广度搜索要求智能体对一个封闭的集合进行穷举式枚举（Exhaustive Set Enumeration），并为集合中的每一个成员填充相应的属性表格。尽管这一需求在商业和科研中极为常见，但在现有的评估体系中，尤其是针对非英语语言（如韩语）的广度搜索能力，几乎处于未被评估的真空状态。

构建此类广度基准的难度远高于深度基准。验证一个“黄金标准”（Gold Set）是否完整，以及表格中每一个单元格的数据是否准确，其成本远高于验证单一答案的正确性。这种高昂的验证成本导致了许多高质量基准的缺失。

核心内容

为了解决上述问题，研究团队提出了 Ko-WideSearch，这是一个专为韩语设计的广度搜索基准测试。该基准旨在全面评估网络智能体在穷举集合成员并填充属性表格方面的能力。

1. 任务定义与结构

Ko-WideSearch 中的每个任务都围绕一个“集合父实体”（Set-parent entity）展开。这些实体涵盖了多种类型，包括：

电视剧季（TV seasons）
王朝（Dynasties）
联赛（Leagues）
行政区（Administrative regions）
选举（Elections）

任务的核心要求是：智能体必须识别出该父实体的完整成员列表，并为每个成员生成一个属性表格。

2. 数据规模与难度分级

该基准测试包含 228 个表格，覆盖 190 个实体，分为 16 个类别。为了科学地评估不同能力层级的智能体，研究团队设计了三个难度层级。难度由两个独立的结构化参数（Knobs）控制：

表格宽度（Table Width）
二维复合键（2-D Composite Key）

通过独立调节这两个参数，集合的成员数量（Cross-product membership）可以从 0% 逐步增加至 100%，从而形成从易到难的梯度测试。

3. 自动化构建与验证流程

Ko-WideSearch 采用了一种自动化的“合成与验证”（Synthesize-and-Verify）流水线进行构建。为了确保数据的一致性和评分的公平性，研究团队在黄金标准构建和最终评分环节共享了同一个“归一化感知比较器”（Normalization-aware comparator）。这一设计确保了日期和计数等稳定列不会仅因格式差异而被错误地丢弃或判错。

4. 评估指标

为了精细化评估智能体的表现，Ko-WideSearch 引入了三个维度的 F1 分数：

Item-F1：评估集合成员识别的准确性。
Column-F1：评估属性列选择的准确性。
Row-F1：评估整行数据（即特定成员的所有属性）的准确性。

5. 实验结果与发现

研究团队在二十个不同的网络智能体上进行了测试，发现了一个普遍存在的失败模式：

集合与行的脱节：智能体通常能够成功恢复集合中的成员（Item-F1 高达 92.8），但在填充具体行的属性数据时表现糟糕（Row-F1 仅为 53.7）。
难度敏感性：随着两个结构参数（宽度和复合键）难度的增加，准确率稳步下降。
资源无效性：增加搜索次数或增加计算/资金成本（Spend）并不能缩小这一性能差距。
错误根源分析：按单元格拆解分析发现，主要的难点在于“找到正确的值”，而非“格式化数据”。开放式自由文本单元格（Free-text cells）的错误率最高，而具有标准答案的单元格（如日期或姓名）通常能正确填充。

关键要点

填补非英语广度搜索空白：Ko-WideSearch 是首个专注于韩语环境的广度搜索基准，解决了现有基准过度关注英语和深度搜索的问题。
自动化高成本验证：通过自动化的合成与验证流水线，解决了构建完整且准确的黄金标准表格的高成本难题。
多维难度控制：利用“表格宽度”和“二维复合键”两个独立参数，实现了从 0% 到 100% 成员覆盖率的平滑难度梯度。
智能体能力断层：实验揭示，当前网络智能体擅长“找对人/物”（高 Item-F1），但极不擅长“填对表”（低 Row-F1），显示出其在复杂属性关联上的结构性弱点。
自由文本是瓶颈：相比于结构化数据（如日期、名称），开放式自由文本单元格的准确获取是当前智能体面临的最大挑战。
简单堆料无效：增加搜索预算或计算资源无法弥补智能体在广度枚举任务中的固有缺陷，表明需要算法层面的改进而非单纯的资源投入。

意义与影响

Ko-WideSearch 的发布对网络智能体研究和应用具有多重重要意义：

重新定义评估标准：它迫使研究界正视“广度搜索”这一关键能力，推动评估体系从单一的“深度问答”向更复杂的“结构化数据提取与枚举”转变。
揭示模型局限性：通过 Item-F1 与 Row-F1 的巨大落差，清晰地指出了当前大语言模型驱动的网络智能体在长尾、细粒度属性填充上的短板。这为后续模型优化指明了方向——即需要增强模型在复杂上下文中的细粒度信息提取能力，而不仅仅是语义理解。
促进多语言 AI 发展：作为韩语基准，它推动了非英语语言环境下 AI 能力的标准化评估，有助于缩小多语言 AI 发展的差距，确保模型在不同语言文化背景下的鲁棒性。
提供可复现的构建范式：其提出的“自动化合成与验证”流水线及“归一化感知比较器”设计，为未来构建其他语言或领域的复杂基准测试提供了可借鉴的方法论，降低了高质量基准构建的门槛。

总之，Ko-WideSearch 不仅是一个测试工具，更是一个诊断工具，它揭示了当前网络智能体在应对现实世界中大规模、结构化信息检索任务时的真实水平与不足。

查看原文 →arxiv.org