AI 资讯Hacker News·3 小时前

Hex 构建实验室评估数据智能体

原标题：We built a lab to evaluate data agents – Hex

速览

Hex 公司建立了一个专门的实验室，旨在评估数据智能体的性能。这一举措有助于标准化数据智能体的测试与比较。此举对推动数据智能体技术的发展具有重要意义。

AI 深度解读

Hex 如何构建数据智能体评估实验室：基础设施与合成业务的双重挑战

背景

数据智能体（Data Agents）所处的领域是一个独特的“诅咒”之地。在这个领域，简单的问题往往看起来很难，而困难的问题却看似简单。许多问题根本无法回答，甚至尝试去回答就是一种失败。Bug 通常是无声且微妙的，而看似无害的假设（这正是大语言模型 LLM 的最爱）往往决定了分析的成功或失败。

数据智能体缺乏像代码那样的 linter（语法检查器）、测试套件或形式化语言。更糟糕的是，现实中几乎没有可用于训练或构建环境的真实公开数据，而预训练数据中充斥着大量不切实际的教程垃圾。每个人的数据仓库（Data Warehouse）都处于分布之外（Out of Distribution）。对于每一个正确答案，都存在十个看似合理但细微错误的错误答案，且没有任何方法可以验证或验证结果。

正是在这个复杂且令人兴奋的世界中，Hex 致力于解决数据智能体的评估难题。Hex 逐渐意识到，其在 Hex 平台上的智能体性能，更多取决于它们访问的丰富上下文存储，而非系统提示词或底层模型。因此，评估“一个智能体”实际上变成了在用户数据仓库的上下文中，评估整个 Hex 系统和上下文飞轮。为了在不牺牲灵活性和速度的前提下支持这种复杂的评估，Hex 构建了定制的基础设施，甚至创建了一家“假想”的公司。

核心内容

Hex 通过构建名为 The Shoebox 的评估基础设施和实验室平台，以及创建一个名为 Shorelane Commerce 的合成业务数据环境，来解决上述挑战。

The Shoebox：Hex 的评估基础设施与实验室台

The Shoebox 最初是去年在内部原型 Notebook Agent 发布前，作者为了查看智能体追踪记录（Agent Traces）而编写的一个非常“黑客风格”的工具。这个名字致敬了每个人衣柜里装满杂乱收据的盒子，原本只希望它是一个临时解决方案，直到购买到能解决所有问题的真正产品。然而，在过去的一年里，Hex 并没有替换它，而是将其演变为一个功能齐全的实验室台，用于智能体可观测性和评估。

该基础设施具备以下核心特性：

成对实验范式：The Shoebox 的设计初衷是帮助用户将评估视为带有“候选者（Candidate）”和“基线（Baseline）”运行的成对实验，而不是独立的测试。
混合工作流：它作为本地 Hex 开发栈的一部分运行，以提供最大的灵活性，同时连接到共享的内部 Hex 工作区。评估集在远程每日运行，以建立所有人都可访问的共享“生产基线”。
苹果对苹果的比较：这种架构允许大多数用户采用高效的混合工作流，将本地执行的候选运行与远程执行的生产基线进行比较。即使有 10 个人同时进行 25 个实验，基线在整个群体中保持（相对）静态，从而使得客观比较成为可能。Hex 花费大量精力确保每个人的本地环境与远程环境同步，以解决非平凡的同步问题。
灵活的评估配置：
- 评估集规模：与公共基准相比，Hex 的评估集相对较小。Hex 倾向于手工打造强大、广泛适用的评估集，而不是频繁创建新的评估。
- Rubrics（评分标准）：核心评估集预配置了一套评分标准和事实真相（Ground Truths）。用户可以配置确定性、LLM 评判或混合评分标准。
- 动态评分维度：现有的评估集运行着许多额外的评分标准，如 ToolEfficiency（工具效率）、SemanticLayerUsage（语义层使用）、WorkspaceGuideAdherence（工作区指南遵循度）等。这些评分标准可以灵活地附加到现有的评估语料库上，且权重灵活。
- 假设目标评分：用户可以创建灵活的、运行范围（Run-scoped）的“假设目标”评分标准，允许针对特定实验进行更有针对性的成对评估。LLM 评判的评分标准在评判时并排考虑候选者和基线轨迹，甚至访问运行后的元数据，从而评估速度、成本以及行为和准确性。

这种带有观点的立场导致了更一致和投入的评估方法。人们不再仅仅报告真空中的聚合数字，而是倾向于报告成对比较、处理矩阵，并亲自并排查看轨迹，引用具体的示例和行为。

Shorelane Commerce：拥有真实数据的假想业务

仅构建基础设施是不够的，正如法拉利需要高级燃料，吸血鬼必须吸食无辜者的血液，The Shoebox 需要优秀的评估数据。

由于构建数据智能体非常困难，现有的 agentic analytics 基准测试严重匮乏。大多数公共评估集（如 Spider 或 BIRD）只是简单的文本到 SQL 任务，并不映射到 Hex 的问题空间。它们都在“演示形状（Demo shaped）”的数据上运行，这对于评估现实世界中决定智能体成败的细微差别（如在复杂但语义连贯的仓库中搜索，以及实际业务中真实存在的混乱、破损和未文档化的喜悦）毫无兴趣。真实的客户工作区和仓库在规模和复杂性上比任何演示基准高出几个数量级。

因此，Hex 创建了一家假想公司：Shorelane Commerce。

业务概况：Shorelane Commerce 是一家 B2B2C 办公用品平台，成立于 2019 年，目前年营收约为 1.29 亿美元。
收入来源：通过三条收入流销售纸张、笔记本电脑和休息室咖啡——直接面向消费者的订单、具有 30 天账期的商业订阅，以及抽取 15-25% 佣金的第三方市场。
数据债务与复杂性：
- 平台迁移遗留问题：2021 年迁移平台时丢失了一些客户 ID。
- 并购数据未合并：同年收购了竞争对手（OfficeMax），但从未完全合并数据。
- 渠道更名未回填：2022 年重命名销售渠道但未进行数据回填。
- 订阅计划重构：2023 年重构订阅计划， grandfathered（祖父条款）足够多的客户，导致三种数据世界仍在流通。
源系统复杂性：
- 源系统包括 Stripe、Salesforce、一个主要是干扰项的遗留 Shopify，以及三个具有不同转化总数的广告平台。
- 每个客户至少有两个 ID，有时多达四个。
- 有五列数据都可以合理地被称为“收入”，财务、营销和运营利益相关者习惯性地引用不同的列。
公平性设计：为了保持公平，Shorelane 的 Hex 工作区还包含工作区指南和语义模型，以帮助打破平局。这使得评估重点在于智能体使用 Hex 的能力，而不是让它凭空捏造正确答案。

这种设置完美地代表了智能体实际上必须工作的仓库类型。每当作者与客户进行现场交流并查看其数据时，都能感受到这种真实世界的复杂性。

关键要点

数据智能体的评估困境：数据领域缺乏形式化验证手段，Bug 隐蔽，且缺乏高质量的公开训练数据，导致“分布外”问题严重，验证结果极其困难。
评估范式的转变：Hex 认为智能体性能主要取决于上下文存储而非模型本身，因此评估对象从单一智能体扩展到了整个 Hex 系统和上下文飞轮。
The Shoebox 的核心架构：
- 采用“候选者 vs 基线”的成对实验模式，而非独立测试。
- 结合本地灵活性与远程一致性，通过同步本地与远程环境实现“苹果对苹果”的客观比较。
- 支持细粒度的、可配置的评分标准（Rubrics），包括 LLM 评判和基于元数据（速度、成本）的评估。
合成数据的重要性：公共基准（如 Spider/BIRD）过于简单且数据呈“演示形状”，无法反映真实业务的复杂性。
Shorelane Commerce 的设计哲学：
- 构建了一个包含真实业务逻辑、历史数据债务、多源异构数据和语义歧义的合成公司。
- 通过引入工作区指南和语义模型，确保评估的是智能体利用平台工具解决问题的能力，而非其幻觉能力。

意义与影响

Hex 的实践揭示了构建生产级数据智能体的一个关键洞察：**

查看原文 →hex.tech