技术博客arXiv cs.AI·3 小时前

Embodied-BenchClaw：构建具身空间智能基准的自主多智能体系统

原标题：Embodied-BenchClaw: An Autonomous Multi-Agent System for Embodied Spatial Intelligence Benchmark Construction

速览

针对具身空间智能基准构建耗时且难以维护的问题，研究提出Embodied-BenchClaw自主智能体系统。该系统通过五阶段流水线自动生成可更新基准，并引入技能库和质量控制机制。实验表明，该方法能高效构建可验证、可执行且具诊断价值的基准，显著降低人工成本。

在具身智能（Embodied AI）领域，基准测试（Benchmarks）是评估模型空间智能能力的核心工具。然而，当前的基准构建面临着严峻的挑战：

为了解决上述痛点，研究人员提出了 Embodied-BenchClaw，这是一个自主的多智能体系统，旨在自动化地构建、维护和更新具身空间智能基准。

Embodied-BenchClaw 是一个基于代理（Agentic）的自动化系统，其核心目标是根据用户指定的评估意图，自动生成一套完整、可执行且可持续更新的基准测试包。该系统通过一个五阶段的流水线（Pipeline）来实现这一目标，并由三个核心智能体进行协调。

Embodied-BenchClaw 的工作流程分为以下五个阶段：

意图蓝图化（Intent Blueprinting）：系统首先解析用户提出的评估意图，将其转化为结构化的测试目标和约束条件。
数据收集（Data Collection）：根据蓝图，系统自动从多样化的数据源（如室内场景、室外环境、机器人操作日志、无人机视角视频等）中收集原始数据。
结构化与清洗（Structuring and Cleaning）：对收集到的原始数据进行标准化处理、去噪和格式化，确保数据的一致性和可用性。
基准合成（Benchmark Synthesis）：将清洗后的数据转化为可执行的测试用例，构建具体的评估任务。
评估报告生成（Evaluation Reporting）：对模型在基准上的表现进行自动评估，并生成详细的诊断性报告。

整个流水线由三个专门的智能体协同工作：

为了提高基准的复用性、可靠性和可维护性，Embodied-BenchClaw 引入了两个关键机制：

可扩展技能库（Extensible Skill Library）：这是一个模块化的组件库，包含各种空间推理、导航和操作技能。这使得基准构建过程具有组合性（Composable），即可以通过组合不同的技能来快速生成新的测试场景。
过程质量控制（Process Quality Control）：在流水线的每个阶段都设有质量检查点，确保生成的基准是可验证（Verifiable）和可修复（Repairable）的。

研究团队使用 Embodied-BenchClaw 实例化了多个覆盖不同具身载体和数据源的基准，包括：

这些基准展示了系统在多样化场景下的适应能力。

自动化基准构建：Embodied-BenchClaw 实现了从用户意图到完整基准包的端到端自动化，大幅减少了人工干预。
动态与可持续：通过持续更新机制，基准可以随着模型能力的提升而演进，避免“饱和”问题，保持对新型能力的区分度。
模块化与可组合性：基于可扩展技能库的设计，使得基准构建过程像搭积木一样灵活，便于复用和扩展。
多模态与多载体支持：系统不仅支持传统的室内/室外空间推理，还涵盖了机器人操作、四足机器人、无人机等多种具身载体，体现了广泛的适用性。
可验证与可诊断：生成的基准不仅提供分数，还通过详细的评估报告和过程质量控制，提供诊断性信息，帮助开发者定位模型弱点。
实验验证充分：通过人类评估、基于裁判的评估、一致性检查、成本分析和消融实验，证明了该系统在降低人力成本的同时，能够构建出高质量、可执行且易于维护的基准。

Embodied-BenchClaw 的提出对具身智能研究具有重要的方法论意义：

解决基准瓶颈：它直接回应了具身智能领域长期存在的“基准构建滞后于模型发展”的问题，为持续、动态的评估提供了可行的技术路径。
降低研究门槛：通过自动化和模块化设计，降低了研究人员构建高质量基准的技术门槛和时间成本，使更多团队能够专注于模型创新而非基础设施搭建。
促进标准化与复用：可扩展技能库和质量控制机制有助于推动具身智能基准的标准化，促进不同研究团队之间的结果比较和知识积累。
推动具身智能生态发展：支持多种具身载体（机器人、无人机等）的基准构建，有助于形成一个更加开放、多元和互联的具身智能评估生态，加速技术从实验室走向实际应用。

总之，Embodied-BenchClaw 不仅是一个工具，更是一种新的基准构建范式，它强调了自动化、动态性和可维护性，为具身空间智能的持续进步提供了坚实的基础设施支持。