技术博客arXiv cs.AI·1 小时前

DeepInsight：统一物理AI全栈评估基础设施

原标题：DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack

速览

DeepInsight是一种统一的评估基础设施，旨在解决物理AI栈中从基础模型解码到全身控制等跨度极大的评估难题。它通过任务、资源和结果三种抽象，在单一运行时中保留了各层级的异构性，并实现了跨层的共享追踪。该架构已部署于具身人形机器人全栈，能够复现基准测试结果并实现线性扩展。其核心价值在于通过统一的追踪身份，精准定位跨层回归问题，提升了诊断效率。

AI 深度解读

DeepInsight：跨越物理 AI 全栈的统一评估基础设施

背景

在“物理 AI”（Physical AI）领域，评估一个完整的 AI 堆栈面临着前所未有的复杂性。这种复杂性源于操作粒度在三个数量级以上的大幅差异：从基础模型（Foundation Model）的一次解码步骤，到全身控制中数千次物理引擎的步进（physics ticks）。

这些操作不仅在时间尺度上差异巨大，还在模态（modality）、奖励语义（reward semantics）和资源配置文件（resource profile）上正交变化。目前，没有任何现有的评估框架能够覆盖这一广阔的范围。因此，当前的行业实践通常是“拼凑”——将多个独立的评估工具（harnesses）连接在一起。

这种拼凑式的方法虽然保留了每个局部段落的验证有效性，但由于各个工具之间既不共享运行时环境（runtime），也不共享评分标准（scoring），导致系统失去了诊断跨层回归错误（cross-layer regressions）所需的“共享身份标识”。换句话说，当问题从底层物理引擎蔓延到上层决策模型时，现有的碎片化工具链难以追踪和定位根源。

核心内容

为了解决上述痛点，研究人员提出了 DeepInsight，这是一个旨在服务于整个物理 AI 堆栈全谱系的统一评估基础设施。DeepInsight 的核心设计理念并非强行同质化不同的运行环境，而是通过三个狭窄的抽象层——任务（Task）、资源（Resource）和结果（Result）——来保留各子系统的异构性，同时建立统一的连接纽带。

三大不变量抽象

DeepInsight 通过实现三个在所有子系统中共有的“不变量”（invariants），将异构的组件整合到一个单一的运行时环境中：

统一的 Episode 驱动器：每个子系统共享一个统一的 Episode（回合/剧集）驱动器。这确保了从环境初始化到任务结束的整个生命周期在逻辑上是一致的，无论底层是模拟物理还是运行大模型。
统一资源句柄协议：针对昂贵的后端服务（包括 LLM 推理和沙箱化运行时），DeepInsight 实施了一个统一的资源句柄协议。这意味着无论是调用 Llama 或 GPT 等大模型，还是执行复杂的物理仿真，资源调用的接口和管理方式是标准化的。
统一的追踪身份方案：这是 DeepInsight 最具诊断价值的特性。每一个事件（event）都写入一个共享的追踪（trace）中，并拥有唯一的身份标识。这种方案使得不同层级的操作可以在同一个时间轴和逻辑链上被观察。

部署与性能表现

DeepInsight 已在具身智能人形机器人（embodied humanoid）堆栈的三个层级中投入生产环境使用。其显著优势在于配置即接入：对于新基准测试（benchmarks），大多数情况下只需通过配置文件即可接入，无需大量代码修改。

在性能方面，DeepInsight 展现了卓越的能力：

兼容性：在基础模型端，当存在成熟的同行编排器（peer orchestrators）时，DeepInsight 能够复现已发表的参考结果和同行框架的读数，且误差在其自身的波动范围内。
效率：在单个节点上，它运行相同测试套件的速度更快。
可扩展性：在跨节点扩展时，表现出接近线性的扩展能力。

独特的诊断价值

DeepInsight 最独特的回报在于其诊断能力。由于每一层都将数据写入同一个共享追踪中，如果一个回归错误（regression）始于某一层并在另一层显现，该错误在追踪记录中是局部可定位的。这种跨层的可追溯性，是任何由独立片段工具组成的联邦系统都无法复制的。

关键要点

解决碎片化问题：DeepInsight 解决了物理 AI 评估中因操作粒度差异巨大（从毫秒级解码到秒级物理步进）而导致的工具碎片化问题。
异构统一：不强行统一底层运行环境，而是通过“任务、资源、结果”三个抽象层建立统一接口，保留子系统异构性的同时实现数据互通。
三大核心抽象：
- 统一的 Episode 驱动器，确保生命周期一致性。
- 统一的资源句柄协议，标准化 LLM 推理和沙箱运行的资源调用。
- 统一的追踪身份方案，为每个事件提供唯一标识，写入共享追踪。
生产级验证：已在具身智能人形机器人的全栈中部署，新基准测试主要通过配置即可接入。
高性能与可扩展性：在单节点上比现有框架运行更快，且在多节点扩展时呈现近线性扩展能力，同时能复现主流框架的基准结果。
跨层诊断优势：通过共享追踪机制，能够精确定位跨层的回归错误，这是传统拼接式评估工具链无法实现的。

意义与影响

DeepInsight 的提出标志着物理 AI 评估基础设施从“局部最优”向“全局统一”的重要转变。

首先，它极大地降低了具身智能系统开发的调试成本。在复杂的机器人系统中，错误往往不是单一模块的问题，而是多层交互的结果。DeepInsight 提供的跨层追踪能力，使得工程师能够像使用示波器一样，清晰地看到信号从传感器输入、经过物理仿真、最终影响决策模型输出的完整路径，从而快速定位“蝴蝶效应”般的微小偏差。

其次，它推动了物理 AI 基准测试的标准化。通过统一的资源协议和评分机制，DeepInsight 使得不同团队、不同硬件平台上的实验结果具有了更高的可比性。这对于加速具身智能领域的科研迭代和工程落地至关重要。

最后，DeepInsight 证明了在高度异构的系统中，通过精心设计的抽象层（Abstractions）而非强制统一底层，可以实现高效且可扩展的集成。这一架构思想不仅适用于 AI 领域，也为其他涉及多尺度、多模态复杂系统的工程实践提供了有价值的参考范式。

查看原文 →arxiv.org