AI 资讯Hacker News·3 天前

机器人团队从零重构数据栈

原标题：Robotics Teams Are Rebuilding the Data Stack from Scratch

速览

随着机器人技术的快速发展，行业正面临数据碎片化和标准化的严峻挑战。为此，多家机器人团队选择从零开始重构数据栈，旨在建立统一的数据格式和共享机制。这一举措对于加速机器人算法训练、提升模型泛化能力以及推动行业规模化落地具有重要意义。

AI 深度解读

Robotics Teams Are Rebuilding the Data Stack from Scratch

背景

随着“缩放定律”（Scaling Laws）在机器人学习领域开始显现成效，机器人技术正涌现出几年前难以想象的能力。端到端模型（End-to-end models）能够直接从传感器输入预测机器人动作，这虽然简化了机载软件，却使得从数据收集到模型训练的各个环节变得异常艰难。

在大型语言模型（LLM）领域，团队依托成熟的数据基础设施，通过快速迭代数据来提升性能。然而，机器人团队目前正试图在缺乏此类基础设施的情况下进行规模化扩展。这种缺失导致了所谓的“数据层税”（Data Layer Tax）——即因数据工具链不完善而在迭代速度、工程精力和 GPU 利用率上付出的巨大隐性成本。降低这一税收，是在通往全球最大潜在市场的竞赛中加速扩张的关键杠杆。

核心内容

物理人工智能（Physical AI）的数据层在架构上负责数据的存储、建模和访问，但目前仍不成熟，其高昂成本贯穿于管道的每一个阶段。以下从评估、训练到数据策展，逆向梳理这一“税收”的来源。

策略评估（Policy Evaluation）

对于 LLM 团队而言，广泛的评估（Evals）是实现快速进步的核心。相比之下，机器人行为评估要困难得多，并对整个管道产生级联效应。在机器人领域，即使是对训练好的策略进行小规模现实世界评估，也需要数小时甚至数天的机器人试验，以及精心设计和操作。因此，在机器人领域，依靠广泛、可重复且快速的评估来进行快速迭代并不可行。

目前，团队主要依赖代理指标（Proxy Metrics）来直接评估数据质量，例如：

评估任务进度的奖励模型；
作为校准正确性信号的 3D 重建质量；
或仅估算轨迹的抖动程度。

这些指标只能告诉研究人员单个片段（Episodes）或样本看起来是好是坏，而不能直接证明它们能产生更好的策略。由于现实评估运行难度大，研究人员必须深入研究每一次评估。许多重要决策源于那些深入数据细节的研究人员，他们通过观察评估回放，利用对整个系统的直觉来决定后续步骤。

从数据基础设施的角度看，评估过程与收集过程非常相似：记录模型输入、输出、目标以及模型版本、子任务和配置等元数据。研究人员随后审查大量回放，按指标聚合，并深入特定录音。然而，将回放追溯回导致该结果的训练数据，通常需要在不兼容的工具和格式之间进行手动“侦探工作”。每一个摩擦点都导致迭代时间变慢，且洞察无法有效反馈以训练更好的策略。

模型训练

机器人行为学习与机器学习任务共享许多基础，但不同之处在于模型随时间输出动作。这一时间维度从两个方面极大地增加了支持训练的数据层的复杂性：样本构建和视频压缩。

训练中的样本构建

在训练大型模型时，必须向昂贵的 GPU 提供足够快的数据以最大化利用率。研究人员通过选择包含哪些数据以及如何采样来控制模型行为。

以使用动作分块（Action Chunking，如 ACT 或 pi0.5）训练视觉-语言-动作模型（VLA）为例。一个人形机器人模型可能消耗来自头部和手腕摄像头的三个视频流、30 多个关节的位置和速度、夹爪状态以及语言指令。

每个训练样本的批次始于数据集中某个片段的一个时间步。对于基本 VLA，样本本身包括每个视角的相机帧、机器人的当前状态以及未来动作块（通常是接下来的 50-100 个时间步）。从机器人记录到训练这些输入，所有数据都需要进行时间对齐，这是常见细微错误的来源。

在这种情况下，如果采用朴素的面向行的获取方式（读取所有时间步的所有列），将下载大量从未使用的数据。高效的 DataLoader 需要具备列感知能力：在需要时获取完整行，否则获取特定时间窗口的特定列。当数据集太大而无法容纳在执行训练的机器上时，这种不必要的数据传输会导致 GPU 饥饿（Starvation）。

采样模式取决于架构并持续演变：

Diffusion Policy：基于 2 个观察帧，预测 16 个未来步骤。
长视界任务模型：通常使用更长的历史，可能以非均匀间隔采样。
世界动作模型（WAMs，如 DreamZero）：消耗连续且等距的帧序列，联合预测未来的视频和动作。

尽管架构不断演变，我们总是需要组合多个数据流，以确定哪些传感器和时间点对于单个观察是相关的。更复杂的采样模式也增加了细微错误的风险，例如意外包含来自不同片段的动作，从而悄悄降低模型性能。

训练中的视频解码

视频通常占总数据集大小的 90% 以上。将图像编码为视频通过利用时间冗余节省了显著的存储空间，但增加了复杂性。

大多数视频编解码器并不独立存储每一帧，而是通过图像组（GOP, Group of Pictures）结构利用时间冗余。GOP 以关键帧（Keyframe，完整图像）开始，随后的帧是存储相对于其他帧变化的增量帧（Delta Frames）。增量帧很小，从而实现压缩。

这对训练有直接影响，因为模型需要完整的图像帧。要解码任何增量帧，解码器必须从最近的前一个关键帧开始，并解码其间的所有帧。在典型的 30 帧 GOP 中，随机访问单个帧平均需要解码 15 帧才能产生 1 个可用帧。

关键权衡在于 GOP 大小。较大的 GOP 提供更好的压缩，但较小的 GOP 提供更快的随机访问。例如，LeRobot 默认 GOP 为 2，使每隔一帧成为关键帧以优先考虑随机访问，但牺牲了潜在压缩率。

具体而言，一个具有非均匀历史（当前帧、前一帧、0.5 秒前、1 秒前）且跨越 3 个摄像头的策略，每个样本需要 12 次帧解码（4 个历史帧 x 3 个摄像头）。由于非均匀间距，这些帧可能位于不同的 GOP 中，每个都需要单独的寻址和解码。无论哪种方式，数据获取逻辑都需要处理视频，要么具备 GOP 感知能力，要么获取整个视频文件。

DataLoader 复杂性导致迭代速度变慢

构建快速且正确的 DataLoader 非常困难，对于不适合训练集群的大型数据集更是如此。同时，很少有团队能接受低下的 GPU 利用率，这意味着他们往往会放弃灵活性，引入缓慢的数据导出作业以避免 GPU 饥饿。漫长的等待时间和缺乏灵活性直接影响研究人员快速实验超参数和训练数据的能力，使得数据集策展和整体模型改进变得更加困难。

数据集策展

让数据快速到达 GPU 很重要，但数据必须是正确的。策展确保数据集具有正确的分布以优化模型性能。HuggingFace 最近的机器人折叠项目发现，从 5,688 个片段池中策展 1,200 个片段，使成功率提高了 50 个百分点。这凸显了在大规模数据中筛选高质量样本的巨大价值和挑战。

关键要点

数据层税的存在：机器人团队因缺乏针对多速率、多模态数据设计的成熟基础设施，在迭代速度、工程专注度和 GPU 利用率上承受巨大成本。
评估的滞后性：与 LLM 不同，机器人难以进行快速、大规模的实时评估，导致依赖代理指标，且从评估回溯训练数据的成本高昂，阻碍了快速迭代。
时间维度的复杂性：机器人模型随时间输出动作，导致样本构建中的时间对齐困难，以及视频解码中的随机访问瓶颈（GOP 结构导致解码开销大）。
GPU 效率与数据获取的矛盾：低效的 DataLoader 会导致 GPU 饥饿。为了维持 GPU 利用率，团队往往不得不牺牲数据采样的灵活性，引入复杂的导出流程。
策展的价值：高质量的数据筛选（如 HuggingFace 案例所示）对提升模型性能至关重要，但在大规模数据集中进行有效策展极具挑战。

意义与影响

这篇文章揭示了机器人学习规模化扩张的核心瓶颈并非算法本身，而是底层数据基础设施的缺失。随着机器人技术向通用人工智能（AGI）和更广泛的商业应用迈进，解决“数据层税”将成为行业竞争的关键分水岭。

对于正在构建或投资机器人学习的团队而言，重新构建数据栈——特别是针对多模态、时间敏感数据的存储、采样和加速解码基础设施——不仅是技术优化的问题，更是决定能否在即将到来的巨大市场中胜出的战略要素。未来的竞争将不仅限于模型架构的创新，更在于谁能

查看原文 →rerun.io