AI 资讯The Verge AI·5 天前2 源报道

科技公司迫切希望拍摄用户做家务

原标题：Tech companies desperately want to film you doing chores

速览

AI训练初创公司Shift推出免费清洁服务，旨在收集大量家务劳动视频数据。这些视频将用于训练机器人，使其掌握洗碗、擦台面等复杂动作。此举反映了AI行业通过真实世界数据加速机器人技术发展的趋势。

AI 深度解读

科技公司为何渴望拍摄你做家务？

背景

本周，一家名为 Shift 的 AI 训练初创公司宣布了一项颇具吸引力的计划：免费为纽约市民提供家庭清洁服务，并计划将业务扩展至伦敦等其他城市。对于身处杂乱公寓中的观察者而言，这一提议的诱惑力显而易见。然而，在这份“免费午餐”背后，隐藏着科技行业对物理世界数据极度渴求的现状。

随着生成式 AI 在文本和图像领域的爆发，机器人技术正面临一个截然不同的挑战：它们必须处理物理世界。为了训练能够执行折叠衣物、抓取苹果或倒水等日常任务的机器人，科技公司急需大量高质量的现实世界数据。由于物理世界的复杂性，这些数据无法像互联网上的文本或图片那样被轻易抓取，导致数据获取成为发展“物理 AI”（Physical AI）的最大瓶颈。为此，包括 Shift 在内的多家初创公司开始采取极具创意甚至引发争议的手段，通过付费或交换服务的方式，从人类生活中获取训练数据。

核心内容

科技巨头和初创公司正在不惜重金购买训练机器人所需的现实世界数据。Shift 的案例极具代表性：作为交换条件，该公司在提供清洁服务的同时，要求拍摄其清洁人员工作的全过程，包括洗碗、擦拭台面、除尘和拖地等细节。这些视频涵盖了所有枯燥的家庭劳动，而这些正是机器人公司急于教会机器去执行，以便最终向消费者出售自动化解决方案的任务。

与聊天机器人或图像生成器等近年来爆发的 AI 工具不同，机器人必须理解空间、运动、力量、摩擦力、奇怪的形状和材质、光线不足等人类和其他有机体本能掌握的因素。这就是为什么像折叠衣服或拿起苹果这样对人类来说轻而易举的事情，在机器人编程中却令人抓狂。

为了突破数据瓶颈，行业内的做法多种多样：

直接交换与用户生成内容：Shift 声称已在全球 15 个国家向数万人付费，通过其应用程序记录他们的日常活动。
第三方平台的数据采集：在印度，家政服务平台 Pronto 被曝光利用客户家庭作为 AI 训练素材的来源，用于烹饪、清洁和洗衣等场景。Pronto 表示仅在客户明确同意的情况下录制视频，且客户仅获得视频副本作为回报。这一做法引发了市场强烈反弹，竞争对手纷纷声明从未在室内录制 AI 训练数据。
可穿戴设备采集：硅谷初创公司 Human Archive 正试图通过与 Pronto 等公司合作，让零工经济从业者佩戴看似普通的相机帽进行录制。这种从佩戴者视角出发的“自我中心”（egocentric）或第一人称数据，正是机器人公司教导机器如何在物理空间中导航所急需的。
数据农场与重复劳动：部分公司甚至跳过实际工作，转而支付工人反复完成相同的物理任务（如折叠毛巾、拿起杯子、搬运箱子），以便摄像头和传感器捕捉每一个动作。这些精心布置的“数据农场”将机械的体力劳动转化为高价值的 AI 训练材料。
现有机器人的反馈数据：尽管自动化尚未完全实现，但许多公司仍急于将产品推向市场。它们利用客户家中的数据改进产品，并依靠远程工作人员在机器人卡住时介入。这些介入过程产生的数据同样被用于后续训练。

虽然用数据交换价值并非新鲜事——从忠诚度计划、Cookie、行车记录仪到监控驾驶行为的保险应用，再到备受诟病的智能电视广告——但此次科技行业愿意付费获取的数据类型发生了本质变化。目前，这意味着消费者可能需要让戴着时髦相机帽的人类免费打扫自己的家，而最终目的是让公司出售一台机器人来替代人工。

关键要点

数据瓶颈：物理 AI 的发展受限于高质量现实世界数据的匮乏，因为物理世界的复杂性使得数据难以像互联网文本那样被大规模抓取。
Shift 的模式：通过提供免费清洁服务换取家庭劳动视频，旨在训练机器人执行洗碗、拖地等具体家务。
争议性实践：印度平台 Pronto 利用客户家庭录制家务视频以训练 AI，虽声称获得用户同意，但仍引发行业抵制和公众 backlash。
多样化采集手段：
- Human Archive 利用可穿戴相机帽采集第一人称视角数据。
- 部分公司建立“数据农场”，支付工人重复机械动作以生成标准化训练数据。
- 利用现有机器人产品在用户家中的运行数据及人工干预数据进行迭代。
商业逻辑转变：科技公司正从免费获取互联网公开数据，转向付费或交换服务以获取稀缺的物理世界交互数据。

意义与影响

这一趋势标志着 AI 竞争焦点从“数字世界”向“物理世界”的深刻转移。随着生成式 AI 在内容创作领域的成熟，下一个万亿级战场在于具身智能（Embodied AI），即让 AI 拥有实体并能在现实世界中行动。

数据主权与伦理挑战：随着科技公司深入家庭这一私人领域，数据隐私和知情同意的边界变得模糊。虽然用户获得了免费服务或金钱补偿，但他们在不知情的情况下成为 AI 训练的一部分，这种“隐形劳动”引发了关于剥削和数据所有权的伦理争议。竞争对手对 Pronto 的抵制表明，行业内部对于此类侵入式数据采集存在分歧，未来可能会催生更严格的数据采集规范。

机器人普及的前奏：这种大规模的数据收集活动是机器人技术走向商业化的必经之路。通过积累海量的物理交互数据，机器人将逐渐克服在复杂非结构化环境中的操作难题。然而，这也意味着消费者可能需要经历一个漫长的“数据喂养”阶段，在此期间，人类将继续承担部分“训练师”的角色，直到机器人真正具备独立、可靠的家务处理能力。

查看原文 →theverge.com