乐享科技 CEO 郭人杰:具身智能有机会诞生苹果级别公司
速览
乐享科技创始人&CEO郭人杰在访谈中分享公司愿景,将具身智能定位为下一代有温度的家庭成员。不同于传统扫地机器人,他们强调主动性与情感连接,打造原生硬件与生态。郭人杰认为具身智能可能诞生Magnificent 7级别公司,乐享科技机会在于产品落地与商业化验证,已进入家庭场景并积累关键经验。
AI 深度解读
背景
乐享科技创始人兼 CEO 郭人杰是位传奇人物,生于 1997 年,15 岁进入西安交通大学少年班,本科就读于能源动力工程及其自动化,研究生毕业于伦敦政治经济学院。曾任追觅中国区执行总裁,管理团队超 1500 人,推动追觅从扫地机器人市场后发者成为行业领头者。2024 年年底创业创立乐享科技,前期专注打开家庭具身智能入口,已发布 M1、W1、N1、Jupiter 等不同形态终端,其中履带式机器人 W1 获迪士尼授权,以「瓦力」形象呈现。
乐享科技已完成 Pre-A 轮融资,累计超 10 亿元。两款家庭具身智能产品率先进入家庭,突破 3 万个具身智能机器人订单。公司希望用现实产品和商业化佐证具身智能商业逻辑,目标成为具身智能领域的苹果级公司。
本文为爱范儿「多样性公司」栏目第 12 篇,对话郭人杰,聊具身智能愿景与脚踏实地的节奏。
核心内容
对话乐享科技 CEO 郭人杰:具身智能有希望诞生苹果级别的公司,我们有机会成为这家|多样性公司
编者按:当我们想喝可乐时,只有百事和可口可乐两个选择;选择手机,90% 概率在苹果和华米 OV 等品牌中;买运动服饰,第一时间想到 Nike、Adidas。但世界缤纷多彩,是在这些巨头之外,有一些不遵从传统,力求创造不同,注重设计和功能,着眼于明日的「多样性公司」存在。它们非主流商业模式、独特用户价值、有社交谈资,无大公司包袱,敢于不顾一切进步。爱范儿相信,只有真正关注多样性公司才能更早看见未来。本文为第 12 篇,聚焦乐享科技。
乐享科技创始人兼 CEO 郭人杰,创立乐享科技,前期专注家庭具身智能入口,已发布 M1、W1、N1、Jupiter 等终端,W1 获迪士尼授权。宣布创业获多家顶尖投资者争抢,已完成 Pre-A 轮融资累计超 10 亿元。在具身智能赛道,更希望用现实产品和商业化佐证商业逻辑,两款家庭产品率先进入家庭,突破 3 万订单。
我们前不久和郭人杰进行了对谈,聊了聊这家公司对于具身智能的思考,在一个比谁更仰望星空的领域,他们如何推行脚踏实地的节奏。
3 年之后,具身智能机器人就可以做家务了
Q:为什么把公司取名为乐享(JoyIn)?这个名字听起来和其他具身智能公司的科幻感机械感不太一样。
A:主要有两个原因,第一个我自己会认为,具身智能最后它也是一个产品,走进大众视野的时候,它能够为大家创造什么价值是非常重要的。所以我就希望大家能够「快乐地享受科技」,快乐地享受科技是我希望给用户带来的价值。然后也是我们自己希望给员工的一个初心愿景吧,我们今天研发的科技,就是希望让大家能够享受更快乐的生活。
现在乐享更多是作为我们的集团名,因为具身智能是一个足够长的赛道,这里有非常多沿途下蛋的机会,所以我们可能不仅仅是在一个品类上去发力,会涉及到未来多品牌的策略。目前家庭具身的场景里,是用元点 ZEROTH 这个品牌。乐享科技未来还会承载一些其他的品牌跟产品线。
做一个比喻的话,我自己的愿景就是希望乐享科技成为字节跳动,让元点 Zeroth 变成抖音。
Q:如果说扫地机器人解决的是「家里地面脏了怎么办」,那么乐享科技,以及旗下消费级品牌元点 Zeroth 想解决的问题似乎更开放:陪伴、看护、移动、交互、协作。你会怎么用一句话定义这个新品类?它到底是一台机器人,一台会动的 AI 终端,还是一种新的家庭成员?
A:我希望是能够创造一个有温度的家庭成员。
Q:今天行业里很多具身智能公司会优先选择工厂、仓储、商业服务等相对结构化的场景,因为它们更容易量化 ROI。乐享科技为什么一开始就把家庭场景放在核心位置?家庭明明是更复杂、更随机,也更难标准化的场景。
A:因为这是我自己几个愿景和我自己能力的最大化发挥,也是我信仰的事情。
首先从我自己的愿景上来讲,前面感性化的描述是说它是一个有温度的伙伴,理性来描述的话,它其实会诞生出下一代新的硬件终端,它会有两个特点。
一是它的主动性,因为今天机器人跟人的交互是来由机器人来触发的,但今天主流的硬件终端都是人来触发交互,人类要跟手机发生交互,人要跟电视发生交互,人要跟电脑发生交互。基于主动性,它可以创造一种新的交互模式,它就会有原生属于自己的一些应用能力,形成独属于自己的生态。
二是今天具身智能在家庭里可以跟人发生情感连接,不仅仅是基于应用或者数据本身发生的连接。比方说我们比较少会跟一个手机发生情感连接,导致我换手机依依不舍。但是未来可能我们会具身智能硬件有这样的情感连接,这也是为什么我们坚持去把它做成人形的原因。我们今天做成人形,并不是所谓的它更适配于物理世界,更大的原因是希望“让人当人”-人能够向其中投射一些人跟人之间特有的情感连接。
正好今天多模态大模型的成熟,我觉得我们可以做成这件事情。
兼具主动性和情感连接之后,具身智能终端它会有原生属于自己的硬件能力,也是原生属于自己的软件生态,也会有原生属于自己的模型,这是我们对于它未来的终极想象,我相信,这是未来十年最重要的新终端之一。
从商业价值来看,具身智能这个产品这个赛道,是有可能让一家公司成为 Magnificent 7 级别的公司(注:指 Apple、Microsoft、Alphabet、Amazon、Nvidia、Meta、Tesla 七家科技巨头公司),里面有 2 家硬件公司,苹果和特斯拉,都是让上两代硬件终端进入到千家万户,千万台甚至亿级别的出货。手机作为一代终端,诞生了苹果;汽车作为一代硬件终端,诞生了特斯拉。
从具身智能终端里诞生的 Magnificent 7 级别公司,可以说是硬件公司,也可以说是生态公司,但我认为它应该是一家以硬件为基础,构建了自己的模型能力和软件层应用生态的公司。
我是觉得我们有机会做成这家公司。
愿景之外,其次当然就是自己的能力了,因为我非常了解家庭这个场景,我以前做扫地机器人,过去市场往往把扫地机器人归为单一功能的传统家电,甚至在赛道早期,行业低估了它与具身智能的血缘关系。但事实上,扫地机器人是过去十年唯一实现大规模量产并验证了PMF(产品市场契合度)的机器人品类,它为我们沉淀了极为珍贵的原生场景理解。
我们在做家庭的场景的时候,我们有两个跟大家完全不太一样的认知跟判断,第一个就是安全,一定是前提。而且是对于家庭每一个成员,老人、孩子、宠物,每一个家庭成员的安全,才会构成一个家庭购买决策,说服用户去购买这个产品。
第二个是全自动,今天很多机器人认为自己用遥控器就可行的情况之下,我们在那个时候就潜移默化地知道全自动化的重要性,因为一个扫地机但凡被卡住,人要回去搬它一下都会觉得很烦。我带一个机器人回家,我默认是来服务我,而不是我来服务它。
Q:你曾经把目标类比为「机器人行业的大疆」,大家把稀缺的航拍能力变成了普通消费者也能使用的能力。乐享科技如果要成为「机器人行业的大疆」,你们要把哪种能力平权给普通人?
A:这是我们早年非常重要的一个比喻,比喻成大疆意味着两件事,第一是说,大疆把当年一个大家可能认为还在 ToB、甚至军用的技术,真正地带进了千家万户,这个非常像今天的具身智能,它还只是存在于一些实验室,存在于 B 端的一些巡检、安防场景里面。我们希望让在 B 端的这些能力能够快速地走向 C 端,创造它属于用户的价值。
第二是说,确实,我们不希望它成为一小撮人才会用的产品,而是希望它能够成为成为足够大的量级,今天一个普通的中产家庭也能负担得起的产品。
这里面要下放几个很重要的技术,我们内部讲,用可工程化的高维技术解决实际的用户需求,等于成规模的产品。所以我们就一代代找哪些技术到今天已经可以工程化了,哪些场景是今天用这些工程化技术可以满足的,我们就一代代地去满足这些需求,采取一种渐进式的具身智能落地路径。
具身智能的技术链条当然很长,每一代成熟的技术,我们都会把它下放到我们的这个实际的场景里面,然后去满足一代代的用户需求。
我们内部是这么思考这个公司的运营的,会分为两层,第一层是技术层,第二层是产品层。
技术层主要负责什么呢?我们说自己是家庭具身智能的开创者和长期引领者,技术层主要是负责长期引领,因为具身智能是个足够长的赛道,长期引领一定来自于技术的驱动。今天我们掌握了所有的技术单点,能够做技术的全覆盖的情况之下,任何一个技术如果突然成熟,元点机器人不至于被降维打击掉,可以快速补上技术差距,所以我们布局了 6 个技术点。
真正到产品化,产品层的时候,用户价值就很重要了。
今天具身智能成熟了两个技术,第一个是小脑能力,也可以说是运动能力,比如说宇树给大家看到的,想做什么动作都能做出来。第二个是多模态交互能力,基于底层 AI 模型的能力,可以把多模态交互做得比以前成熟很多,这是目前成熟可以工程化的能力。它们俩有没有价值呢?其实非常有价值。
运动能力上,小人形具身智能终端第一次诞生了可以在全屋通行的平台,遇到障碍物可以迈过去,遇到门窄一点,它可以侧身就进门,都是因为它这个小脑感知决策能力、运动能力成熟的表现。
当有一个全屋覆盖的运动能力的时候,就有机会把一些固定的硬件结合起来,我们监控老人的安全可能是靠装摄像头,但有的老人不接受摄像头,以及装摄像头得装很多个才能覆盖全屋。如果今天我们有一个移动的机器人,把摄像头全屋移动起来,就可以用一个老人可以接受的形态,让摄像头覆盖老人在全屋的安全监控。
还有移动的照相机,以前很多爸爸是不入镜的,是因为都在拍妈妈和孩子,但今天爸爸有机会入镜了,因为它是一个可以移动的家庭影像设备,平常是一个小伙伴。
情感交互能力则会诞生一个人级别的陪伴。
最典型的场景,具身智能终端可以不断加深对人的记忆,因为它并不是做一个通用的记忆,而是能识别到你的情绪,它会理解你喜欢什么东西,不喜欢什么东西,你喜欢跟谁交流,不喜欢跟谁交流,所以它会逐渐地越来越懂你,甚至有一天比你更懂你自己。它还可以认识不同的家庭成员,跟每个人做不一样的交互,手机上共用一个软件是没办法这样的,我把我常用的 AI 助手给孩子用,那 AI 助手的表达就不会针对孩子做优化。
Q:具身智能机器人进入家庭的想象有几十年了,但依旧没到消费级的地步,这个类目目前拥有的核心能力,比如执行复杂家务的能力,离可用的门槛还有多远?或者说,未来家庭里面,机器人像家电一样,会不止一个,而是有很多个?
A:具身智能也可以类比成自动驾驶,有 L1 到 L4 的分级,我们内部也有类似的分级,L1 级具身智能终端可以完成一些相对固定、非泛化的地面任务。比如捡起地上的垃圾、整理鞋子等,因为这类操作对力控和精细操作的要求还没有那么高。
L2 级别就是做一些立体空间的简单收纳,瓶瓶罐罐,盒子箱子归堆归纳等。
L3 级别是能够和智能家居打配合,完成一些全屋级别家务,比如打开冰箱门取东西这件事就是有难度的,因为有的冰箱门是抠拉的,有的是按键的,还有的可以远程操控,如果具身智能能配合网关和智能家居,可以做的事情就会更多。我们就在和涂鸦智能在 AI Home 领域进行合作,融合我们的具身执行能力和他们的 AI+IoT 生态底座。
L4 就是真正的全自动,哪怕放到老破小的房子里,也能通过泛化能力去操作执行任务。
3 年左右的时间,我觉得有机会做到 L3 水平,在智能家居深度配合下,有机会让机器人进入家庭做家务。
Q:对乐享科技和元点 Zeroth 来说,你们最底层的产品信念是什么,或者说,创业的初心原点?比如「机器人应该走进家庭」,「机器人应该有情感」,还是「AI 终端必须有身体」?
A:我们的初心其实很简单,因为我自己一直想做的科技产品是能够给大家带来实打实的帮助,能够让大家的生活变好的产品,那就是一个好科技产品,所以我们一直想说自己要做一家有温度的科技公司,其实就在于这里。
还有一点跟市面上其他人的想法不太一样的是,今天社会上有一些对机器人讨论放在取代人\跟人竞争,我们把家庭具身智能的品牌叫元点 ZEROTH 的原因是,我们希望从零开始去定义人跟机器人的关系。
我觉得很多人对于人和机器人关系是在一个狭隘的历史观里去做判断,现在是在工业时代,所以会认为机器人就是进工厂,然后取代人的工作。
历史上第一次对具身智能的想象,其实是带着「人性」的,3000 年前,《列子·汤问》里有「偃师造人」的故事,偃师造的木头机器人能歌善舞,还能给人抛媚眼。还有古希腊神话里的青铜机器人塔罗斯,因为古希腊神话经常描写战争,所以青铜机器人塔罗斯的主要任务就是守城,保护人类。
工业时代我们用钢铁铝合金做机器人,才想着让它们进工厂。
实际上每个时代对机器人的理解就是用当时最好的材料,做人形机器人,来弥补自己的不足,自己迫切要做事情,让机器人代替自己去做,就像古希腊的塔罗斯一样,实际上就是一个更强壮的人类。
当时我意识到,大家造机器人,本质上是一个镜像自己的一个过程。人形机器人为什么是人形,首先就是大家在映射自己,人投射了自己的认知,所以我当然会认为二者是共生的,希望一起去创造和探索外面更大的世界。
还有一点是我对 AI 的认知,坦诚地讲,我从来不担心所谓的 AI 降临统治人类的警告。就像人一样,短期内可能有一些小聪明、一些奇技淫巧的东西出现,但长期一定知道真善美是最优解;我甚至认为那些认为 AI 会伤害人类的人,其实不相信 Scaling Law,相信 Scaling Law,相信算力越强、数据越多、 AI 越强的情况下,AI 最后一定会智能涌现出真善美,技术的发展方向最终取决于价值选择,而不是技术本身。
所以乐享科技今天做机器人和 AI 模型,我没有那么大的负担,因为我觉得我们就是用一个自己的发心去做这件事,最后就是会做出一个足够好,跟人共生,互相创造的机器人和模型。
机器人具备「人格」,比做成「人形」更重要
Q:现在元点 Zeroth 已经展示了 M1、W1、N1、Jupiter 等不同形态的具身智能终端。外界可能会觉得产品线有点多,但你们内部应该有一套逻辑。能不能讲讲这些机器人之间的关系?它们是并列产品,还是围绕同一套技术平台长出来的不同形态?
A:前面我介绍了乐享科技的运营模式,一层是技术层,一层是产品层,技术层完成 6 个技术难点的预研,包括关节模组、轻量化机械臂、VLA、具身通用模型、本体结构、情绪识别模型。
技术在探索过程中,会有很多原型机出现,例如机械臂、关节模组、整机结构三个团队,在探索整机结构的过程中就会做出不同的形态,80 厘米的我们做出来了全球最轻最小的具身智能,也储备了一米二、一米六的形态,所以在技术层会有不同的探索,Jupiter 就是这种。轮臂式机器人 N1 是在探索 VLA 过程的载体,也有很多我们在结构上的巧思。
真正产品层的话,我们今年想产品化的两款产品是 M1 和小瓦力(W1),这是明确的。M1 属于小人形,小瓦力属于类人型。
而且我们不光只考虑今天的产品,尤其是人形形态,我们在技术层上预研了三代,其实这也不太像一个创业公司会做的事情。内部的思考是,我们在做一个绝对意义上从 0 到 1 的赛道,这个赛道不太能主观判断什么东西能成功,更不能判断就是第一代就一定成功,因为家庭具身智能未来商业预期是 10 万亿的赛道,但在今天几乎为 0,因为今天没有任何一个具身智能产品卖了超过 5000 台。
当行业还没有产品能卖过 5000 台的时候,实际上就相当于还没有找到真实的用户需求,用户端的需求都没找到,市场还是 0 的情况下,我们不会预设自己第一次就能找到最终产品形态,而是要从小的成功里迭代、不断扩大成功。
我们本身比较擅长的方式就是通过不断的用户测试,用高频迭代的方法不断找到产品能更大成功的形态,所以我更喜欢说,多做一些可能性尝试、在用户端测试真实需求。哪怕第一批量只有一万台,但小步快跑,很快会滚动起来。比如说我们在线下做地推,就会看在真实场景里,产品的什么交互能打动什么人最后促成销售。
本质上是我们在一个从 0 到 1 的过程里去扩大公司成功的概率,就是需要多一些的产品形态和多一些的功能可能性组合,然后在用户端做测试之后去选择、去放大。
Q:现在行业里很流行讲「人形机器人」,仿佛只要机器人长得越像人,未来就越近。但元点 Zeroth 的路线并不是只押注全尺寸人形。你怎么看「人形」这件事?它是家庭机器人的终局,还是只是众多形态之一?
A:这个问题特别重要,做人形一定想清楚人形到底有什么价值。可能很多创业者还没有想清楚,乐享科技的答案跟大家不太一样,很多人说做人形是因为物理世界经过人类改造,是契合人类形态的。我们做人形,就是“让人当人”,人会把它当人,前面我也说,要做一个人级别的交互和陪伴,首先用户需要把它当人看。
我们没做宠物和玩具的形态,还是因为这是不同级别的陪伴。人跟人对相互情绪的理解需求、记忆更丰富,情感反馈也更明确,基于这一级别的交互,延展能力和可能性更多,也可以把生态做深做广,构建真正的壁垒。
是不是一定是人形?还不一定,比如说我们的小瓦力,大家也是把它当人的,当做一个外星来客,因为科幻片里是这么刻画的,这也是我们选这个 IP 的理由。哆啦 A 梦也是,感受上来说,我们更把它当做一个人,而不是一只猫。
就是说相比于是不是人形,有没有人格更关键。真正决定长期价值的并不是外形,而是持续建立信任、理解与陪伴能力。
Q:清华姚班的创办者姚期智说具身智能的核心能力和人很像,身体(行动),小脑(感知和控制)和大脑(推理决策规划交流)三大件组成,目前的情况是小脑和大脑不太发达,那么按照这个理解门槛很低的比喻,可以给我们乐享科技的基础能力现状吗?
A:我认为我们的「身体」和「小脑」都是行业最好的,「大脑」正在成为最好的过程中。
为什么我比较自信在身体这一层做到了最好呢,就是因为我们在真实场景里做了适配,最简单的进入家庭这件事,机器人肯定不能太重,市面上一些产品用大的关节模组,一个关节模组都这么大,做出来的机器人基本上就是三四十公斤,最轻最轻也要十五、二十公斤,很难相信这么重的机器人进入家庭。
我们认为一个小机器人就不能超过 10 公斤,这意味着每个关节模组只能有 200 克,一个机器人 25 个关节模组,这里就占到了 5 公斤,剩下的传感器和结构件 5 公斤,这就是 10 公斤。
我们花了 9 个月的时间,把关节模组做小做轻,就是真的希望机器人进入家庭,所以对于重量和体积,还有性能都有极致的思考,所以我们也率先把粉末冶金技术引进到了人形机器人关节模组的研发和生产环节,就是希望在成本和重量可控的情况下,把性能做到最好。
小脑层面的自信源于我们已经做到了真正的全自动,机器人放在家庭里就不用管了,它自己走路,自己跌倒爬起,自己避障,自己越障,能够自己去定位、导航、充电、建图。比如我们的 M1 是全球首个可以自主回充的家用人形机器人。
大脑确实是我们最后开始做的一项技术,我们今年会在9月份发布我们自己的模型,会给大家看到我们的大脑能力,也是非常具有我们自己思考的一个模型。
Q:拿到 10 亿融资,是因为我们最有希望把家庭具身智能做成
乐享科技创立一年半就获得 Pre-A 轮融资累计超过 10 亿元,在更愿意聊愿景和未来的具身智能赛道,乐享科技更希望用现实的产品和商业化来佐证自己的商业逻辑,他们的两款家庭具身智能产品率先进入家庭,刚刚突破了 3 万个具身智能机器人的订单。公司在具身智能赛道的目标是成为 Magnificent 7 级别公司,内部布局 6 个技术点,包括关节模组、轻量化机械臂、VLA、具身通用模型、本体结构、情绪识别模型。产品层聚焦 M1 和 W1(小瓦力),技术层预研三代形态,从 0 到 1 赛道,通过用户测试迭代。公司愿景是乐享成为字节跳动、元点 Zeroth 变成抖音,产品信念是打造有温度的家庭成员,定义人机共生关系,底层信念是实打实帮助生活、从零定义关系。核心能力包括 10 公斤以下超轻关节模组、自主回充全自动运动能力、多模态交互。Grok 发布模型将在 9 月发布,大脑能力正快速追赶。融资获批因公司最有希望实现家庭具身智能商业化。
关键要点
- 乐享科技定位与愿景:乐享(集团名)下设元点 Zeroth 品牌,目标是打造字节跳动式生态,让元点 Zeroth 成为抖音式爆款产品,聚焦具身智能赛道,目标诞生苹果级 Magnificent 7 公司(硬件+模型+生态),内部比喻为机器人行业大疆,将 B 端能力平权给 C 端普通家庭。
- 产品形态与技术布局:多形态终端(M1 小人形、W1 履带式类人型、N1 轮臂式、Jupiter)围绕技术平台预研,技术层布局 6 个点(关节模组、轻量化机械臂、VLA、具身通用模型、本体结构、情绪识别模型),产品层产品化 M1 和 W1;核心能力包括超轻 10 公斤关节模组(粉末冶金)、自主回充全自动运动、小脑运动能力领先(全球首自主回充家用人形机器人)、多模态交互能力成熟。
- 家庭场景核心决策:优先家庭场景因郭人杰扫地机器人背景,强调安全(覆盖老人/孩子/宠物)、全自动(默认机器人服务用户,而非用户服务机器人);商业价值在于 3 年后 L3 级别(与智能家居合作,打开冰箱门等全屋家务)。
- 交互与关系定义:主动性+情感连接,打造“让人当人”的有温度伙伴,区分人格(信任/理解/陪伴)而非仅外形;历史观是人机共生(非工业时代取代),创始人对 AI 持有乐观观点(相信 Scaling Law 最终涌现真善美)。
- 运营与迭代策略:技术层长期引领+全覆盖,产品层用户价值驱动;从 0 到 1 赛道(市场近乎 0),通过小步快跑、多可能性尝试+用户测试迭代(地推看真实交互),以滚动方式扩大成功概率。
意义与影响
乐享科技通过「多样性公司」叙事,展现具身智能从实验室/B 端向消费级家庭平权、定义人机共生关系的可能性,挑战传统「机器人=取代人」狭隘观,强调从零构建技术生态与情感壁垒。公司实践的渐进落地路径(L1-L4 分级、与涂鸦智能合作 AI+IoT、9 月发布自家模型)为同赛道公司提供了脚踏实地的参考,降低早期技术风险。融资超 10 亿元且获多方关注,证明具身智能赛道已从愿景向商业化迈进,预计 3 年后实现 L3 家务场景,将极大重塑家庭生活(多机陪伴+安全监控+情感交互),推动硬件+AI 生态公司进入千家万户,定义具身智能产业新常态,同时为「多样性公司」模式提供标杆:专注独特价值、敢于创新、多品牌长期主义。
