| 雷峰网
0
本文作者: 吴华秀 | 2025-02-05 18:27 |
在一年一度 CES 2025 上,AI 陪伴机器人成为新的热点。其中,美国玩具公司 TOMBOT 和国内大象机器人分别推出了AI大模型仿生宠物,既有仿生拉布拉多犬,也有仿生熊猫;日本公司 Yuaki Engineering 展示了可挂于背包或手腕上的小型毛绒陪伴玩具 Mirumi。
同样将目光望向 AI 陪伴机器人这片蓝海的,还有跃跃欲试的珞博智能——一家成立于 2024 年、聚焦于 AI 情感陪伴机器人的别样具身智能公司。
珞博智能的创办者孙兆治,此前是一位连续创业者,也是一位深耕汽车与机器人领域多年的行业老兵。
孙兆治 2011 年硕士毕业于英国考文垂大学汽车内饰设计专业。这所院校坐落于二战前的全球汽车城考文垂,具备浓厚的汽车文化底蕴,是汽车设计领域知名院校。毕业后,孙兆治在汽车行业开启了长达十年的职业生涯。
起初,孙兆治在欧洲从事汽车设计,曾参与过上一代奔驰 S 的交互架构、宝马 3 和阿尔法・罗密欧 Giulia 的内饰造型等设计工作。
2015 年,国内造车新势力如火如荼,孙兆治选择回国加入小鹏汽车,负责整个小鹏汽车的内饰设计,参与定义了中国新能源汽车引领全球的内饰座舱用户体验。2017年,孙兆治加入滴滴,担任滴滴造车项目的产品负责人,深度参与了共享出行及无人驾驶时代交通工具的产品定义。
2020 年底小鹏成立机器人公司鹏行智能,孙兆治受邀加入,负责机器人全线产品设计及品牌工作,毅然加入这一波具身智能的技术浪潮之中。至此,孙兆治正式开启由汽车行业转向机器人的新征程,再一次尝试去定义全新的产品品类。
作为一名由自动驾驶赛道切换至机器人领域的创业者,孙兆治长期浸淫在技术的前沿高地。期间,他亲历了智能化技术为汽车带来的深刻变革,也参与了机器人技术的发展推演与应用探索,这让他对技术发展与产品创新之间的节奏关联有了深刻认识。
尤其是自动驾驶技术的创业历程,让他意识到,寻找技术进程中的“溢出点”并快速实现商业化是一条可行路径。
自动驾驶火热时,L4、L5 被高高捧上王座,连 L3 都成了瞧不上眼的存在。但哪怕是在 AI 狂奔十年后的当下,真正意义上的 L4、L5 级别商业化应用仍然还没能问世。反倒是自动驾驶技术发展过程中的一些技术溢出,如 SLAM 技术的成熟,滋养了一批扫地机器人公司,接连传来上市的敲钟声。
同样,具身智能浪潮中,具备高智能水平的人形机器人就如同自动驾驶的终局 L4、L5,想象空间大、令人神往,同时技术难度极高、实现漫长。从商业落地角度考虑,探索技术溢出也将成为 2025 年具身智能的一大分支。
2021 年 ChatGPT 横空出世后,孙兆治就跟朋友打赌:大模型带来的交互模态的变革和交互体验的跃升,一定会催生出一批新的硬件形态。在鹏行期间,孙兆治与团队曾尝试引入大模型算法赋能机器人,他发现:相比人形中难度更高的运动控制,C 端用户最先感知到的其实是与机器人的交互体验。
珞博智能的创业初衷由此诞生:基于大模型的语言交流与感知交互提升,打造一款面向 C 端的、能更快落地的智能硬件——AI 情感陪伴类机器人。
珞博智能创始人孙兆治
从自动驾驶切换到陪伴类机器人是一个较大的跨越,但孙兆治认为后者是一个“被低估的赛道”。近日,AI 科技评论与孙兆治进行了一次交流:
AI 科技评论:你此前一直在汽车领域,为什么会转向机器人赛道?
孙兆治:我之前在汽车行业长达十年,目睹了智能化给汽车行业带来的深刻变革,今天的智能汽车就是一个标准意义上的机器人:能够自主感知、自主决策、自主执行。我过往创业也有做过智能硬件创业,我很坚信“AI+硬件”将会成为下一轮技术浪潮的核心驱动力,而机器人是其中极其重要的一个品类。
如果要投身于 AI+硬件的浪潮中,加入一家具有技术实力的机器人公司显然是快速学习积累的最好选择,所以 2020 年我就去了鹏行。对我来说,这也是一个跨领域学习的宝贵过程。
AI 科技评论:从汽车行业切换进机器人赛道,是一个比较大的跨越吗?
孙兆治:我认为汽车与机器人虽然说是两个行业,但这是两个离得相对近的行业了。
我当时负责的工作主要是产品设计。从产品设计上讲,很难找到一个像机器人这么复杂的产品体系和形态,基本上只有汽车能匹配得上这样的复杂度。
我们当时组建机器人的产品团队和设计团队时,其中也有相当一部分人才来自汽车行业,如果过去做过的产品复杂度不够,其实是很难 handle (应对)机器人这样一个复杂的品类。
AI 科技评论:在鹏行时,你主要参与了哪些重要成果?
孙兆治:我主要负责鹏行的产品及设计工作,同时也带品牌团队。比较显性的成果,比如鹏行前后发布的 PX1、PX2 两代机器马,以及 PX5 人形机器人,它们的外观设计和体验设计都是我的团队做的。
比如,2023 年我们发布的 PX5 人形机器人。与很多人形机器人不同,首先 PX5 人形机器人的个头不大,大概一米五左右;另外,它长得没有那么像人类,就是一个机器人模样。我们没有采用非常坚硬或冷冰冰的材料去设计一款机器人,而是想让机器人拥有一个非常具有亲和力的外形。我们对这些外形都有过深度思考,并不是简单追求一个酷炫的外形设计。
另外,针对四足机器人、人形机器人在特定场景应用,以及技术演进过程中可能会出现的一些机器人形态,我们之前也做了大量的思考和推演。虽然这些工作没有对外展示,但在内部对产品未来的一系列迭代是有指导作用的。就像汽车行业会有大量概念车的讨论,对内有指导意义,对外并不公布。
AI 科技评论:汽车作为一个成熟产业,以汽车作类比,机器人如何才算得上是量产?
孙兆治:通常而言,量产产品是指用量产工艺进行生产,并达到流程化验收标准的产品。
现在机器人一年可能只是几十台、几百台的产量,规模比较小,基本上还不会用到量产工艺。不过,只要产量能达到千台以上,就有机会去进行规模化操作。
像汽车行业,如果年销量超过 3 万台,那就能够支撑起一款车型从冲压、焊接到涂装等所有产线的投产运营。所以一旦机器人产量达到上万台,就意味着机器人进入到规模化量产阶段了。
AI 科技评论:你在汽车领域长达十年,得到了哪些启发,可以应用在具身智能领域?
孙兆治:汽车已经被发明一百多年了,技术还在持续迭代,但这不妨碍每个时代都有非常经典的车型。我们会把技术的发展视为一个螺旋上升的过程,每一个阶段技术所达到的程度都会不同。我们倾向于利用近未来出现的关键技术变量去做一个能商业化落地的产品。
比如 2013、2014 年时,汽车行业里自动驾驶很火热,自动驾驶初创团队不断涌现。那时候大家热衷于谈论 L4、L5 级别自动驾驶,还看不起做 L3 级别的公司。但从实际情况来看,即便近十年 AI 和整个智能化的基础能力发展已经很快了,真正意义上的 L4、L5 级别商业化应用直到今天也还未出现。
在这一过程中,很多自动驾驶公司垮掉了,就是因为因为商业化路径不清晰,不仅长时间没有收入,还得持续依靠公司自身输血维持。最终存活下来的公司,要么是能找到应用场景、有客户的;要么是背后有大资本支持,可以持续烧钱十年、八年。
反而是自动驾驶技术的溢出,让其他领域发展了起来,比如扫地机器人。 扫地机器人这一产品类型的出现,本质上是自动驾驶技术溢出的结果,具体来说是 SLAM 技术,以及传感器成本大规模下降。人们一直都有扫地的清洁需求,只是以前技术供给不成熟,扫地机器人产品力欠缺。
现在技术成熟了,扫地机器人市场也相应爆发了。国内外几家大型扫地机器人公司的市值,有不少是超过汽车公司的。扫地机器人也算是首个走进千家万户的机器人产品类别了。
在具身智能技术的长期发展过程中,也一定会产生技术溢出,会支持一些新硬件或产品的出现。
AI 科技评论:所以你们是从商业化落地的视角上去考虑产品。
孙兆治:最终大家都要考虑商业化。技术也好,设计也好,品牌也好,最终都要能转换为用户价值,才有机会获得商业价值。我们做产品的出发点是思考清楚能创造怎样的用户价值。
AI 科技评论:你是怎么发掘机器人提供怎样的用户价值的?
孙兆治:一部分来自于观察实际用户的反应。我举个例子,在小鹏机器人的项目中,我们花了很长时间去调整机器人的一些运动表现,比如让它走得更好看、更平稳,行走时声音更小、更安静。
当时受 ChatGPT 的启发,我们一个小团队还做了这么一件事:把机器人的表情、声音以及一些动作和模型关联起来,这样就能和机器人对话、逗它笑、摸它的头,它也会有各种各样的反应。
我们在机器人的交互和运动能力两方面的技术投入比例并不同,很显然运动控制难度更大。但在展示时我们发现,不管是我们自己的团队成员,还是参与测试的用户,都对交互体验展现出了极大的兴趣,因为这是他们最能直观感受到的,甚至愿意为此付费。而对于机器人走得更稳这类运动控制方面的改进,大家几乎没什么特别的感受。所以用户价值有时候跟技术含量没有关系,需要带入用户视角思考或观察。
AI 科技评论:这一过程相当考验产品想象力和用户需求的挖掘。
孙兆治:产品想象力是设计师和产品经理的强项,大部分人很难具备。
我们所做的创业归根结底遵循的是非常商业化的底层逻辑。关键在于如何一步步地将技术价值以及自身对市场的洞察,转化为用户价值,最终形成企业的商业价值。
AI 科技评论:你是从具身智能技术栈去思考最靠近落地的技术。
孙兆治:我们不局限于人形机器人的形态,而是着眼于具身智能赛道的发展阶段,探究这一技术栈能催生出什么样的产品形态、为用户创造怎样的价值。
目前,具身智能涵盖机器人的行走、手臂操作、大脑任务规划以及自然交互等能力,这些构成了完整的技术栈。那么,当下最易实现商业化落地的场景是什么?我们觉得得益于大模型的发展,自然交互与智能规划方面的体验将会有质的飞跃。相比之下,双足行走和双臂操作距离消费级应用还很遥远。
在交互智能与规划智能方面,能更快实现商业化落地的产品应该是小型情感陪伴机器人,而不是通用或人形机器人。因此,我们选择聚焦在消费级情感陪伴机器人,将本体定义为 AI 硬件。
AI 科技评论:交互智能和规划智能属于机器人中的“大脑智能”。
孙兆治:对,确实如此。要是去了解一下人类神经学原理就会发现,整个人脑的进化历程中,有一部分人脑在古哺乳动物早期就已经出现了,我们称之为“古哺乳动物脑”。它最初的作用就是解决基础的移动、部分操作,以及类似反射行为那样的感知与决策问题。这块其实也是今天很多具身智能团队还在解决的问题。
一旦说到交互,就必然会涉及语言理解、大量的视觉理解以及各种感知的融合。所谓的规划智能,对应的其实是人脑前额叶区域,这是人脑最后才进化出来的区域。
如果做一个粗略的仿生方面的比喻,珞博智能正在做的事情,其实就是整个人脑在中后期进化出的这块区域相关的工作,它与语言、复杂视觉紧密相关,并且和逻辑推理、决策相联系。从生物进化角度来讲,这部分是最后才进化出来的。但从技术发展角度看,恰恰因为如今大模型技术取得了突破,使得与之相关的事有望更快地变为现实。
AI 科技评论:你们采用的是哪一家模型?
孙兆治:我们主要聚焦于多模态大模型应用,这也是我们的核心能力。产品的设计架构具备插拔特性,方便测试各类模型,等最终量产产品推出时,我们会公布所选用的模型。在交互方面,海外与国内产品所搭载的模型会存在差异。
此外,我们自主搭建了记忆系统,其中长期记忆分为两种。一种是观察记忆,通过各种传感器收集基础信息,比如人们说的话、看到的场景等;另一种是反思记忆,它会基于过往记忆,利用定期触发机制进行总结与反思,生成更高维度的信息。整个反思记忆系统由大模型来驱动。由于不同任务有着不一样的要求,不同环节需要调用不同模型来处理。
AI 科技评论:现在能实现的效果是什么样的?
孙兆治:事实上,我们现阶段所打造的机器人,赋予了它近似人体的外观构造,配备了脖子和胳膊,由特定数量的自由度构成。当前设定为六个自由度,具体分布为脖子处两个,每个胳膊在肩膀位置各有两个。在此基础上,我们进行了一项大胆的尝试:完全凭借大模型来操控机器人的行为举止。
我们针对大模型实施了专门的训练,清晰告知大模型每个自由度的边界,以及这些自由度所大致代表的意义,之后就完全让大模型自主进行编程,对机器人的所有行为实施控制。这时候,就会出现一个好玩的现象:以前的交互机器人,如果要求它表演跳舞,它的舞蹈动作往往是预先设定好、固定不变的。但是我们设计好的机器人,每次接到跳舞指令,所呈现出来的舞蹈动作都不一样,很有意思。
AI 科技评论:你们团队组成的特点是什么?目前产品迭代情况如何?
孙兆治:我们团队有近期实现商业化的目标,为此搭建了一个能短期内将产品推向市场的团队。但目前还是以研发工作为主,涵盖软件与硬件两方面。
2024 年年中,我们正式开始做,接着 9 月做出第一版功能原型机,10 月、11 月依次推出第二版、第三版,基本保持一月一次迭代的节奏,每次迭代软硬件都有较大的更新变化。
AI 科技评论:你们现在机器人形态是什么样的?
孙兆治:我们前三轮产品迭代都是做了一个桌面形态的机器人,高度是十四五厘米高、很小。我们并不希望让这个硬件有多像机器人,而是让它足够可爱有趣,并且适用于多模态大模型的交互能力。
AI 科技评论:这个桌面机器人会是你们的一个过渡产品形态吗?
孙兆治:我们现在做的情感陪伴机器人不一定完全就是桌面形态,未来我们也有可能会做更轻量、更小型的产品,可以随身带在身上。
另外,我们也认为地面移动类机器人也非常适合承载我们的技术和思考,我们后续也会有这方面的探索。
AI 科技评论:在研发小型情感陪伴机器人的过程中,你们有没有遇到什么难题?
孙兆治:延迟是大家普遍关注的问题。目前大部分大模型实时交互的硬件产品,延迟长达 4-8 秒,显然没法满足沟通需求。为此,我们投入大量技术精力进行优化,力求将延迟控制在了 2 秒范围,只有这样,产品才能在各类场景中有效发挥作用。
再一个是大模型的幻觉问题。当下我们尝试让大模型操控机器人的动作、语言、情绪以及记忆等方面,偶尔会有幻觉,但整个场景的容错率还是比较高的。要是把它应用在严肃的工作场景里,可能会引发不少棘手问题,毕竟这些场景对机器人的精准度、可靠性要求极高。但如果只是将它当作一个用于情感陪伴的“小家伙”,那即便它偶尔出现动作失误、情绪异常,这也可以理解,用户关注的重点更多是它所给予的陪伴感。
我们也有和做人形机器人的团队交流过,发现如果把我们这套技术运用在人形机器人上的话,是没法让大模型去控制机器人这么多的自由度的,因为机器人首先可能站都站不稳,甚至可能还会出现意料之外的后果。
AI 科技评论:有人认为,AI 陪伴是一个伪命题。您怎么看?为什么会选择 AI 陪伴机器人赛道?
孙兆治:我们认为机器人能够创造的情绪价值,天花板一点也不比生产力价值低。
机器人提供的价值大致分为生产力价值与情绪价值两类。特斯拉的机器人未来能进工厂拧螺丝,替代工人劳动。这是一个潜力巨大的市场,一旦机器人真能取代人力,影响力难以估量。
但从另一方面看,智能体所承载的情绪价值,我们认为丝毫不亚于生产力价值。
不妨设想一下,当机器人成功取代人类劳动力,社会生产力大幅跃升,人们衣食无忧之际,消费重心会转向何处?必然是那些能够满足精神需求、提供情绪滋养的产品。
再举个身边的例子,你知道中国现在有多少只猫和狗吗?有数据统计,中国至少有 6000 万只猫,狗的数量也差不多。而在美国,猫和狗的数量差不多是中国的两倍,日本的数量也和中国相近。这些小猫、小狗提供的几乎都是情绪价值。现在养猫,很少有人是为了让猫抓老鼠了。那些养猫养狗的朋友,他们每年在猫身上的花销并不少。所以情绪价值的市场空间很大。
AI 科技评论:除了情感陪伴外还有其他功能吗?比如协助导航、知识问答等。
孙兆治:我们很可能会限制机器人去解答复杂的技术类问题,也不会让它具备太多工具属性的功能,因为那样会破坏整体的感觉,让人觉得不协调。
我们希望把机器人定义为一个专注于提供情绪价值的产品,我们的目标是希望用户能够与小机器人结交为朋友。
AI 科技评论:国内陪伴机器人市场竞争激烈,你们的竞争优势是什么?
孙兆治:大模型在情感陪伴领域的效果调优,我们在这块有很大优势。我们联创 Yuna(潘雨楠),她曾参与过字节豆包团队以及 MiniMax 团队在情感陪伴领域项目的调优工作。此外我们团队也挖掘了不少算法人才,专门针对情感方面的效果做调优。
其实这不仅仅是个技术问题,还考验对用户和场景的理解。比如近期很流行的恋爱类游戏,像上海叠纸开发的《恋与深空》,它厉害的地方就在于能深入地把握女孩子的情感需求,打造出非常细腻的情感交互体验,所以玩家才乐意玩。
我们团队小伙伴过去也曾做过大量类似产品,积累了大量相关数据以及优化方式,能更好地在交互体验方面对模型进行调优,让智能体更具人性、更有人情味。这里面其实蕴含着一些比较微妙、难以言传的经验。
AI 科技评论:所以你们主要的竞争力是在大模型的算法上吗?
孙兆治:对,从技术层面来看,这是最主要的部分。
另一方面是产品设计能力,我本身是汽车设计出身。对于这类注重情感价值的硬件而言,有充分的经验。不管是外观,还是体验设计,像机器人动作中所呈现的姿态、表情,以及触感等方面,都会涉及大量精细的设计工作。这一块我们明显做得比同类产品更好。
AI 科技评论:你预计什么时候可以商业落地?
孙兆治:我们计划是 2025 年上半年与下半年分别发布一款产品。我们现在已经在做一些用户基础测试,我们发现这个市场其实比我们想象的还要大,大家非常喜欢这类产品。一旦产品实现商业化落地,就可以得到的大量数据,这可以反哺优化我们的模型效果,形成一个用户数据飞轮。
AI 科技评论:当你真正开始创业后,对机器人这一赛道有什么不同的感受?
孙兆治:我认为从长期来看,它所具备的价值要远超当下绝大多数人所预想的价值。而从短期来讲,它面临的难度同样也比现在绝大多数人所认为的难度更大。
雷峰网(公众号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。