| 雷峰网
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给朱可轩
发送

0

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈

本文作者: 朱可轩   2025-02-21 16:57
导语:百万真机数据集的终极目标是打造硬件加系统的 AI 次方模式,构建真正智能的端到端具身系统。

作者丨朱可轩

编辑丨陈彩娴

去年年底,全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World 发布,在机器人领域引起了广泛关注。

AgiBot World(https://agibot-world.com/)的目标是打造硬件加系统的 AI 次方模式,香港大学助理教授李弘扬博士团队与上海智元机器人深入合作,开展了机器人超大规模操作任务的前沿研究。

2019 年,李弘扬在香港中文大学多媒体实验室(MMLab)获博士学位,主攻计算机视觉和深度学习方向,于2021年在上海组建了 OpenDriveLab 团队,专注具身智能与自动驾驶的研究。

他曾在 CVPR、ICCV、ECCV、NeurIPS、RSS、CoRL、ICLR、TPAMI 等国际顶尖会议与期刊上发表论文三十余篇,并多次担任会议领域主席(Area Chair),其中端到端自动驾驶算法工作 UniAD 被评为 CVPR 2023 最佳论文。

博士毕业后直到 2023 年,李弘扬主要聚焦在端到端自动驾驶算法的研究,自去年年初开始,他更多地开始关注机器人方向。实际上,二者之间是存在许多可移植经验的,比如都由感知、预测和规控构成,而且都跟环境交互从算法识别到动作执行。其中,最关键的点在于端到端的训练范式能否复制到机器人任务中。

2024 年第二季度,团队便开始论证调研如何在具身智能中验证 Scaling Law,他们和智元等团队合作 AgiBot World 的工作也始于这一阶段。作为百万真机高质量标签的数据集,AgiBot World 的物理形态趋于统一,这点区别于将不同子数据集简单堆砌到一起的超大规模数据集;同时,前者在灵巧手操作、视触觉多模态信号和多机协同等三方面也有着明显的优势。

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈

左:AgiBot World 数据集发布前团队同学通宵达旦进行准备。右:央视总台和上海市经信委对AgiBot World 数据集的发布进行报道。

正基于此,AgiBot World 距离具身智能的两个大目标更近一步:一是真正智能化,二是如何定向验证 Scaling Law。“不是堆百万真机、堆 GPU 算力就行,而是说百万真机能回答多样性比数据量更重要;另一个是如何验证小规模数据 ,例如 30 万数据,就能达到某个性能,进而达到降本增效”,李弘扬强调。

AgiBot World 还有一个更加宏大的愿景,全量数据集将于 2025 年 3 月推出,同时也会在 CVPR、IROS 等场合举办挑战赛;通过数据共享,让整个产业、学界共同研究有价值的学术问题,才能真正实现具身智能领域的“ImageNet 时刻”和共用共享。

2025 年,李弘扬团队工作核心是探索如何构建真正具有智能的具身系统,使得机器人真正能够适应各种环境、学习各种新任务、能够从自身行动中获得反馈并进行反思。更多最新工作进展,敬请访问团队主页 https://opendrivelab.com

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈

我们认为实现具有人工智能的具身智能系统需要模型具备三种能力:自适应、能学习、会反思。

以下是 AI 科技评论与李弘扬的对话:


自动驾驶与具身智能

AI 科技评论:博士毕业后,您有几年时间是专注在端到端自动驾驶的算法研究上。为什么会转到机器人赛道?您对具身智能领域开始感兴趣的契机是什么?

李弘扬:自从 2019 年博士毕业之后,我的研究重心始终聚焦于具身智能领域。早期我们更专注于端到端自动驾驶方向的研究,23 年 6 月团队提出了原创性的 UniAD 端到端自动驾驶方案,也获得了当年 CVPR 的最佳论文。同年 12 月,特斯拉 FSD V12 全面推广,到 24 年时,端到端范式已经在业内全面铺开。从 24 年开始,自动驾驶已经进入下半场,这一阶段的发展不仅需要持续的技术突破,更面临着工业化落地与企业级量产验证的挑战。

团队从 23 年下半年开始更多地往机器人方向倾斜,论证并启动了相关研究的布局。原因之一在于自动驾驶和机器人有很多相同的技能栈,比如都是感知、预测、规控构成的,都是跟环境交互从算法识别到动作执行的。我们关注的最大的点在于端到端的训练范式能否复制到机器人的任务里,因为他们都是相似。其二是 23、24 年开始,随着 OpenAI、特斯拉在机器人方面做了很多创新性的工作,在 AIGC 与环境感知领域取得突破性进展后,技术发展的焦点已自然延伸至物理交互与执行层面。将海量数据训练范式与大模型技术优势引入传统机器人领域,既是学术界的前沿课题,也已成为产业界的战略共识。

AI 科技评论:在具身智能方向,您接触的第一个相关工作是什么?这个赛道有哪些研究工作、研究问题让您感兴趣?主要想解决哪些问题?

李弘扬:最近团队发表的比较重要的工作是在 24 年 7 月的 RSS 上,主要关注通过视觉预训练来提升机器人操纵能力,因为在现在大数据的背景之下,以预训练作为切入点是比较自然的路径。在这个领域,我主要关注以下三个核心问题:首先是泛化能力,如何使机器人在面对不同场景和任务时,都能展现出良好的适应性和通用性;其次是智能性,不仅仅是完成诸如拿起杯子这样的简单任务,还要具备闭环反馈能力。例如,机器人需要根据实际情况进行错误纠正和自我调整,这样才能体现出真正的智能;最后是高效性,现在的大模型不仅在自动驾驶中面临部署难题,应用于机械臂上同样存在挑战,就是如何在保证性能的同时,实现高效、轻量化的部署。

AI 科技评论:UniAD 项目对于您之后的工作有没有带来哪些启发?

李弘扬:UniAD 在自动驾驶中把感知、预测和规控做到了一起,主要有两点启发。

第一是全局优化能力,通过对整个神经网络进行联合调优,并最终以规划优化指标为核心,可以有效弥补传统方法中各模块独立运作时存在的信息损失问题。以前感知模块仅传递目标识别结果,预测模块仅传递轨迹信息,而动作执行模块则基于这些信息进行操作,这个过程中不可避免地存在大量信息损耗。而在一个统一的网络中,各模块之间传递的是网络学习到的特征,信息量非常丰富,从而实现了全局优化。我们想把这个经验放到机器人里来,因为在传统的机器人研究里,感知是非常粗糙的一种形式表达,再到动作执行模块,也有类似相关信息损失。

第二是在海量数据的应用上。在 UniAD 中,所有的轨迹数据可以一次性地采集完,从而进行大量的数据采集工作,发挥 Scaling Law 的优势。在机器人领域,我们希望探索是否能够复制这一经验,即在引入海量数据后,算法的性能提升是呈现线性增长、指数级爆发,还是最终达到瓶颈,数据量的增加是否能够真正带来机器人泛化能力的提升。我们计划沿着 UniAD 的思路,特别是以数据驱动学习为基础的机器人操作研究方向,进一步探究全局优化与海量数据在机器人领域的应用潜力。

AI 科技评论:您从自动驾驶转到机器人,会不会觉得有什么困难之处?

李弘扬:从算法来讲,自动驾驶里自由度很低,最终输出通常仅涉及油门和方向盘的四个自由度。而在机器人领域,任务自由度可以根据需求灵活定义,例如灵巧手可能具有 6、12 甚至 20 个自由度,导致解空间非常复杂。但相对于自动驾驶场景而言,机器人领域的场景变化没那么丰富,主要集中于室内导航、工业巡检等特定领域。我们尝试把自动驾驶的经验直接拿到机器人的过程中发现,单纯将全局优化的理念直接迁移至机器人领域,需要对网络结构和训练范式进行较大改进。

另一方面,数据采集难度明显增加。自动驾驶领域中,车辆形态相似,只需要几百台同类型车辆部署就可以采集到数百万条数据,基本模型较为固定。而目前机器人硬件形态都没有收敛,不同设备间存在较大差异,数据采集工作面临更大挑战。为此,我们提出了数据金字塔策略,即结合仿真数据、网络数据、真机数据以及针对特定任务的少量真机特殊场景,期待能够有效地解决数据上问题。

AI 科技评论:现在业界有说法认为,自动驾驶解决的是下肢问题,而机器人要解决的是上肢问题、典型任务是操作。您认同这个说法吗?

李弘扬:我部分认同这一观点。自动驾驶下肢问题解的是轨迹规划或者说动作执行,因为当前的感知问题已基本得到解决。对机器人来说,针对运动控制例如四足机器人的研究比较成熟了,各类仿生犬型机器人在多样场景中的表现稳定,但上肢问题主要涉及抓取与操作任务,当中要研究的问题、优化的思路非常多。

AI 科技评论:自动驾驶视觉算法与机器人算法的不同之处体现在什么地方?

李弘扬:现在自动驾驶算法的感知问题解得已经很好了,发展到今年,研究核心在于之后规控信号如何作为先验放到整个端到端体系里,发挥感知算法的优势,可以设计一些联调,从而充分发挥感知算法的优势。目前自动驾驶系统中,感知模块占据主导地位,而规划与控制部分则相对缺乏基于学习的方法,导致二者之间的整合存在一定问题。

机器人方法的不同在于解空间非常复杂、自由度很高。通常在这种情况下,会采用一种快捷高效的整体联调优化方法,例如强化学习。但强化学习本身存在样本效率较低的问题。举例来说,当将强化学习应用于人形机器人的全局优化时,就会面临样本效率低、奖励稀疏、训练收敛困难以及整体训练难度较大等诸多挑战。


打造 ImageNet 时刻

AI 科技评论:不久前您参与的百万真机数据集 AgiBot World 发布,你们是从什么时候开始做的?

李弘扬: AgiBot World 是我们和智元合作推出的百万真机数据集。具身包括算法、数据、硬件、应用场景四个要素,尽管学术界在各类算法研究上投入甚多,但普遍认为算法性能的上限取决于数据,因此数据的重要性日益凸显,这也是我们团队工作的出发点之一。这个工作在 24 年 Q2 就开始调研论证了。当时,我们希望与那些将硬件及应用场景作为重要评估指标的机器人企业共同成长,我们也走访了很多国内机器人公司,最后落脚到智元。

AI 科技评论:与 DROID、Open X-Embodiment 等业界知名数据集相比,AgiBot World 的最大亮点、差异化优势是什么?

李弘扬:目前业内已经有许多数据集,有点像 2010 年之前视觉领域数据集百家争鸣的局面。在设计 AgiBot World 数据集时,我们着重在以下三点上进行创新:

首先是灵巧手。许多现有数据集,包括谷歌的数据集,往往使用的是夹爪。而我们提供了 6 到 12 自由度的真实灵巧手,为机器人操作任务提供了更高的精度和灵活性。

其次是视触觉。单纯依靠图像或点云数据无法有效完成任务,尤其是在视觉遮挡的情况下,比如在拧瓶盖或关门这类任务中。我们设计了融合视触觉的多模态数据采集,为这些复杂任务提供了更完整的感知能力。

最后是多机协同。现在很多在做灵巧手、视触觉的类似工作都是单点的,在数据集里集大成、把所有要素集到一起很少,我们设计了多机协同的任务,确保所有机器连在一个中央时间戳上,否则数据采集起来很困难,也克服了很多工程上的问题,包括怎么设计高效的硬件素材系统、数据采集系统等。

AI 科技评论:你们解决了当前具身智能领域的哪些迫切问题呢?

李弘扬:一是怎么实现真正的智能化。现在把具身智能分 L1 到 L5,如果能够解决 L2 级别的操作任务,就能在有限场景内实现真正意义上的泛化,可以说它就是今年的 ImageNet。这里所指的有限场景主要涵盖工业巡检、汽车总装线、居家服务等特定场景里的泛化。例如,在叠衣服任务中,无论是大衣、外衣,还是薄的、软的衣服都可以叠;如果是汽车总装线,那么就是这个总装线上安轮胎、安保险杠、布线都能做。

其次,我们关注的是 Scaling Law。关键不在于仅仅堆砌百万真机数据或大量 GPU 算力,而在于探讨百万真机数据是否能够证明数据多样性比数据规模更为关键。我们期望通过这一研究为后续实现真正意义上的 Scaling Law 评估提供参考依据。

AI 科技评论:可以分享一下你们采集数据收集的过程吗?真机数据的采集有什么困难?你们又是如何解决的?

李弘扬:数据采集的过程中,我们参考了亚马逊 SageMaker 整个流程。由于数据采集任务较为复杂,首先需要设计任务构型并进行试采;在数据量达到预期后,还需考虑如何高效存储数据、培训数据采集人员以及处理采集过程中出现的反馈问题。

另一方面,我们参考了《Human-in-the-Loop Machine Learning》中的相关概念。这本书里从学习角度探讨了如何提升数据质量。在 AgiBot World 项目中,我们不仅采集了大量数据,还制定了详尽的问题清单,对流程不规范、步骤不完整、数据缺失等问题进行分类统计。

此外,Human-in-the-Loop 不仅体现在问题反馈上,更关键的是如何评估每条数据的质量。高的数据质量能够使得在这一批数据发布后,研究人员可基于此开展更多二次开发和深入研究。

另外,数据采集过程中,我们会估计制造一些干扰。例如,在执行内存条任务时,我们有意制造背景或内存条的抖动,以考察算法或数据采集系统能否通过不断试错恢复并完成任务。这与强化学习中负样本和持续学习的概念密切相关。数据采集与算法高度耦合,因此在算法层面存在诸多需求和研究空间,这也是我们设计此数据集的初衷之一。

AgiBot World 发布到社区的第一天才标志着项目的真正起步,我们预留了大量接口,供未来各类强化学习、模仿学习、对齐算法等使用,目的在于保研究者在各自领域中不会因缺乏数据集而受到限制。

AI 科技评论:你们的下一步研究计划是怎样的?感觉还有哪些亟需突破的难题?

李弘扬:AgiBot World 是个非常大的项目,现在发布 Alpha 版本总共是十万真机数据,短期研究计划是扩展到百万真机数据,大概会在 25 年 3 月发布。

中期目标方面,作为研发团队,我们基于该数据集验证差异化的 Scaling Law,以探讨如何实现智能化,相关成果预计将在今年下半年发布。

长线计划则针对未来两三年,不只有 AgiBot World 这个数据集,我们还计划搭建生态、办比赛,让大家真正地把数据集用起来。我们计划在今年下半年 10 月举办 AgiBot World 挑战赛,鼓励研究人员基于该数据集开展二次开发和深入研究。并且还将会每年都举办这个比赛,持续地服务整个社区。

AI 科技评论:NeurIPS 2024 上,Ilya 提出解决大模型训练数据匮乏问题的三大途径之一是合成数据。您怎么看机器人领域中真机数据与合成数据的差别?

李弘扬:真机数据最大优势是没有 Sim-to-Real 的问题,我们选择真机数据主要有两个原因:其一,我们团队并非专注于仿真领域;其二,合成数据的构建工作量巨大且周期较长,涉及诸如渲染技术和数据资产构建等问题,因此我们直接采用了真机数据。

现在大家都在抱怨真机数据很少,AgiBot World 是单一构型的、百万真机的、可上量的数据集。单一构型指的是物理形态都是一样的,这与某些数据集将不同子数据堆砌在一起、声称拥有百万真机数据形成鲜明对比。实际上,跨越不同视角、任务和硬件构型的迁移非常困难,而 AgiBot World 的单一构型扩展策略类似于在全球范围内采用数百万辆特斯拉 Model 3采集各类数据。当然,合成数据也是非常重要的,我们相信仿真数据一定会帮助最后的部署、落地,尤其在处理危险场景时。


硬件形态待行业收敛

AI 科技评论:你们开源 AgiBot World 的初衷是什么呢?开源能给整个行业带来哪些价值?

李弘扬:首先,我们开源是希望打造具身智能领域的 “ImageNet 时刻”。当前行业中,A 团队提出一套算法,并在论文中展示其性能为 80%,B 团队则提出另一套算法,性能为 82%。然而,由于硬件平台不同,这些算法难以直接迁移或复现,导致性能差异难以客观评估。这并不意味着某一算法无效,而是缺乏统一的基准。因此,我们希望通过建立类似 ImageNet 的评测基准,使各类算法能够在统一的平台上进行公平对比,从而加速学术界和产业界的发展。

其次,我们希望通过开源,使真机数据的采集范式更加低成本、易获取。目前,采集高质量真机数据的成本极高,例如,购买一台配备灵巧手的双臂机器人,市场价格至少在 20 万人民币左右,而若要搭建 100 台设备,成本就到了 2000 万人民币。因此,我们希望通过开源 AgiBot World,降低行业门槛,使更多研究团队能够参与其中,共同推动具身智能的发展。

AI 科技评论:AgiBot 与机器人操作、世界模型等话题的关系是什么?

李弘扬:一是智元机器人的英文名就是 AgiBot,二是我们想实现 AGI 的机器人,这方面是一语双关。World 代表我们希望构建一个完整的世界模型,涵盖硬件、系统及 AI 算法生态。这不仅是 AgiBot World 项目的核心理念,也是我们最终希望实现的目标。我们的愿景是通过数据集推动硬件形态逐步收敛,并将其应用于灵巧手、视触觉系统以及轮式机器人上。同时,结合系统和生态构建,与行业伙伴共同完善数据集,并进一步推动学术研究和竞赛活动,以促进整个领域的发展。

AI 科技评论:您认为具身智能领域的模型训练会遵循 Scaling Law 吗?

李弘扬:Scaling Law 是 2024 年下半年各个研究团队都在做的非常热点的问题,今年也会是无论工业界还是学术界要重点研究的事情。当中可以凝练出诸多科学问题,例如:多样性和数据分布是否遵循某种规律;在有限数据量的条件下,能否通过算法的迁移学习获得性能提升;以及投入产出比的考量,例如百万真机的数据采集背后涉及的人力成本、标注成本、工程成本以及场地费用等。

AI 科技评论:除了数据集,您的团队现在还有没有研究具身智能的其他方向?目前主要在研究哪几个具体问题?

李弘扬:我们团队也在研究人形和一些硬件设备,一个重要的研究方向是 Whole Body Control,这是一个涉及全身动作协调和多任务协同的研究目标。目前,很多展示的炫酷 demo 虽然看起来非常吸引人,但往往是通过预设规则或者仅仅展示某些简单的动作,比如走几步或招手,这些动作相对简单。而在上半身与其他部位的协同操作上,挑战则更为复杂。当然 Figure 01 或者 1X 也都展示出了很好的 demo,在工厂里机器人 Whole Body Control 也已经做得非常好了。

AI 科技评论:您认为除了数据集,当前具身智能行业还有哪些被忽视、但关键问题需要解决?

李弘扬:被忽略的问题主要集中在硬件上,我甚至觉得具身智能的终极发展方向在于材料科学。这不仅涉及到视触觉等传感器的稳定性,还包括在下一代硬件研发和设计过程中,对各类传感器形态的前瞻性考量。目前,硬件迭代速度相对缓慢。如果算法无法与硬件深度结合,尤其是在传感器技术、磁感传感器、人造皮肤等方面缺乏突破,机器人将难以实现人类所能完成的复杂任务。因此,仅靠算法优化无法全面推动具身智能的发展。

我也希望更多来自机械工程、材料科学,甚至航天航空等领域的学者,能够投入到新一代传感器及相关硬件的研究中。硬件的创新将带来全新的应用场景,这些场景不仅可以赋能机器人,还会吸引更多从事算法创新的科研力量。只有软硬件协同进化,具身智能行业才能真正取得突破性进展。

AI 科技评论:目前你们在硬件方面都和哪些厂商合作?

李弘扬:我们目前使用了来自七到八家不同厂商的设备,这些设备都属于行业内最顶尖的水平。我们希望,团队中的研究人员能够基于最先进的硬件平台进行研究,从而推动具身智能领域的前沿发展。

AI 科技评论:现在也有很多人工智能从业者加入具身赛道,您觉得这在短期会给机器人领域带来哪些显著变化呢?

李弘扬:近期我们也走访了许多知名学者,尤其是在传统机器人领域深耕多年的专家。一些学者戏称,人工智能领域的从业者正在“抢占”他们的领地,尽管这只是玩笑,但确实反映了行业格局的变化。整体来看,许多从事人工智能研究的学者,正积极投身于具身智能赛道中。我始终认为,这并非竞争关系,而是合作共赢的局面。人工智能领域出身的学者在神经网络上有很丰富的经验,而传统机器人学者在硬件设计、系统架构等方面拥有深厚的积累和卓越的专业能力。这种交汇与融合将促使双方相互学习、共同进步。在人工智能技术的加持下,传统机器人行业有望迎来新一轮的变革浪潮。雷峰网雷峰网(公众号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
Baidu
map