成立半年的恺望数据瞄准自动驾驶商业化落地痛点,加速在自动驾驶数据领域的布局。
9月5日,自动驾驶数据服务公司恺望数据宣布完成千万级天使轮战略融资,投资方包括在自动驾驶领域深度布局的辰韬资本、三一集团和溪山天使汇,本轮融资主要用于加速建设数据快充站以及团队完善。
恺望数据成立于2022年2月,意在持续为汽车产业的智能化,提供数字化、一站式的数据解决方案,团队成员来自字节跳动、阿里巴巴、Uber、Momenta、梅赛德斯-奔驰等头部公司.
针对供给不稳定、流程繁杂、工具低效等痛点,恺望希望让数据生产线从手工作坊向“标准化”、“规模化”和“自动化”转变,从而提升自动驾驶数据生产效率,保持产能稳定并降低成本,加速自动驾驶的应用落地。
目前其已与三一集团在自动驾驶领域开展数据合作,其他客户包括集度汽车、字节跳动、亿咖通、元戎启行、地平线、寒武纪、中交兴路、旷视及商汤等。
2022年为自动驾驶的落地元年,伴随着智能汽车以及自动驾驶传感器种类及数量的增长,人工智能算法的“电能”——数据层面出现了巨大缺口。
在数据质量上,车辆硬件走向多元化,硬件结构、参数变化增多,场景复杂度增加,对数据质量要求越来越高。以标注的数据类型为例,过往自动驾驶感知算法大都只覆盖了十几类数据,但今年的数据类型有的激增到了五十多类。
在时效性上,车辆量产交付周期缩短,软件希望持续OTA,数据的时效性也变得至关重要。
近几年,三一重工在新能源及智能驾驶赛道深度布局,已推出了新能源挖掘机、起重机、重卡、皮卡等。而作为投资方之一的辰韬资本,目前已投资的自动驾驶细分赛道头部企业包括易控智驾、白犀牛、斯年智驾、易咖智车、于万智驾、踏歌智行等,也可助推恺望数据构建一个强大的生态合作伙伴圈。
“恺望希望为数据服务产业带来生产要素的范式升级,综合技术和运营两方面优势,尤其是对生产过程进行量子化拆解,达到规模化和自动化,从而让数据生产达到最佳时效。”
恺望数据创始人,CEO于旭总结道。针对供给资源、生产流程、生产工具这三个数据生产的核心要素,恺望总结了三个核心优势:
以“生态”驱动“新供给”,既形成规模化产能,又可灵活匹配,满足弹性较大的人力需求;
以“方法论”驱动“新流程 ”,凭借团队多年的经验积淀,将工作进行“原子化”拆解,从而缩短项目周期;
以“技术”驱动“新效率”,借助非监督学习,打磨自动化工具,进而提升数据生产的效率。
总结而言,恺望希望借技术和方法论革新现有数据生产模式,从而提高数据生产和交付效率,为客户节省一半的时间及成本。
以“生态”驱动“新供给”,补全供给侧核心环节
在当前自动驾驶数据生产过程中涉及到的人员可分为四类:
需求制定人员:根据具体商业化场景的AI技术解决方案,分析所需要的数据类别及数量,要求有一定的技术背景;
需求拆解人员:根据所需的数据类别及数量,拆解为标注环节中的具体需求,减少下一环节的时间成本;
需求执行人员:即标注员,根据具体标注需求,借助生产工具在原始数据上打标注,属于简单重复劳动;
质量管控人员:即标注数据审核员,负责数据标注项目的审核和验收,关注执行环节的准确率、覆盖率等。
对于自动驾驶公司来说,需求执行人员均是通过外包方式雇佣,目前全国有规模的数据标注生产企业有7、8百家,各类中小型数据标注生产团队超过5万家,服务质量参次不齐,仅停留在“劳动力密集”的需求执行层面。
在自动驾驶研发场景中,算法设计的改变是不会经常发生的,这也意味着大规模的数据生产需求并非高频需求,所以自动驾驶公司和车企通常只会设置一个小型的数据服务团队,无法全面覆盖需求制定、需求拆解以及质量管控这三类人员,存在较多痛点:
数据服务团队缺少技术背景,无法理解算法背后的数据需求,在梳理需求时,存在逻辑混乱、术词滥用、自相矛盾等情况。比如同样的一个物体,却给出了两种标注要求;
随着智能驾驶行业竞争的加剧,过往一年才能完成的研发任务需要缩短至半年,车辆硬件结构、参数出现临时变换的次数增加,就连标注的数据类型,也从过往的十几类增加到了五十多类;
在数据需求波峰出现时,自有的小型数据服务团队在筛选及沟通环节无法应对,以某智驾研发公司为例,其算法团队有近百人,但对应的数据服务团队仅2人,当算法设计出现较大变化时,根本无法及时应对激增的数据需求,只能在一天时间内拼凑出一份模糊不清的需求说明书;
临时的数据需求波峰通常也意味着更高的数据标注成本,此外,还有沟通缺失导致的试错成本。
为了解决这一痛点,恺望提出的“新供给”是打造一个多方共用的、大规模、高并发的互联网级别的可选资源池,能为客户提供超大的资源池子,这也是创始人于旭所擅长的。
不同于传统的标注公司,恺望重度参与了需求拆解及品质把控流程,构建了一个低门槛参与的生态体系,让大大小小的标注团队都能够参与进来,从而更好地调动超大规模资源,快速进行数据生产及交付,并进一步实现最优人力成本配置。对于传统标注公司而言,试错成本低了;对于客户而言,有充足的人力资源池来对抗波峰波谷。
同时,恺望也大力推进校企生态合作,与全国20多家实训基地建立了合作,既培养了学生能力,又形成了人才生态闭环。
在流程方面,过往的生产流程大都是包工头式的项目分包模式,这是中国人口红利下的短期可行模式,由于层层交付、无法规模化运作,导致项目周期长、效率低。
恺望的“新流程”是要实现运营、决策、标注及交付的自动化,包括智能派单、匹配最短路径、全套数字化决策系统、自动标注系统建设等,其优势体现在:
工作拆分后,原本串行的工作可以变成并行;
低代码的平台架构,可以让客户灵活的获取自己想要的流程方式;
这也是国外Scale的模式,但恺望结合中国的标注行业特点,为“包工头”提供好用的工具及方法论,推动行业整体升级。
恺望借助“新流程”,可以实现“合理任务分给最合适的人”、“标注链最短路径”、“系统可自动判断需求合理性、成本及ROI”,进而将标注成本降低到1/10,算法预标注成本优化为原来的30%-80%。
在工具方面,目前标注行业所使用的工具大都为拉框工具,需要标注员手动一个点一个点地打点标注,不仅生产效率低,而且因为标准不统一,质检难度也较大,根本无法规模化。
在有足够低价劳动力的情况下,标注公司一般不会投入资源自研自动化工具,但恺望希望能以自动化工具换取“新效率”,其自研的工具不需要标注员手动拉框,而是点一下便可自动拉框,同时,也应用了3D的能力来标注2D的图片,进一步提高准确性。
创始团队为全明星阵容,集结了自动驾驶的全链条人才,在大规模资源运营、数据闭环解决方案以及自动驾驶数据平台三个方向都积累了丰富的行业经验。
创始人于旭拥有多段从零到一的大数据平台搭建经验,是字节跳动、Momenta、Uber等企业数据生产及运营体系搭建的第一人,也是国内自动驾驶行业发展的见证者。
于旭硕士毕业于法国昂热大学,凭借其物流与运输管理的专业背景,毕业后成为了Uber中国的第四号员工,从零到一搭建起平台运营体系,也为国内网约车行业开创了大规模租赁公司运营模式,顶峰时期曾贡献了北京区域70%的订单。
在自动驾驶独角兽企业Momenta成立之初,于旭便为其构建了自动驾驶全链路数据的运营体系。在国内自动驾驶行业发展早期,数据稀缺,而在大数据平台的支撑下,Momenta才一跃成为自动驾驶算法领域的佼佼者。
在团队管理经验方面,于旭曾在字节跳动负责管理多个大型标注基地、千人规模大型数据外包渠道以及数万人的众包平台。
合伙人团队则包括奔驰汽车金融运营流程管理专家、国内领先通信企业感知算法产品数据闭环系统专家、Momenta前数据平台技术负责人等,还拥有覆盖自动驾驶商业、AI产品策略及算法领域的专家顾问团队。
雷峰网雷峰网(公众号:雷峰网)雷峰网