//m.drvow.com //m.drvow.com/resWeb/images/common/lp_logo.png 雷峰网 //m.drvow.com 2015 m.drvow.com All rights reserved. zh_cn Mon, 02 Dec 2024 18:20:33 +0800 彩云小梦V3.5上线 彩云科技推出首个基于DCFormer架构通用大模型 //m.drvow.com/category/aijuejinzhi/kqJ8u8sdGLxNvMyv.html

雷峰网讯 11月13日,彩云科技在北京总部与媒体进行一场主题为“From Paper to App”的沟通会。会上,彩云科技CEO袁行远,就通用大模型未来进化之路,与人工智能的落地场景等热点话题进行了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。

在公众认知中,Transformer架构作为神经网络学习中最重要的架构,成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。而提升Transformer的运行效率也成为人工智能领域的研究热点,2024年4月,谷歌最近一次更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样过程中提速50%,成为Transformer架构提速升级的又一重要事件。 

今年,国内的人工智能企业彩云科技,在国际机器学习领域的顶级会议ICML(国际机器学习大会)上,发布全新大模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在该论文中,彩云科技团队首次发布DCFormer架构,并在基于DCFormer打造的模型DCPythia-6.9B上,实现了在预训练困惑度和下游任务评估上都优于开源Pythia-12B。这意味着,DCFormer模型在性能上,实现了对Transformer模型1.7-2倍的提升。 

只有模型效率和智能度提升 才能实现真正的AGI

沟通会现场,袁行远首先向参会者展示了一个ChatGPT o1的问答:“假设ChatGPT4每天响应用户约2亿个请求,消耗超过50万千瓦时的电力。假设全球网络都使用ChatGPT作为访问入口,ChatGPT每天消耗多少电力?另外按照这个速度发展下去,到2050年全球人工智能的耗电量会达到目前地球发电能力的多少倍?”ChatGPT o1给出的答案是,“到2050年,全球人工智能的耗电量可能会达到目前地球发电能力的8倍”。

同样的问题,在今年2月份的世界政府峰会上,英伟达CEO黄仁勋有更为夸张的表述,“假设计算机的速度永远不会变快,我们可能需要14个不同的行星、3个不同星系、4个太阳为这一切(AI)提供燃料。”AI对能源的强大需求在业内已经是共识,英伟达致力于通过提升硬件来提升AI效率,降低能耗;而袁行远则认为,改善大模型底层架构,提升人工智能运行效率,是改变AI能源困局的更优路径。

“Scaling Law告诉我们,随着算力的提升,模型更大、数据更多,模型效果会越来越好,但与之相应的,能耗也会越来越高,在Scaling Law失效,人工智能实现之前,或许我们地球的能源就已经无法支撑了。”袁行远表示,“没有效率的提升,AI就是镜花水月。”

彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力,由此实现了对Transformer架构1.7—2倍的性能提升。

今年的ICML会议上,彩云科技团队的3篇论文,在录用平均分为4.25-6.33的情况下,获得平均7分的高分,并成为国内唯二受邀参加维也纳ICML 2024登台演讲的企业。

袁行远表示:我们的工作表明,Transformer架构距离“理想模型架构”还有很大的提升空间,除了堆算力堆数据的“大力出奇迹”路线,模型架构创新同样大有可为。往小了说,在大模型领域,利用效率更高的模型架构,小公司也可以在与世界顶级人工智能企业的对抗中取得优势。往大了说,模型效率的提升,可以有效地降低人工智能升级迭代的成本,加速AI时代的到来。

云锦天章问世 首个基于DCFormer架构的通用大模型

作为国内最早做LLM(大语言模型)的公司之一,彩云科技在2017年就已经开始做NLP和大模型方面的工作。目前,彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品,是国内为数不多能够实现盈利的人工智能公司。

“世界最强的小说续写通用模型。”沟通会上,袁行远向大家展示了首个基于DCFormer架构的通用大模型云锦天章。“这个成语是比喻文章极为高雅、华美,和我们的大模型想要实现的效果有共通之处。”袁行远介绍,云锦天章可以实现在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,可以高速针对大量文字进行扩写、缩写,针对文章风格进行大容量更换,同时兼具其他模型的问答、数学、编程等基础能力。

 而在应用端,拥有四百万用户的彩云小梦,也迎来了基于全新DCFormer架构的V.3.5版本。与之前的版本相比,彩云小梦V3.5整体流畅性和连贯性提升了20%,支持前文长度由2000字提升至10000字,故事背景设定最长长度高达10000字。“这意味着,在故事创作或者与人工智能对话中,人工智能能够记住之前发生的事情,记住之前故事里发生的细节,人物记得自己明确的目标,并且会根据剧情及时进行反思修正。在做到自主创作的同时,发散性收敛,不会天马行空,人物性格前后一致,故事逻辑性更强。”

“深度对话,超长记忆,逻辑清晰。”袁行远总结彩云小梦V3.5的特征,“我们的目标是为用户打造指尖伴侣定制梦境。”袁行远表示,彩云小梦的用户单次使用时长,累计使用时长在同类产品中都处于遥遥领先的地位,“对话超过400句,你会发现彩云小梦真正的魅力。”

袁行远介绍,公司接下来将继续加大对DCFormer的研究和投入:“一方面有打破‘国外做技术层,国内做应用层’刻板印象的情怀所在,一方面也是为公司自有产品应对市场竞争,实现快速迭代升级和能力领先的现实需要。”

]]>
AI+ //m.drvow.com/category/aijuejinzhi/kqJ8u8sdGLxNvMyv.html#comments Thu, 14 Nov 2024 16:36:00 +0800
米哈游的「后蔡浩宇」时代 //m.drvow.com/category/aijuejinzhi/NNquy1ia9f2CaFd9.html

作者 | 胡家铭 董子博

编辑 | 董子博

“只要蔡浩宇还在,米哈游就一定能成为下一个暴雪。”

几年前,米哈游刚刚凭借《原神》拿下 TGA 最佳移动游戏,在国际舞台春风得意。聊起这位游戏圈的新贵,一位游戏圈老兵石璟杉显得异常激动——在蔡浩宇这位天才制作人的带领下,看似米哈游的一切都正走在正确的轨道上。

距离和石璟杉聊过不久,米哈游的情况,似乎急转直下。

先是 HoYoverse 在新加坡设立总部,不久,《原神》之后蔡浩宇的“主战场”《Project:SH》半路折戟,宣布项目解散后,受影响的全球员工或达千人以上,沉没成本更是无从想象。

主力项目失利之后,米哈游的《崩坏:星穹铁道》(下称《崩铁》)和《绝区零》虽然市场反响不错,但却没能再现《原神》当年的一鸣惊人。

就在这个多事之秋,蔡浩宇却突然地卸去了米哈游的董事长职务。刘伟甚至开始亲自管产品。这无疑标志着一个时代的结束,和一个新时代的开始。

对于做出了《崩坏3》和《原神》的米哈游,业界的一个共有认知是:蔡浩宇是个才华横溢、眼光毒辣,并且管理风格独到的制作人,是国内,乃至世界上,少有的奇才——米哈游的成功,离不开蔡浩宇。

在蔡浩宇淡出一年多之后,米哈游今天还好吗?

01蔡浩宇出走,或许是个必然

当米哈游走进“后蔡浩宇”时代,不少人都在问:究竟发生了什么?

在这同一个问题上,雷峰网四处求索,得到的却是“罗生门”式的迷局。

在另一个接近米哈游的人士鲁谷看来,蔡浩宇出走,是“败军之将,无以言勇”——《Project:SH》失利后,蔡浩宇也想过力挽狂澜,在过去失败的基础上重新搭建框架开发,最终还是失败。

作为米哈游的核心制作人和灵魂人物,蔡浩宇原来带领的团队已然重组,新组成的团队,将投身于前沿科技的研究、新项目的研发,以及串联国内与海外研发资源上。

长期关注科技圈的投资人“瘦刚”,则是把目光聚焦在了蔡浩宇近期在推特上的“暴论”上:

“他(蔡浩宇)都说了,AIGC 这么猛,介于普通与专业之间的游戏开发者不如考虑转行——他的眼光早就不在游戏上了。三十几岁拿着百亿现金,还相信‘技术宅拯救世界’,蔡浩宇宁愿得罪兄弟,也要旗帜鲜明,他这是功成身退,跑去搞科研去了。”

传闻满天乱飞,有关蔡浩宇离开的真相,却始终隐没在一层又一层的讳莫如深之下。抛开阴谋论和捕风捉影,如果不去着眼于米哈游在这10年的发展路径,再仔细分析蔡浩宇在这个“准大厂”中的站位,或许人们都忽略了一个问题:

“今天的米哈游,还需要蔡浩宇这样一号人物吗?”

在过往的文章《《原神》蔡浩宇 :中国第一个「游戏疯子」》中,雷峰网曾经深挖了蔡浩宇的过去,也在诸多信息、故事当中,交叉验证出了一个他的侧写:

他天才,自小获评中国少年科学院首批小院士,首次创业就达到了令人难以企及的高度,做出过全中国数一数二的游戏产品,甚至在很多人口中有比肩张一鸣的智慧;

他偏执,抓住二次元的赛道死不撒手,愣是把一个“小池子”拓成了今天饱含机遇的一片“大海”,成本投入更是不惧豪赌,生生把游戏行业的开发成本门槛接连提高了几个量级;

他专断,开发大权几乎一手独揽,《原神》近千人团队的开发,不少角落都少不了他的“微管理”,用“手K”的方式,如一个执着的雕塑家一锤一锉地打磨细节,把团队层级压得极扁,甚至曾在采访中放话,“对我们团队来说,我觉得对的就是对的。”

如此逸才,放眼世界,哪个不是游戏圈的标杆人物。而蔡浩宇离开米哈游的严重程度,相当接近 Jeff Kaplan(被玩家们戏称为“姐夫”)离开暴雪——而暴雪的“后姐夫”时代,拉垮得几乎一泻千里。

蔡浩宇怎么舍得离开自己创业十年的公司?米哈游又怎么舍得放走自己的灵魂人物?在和行业里不少朋友分析之后,雷峰网有了一个相对靠谱的分析:

问题或许出在米哈游的工业化上。

讨论这个问题之前,要先理清几个事实。

1、米哈游的开端,与大多数游戏公司类似,起源于一个“小作坊”,由蔡浩宇全权负责游戏产品。

2、而一家公司,从小作坊走向大厂,面临的必然是扩张。游戏的质量要走向“次世代”,团队规模也会有次方级的增长。米哈游亦不能避免,从五个“好哥们”一起创业,到《Project:SH》时的千人以上团队,数个项目齐头并进,今天公司仅内部员工,就达到了5000人的体量。

3、《Project:SH》和其后续开发的失利已成定局,但问题却不太可能出在米哈游的技术储备和现金流上——毕竟米哈游素以人才密度著称,公司也仍然有约10亿现金接盘叠纸质押的股权。如果问题不是团队和钱,作为制作人的蔡浩宇,身上的“锅”或许就不会太轻。

从这几个事实中,其实不难看出,米哈游变了——从一个“小作坊”变成了一个“大公司”。

小作坊的开发模式,自然是制作人中心,无论是产品还是内容,都少不了制作人的个人烙印;游戏仍然不是一个工业产品,而是“高科技手工业品”。

团队成员之间分工也不可能过于明确,往往要“既当爹又当妈”,制作人在一个较小的团队中,也更容易采用“微管理”的方法,从细节抓质量。然而,天才终归是天才,数十人的团队要做“微管理”,一般常人或许已经开始叫苦不迭;哪知道蔡浩宇在《原神》千人的团队中,还能把“人盯人”式的“大力出奇迹”干得风声水起,确实令人震惊。

蔡浩宇细致入微的管理风格,和他自身的超强能力,甚至影响了不少老员工,对于米哈游“是否需要工业化”的判断。

在一位原神策划看来,米系游戏,作为内容导向性产品,基于制作人的玩法创新和范式创新,往往占据更大比重,而所谓的“工业化”,更多是一个生产力层面的概念——没有那么“无脑”的工业化,更多是某个技术管线(如3D动作)经过几个项目的锻炼形成标准,后续开发项目的素材可以复用老项目的经验,进而加快落地速度。“真正工业化的边际效应其实没有那么多”

《原神》“大力出奇迹”带来的巨大正反馈,蔡浩宇自然接收到了,并且对自己的道路更加坚信不疑。

谷城,一个接近米哈游的圈里人,对雷峰网透露:在《Project:SH》这个规模更大,复杂度更高的项目上,蔡浩宇仍然是之前那套“手K”,啃了几年才发现,这块骨头是真的啃不动。

一位英国著名绅士曾有如此论断:“人的能力是有极限的。”没有人是完美的,当天才的野心超过了人类的极限,现实则会毫不留情地泼上一盆冷水。

今天的游戏工业化,绝不是建立在“堆人力”和项目管理上的“灵光一现”,而是建立在成熟的工具链和开发体系之上、尽可能优化人员成本、让游戏开发更加系统化运行,来实现更科学的降本增效。

《Project:SH》的失利,或许在刘伟等一众其他高层眼中,就不仅仅是“蔡浩宇赌输了”这么简单,而是他因循守旧“天才驱动型”的开发方式,已经无法适应米哈游当下今非昔比的产品要求。

这种制作人中心制的模式,并非全然无法生效:在海外,无论是小岛秀夫的“小岛工作室”,还是宫崎英高的“From Software”之所以能够生存,或许还是因为他们没有进行人员的大规模扩张——《死亡搁浅》的团队只有80人左右,而《艾尔登法环》的团队也不过230人。

如果10年前的米哈游是个“小作坊”,蔡浩宇则是那个支撑着作坊的匠人,靠慧眼独具、手艺高超,赢得了世界的赞誉;那么今天的米哈游则更需要成为一个“大工厂”,重在稳定、高效、便宜地生产出更多产品,过去的那个匠人,也就自然没有了立锥之地。

过去亲力亲为,手K《原神》的蔡浩宇,和如今带领海外团队潜心攻关前沿科技的蔡浩宇,在“你变了”和“我没变”之中,不知前者和后者,哪个更令人唏嘘。

02“后蔡浩宇”时代的《崩铁》和《绝区零》

前面提到的石璟杉,不仅在游戏圈经验丰富,自己其实也是一位《原神》的资深玩家。

在《崩铁》和《绝区零》上线后,他也第一时间加入了玩家大军——可是玩到一半,石璟杉却似乎总是有一种怪怪的感觉,总觉得这似乎算不上是真正的“米哈游品质”。

如果真是如此,那到底什么才是“米哈游品质”?

在投资人巴瞳的心里,所谓“米哈游品质”,其实并不是“米哈游今日的品质”,而是“米哈游的次世代”。

听起来有些绕?把米哈游的游戏历程捋一遍,大概就懂了:

从《崩坏学园2》到后来名声大噪的《崩坏3》,米哈游实现了从 2D 横版动作到 3D 动作游戏的飞跃;而从《崩坏3》到《原神》,米哈游实现的是从线性地图到开放世界的飞跃;即使是半路夭折的《Project:SH》,米哈游追求的也是更大的、更丰满、更真实的虚拟世界。

玩家们对米哈游产品的期待,是米哈游不断超越过去的自己,在玩法和游戏范式上完成无人敢为的创新。

先前,米哈游的诸多拳头项目能有如此创新,自然和灵魂人物蔡浩宇脱不开干系。

而今天米哈游的这些产品,在投资人巴瞳看来,《崩铁》虽然是回合制,但至少也有世界探索,相较《原神》还能算是原地踏步;《绝区零》则是让玩家回到了“爬格子”“推箱子”的时代,尽管美术层面,无论人物还是场景、角色、动作设计都可圈可点,但难免被认为是一种对《原神》的“开倒车”。

要谈《崩铁》和《绝区零》,首先得谈谈这两个游戏的团队。蔡浩宇时代,米哈游一贯的开发作风,就是不遗余力地为旗舰产品投入人力。从《崩坏学园2》到《崩坏3》是公司从老团队里优中选优,挑选出了一批精英,组成了核心的开发骨干;而《原神》的核心团队,同样由《崩坏3》老团队中的精英组成;《Project:SH》也是同理。

即便是米哈游,开发资源也不是无限的。好钢用到刀刃上,是个放之四海而皆准的通则。对米哈游来说,《Project:SH》是“好钢”,《崩铁》和《绝区零》的优先级,相比之下不会高。(欲了解米哈游更多信息,欢迎添加作者微信FernandeZ-D交流)

更优秀的人才,自然会向优先级更高的项目流动。剩下的成员,不少就留在了老项目中,支持更新、运营等工作。

米哈游内部,对《崩铁》的看法并不一致。一些人认为,这只是个可以“试试”的项目,在公司的策略上甚至并不是一个必须要开发的项目。

而另一些人,对《崩铁》则看法不同——他们认为,这个项目必须得试,而且要给足资源,对内也没少在公司里力挺制作人蒋大卫,对他保护有加。

个中缘由,从公司经营的角度也并不难理解——《崩铁》之于米哈游,是这家内容型游戏厂商走向工业化的标杆项目。

刘伟早在2019年的一场演讲中,已经提过游戏厂商工业化的重要性:

对于一些小而美的产品,没有工业化没问题,可以作为一个代代相传的小作坊,把一件事情做到极致;但如果要做出更多的东西,服务更广泛的用户,就需要能持续不断地生产出高质量的大量的内容。

做一个现代化的内容生产工厂,实现生产工业化,是必经之路。

换言之,当项目在蔡浩宇的能力驾驭范围之内,他就能靠原有的“匠人精神”,把项目品质“手K”到业界难以企及的高度,如《崩3》、如《原神》;一旦项目体量大到超出人力所能控制的极限,则会导致项目胎死腹中,如《Project:SH》。

至于游戏工业化的实现路径,刘伟在一次采访中表示,这与其他产业的工业化并无二致:每做一个稳定内容,都是有一条明确管线的,每一个节点都有着明确的进度与标准,并且能够用同样的工具,统一的标准生产、创造内容。

从《崩铁》上线前的进度来说,是很能体现米哈游这种转变的:从项目一测到项目二测,仅仅间隔6个月,公开内容就多出了一个完整的、带全新场景的序章;角色数量从15增加到24个;A 类(高规格)过场演出从191秒增加到了447秒,支线任务也从13增加到了22个。

此外,《崩铁》的整体美术品质和特效渲染,相较《原神》更为稳定。

而据 B 站数据 UP @Green Space 统计,在2024年9月,《崩铁》仍然以3.56亿的国服移动端流水,位列国内二游第二,甚至比后来的《绝区零》要高。

某种意义而言,这不仅是“米哈游品质”的胜利,同样也是米哈游“工业化决策”的胜利。

而在《绝区零》的开发进程中,米哈游也始终如一。所以《绝区零》的开发团队规模,也一度与《崩铁》相当。不过,这仅仅是数量意义上的持平——

虽然立项时间比《崩铁》更早,但它与《未定事件簿》一样,属于内部创业性质的“探索型”项目,这意味着在“资源禀赋”的层级,它无法与《崩铁》、《原神》等战略级项目相提并论。

据一位接近米哈游的人士“青獭”透露,《绝区零》在初始阶段的项目人数,甚至只有20人。

从制作人李振宇的背景来看,其为美术出身,最早在《崩坏三》项目负责制作PV,此前没有游戏制作的经验。据坊间传闻,他此前还是B站游戏自研部门(负责做 MAD 和 PV)的老员工。

堪称“迷你”的初始团队班底,想要像《原神》、《崩铁》那般做大而全的“开放”世界,或者是前人未及的“超前设计”,哪怕有《崩铁》的工业化经验在先,以初始客观条件的限制,也绝难做到。

而米哈游过往的开发作风,据雷峰网了解,起码在《绝区零》这个项目上,已经出现了松动——由此前“自上而下,掐头去尾,核心团队来自老项目”的筛选机制,变成了立项人员在项目组的“走访调研”,再通过双向选择的面试流程进行筛选,以此实现项目间的人员流动。

显然,以“非嫡系”出身的《绝区零》制作人的实力,在“米哈游老兵”进行双向选择时,并不会特别吃香。因而相对于《原神》、《崩铁》几个“纯血”米哈游项目,《绝区零》的人员多为后期招募,“老兵”含量相对不足。

这也导致,面对资格较老的制作人时,自下而上的声音,并不会像其他项目一样充分传达到位。

哪怕如米哈游策划王梓清告诉雷峰网的那样,《绝区零》的最终形态,仍然是项目组群体意志的结果。但就具体玩法的落地过程而言,这种“群体意志”仍然是较为有限的。

一位接近米哈游的关卡策划芋圆告诉雷峰网,米系游戏的核心,实际上是通过玩家的“劳动”获取游戏资源,最终提升角色数值,并最终提升玩家的游玩体验。

这个“劳动”过程,实际上是游戏乐趣的一环。放在《崩坏》系列和《原神》,就是不断的固定关卡战斗;放在《绝区零》,则变成了即时的3D动作战斗和2D的“走格子”。

雷峰网从王梓清和芋圆得到的共同反馈是,起码从设计层面上,走格子的玩法在设计上“浅了”,哪怕系出名门,哪怕它来自《女神异闻录3》——它作为一个“短平快”的战斗游戏,走格子的存在,让单场景的3D战斗主玩法之间,产生了不可避免的脱节。

用芋圆的话说,“如果玩家用一个没有乐趣的劳动,去换取一个相对有点意思的劳动,然后才能获得游戏内的资源奖励,那你说这个游戏,是不是有点怪?”

但“走格子”玩法,又是主制作人“风格化” 的一部分,是在这个层面上需要保留的。

因而在执行策划层面,对此进行了大幅“优化”,仍然没有解决核心体验的冲突,这也成为《绝区零》开服初期,饱受玩家诟病的核心问题之一。《绝区零》的用户数量变化,也侧面佐证了玩法脱节带来的灾难性后果:

据雷峰网了解,绝区零的首月新增日活,大致在2000万左右,第二个月便跌至600万。留存仅为30%。在一些资深发行眼中,虽然对于其他项目而言,是“开香槟“的级别,但对于米哈游而言,是“比较一般”的。这还是考虑到米哈游过往项目的口碑和号召力的前提下。

03  握不住的二游玩家

“米哈游的核心用户,付费意愿实际在降低。”在谈及米哈游收入趋势时,石璟杉如是说道。

在他看来,即便《崩铁》就市场数据而言是成功的,但它对米哈游的助益,乐观来说可能在“1+1=1.4-1.5”,但就实际情况来看,或许在“1.05-1.1”的水准。

《绝区零》的边际效益,想来只会更低。

这用“存量市场”的逻辑,十分容易解释:米哈游亲自缔造了“二次元游戏”这个品类,并通过几个成功项目,快速培养了一批玩家。10年时间里,这个市场已经从野蛮生长,走向了相对成熟的阶段,靠“人无我有”的套路,已经无法快速获取用户。

同时,被米哈游推出的几个现象级二次元游戏培育形成的玩家群体,已经有了足够高的“内容阈值”。一旦后续内容未能达到他们的预期,流失到其他“内容体验更好”的二游,也是在预期之中的。

而这种“阈值”又是从何而来?从源流来看,被称为“马力欧(Mario)之父”的游戏制作人宫本茂,曾在接受采访时表示,希望玩家将林克(《塞尔达传说》系列的男主角)作为自己的化身,如果林克说话,可能打破这种幻想。

类似的情形不止在任系游戏中出现,《女神异闻录》系列历代主角,几乎都是“哑巴”。一位资深二游策划告诉雷峰网,在一个强剧情,重交互的角色扮演游戏中,主角自身的“设定感”越弱,玩家的代入感就会相应变强——这与一款游戏的“二游内核”则直接相关。道理也很简单,如果一个玩家在一款游戏的“代入感”不够强,他始终不会与游戏中的 NPC 们产生情感链接(哪怕这些角色拥有让人无法拒绝的立绘),也就无法产生刘伟在早年接受采访时所说的“为爱买单”,后续的超额收益更是无从说起。

如果将其投射到现实中的中国游戏市场,对应的通常则是这样一批用户:“在2020-2022年期间,不需担心生活成本的在校大学生、初入职场的小资二次元爱好者、预算充足的内容向手游用户”。

在这段时间里,这部分人的付费能力仍然在线,也对应了米哈游项目更新评价最好、体验增速最快的时期。

但时间轴走到2024年,在《崩坏》、《原神》时期成为米系玩家的学生党,多数也走入社会,开始直面现实生活的压力,叠加失业率的变化。这部分群体的付费意愿变化自是可想而知。

一位接近米哈游的人士告诉雷峰网,《绝区零》这类项目的出现,虽然表面上是“做短平快”游戏类型,但原神等老牌项目的降价促销,实际上仍然是针对“大 R”和“无氪”两种类型玩家的区隔。

因为就玩家活跃度而言,米哈游的 DAU 基于游戏本身的特性,并不会产生太大的变化,只是说由于前述原因,这些活跃玩家开始减少付费或者不付费,用户的整体付费能力正在下滑,这也体现在 ARPU(平均用户付费量)的下降。

此外,即便在近几年内,米哈游在刘伟的主导下,完成了游戏工业化的“转生”,也只能仅仅解决了产能和品质的“稳定供给”,至于新的玩法、新的体验,仍然需要制作人自身的水平。

起码从《绝区零》这个项目来看,米哈游在蔡浩宇“缺位”之后,起码在“超越自我”这件事上,是不够“米哈游”的。

前文已经讲过,《绝区零》以其“内部创业”级别的资源禀赋,所能给出的最终体验,是不会比《原神》的大世界、《崩铁》的爽快回合制来得更为惊艳的。而在米哈游的工业化初见成效之后,这套标准用在绝区零上,更多是保证其内容产能“跟得上”。

当然,工业化的“流水线”游戏内容,相比蔡浩宇时期的“高科技手工艺品”,少了一些灵气,多了一丝稳健。

而体现在在玩家眼中,也就成了“不再惊艳”,无法继续提供“米哈游品质”。即便对“转型成大厂”的米哈游而言,这是必须做出的改变。

对于工薪阶层的月卡党而言,这批用户由于宏观环境变化,恩格尔系数的上升,同样也会对每月“固定3-500”元的消费决策,进行一定程度的调整。

毕竟对于这些月入数千的用户而言,米哈游的游戏带来的情感需求,已经处于马斯洛需求的上三层,属于非必要的情感支出,在下两层需求受到直接影响时,是可以被放弃的。

此外,这批被前述作品培育形成的玩家,到底是“二游玩家”还是“米游玩家”,个中边界仍然十分模糊。

起码在一位接近米哈游的游戏策划万寿眼中,这批玩家是“最不忠诚”的玩家群体之一。

他告诉雷峰网,这部分用户对二次元游戏的要求,通常在于两点,第一点,即官方推出的角色是否满足他们的喜好,直接一点的定义,叫“是否媚宅”;第二点,则是基于第一点带来的“游戏体验”——即前文所述,藉由文本、美术、角色等一系列要素构成的世界观,能否与玩家产生强情感链接,产生沉浸感。

“而这批玩家的挑剔程度,也很大程度上超过了对厂商和IP的忠诚度。”万寿对雷峰网补充道,米哈游的几个成功作品,只是塑造了这批玩家对于二次元游戏的基本审美。“类似一个让我觉得好玩的二游,应该做成这个样子”诸如此类的标准。

至于下一个可能的现象级二游项目,不管它是否“姓米”,只需要提供足够优秀,等同于米系游戏的体验,那么就有可能接走这批玩家。

当然,另外一个客观存在的事实是,以目前米哈游不输网易、腾讯等一线厂商的体量(无论是项目规模还是用户群体),加之高沉浸感、高情感链接的米系游戏类型,历经多个版本更新和玩法迭代,一定会产生针对某个IP或者厂商品牌的“死忠粉”玩家。

无论后续的新游再好玩,这批人很大程度上也会将部分精力留在此前的游戏里,不会产生大规模的玩家流失,只是玩家的付费能力会相对下降。

其中一个证据是,到目前为止,上线已经8周年的《崩坏3》,到目前为止,仍然以百人左右的团队规模,每个月为米哈游带来一百多万美元的利润。虽然已经无法与项目全盛时期相比,但其规模相对于其他二游,仍然是非常可观的收入。

这批玩家,对于整个行业而言,其付费能力或许不是最好的,但因为米哈游,行业第一个“二游巨头”的存在,他们已经在很大程度上,变成了米哈游的忠实拥趸。

任谁也能看出,以这批玩家的“付费深度”,并不足以支撑米哈游和蔡浩宇后续“星辰大海”式的探索;

反过来讲,以蔡浩宇个人能力为底色,以项目管理和堆砌人才水平为主要方式的开发模式,带给米系游戏品质的边际增益已经少之又少。

而这样的现状,也让米系游戏快速难以吸引到新的用户,这对于阵痛期的米哈游而言,是难以避免和必须承受的代价。

04 结语:米哈游的“To Be or Not to Be”

放眼整个中国二游行业,没有厂商能再复刻一次《原神》的辉煌,甚至今天的米哈游自己也不能。

因为这些前无古人的高光时刻,通常来源于一个或者两个天才制作人。对于米哈游而言,这是在“前蔡浩宇”时代发生的故事。或者说,在米哈游还依靠制作人个人能力的“作坊式”生产阶段时,才会发生的剧情展开。

从孤悬新加坡“躬身”AI,再到发布行业震动的那条所谓“暴论”,我们可以发现,即便过了10年,蔡浩宇仍然是那个蔡浩宇。

只是现在的他,已经足够强大,不再需要在意外界的噪音,也不再需要操盘人力所不能控制的的大体量项目,来创造第二个类似《原神》的奇迹,以证明自己。

蔡浩宇之于米哈游,仍然是不可或缺的灵魂。他的孤悬海外,意味着众多国内项目失去了面对面的“窗口指导”。但米哈游,仍然需要存在,仍然需要回应它众多“米粉”的期待。

“以量换质”的工业化,也就成为这一阶段的米哈游,不得不领取的“主线任务”。

在这期间,我们看到了《崩铁》的“工业革命奇迹”,也看到了《绝区零》的创新。但不得不承认,米哈游,仍然是在二游业内最早开启工业化进程的公司。

面对强IP,强内容,强情感链接的“二次元”游戏类型, 它所需要的工业化架构,并不能用一般3A的经验简单套用。

蔡浩宇的淡出是代价,《绝区零》的不达预期同样也是代价。即便如此,米哈游仍然像过往那般“偏执”,面对“工业化,或平庸”的选择题, 同样也没有一秒迟疑。

从这个角度而言,米哈游仍然是十年前那个锐意进取的米哈游。(本文是专题“上海游戏四小龙的中场战事”的第一篇,关于更多四小龙秘辛,欢迎添加作者微信FernandeZ-D交流)


]]>
AI+ //m.drvow.com/category/aijuejinzhi/NNquy1ia9f2CaFd9.html#comments Tue, 12 Nov 2024 16:36:00 +0800
《黑神话》背后:因果与宿命 //m.drvow.com/category/aijuejinzhi/NpYyGKFmvQEQUe6r.html 在游戏圈谈到《黑神话》,有一个段子相当耐人寻味。

2019年初,英雄互娱一行人抵达杭州,作为“天使投资人”,来视察注资一年多的游戏科学。

这并不是一次简单的串门。游戏科学的未来,很大程度上将在这次行程上决定——彼时,上线一年多的《战争艺术:赤潮》,营收节节下滑,作为投资方和游戏发行方的英雄,已经将从游科撤资,纳入了议事日程。

有知情者向雷峰网回忆,《赤潮》项目的研发,在当时几乎已经停滞,“不知道下一步该怎么走。”英雄一行人进入办公区域的时间,也卡在了游戏科学下午上班之前。所以他们难得地见到了全员打游戏的“盛况”——无论是研发还是策划,所有工位的屏幕上,都在运行着宫崎英高的最新作品:《只狼:影逝二度》。

英雄高管见状,就向老板冯骥提议:“要不你们做个《只狼》吧。”

冯骥听后惊为天人,这才有了后续《黑神话》的一切。然而,在这只搅动乾坤的“石猴”背后,仍有不少故事沉在池底,正等待着水落石出。


01

 吴旦的“英雄”往事


在一位接近英雄互娱的老员工——严紫口中,这个段子或许只是“半真半假”。

有一半存疑,说的是在英雄视察游科的时间点,《黑神话》的 PV 应该已经有了初版,被“使命召唤”的杨奇壮心不已,早有做 3A 游戏的打算,并且已经付诸了实践——也就是说,《黑神话》的开发,应当比2019年更早。

而有一半千真万确,由于《赤潮》的市场表现疲软,英雄对游戏科学撤资与否,也确实有过纠结。

2019年的吴旦,还未因为《黑神话》的石破天惊而荣光加身。相反,彼时因为《战争艺术:赤潮》市场疲软,作为英雄 CEO 的吴旦还曾在公司的股东会上,为投资了游科这个“不良资产”而低头道歉。

谈起游科,今日的吴旦在采访中总是表现得云淡风轻,似乎《黑神话》的成功早有预料;而真实的情况是,他在游戏行业的每一次起落,几乎都和这家名叫“游戏科学”的公司息息相关。

粗略看吴旦的履历,来到游戏投资圈子,几乎是他的早有“预谋”:

少年时就前往加拿大读书,滑雪时遇到了“五分钟游戏”的某个策划负责人,顺理成章地加入了这家开发了《开心农场》的游戏公司;

后来他辗转德勤,在金融领域也有了实战经验;再后来,因为一次酒会与方爱之(真格基金创始合伙人 Anna)的相遇,吴旦又加入真格基金,做上了投资人的工作。

有游戏行业和金融行业的双重经历,吴旦爱玩游戏,也相当关注游戏行业。

投了北京的游戏公司灵游坊(就是今年《影之刃零》的制作公司),吴旦和灵游坊创始人梁其伟的关系甚密。坊间传闻,两人和几个朋友甚至组了一支 LOL 的战队,奈何实力确实不咋地。而吴旦最成功、也是奠定了他未来生涯的一笔投资,就是《全民枪战》。

有传闻称,最早,吴旦对《全民枪战》并不看好,而真格基金创始人徐小平,却用这个团队是“连续创业者”的一条理由,说动了吴旦,这才有了后面他和英雄互娱的诸多故事。

作为国内第一款手机 FPS,《全民枪战》的开发并非易事——而两个灵魂人物,冉曦和郭瑞,都曾是完美世界的老兵同袍,曾在“完美八胞胎”时代合作无间,把游戏落地的能力打磨到了极致。这也让《全民枪战》仅仅用了一年便开发完成。

如果只是投了《全民枪战》,吴旦和《黑神话》的结缘就还缺了一块拼图——创办了英雄互娱的应书岭,是吴旦遇到的另一位贵人。

在《全民枪战》推出的年代,手机游戏仍然是《神庙逃亡》、《愤怒的小鸟》等轻度游戏的天下。没人相信一款射击类的重度手游能火。而《全民枪战》的母公司畅游云端,为了发行《全民枪战》,前后找了数十个发行公司,竟无一人敢接手发行。

这时,应书岭站了出来。

当时他刚从中手游出来,资源不少,但正缺项目。看到了发行遇冷的《全民枪战》,应书岭大手一挥,拿下了这款游戏的发行权,光权益金就给出了2000万以上。

后来,《全民枪战》一炮而红,应书岭又有了新想法,意在把《全民枪战》的母公司畅游云端收归旗下,有了制作团队,也就有了上市的资本。

而想搞定《全民枪战》和畅游云端,应书岭知道,他必须得先“搞定”吴旦。

吴旦和应书岭,一个是给开发团队搞到了钱,一个是给游戏做了发行,两人本就英雄惜英雄;而在投资圈里的吴旦,和彼时仍在红杉的曹曦也早就相熟。

于是,在 FA 华兴资本的运作下,王中军、真格资本、红杉资本等投资方,悉数入局,捧着英雄上了市。在运作过程中,《全民枪战》母公司畅游云端,也成为英雄互娱的全资子公司,冉曦和郭瑞被收编后,也在公司内担任要职。

而传闻中,与英雄签了3年对赌,三年后业绩完成,应书岭把答应的投资一期付清,而且是全现金支付。

英雄此等手笔和魄力,即便放到现在,也很难有人能与之相比。

吴旦情商很高,在公司内部连连高升,而在英雄,他还缺一个能拿得出手的,有着自己烙印的项目。

一位接近吴旦的人士告诉雷峰网,如果是一般的游戏公司高管,在公司发行能力很强时,一般会选择尽量利用好公司的发行长板。吴旦则不然——他在英雄发行能力和渠道能力最强的时候,已经有了“纯发行游戏公司没有未来”的预判。

而彼时,正是米哈游等上海“四小龙”争相崛起的阶段,今日游戏圈的格局,也证明了吴旦当年的判断。(本文作者长期关注上海四小龙,欢迎添加作者微信FernandeZ-D交流)

虽然已经有了前畅游云端的冉曦、郭瑞等人坐镇自研,但对吴旦而言,他还需要一个证明自己能力的“纯嫡系团队”。

如同安排好的一样,冯骥和杨奇出现在了吴旦的生命当中。

02

冯骥和杨奇,《赤潮》的涟漪


2014年,冯骥和杨奇从腾讯离职的故事,互联网上早有不少报道。

那正是手游行业正在飞速增长的阶段,不少大厂人出门创业,热钱也跟着乱飞。

不少江湖传闻中,在腾讯网易的办公楼下,一个个西装革履的投资人比肩而立。他们蹲守在大厂的办公楼下,只要是从闸机走出来,并戴着工牌的人,往往会收到投资人们的送钱三连:

“你是xx游戏的吗?”

“你想出来创业吗?”

“要是真的想,联系我们,我们有钱。”

相比热情的投资人们,起码在那几年,腾讯对于离职创业的员工,远不如现在这般“Open”——能拿到前东家融资的前鹅厂人,算得上屈指可数。

比冯骥和杨奇早一年离职,王信文的创业故事,一定是那时从腾讯离职创业的“典型案例”。

值得一提的是,在自家游戏发行方的选择上,王信文选择了腾讯的“死对头”——360。彼时,载入中国互联网史册的“3Q大战”,正进入白热化阶段。战时“投敌”,自然让外部对当时的腾讯颇有微词.

一则未被证实的坊间传闻是,在后来腾讯的内部会上,有人甚至为此发问:“为什么我们的人出去做的游戏,让‘那家公司’赚钱?”

也是如此,才有了后来鹅厂人离开,都能拿到老东家资金的“人散,情不散”。

而冯骥和杨奇,却没赶上那个好时候。

2014年6月,冯骥带着杨奇等《斗战神》核心主创,创办了游戏科学。在此之前,冯骥为数不多沉迷的手游,正是王信文的《刀塔传奇》。

王信文与冯骥、杨奇,系出腾讯一脉。而据接近腾讯的人士讲,即便冯骥等人离开腾讯,也与腾讯老同事们保持了密切的联系,后来很多都成为了腾讯重要部门负责人,或者明星创业公司的老板,王信文就是其中一位。

王信文在后来的访谈中,也提到过一则轶事:“那时腾讯内部有个三三会议,定期找项目负责人去比拼产品。只要冯骥不在,王信文就都能获奖。但冯骥一出场,结果就十分未知了。”

另一边,英雄互娱上市,王信文的名字也赫然出现在了公司监事会的名单上,是公司的股东/监事之一。

有了这一层关系,吴旦和冯骥、杨奇,就通过王信文搭上了线。

跟公开报道里写的一样,见到冯骥之后,吴旦很快就被他的个人能力所折服,以6000万人民币拿到了游戏科学20%的股份,还另加上《战争艺术:赤潮》的发行权。

彼时,游戏科学刚刚上线的《赤潮》,无疑有着成为“爆款”的潜质:2017年首发时,它获得了154个国家和地区的App Store推荐,9个App Store首页推荐位;位列iOS游戏免费榜第三,仅次于《王者荣耀》和《欢乐斗地主·腾讯》;此外,《战争艺术:赤潮》作为唯一一款国产游戏,入选了苹果的年度推荐游戏榜单。

哪怕以现在的目光来看,《战争艺术:赤潮》的美术风格,仍然极其前卫,将国外流行的赛博朋克与中国元素进行了恰到好处的融合。

在游戏圈里人信阗翁看来,这是主美杨奇的一种坚持——用“中国游戏,一定要有中国风格”来形容,并不为过。


20年初,早在《黑神话:悟空》为人所知之前,信阗翁就看过这款游戏的首发 PV。“视频内容跟游戏科学几个月后,在B站正式发布的版本差不多。第一眼看到美术风格,我就觉得‘很高级’。”

他如此向雷峰网形容这种“高级感”:“以前我们见到的中国游戏,很多的人、角色、场景之间,都是互相割裂的——人物光照打得很亮,主要还是为了卖皮肤。”

而作为买断制单机的《黑神话:悟空》,皮肤并不是游戏的主要收费点。在商业化上的自由,也让杨奇的美术风格,得以尽数发挥。

回到当时《赤潮》上线之后的时间点,虽然凭着独树一帜的美术和对向塔防的玩法,在游戏圈内收获了一批死忠粉,但却没能完成破圈,营收就成了老大难问题。

而游戏科学对《赤潮》品质的追求,又导致这注定是一个“大资产”的项目,游戏科学的亏损,也就令人不难想象。

作为《赤潮》的发行方,英雄这时也想要把这个亏钱的项目转手,于是他们找到了同样缺项目的字节。

最终,《赤潮》的发行权易手,游戏也更名为《战争艺术:无限进化》。而这个“烫手山芋”的后续表现,却着实“坑”了字节一把——

作为字节跳动独家代理的重度游戏“首秀”,游戏首发后在在iPhone的游戏大类下载排名中,最好成绩是94位,最低为1287名,最新排名为820名,完全没能达到当时人们的预期。

当时没人能想到,《赤潮》给英雄互娱和游戏科学带来的涟漪效应,竟能如此深远。

几年后,市场变化激烈,英雄也资金吃紧,正寻求从新三板退市,需要大笔资金回购股权。

从结果来看,最后向英雄伸出援手的,也不是之前有过发行合作的字节,而是腾讯。

腾讯为何入局英雄,原因已经很难考证。而一个直接的影响,是腾讯对游戏科学的曲线投资,已经走出了第一步。

而当冯骥和杨奇离职后,第一次真正拿到老东家的钱,已经是他们离开鹅厂后的第七年了。

03

《黑神话》爆火后,腾讯因何入局?

在腾讯投资英雄的时间节点,英雄手中最值钱的资产其实并不只游戏科学,还有做出了《战双帕米什》的库洛游戏。

而纵观彼时腾讯的产品矩阵,MOBA、卡牌、休闲等等品类一应俱全,而唯二缺少的两块拼图,一个是 3A,一个是二次元。

注资英雄之后,腾讯先是投进了游戏科学,又是在今年投进了库洛,投资丰富了涉及的游戏品类。

用英雄“老人”马确的话说,即使《黑神话》PV放出了,游戏科学的股权资产,增值的幅度其实也不算大,因为在此之前,它没有过类似3A项目的成功经验,这是包含玩家、投资方在内的共同疑虑。

一位前腾讯游戏员工仓璎对雷峰网表示,以腾讯投资的一般逻辑,首先会看一家公司的项目对腾讯而言是否有价值,或者腾讯想尝试的赛道,这家公司正好在做。

另外一个标准则是人——公司目前的研发能力和项目经历,能不能撑得起“画出去的饼”。

游科的冯骥和杨奇,带过250人的团队,做过一款圈内知名的大项目 MMO,有理想、有审美、有追求——如果有人能做成 3A,这两人自然在排行榜上能排得相当靠前。

而几乎同一时间,英雄互娱还需要从新三板退市,向大部分中小股东回购股权。而游科的股权在质押给招商银行获得5亿综合授信的同时,也获得了近4.8亿元的股权处置款项,这为其渡过版号寒冬,回购股东股权等事宜,争取了极其宝贵的时间差。

而这次通过拯救危机中的英雄,腾讯终于得以进入游戏科学的股东序列。而这笔投资的过程,也并不如人所想的那样一帆风顺。

坊间传闻,腾讯与英雄的洽谈事宜,被腾讯领导委托给了腾讯互娱国内商务负责人李纳川。与他洽谈具体价格的,正是吴旦。

腾讯的入局,对《黑神话》项目的推进作用,自是毋庸置疑的,其中一个重要帮助是,引入了Epic研发的UE5(虚幻5)引擎,替换掉了此前的虚幻4,让《黑神话》的画面表现直接提升到了次世代的第一梯队。

换引擎只是其中一环。更大的技术难点在于,《黑神话》可能是第一个同时应用虚幻5 nanite特性(上亿多边形物体实时渲染)和 lumen特性(一种完全动态的GI解决方案,可对场景和光线变化立即做出反应)的业界3A作品。这个技术的特点在于,扫描建模之后,不需太多手动修改即可投入使用。(玩家看到的“到此一游”和“钢筋”,本质上是技术“过于先进”的结果)

在腾讯的帮助下,《黑神话》实实在在做到了很多“前无古人”——而作为项目推进者的马晓轶和执行者的李纳川,后来都进入了《黑神话》片尾的特别鸣谢名单。

从22年英雄互娱的财报同样可以发现,后续投资给游戏科学的1亿追加投资,实际属于费用投资而非股权投资,用作了《黑神话:悟空》的发行工作,相关内容,吴旦在真格访谈中亦有提及。

冯骥后来在访谈中表示,他曾提出了几个关键问题,包括投资方是否会影响产品决策和公司日常经营、是否会夺取游戏的发行和运营权等。

对此,腾讯明确表示不会干预这些问题,并强调他们可以视腾讯为不存在的存在。

而在事实上,腾讯在《黑神话》开发过程中发挥的作用,甚至比英雄更大一些。根据前动视上海高级经理Robert Wynne在领英上的爆料,“腾讯向游科投资了3.5亿人民币。让游科在21年的隐含估值略低于10亿美元。目前冯骥正在上海四处拉投资,筹措资金以扩大工作室规模。”

而在后续评论区中,他认为《黑神话》的开发成本最终可能是7000万美元,而腾讯的投资金额约为5000万美元。《黑神话》的最终成功,腾讯在其中的作用可见一斑。

04

结语

看到这,有些人或许不由得会问:

“《黑神话》今天的成就,是否是被一个又一个的‘偶然’堆砌起来的?”

吴旦入局游戏,意外结识应书岭,后在英雄互娱通过王信文认识了冯骥、杨奇,在《赤潮》的成败中辗转与腾讯结缘,并在的帮助下走过难关,同时也成就了鹅厂在游戏布局上的又一步扩张,把整个赛道又推上了一个新高度。

如同一颗一颗石子投入水池,无数的涟漪交织纠葛,勾画出了一幅美丽的图景——无数的“偶然”联系在了一起,便给《黑神话》带来了一抹不可忽略的“宿命感”。

中国最新锐的游戏投资人,遇上了中国最优秀的游戏开发者,又在“命运”的驱使下,与中国最大的游戏大厂合谋,制造了中国当下最炙手可热的游戏,一切的道路,似乎必然会在未来的某一点交会。

而如果你问任何一个参与到《黑神话》当中的人,如果他们说,自己早已看到了《黑神话》的今天,或许都是吹牛——没人是“预言家”,能在诸多不确定中看到未来的样貌。

《黑神话》的背后,人们种下的只有“因”,而生长出来的“果”,则都可以被今日的收获者叫做“必然”。

雷峰网雷峰网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/NpYyGKFmvQEQUe6r.html#comments Sat, 14 Sep 2024 16:22:00 +0800
核心指标超越GPT-4 Turbo!商汤多模态大模型「开箱」 //m.drvow.com/category/aijuejinzhi/vld401CPq5gBd0HI.html

大模型,不再仅仅是娱乐的工具,它正在变成解决日常问题的生产工具。

这是AI掘金志看完商汤最新发布的日日新5.0后的感慨。

在商汤最新推出的日日新5.0版本中,在语言、知识、推理、数学、代码等领域的能力有明显提升,在主流客观评测上达到或超越GPT-4 Turbo。

作为文科生,日日新5.0在开放问答场景做了重点优化,在聊天、多轮对话、信息提取、写作等场景达到业内领先水平。

作为理科生,日日新5.0的知识、数学、推理、代码能力,与GPT-4 Turbo不相上下。

我们能直观感觉到,多模态大模型在急剧变化。

行业和打工人的福音,要来了?

一、日日新·商量多模态5.0,开箱

商汤日日新多模态5.0,不仅能理解文本,还能处理文档、图表、截图和照片中的内容。

既能跟你谈诗词歌赋,也能聊聊数理化,还能唠唠生活应用,有文科生的才华,也有理科生的缜密。

穿搭建议、食品分析、文案创作、烹饪建议等,在诸多日常场景下,它已经是一个“懂事”的日常助手。

文案创作(写诗、写作文、写好评)是在行的

解释表情包,它也懂梗图

帮助辨别食物是否适用(健身减肥人士最爱)

图片内容理解准确,还能根据环境判断这是商业区

马桶水箱醒花,花艺也略懂一些啦(花艺小白新的知识增加了)

厨艺好像也不错

截图内容理解准确且极为详细

商汤日日新5.0的文生图和文生视频也不赖。比如文生大象中,商汤秒画生成老象的效果更为自然,而友商中有出现三条腿的大象。

现场播放的三段视频完全由大模型生成,效果逼真视频,其实文生视频中的人物、动作和场景的可控性非常难把握,但商汤文生视频平台依然保持视频内容的连贯性和一致性。

二、多模态大模型「惊艳」的底气

这一次,商汤的确让人惊艳。

一切似乎在眨眼间,中国的大模型是从哪个步骤开始变得智能的?

上文都是多模态任务,多模态能力是AGI决胜之战,也是中国弯道超车的关键一役,但这道城门颇为难攻。

多模态最大的挑战,是不同模态之间存在语义鸿沟,这种语言理解的鸿沟,会让一些重要的视觉信息缺失,例如物体形状、空间关系、情感表征能力以及重合等。

比如,文生图模型画一个熊猫,难点在于,文字信号指示词语,而视觉信号是像素点,而这层次结构不同,很难对齐,匹配要局部细节。此外,还有计算的效能、存储等系列问题。

了解了这些,方能理解上文中展示的商汤多模态大模型的实力。

商汤为什么能在多模态大模型上跑得如此快?其实一直都有迹可循。

  • 强大的算力供应、算法和数据

AI三要素,算力、算法、数据依然是入场券。

首先,强大的算力供应,是如今最稀缺,也最有竞争力的要素。

短短2年内,中国的大模型百家争鸣,但作为一项强技术、强资源、强投入导向的技术,本质上是大厂的游戏。

具备强大的算力基础设施的计算硬件集群、资源调度等能力,能够更高效的利用计算资源、降低模型的边际成本的企业,才有资格站在高处。

商汤是业内少有的算力供应大户。

商汤从2017年、2018年起一直在AI基础设施上进行了大手笔投入,这让商汤AI大装置SenseCore成为业内稀缺的大模型专用基础设施,总算力规模达12000P。

其中,上海临港AIDC全新升级后可输出8400P算力,是国内最大的人工智能计算平台。

拥有45000张GPU对外提供大模型训练与推理服务,具备从“千卡千参”到“万卡万参”的大规模并行训练的能力。此外,商汤AI大装置SenseCore已完成58款国产芯片的适配与应用,国产化算力达1500P。

天下武功,为快不破,谁能更快优化技术,谁就能先一批找到商业化落地的大道。

模型迭代也取决于算力的供应。在训练的阶段,算力越大,可做出的模型就越大,更新迭代的速度就越快。

商汤在如此强大的算力供应下,能够在7B、20B、100B各个模型档位上都能以最快的速度迭代。

日日新没有辜负这个名字。自2023年4月发布“日日新”以来,商汤大模型以2个月至3个月一个版本的速度快速迭代,在短短1年,就迭代了5个版本。

再看算法。

前文提到,多模态最大的挑战是不同模态之间的语义鸿沟。

不同模态的布局和对齐,不是每个模态的数据清洗完,输入进入就能运行。

模态越多,对齐就越难做。每个环节都需要对每个模态的数据充分的理解和大量的积累。

因此商汤在算法模型设计下足了功夫。

业内规模最大的视觉基础模型,是谷歌220亿参数大模型,用的是内部JFT数据,这个超大的内部积累的图片数据量,业内难以匹敌。

商汤2023年下半年发布了一个60亿大模型,仅用了四分之一的参数,就在典型的检测分割等能力上与之看齐。

以大分辨率长图为例,给到一些多模态窗口,因图像分辨率太大,窗口无法识别,但商汤的模型给出了非常大的分辨率接口,能识别2K✖️1万分辨率的图片,这成为商汤多模态区别于与友商的核心。

能支持这么高的分辨率,是算法模型设计的功劳。

过去的路线,需要基于语言大模型基座,做视觉等多模态的整合训练,把结果转化成更高的维度,比如文本,再给到语言模型,所以也需要语言大模型有更强的认知理解能力。

过去的大语言模型只需要关注文本,多模态的数据分布、表达形式都不一样,因此需要在模型设计上给更多的交互信息,这需要很精巧设计。

去年,商汤巧妙地设计预训练模型来让模型挖掘不同模态之间的关联,将每一层信息带入,并且做映射对齐,能力的提升直接体现在原生多模态大模型,能做到图文、音频、视觉抽取理解,得到了更强的提升和突破。

商汤算法模型设计精密相连的交互能力也很强。

商汤的一大优势是底层互通,整个模型设计是一体的。

“不少公司的产品是单一的,图文理解、文生视频都分属不同的团队,互相之间没有连通,可能最多调用了同一个工具,只是把这个文档拷贝到另外一个工具里,交互性很弱。”

商汤科技研发高级总监卢乐炜表示,商汤的日日新商量5.0,同一个团队,模型设计是一体的,交互能力有极大提升,能够动态理解输入的需求,理解图片,并给到非常详细的解释。

再看数据。

AI领域十年,商汤落地了众多行业,城市智能、商业、医疗、金融、自动驾驶,甚至在钢铁、煤矿、电力等工业场景,商汤在各个行业积累了大量的多模态数据。

「量」有了,「质」也要保证。

日日新5.0最重要的提升除了模型采用混合专家(MoE)之外,解决了数据质量的瓶颈。商汤在知识层面上采用超过10T的Tokens,使得高质量数据的完备性能够得以保持。

除此之外,商汤还合成构造了思维链数据,这是真正意义上保障模型能力提升的关键。如果每一个行业思维链数据都能够被轻松构造的话,推理能力就会大幅度提升,在这个过程中构造数千亿的知识链数据,从而使得模型能力可以对标GPT-4 Turbo。

去年开始,商汤也建立了一个非常强大的数据处理引擎,每天可以处理超过两万亿个token的数据清洗和蒸馏任务,这也让大模型数据供应进行不断地迭代,结合商汤独特的算法设计去完成人工智能大模型算法、数据、算力三位一体的闭环。

多模态感知积淀

感知能力是多模态能力核心中的核心。

废话不多说,直接上数据。

这个拥有超过千亿参数的多模态大模型的图文感知能力达到全球领先水平,具有全面知识系统,对现实世界的理解大幅提升。

不仅在多模态大模型权威综合基准测试MMBench中综合得分排名首位,82.3(超过GPT-4V的77),在多个知名多模态榜单MathVista,AI2D,ChartQA,TextVQA,DocVQA,MMMU也取得领先成绩。

这不是一日之功。

多年前手机相册的“去年今日”、“欢乐时光”功能,根据某一时段的一些照片设定一个主题,自动配乐生成一段专属MV,这可能是“自动化生成视频”最初的样式。

而商汤科技创始人汤晓鸥可能是最早一批探索视频生成的人之一。

2012年,在那个互联网主要流行媒体还是音乐和图像的年代,汤晓鸥以第一作者就创新性提出论文《自动音乐视频生成:音乐和图像的交叉匹配》,该论文也入选2012年的ACM Multimedia(世界多媒体领域最重要的顶级会议)。

当时的挑战在于如何找到适配的图像让他们与歌曲对齐,团队提出一个自动为给定歌曲生成音乐视频的系统,以歌词关键字作为查询检索互联网中的相关图像,并使用基于学习的方法来估计图像和音乐片段之间的语义分数,自然语言处理技术在生成视频中的作用开始显露。

2014-2015年,商汤发布数据集CelebA,包含表情、情绪、长相、头发等。这是引领生成模型发展的标杆数据集,催生了第一代GAN对抗生成网络发展。

2019-2020年,商汤将视觉算法积累和GAN技术结合,启动如影数字人研究,并推动文生图的相关研究。

多模态需要数据组织理解能力,有多视觉信息、音频、视频的理解。其实,作为以计算机视觉智能起家,曾经的商汤有太多的光环和积累。

文生视频和文生图一脉相承,如今商汤的生成式AI领域持续迸发,得益于此前多年持续不断地探索与积累。

商汤具备高清长图的解析和理解以及文生图交互式生成,还可以实现复杂的跨文档知识抽取及总结问答展示,还具备丰富的多模态交互能力也不足为奇了。

完善的服务

此外,商汤的知识库、知识融合、微调等服务能力也更一步完善。

多模态大模型5.0新增知识融合接口,可基于知识库能力优化,大幅降低模型幻觉的出现。

商汤对行业知识进行系统的整理,每个行业大模型都会结合客户知识、政策法规、前沿论文等梳理知识图谱,形成丰富的、高时效性行业知识储备。

在模型维度,研究团队基于海量的图文数据采用预训练和监督微调的方式,可以处理多种类型的任务,包括常规的图文任务和开放式的长尾任务。

此外,多模态大模型5.0还搭建了完善的服务流程,支持QA和纯文本数据的知识库外挂,并可实现PDF、Word文档等格式输入;外接多个embedding模型,可提供知识融合服务,并支持Prompt、SFT、Lora多种模型微调方法。

理论上,当一个人同时具备数个维度的能力,有战斗力储备,有高智力和成熟的思考能力、逻辑、扩展能力,如果他还懂各行业各业的知识,服务还强,他能做到“上知天文下知地理”。

一个顶级高手,背后是各种单点技能和底层实力的环环相扣。

三、通用AI和生成式AI的商汤路径

当下的百模大战,有一种混乱的激烈。

业内有大牛专家所言,目前的国产大模型有三类:原创大模型、套壳国外的开源大模型、拼装大模型,即把过去的小模型们拼在一起,变成参数量看起来很大的“大模型”。

业内多数公司,都是后两者,要么只有模型,没有算力,要么有算力,但算力缺乏运营,大模型缺乏差异化。

进入大模型的商业化落地竞争年,明面上的白热化大模型战场,其实是原创大模型之争。

没有足够强的技术积累、持续的高投入和工程化能力,商业化落地就是裸泳。

商汤似乎走出一条通用大模型的产业化路径。不但有“大模型+大算力”的双轮驱动下的大模型即服务,还有大模型的云、端、边全栈布局。

2024年,百模大战下半场,大参数、多模态、长文本百舸争流,多模态的竞争更是按下了加速键。

也许在不久的将来,你可以打开电脑,输入需求,大模型直接生成了PPT和文档,如果你觉得不够,你只需要说出需求,它就能不断修改,比如某个图表,怎么能画得更好看。

生成PPT、生成影视作品分镜头、根据用户需求直接写代码、生成程序......这些,是大模型研究团队一直在努力的方向。

这份福利,未来日日新能带给我们吗,我们万分期待。雷峰网雷峰网雷峰网


]]>
AI+ //m.drvow.com/category/aijuejinzhi/vld401CPq5gBd0HI.html#comments Thu, 25 Apr 2024 22:52:00 +0800
打响大模型「平民化」第一枪,云天励飞推出“深目”AI 模盒 //m.drvow.com/category/aijuejinzhi/MxtYTsehgZ4eYqAd.html 过去一年,大模型如燎原之火,迅速席卷了人工智能领域的每一个角落,以其规模和深度,重新定义人工智能的边界。

这场技术的盛宴中,AI的新老玩家们都渴望利用崭新的AI之钥,打开人工智能应用更辽阔的未来之门。

然而,伴随这一颠覆性机遇的到来,行业也面临大型模型发展早期的挑战,即模型层与应用层整合之间的鸿沟:以大模型为核心的AI技术应用,虽具有切实降本增效的前景,但大多数企业难以负担训练专属大模型的成本。

由于大量长尾场景缺乏高性价比的解决方案,AI普惠化也更多停留在口号层面。

一边是AI企业面临技术转化困难、商业化挑战,一边是中小企业客户需求未得到充分满足,在这样的背景下,云天励飞提出大模型“平民化”的目标,推出“深目”AI模盒,旨在将大模型变成人人可用的产品,从而解决人工智能落地的最后一公里难题。

解决最后一公里问题包含两个核心,如何通过技术上的创新生产出一款低成本的产品,以及如何在数据缺乏的情况下,仍能保证算法的精度。

大模型通往落地的一个公式

GPT-4发布已一周年,AI领域在过去一年的成果已然超越过去十年的积累。

在云天励飞AI大模型产品发布会上,CEO陈宁博士表示:未来3年,全球80%的企业都将运行在大模型之上。

经过上一波人工智能浪潮的洗礼,在人脸识别、车牌识别等头部算法问题上,已经形成了较为成熟的解决方案。但是,大量低频的长尾算法并没有得到很好的解决,成为制约人工智能赋能千行百业的问题所在。

大模型出现以前,对于AI公司来说,每个小模型的长尾算法与头部算法在投入成本和周期上相当,都需要强大的算力、高效的算法支持及大量的算法工程师,投入产出比极不匹配,绝大多数企业也都不会为如此高昂的成本买单。

大模型出现后,技术底座焕然一新,带来了高性价比解决各类长尾问题的机会。

但在雷峰网看来,积极拥抱和布局大模型,并没有想象中那么容易。

本质上,大模型由算力、算法、数据三者共同构成,谁能更好地整合三方面能力,提供更低成本、更高效率的产品,才是竞争的关键点。

因此,大模型的技术转化能力,实际是对AI公司综合实力的考验,能够脱颖而出的企业属于少数。

云天励飞在“算法芯片化”的核心能力下,基于自研多模态大模型和自研芯片的深度融合,做到了将大模型塞进一个小盒子中。

这个小盒子不仅具有物理上的紧凑性,用单手就可以托举起;还具有技术上的紧凑性,实现了模型的精简和高效化。据介绍,“深目”AI模盒可以做到“3个90%”——覆盖场景超过90%、算法精度超过90%,使用成本降低90%。

要做到这一点,需要直面一系列的技术挑战,包括如何在边缘侧完成大模型高性能的推理、高效的训练,如何在内存、计算精度都受限的情况下提升精度等。

那么,云天励飞是如何将大模型塞进千元级的小盒子中的?

“能够实现3个90%,离不开云天励飞的核心能力——算法芯片化。”陈宁博士说。

围绕“算法芯片化”,云天励飞用时一年,进行了两大技术攻关:一是自研多模态大模型“云天天书”,二是自研大模型推理芯片DeepEdge10。

“深目”AI模盒的算力基础,来源于去年云天励飞推出的14nm Chiplet 大模型推理芯片DeepEdge10。

这款芯片采用自主可控的国产工艺,内含国产 RISC-V 核,支持大模型推理部署。依托其创新的D2D Chiplet 架构打造的推理卡,已适配并可承载SAM CV 大模型、Llama2等百亿级大模型运算,可广泛应用于 AloT 边缘视频、移动机器人等场景。

云天励飞首席科学家肖嵘博士进一步补充道:“芯片设计时,考虑到模型参数上升会带来效果上的改进,我们设计了Chiplet;其次改进了算法,用低成本的INT8和FP16替代FP16和FP32,只把模型1%的计算放在FP32上,使运行成本大幅下降;模型训练的基础、模型的结构也做了颠覆性改变,空间占用更小。”

这些技术突破,使得云天励飞可以通过算法和芯片一体化设计,将芯片设计成本做得很低。

“深目”AI模盒的大模型能力,则来源于云天励飞自主研发的多模态大横型“云天天书”。

云天天书大模型包含语言大模型、多模态大模型等不同系列,在C-Eval、CMMLU等权威测试中多次获得第一名,并于去年正式通过中央网信办备案。云天天书1.0版本于2023年初正式推出,已完成3个版本的迭代,预计今年6月将迭代4.0版本。

以云天天书为底座,云天励飞与生态合作伙伴完成预训练长尾算法,再将预训练算法提供给广大中小企业用户。

由于大模型具备泛化和算法边缘侧在线学习能力,部署算法后,大模型还能够根据现实应用场景情况,在线学习、优化算法,不断提升算法精度,帮助客户在边缘端完成算法微调,训练出可实战应用的算法。

简单理解,云天励飞不仅将大模型塞进了盒子中,并且还能在限定条件下,根据实际情况用少量数据做微调,最终实现效果的提升。

对于云天励飞来说,这款“压缩”了大模型和芯片能力的全新产品,是通过算法芯片化能力平台,实现大模型“硬件化”的一次重要尝试。

在边缘计算的趋势下,未来云天励飞将继续朝着内存更小、算力更小、性价比更高的方向不断改进和更新产品。

让长尾场景客户轻松使用AI

大模型赋能的数据处理产品之所以备受瞩目,在于它们具备人类般的思维能力,以及媲美人类的逻辑推理能力。

但对于使用者来说,重要的不是技术层面深目盒子积累了多么深厚的底蕴,而是应用层面产品是否足够简单易用。

雷峰网认为,一款能直击客户痛点问题的大模型产品,一定是技术创新与产品体验双轮驱动的产物。

“深目”AI模盒正是这样一款零学习成本,真正做到长尾算法秒速训练的产品。

城市治理是一个典型的碎片化场景,由于各个城市的需求不一样,因此可能存在上百种场景算法,很难寻求一种放之四海而皆准的解决方案,一劳永逸地解决所有场景问题。

不仅如此,以往针对具体场景的微调,都需要将数据收集好,重新带回实验室,经过清洗、标注、训练、发布全流程后,再返回现场部署,周期十分漫长。

云天励飞通过将这一过程拆解为两个步骤,将原来几个月的落地周期压缩到了一两周。

第一步,训练边缘大模型。目前云天励飞与生态合作伙伴,已在算法训练平台上搭建了覆盖14个大类、100+个小类、千余种算法的预训练算法仓库;

第二步,在“深目”AI模盒上引入微调,实现边缘端的自学习、自进化。

这意味着,用户也只需通过两步极简的交互,就能获得一个高性价比的、聪明的专属大模型。

第一步,直接调用云天励飞的预训练算法,利用平台基础数据集,完成算法的初步训练;

第二步,上传自身场景图片,直接在现场完成算法的微调和升级,快速训练出高精度算法。

长尾场景最大的痛点在于样本数据少,但一旦用户使用了云天励飞的“深目”AI模盒,这个问题便能迎刃而解。

针对数据少的情况,云天励飞副总裁罗忆用城市治理中的店外经营和游摊小贩场景举例,“只需要上传五张场景照片,进行简单标注,就能将初步训练的算法精度从76%提升到95%。”

针对数据几乎空白的情况,如加油站场景的吸烟识别,可以用AIGC生成在该环境抽烟的人,这样既能填补训练数据的空白,又能规避隐私安全等问题。

除此之外,在云天励飞的算法训练平台上,借助大模型的泛化能力,还能解决识别对象标准不统一带来的算法训练难题。

不过,想要用少量数据产生很好的效果,还有一个重要的大前提,即培育一个良好的生态。

站在数据角度,当下国内的互联网数据、文本数据、视频数据已几乎被挖掘殆尽,与此同时行业数据又不公开,想要获取高质量数据,AI公司就需要团结行业伙伴、高校院所和头部企业,前者提供技术,后者提供数据,共创行业大模型。

站在渠道角度,云天励飞虽然提供了一个技术平台,但仅凭一家企业,是无法解决整个AI行业落地过程中,各种各样的技术、商业模式、市场等方方面面挑战的。

“我们认为多模态大模型在边缘的训推一体,尤其算法芯片的深入融合方向一定不会错,共创行业模型赋能行业长尾场景一定是未来的趋势,今天是云天励飞生态构建的一个重大开端。”陈宁博士说。

AI技术终将解码物理世界

在云天励飞CEO陈宁看来,无论通信、互联网、电子信息等技术,都经历了方案化、运营化和产品化三个阶段,AI也不例外。

与此同时,AI方案化、AI运营化和AI产品化,也是云天励飞的三个核心业务板块。

AI方案化,指AI企业通过项目制满足不同行业客户的需求。

在2022年底之前,这种趋势在G端和B端呈现出了蓬勃发展的迹象,各种行业解决方案层出不穷。

自2014年成立至今,云天励飞已经沉淀了智慧安防、智慧交通、城市治理、人居生活四大基础领域的成熟行业解决方案,并在过去两年探索了智慧教育、低空经济等创新领域。

AI运营化,指将已开发的AI解决方案投入实际项目中,不断积累行业认知和数据,持续进行优化改进,形成具备越来越强泛化能力的AI平台。

随着AI技术成熟和市场接受度提升,两年前市场开始走向AI运营化,开启了商业模式的创新。

云天励飞基于在大量行业的落地经验,已形成智能算力运营、数据运营和新能源运营平台。

AI产品化,指将AI技术或解决方案转化为标准化、通用化的产品或服务,通过物理实体赋能,满足更广泛的市场需求。

从成立之初自研AI芯片,到去年与华为昇腾联合推出天舟大模型训推一体机,再到如今推出面向边缘训推场景的“深目”AI模盒,以及通过资本纽带进军智能穿戴市场,云天励飞一直在致力于做物理世界的“解码者”,并在日复一日的坚持中,构建起日益完善的大模型产品体系。

陈宁博士表示,“多模态大模型将推动AI从方案化,走向运营化,最终走向标准化的智能硬件。在AI产品化方面,最重要的是推出面向C端的产品,如终极形态的人形机器人,将成为标准化的智能硬件之一。”

在云天励飞的布局中,标准化的智能硬件分为端、边、云三个不同的计算节点和产品形态。

终端和云端更多是整合生态,在终端设备上,通过生态构建,并购了一家可穿戴设备方案供应商;云端设备上,全面拥抱华为昇腾,在天舟大模型训推一体机后,联合探索各类场景;边缘设备上,则是端到端的开发打磨的一系列深目AI模盒,解决过往十年细分场景精度不够、成本太高、周期太长、数据量太大等一系列痛点问题。

当人工智能技术能够解决应用到实际场景中的最后一公里难题时,AI将不再仅仅是虚拟世界中的工具,而是真正成为了物理世界的生产力。

结语

过去一年,创业者们都在思考如何利用大模型这一颠覆性机会构建新的护城河,生成式AI的局限性,使得大模型与产业的结合,成为一个需要不断验证和改进的过程。

这个过程,恰如云天励飞十年间对“深目”产品的更新迭代。

CV小模型时代,名为”深目”的人工智能产品,引领了AI产业化应用的浪潮,揭开了“AI+公共安全”市场的新纪元。

大模型时代,名为“深目”AI模盒的边缘训推一体产品,基于大模型技术演进和芯片深度融合的联合设计,已经拥有了焕然一新的技术底座。

从“深目”到“深目”,从“方案化”到“产品化”,从“CV小模型创业”到“大模型创业”,云天励飞向着AI普惠的目标,再次出发了。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/MxtYTsehgZ4eYqAd.html#comments Thu, 28 Mar 2024 20:46:00 +0800
奥比中光2.0:机器人大时代,提速出海 //m.drvow.com/category/aijuejinzhi/B5D5pM7ICkWbKVcf.html 近期,奥比中光针对海外市场动作频频:公司接连在CES国际消费电子产品展、MODEX北美国际物流展、英伟达GTC 2024等展会亮相,并官宣了全球团队新的人事任命,剑指最新出海战略。

雷峰网了解到,奥比中光已新设全球业务部、全球营销管理中心。前英特尔RealSense销售负责人Michael McSweeney已加入奥比中光全球业务部,出任销售副总裁;一同加入的还有前英特尔RealSense核心团队成员、机器人及计算平台专家Brad Suessmith与Karthick Kandasamy,分别出任奥比中光机器人业务总监、奥比中光EMEA销售与运营总监。此前,微软Azure Kinect DK业务及生态负责人Amit Banerjee已加入奥比中光全球营销管理中心,担任平台与合作业务负责人。

左起:Michael McSweeney, Brad Suessmith, Karthick Kandasamy, Amit Banerjee

一直以来,微软Azure Kinect DK和英特尔RealSense系列,都是全球3D相机领域的两个标杆。

此次,两家巨头行业老兵的加盟,将有助于奥比中光产品快速接入微软开发者市场,并与英特尔“同场竞技”。

从微软的“追赶者”到“合作者”到“承继者”,到能与国际一流产品掰手腕的“比拼者”,奥比中光的成长史,印着中国3D视觉产业成长壮大的足迹。

如今,奥比中光也有了全新面貌:定位机器人与AI视觉产业中台,踏上大制造征程。

在完成自身业务进化的同时,通过产品出海,走向更大市场,助推中国3D视觉产业在全球产业链体系中的跃升,已经成为奥比中光开启2.0阶段的必由之路。

持续进化:微软的追赶者、合作者、承继者

奥比中光的生长路径中,微软是一个绕不开的名字。

2010年,微软与以色列PrimeSense合作推出了世界上第一台消费级3D传感器Kinect,震惊了企业界和学术界。众人发现,原来1000元左右就能得到一个3D相机。

一时,3D视觉感知技术大规模商用的曙光乍现,产业界闻风而动。黄源浩在看到中国3D视觉产业的机会后,于2013年结束十年海外游学,回到深圳创办了奥比中光。

这一时期的奥比中光,以微软“追赶者”的姿态,在自己的产业化道路上快速奔跑。

图注:2014年奥比中光设立美国团队,产品首次亮相CES

不同于微软将3D视觉技术应用于游戏Xbox,奥比中光最早从工业切入3D视觉,并在十年间逐步开拓了机器人、3D扫描、生物识别、刷脸支付、消费电子等行业。

2021年,奥比中光设计出了一款型号为Femto 的iToF相机,相比微软的Kinect相机更加小巧,成本更低,适用性更广。

据奥比中光CEO助理王献冠向雷峰网介绍,正是这款产品打开了奥比中光与微软合作的大门。

“微软看到Femto,以及手机、刷脸支付、机器人等领域的落地案例,很认可奥比中光的实力。”

2021年,奥比中光与微软达成合作,共同研发一系列基于微软Azure云计算平台的前沿ToF摄像头新品。

2023年初,奥比中光与微软、英伟达等联合研发制造的3D iToF相机Femto Mega正式量产。

这款相机集三家之所长:不仅有微软第一代深度相机Azure Kinect的全部性能,并且增加了英伟达Jetson Nano深度算力平台,还有奥比中光提供的嵌入式深度计算技术及系统设计和量产能力。

王献冠回忆,“这是一次少有的跨多团队、跨国的合作,复杂度比较高,微软和英伟达在生产、供应链、审厂、质量、回复及时性等方面也有比较严苛的要求,压力比较大。”

第一次正式合作的结果获得了微软、英伟达等几方的高度认可。奥比中光也顺利完成了从微软“追赶者”,到“合作者”的身份转换。

继Femto Mega之后,奥比中光又与微软英伟达开展了更为密切的合作,面向国内外开发者,推出了Femto Bolt和Femto Mega I两款合作产品。

到2023年8月,随着微软官方宣布Azure Kinect DK深度相机系列产品停产,微软也正式授权奥比中光承接该部分业务。奥比中光的Femto Bolt相机,也成为了Azure Kinect DK的直接“平替”,性能相近基础上,降低了成本,提升了稳定性,同时外形更加紧凑,易于安装。

 微软Azure Kinect DK(左)与奥比中光Femto Bolt(右)对比图

一家位于美国纽约的技术工作室Scatter,在用奥比中光深度相机Femto Bolt替代微软Azure Kinect DK深度相机后评价称:“奥比中光Femto Bolt是市场上质量最高的深度摄像头。在色彩、校准和时钟同步精度方面的诸多细节改进,使Depthkit的拍摄质量和可靠性得到了大幅提升。”

直面全球竞争,国产替代加速崛起

从《中国制造2025》、《强基工程》,到这两年如火如荼展开的《专精特新》及最新的《十四五发展规划》,国家层面持续出台相关政策推动零部件自主化。

国产零部件加速崛起,视觉厂商们纷纷寻求创新突破。

核心零部件的国产替代空间固然大,但观察近几年A股上市的核心零部件公司,不难发现都面临共同的问题:品类相对垂直细分,天花板不高,收入体量偏小,很多品类市场规模在几亿元到几十亿元之间。

国产替代加速的当下,单纯的国产替代并非长久之计,只有走优势互补、合作共赢的道路,最大限度地发挥自身强项,才能真正放大优势,以应对激烈的市场竞争。

在3D视觉领域,微软Azure Kinect DK和英特尔RealSense,是公认全球领先的3D视觉产品,其性能优异、稳定可靠、对开发者友好的特点,广受行业认可和青睐。

奥比中光与微软和英特尔的合作,以及对相关人才的引进,不仅从产品上填补了高端市场的空白,提升了在全球范围内的品牌定位,也丰富了全球销售渠道和开发商客户资源。

对微软来说,在云计算成为现代企业核心基础设施,人工智能成为最热门技术领域之一的今天,其业务重心已日渐从Windows转向云计算和人工智能,以此保持自己在技术市场的领先地位。

图注:微软在2023年8月将Azure Kinect DK产品线授权给奥比中光

相互借力,各自最大化能力强项,无疑是最经济的打法。

正如微软所言:“深度传感技术在过去10年经历了一系列演变。对我们来说重要的是,这项技术仍然可供生态系统使用。当需要基于Microsoft开发的iToF深度传感为用户提供更新迭代的深度相机时,与生态系统中的领导者合作,提供端到端解决方案,显然是最佳选择。”

奥比中光的“蜕变”与“延续”

谈及2022年以“3D视觉第一股”上市的奥比中光,外界大致有两个印象:一是困惑于其体感游戏、手机3D结构光、刷脸支付、刷脸门锁等一系列的业务变化;二是感叹于它的运气,抓住了消费级3D视觉的风口,顺利冲过上市关卡。

除了有目共睹以“变”为特征的A面,奥比中光以“不变”及“变中的进”为特征的B面,似乎较少被提及和分析。

周易有云“穷则变,变则通,通则久”,指面对事物变化,适时求变才能长盛不衰,这个规律同样适用商业世界。

过去几年,3D视觉行业是少数不仅没哑火,反而高速成长的赛道。但终端业务场景需求分散,难有大规模出货,市场竞争格局激烈,同样是这条赛道的现状。

这是因为,3D视觉行业发展周期较短,前期研发投入大,进入门槛高,大多提供算法、方案和应用的公司体量不大,很难触达最终业务场景,行业生态尚未形成。

此外,客户对3D视觉接受度不高,测试导入、产能爬坡、批量交付都需要时间,3D相机在成本、性能方面还需要时间沉淀。

换言之,3D视觉技术的价值已得到确认,行业发展和市场需求推动竞争者们快速响应。在此过程中,多数创业公司在挣扎后无声消亡,规模大的公司则更有风险承受能力。

在王献冠看来,奥比中光的另一个明显特点是,一直保持活力,并能在不断变化中持续成长。

“公司两位创始人黄源浩博士和肖振中博士至今还在业务一线,对技术、产品与市场需求一直保持着很高的敏感度。”

多年来,奥比中光有两大不变:对3D视觉是未来大趋势的坚信不变;提供3D相机底层能力并长期大量投入的核心战略不变。

在不变的基础上,面对各行各业实际需求,奥比中光会在找准关键场景后重点投入,包括当下能给公司带来直接营收的业务,以及能成为未来战略方向的业务。

奥比中光于变化中的“进”,一方面体现在产品上的“进”,典型例子如前述所说与微软、英伟达的合作与产品上的超越;另一方面表现为战略上的“进”,从3D相机底层能力出发,走向机器人与AI视觉产业中台。

为机器人大时代提供中台支撑

如果说,得到微软认可,承继Azure Kinect产品线,是奥比中光过往十年发展成果的一个证明,那么,建设机器人与AI视觉产业中台,则是奥比中光在战略层面一次新的谋篇布局。

机器人具有赋能千行百业的特质,从人工智能、具身智能、ChatGPT等新技术发展来看,高速成长的机器人行业很可能是下一个关键增长点。

中国作为全球最大的机器人销售市场和生产国,目前自主品牌率不到40%,可以预见,在这个高度碎片化的市场中,中短期内将有成千上万家机器人厂商做各个细分领域的机器人产品。

视觉智能作为机器人的关键部件,市场潜力巨大,是一个能成为未来战略方向的业务。

基于这一趋势,奥比中光搭建了机器人与AI视觉产业中台,将自己变身“公共后厨”,整各上下游,加速生态的循环。

目前,奠定奥比中光能力平台的是,相机及雷达硬件、AI视觉感知及多模态算法、视觉感知芯片三大研发中心,以及视觉传感器及整机制造基地。

奥比中光企业定位

技术端,奥比中光全面布局3D视觉感知技术,是全球少数涵盖了结构光、iToF、dToF、双目、Lidar、工业三维测量六大技术路线的公司。并且,通过加强底层硬件、芯片、算法的研发,优化视觉整体方案,很大程度上突破了传感器硬件市场小的局限。

在此基础上,奥比中光一端连接第三方算法公司、解决方案公司,将他们的产品能力引流到奥比中光平台上,共同做出一桌好菜,服务好机器人、3D扫描、生物识别等客户;另一端连接机器人厂商、AIoT厂商,提供种类丰富且成熟的3D相机和视觉方案,以及整机制造和OEM、ODM等业务,帮助降低研发投入门槛,加快产品落地。

作为一家主要面向B端场景的硬科技企业,奥比中光已沉淀出了一套‘小批量多机种’的设计制造经验,这与机器人市场高成长、高碎片化的特性是相互吻合的。

目前,机器人板块需求较为分散,短期内的机会点主要在服务机器人、工业机器人、ROS教育机器人、特种机器人几个细分领域。

奥比中光从2016年开始,就为机器人企业批量提供3D视觉传感器。根据国内机器人领域第三方报告,奥比中光在国内的服务机器人3D传感器市占率已在 71% 以上。

结语

通常情况下,企业选择专注某一行业,提供优质有限的产品和服务,才能取得成功。成功后,依托技术和产品,寻找下一个发展点,以此加深壁垒,建立更大的商业帝国。

自奥比中光2013年成立以来,3D视觉领域涌现出各式各样的企业,行业历经数次洗牌,战火燃遍消费、商用、工业、自动驾驶等领域,数载沉浮间,真正冲过上市关卡的企业并不多。

到了2022年,不少厂商认为,消费级3D市场热情已难以再现。

因此,尽管消费级产品仍然在3D视觉市场占据最大的出货量,行业参与者们也纷纷寻找起第二增长曲线,为溢出的能力寻找新的对接口。

在智能化程度日益深入的机器人产业中,视觉智能是应用最广泛的技术之一,是机器人“看懂世界”的关键。

奥比中光和机器人行业,其实是相知多年的老友,早在2016年便开始为机器人企业提供3D视觉产品。如今奥比中光将业务重点转向机器人与AI视觉产业中台,同时大推全球市场拓展,是一个水到渠成的过程。

奥比中光在完成自我进化的同时,也提升着中国3D视觉产业在全球产业链中的位置。这种“国际大厂+创新企业”的合作模式,不失为一条可借鉴、温和的国产替代路径。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/B5D5pM7ICkWbKVcf.html#comments Tue, 26 Mar 2024 11:38:00 +0800
“录像一直有,充电可以无”——君正已落地新一代低功耗Atlas解决方案 //m.drvow.com/category/aijuejinzhi/T4bMam8OWrVCsmb9.html 芯片公司处在行业较上游,提供的是最底层的技术。

对于一个行业而言,产品的更新换代,市场的机遇,也常常从底层的芯片上生发出来。

低功耗视觉的第二波

有线电源到无线的需求变化,推动了低功耗摄像机技术的发展,这是低功耗视觉的第一波,目前已经基本完成。

目前主流的低功耗摄像机,已经能够做到4K分辨率、多摄和AI赋能。在消费级摄像头市场蓬勃发展的背景下,诸如纯电池IPC、智能门铃、智能猫眼、纯太阳能户外摄像机等产品形态,迅速普及至全球。

正如人类与衰老的对抗,与电池寿命的对抗,同样是一场艰辛的攻坚战。

而在电池类摄像机领域,探索低功耗的未来形态,是君正一直以来的努力方向。

作为低功耗摄像机品类的最早参与者,君正从最开始的市场理解,到技术攻克,到产品改进,日积月累的付出,在此赛道上不断追求突破创新。

不同于传统常电摄像机持续录像的模式,低功耗摄像机最明显的特点是,采用间歇性触发式录像,一般通过传感器触发后再录制一段视频。

这种方式已经普及,存在几个明显的缺点:持续录制时间短,导致视频信息不全;存在一定程度延迟和漏捕;对环境敏感,有误报、误触发等情况;为降低功耗牺牲部分功能;需要定期更换电池,或者给电池充电,维护成本较高等,这是产品痛点。

也因此,如何实现低功耗的同时,做到长时间不间断录像,做到更精准的事件判断,成为低功耗视觉领域下一个突破的方向。

“原来电池摄像机是触发式录像,即使录像时间相对比较短,功耗的控制也十分不容易;现在还要不间断地录像,解决这个问题的技术门槛非常高。”君正智能视频事业部副总Brad对雷峰网解释道。

针对这一痛点,君正从三年前开始投入研发,最近最终在T41芯片上落地了一套综合解决方案——Atlas。

Atlas是君正自主原创的一套综合解决方案:包含基础低功耗技术,持续录像创新技术,低功耗AI+技术,黑光全彩技术和太阳能综合电源管理技术。基于Atlas方案,可以实现超低功耗的全时录像,结合4G网络和太阳能可以实现全时自供电的纯无线摄像机,应用于绝大多数的户外场景。

在光照满足条件的地区,基于Atlas方案的户外4G摄像机可以实现持续录像,并且长期不需要下线充电——“录像一直有,充电可以无”。

在Atlas的赋能下,低功耗视觉的第二波发展已经开始。

智能视觉赛道的新动力

对于包含安防行业在内的智能视觉赛道而言,由于宏观与微观各种因素,市场面临瓶颈,品类缺乏变化,竞争陷于白热,触及天花板,这种状态已成为整个行业近年来的心结。

在这个背景下,君正站在产业链上游,希望从底层创新出发,为产品带来新的变化,从而试图在安防行业的天花板上,捅开一扇天窗。推出Atlas解决方案正式基于这样的愿景。

Atlas推广一年以来,客户陆续传来好消息,“最早一批使用这套技术的客户,都已经开始规模落地;如擅长传统安防市场的捷高,擅长家庭消费类市场的觅睿等,反馈还不错。”

比如觅睿,基于Atlas方案的摄像机,在充满2节电池和搭配5W太阳能板的情况下,可以做到15天内有太阳出现就能365天一直使用,期间无需下线充电。观测范围上,也从原先10米的庭院场景扩展到30米。并且由于电池组和太阳能板都较小,成本也有了降低。

“以前类似产品需要带一个很大的电池,一段时间后进行回收或者下线充电。现在可以自带4G和太阳能,一年都不用充电,还可以在手机上随时远程查看和控制。”Brad对雷峰网解释,“类似产品之前做不出来,是因为之前的芯片功耗不够低,即使有太阳能也不足以补充足够的电力。”

超低功耗是Atlas的杀手锏,但只有超低功耗还远远不够。T41 Atlas方案除了提供快速启动和快速图像抓取,还支持30米距离的AI侦测和夜间的彩色成像。

通过AI侦测结合PIR(被动红外)技术,可以超越上一代低功耗摄像机的探测距离和探测精度。PIR触发距离较短并且容易受干扰,实际使用中容易产生误报和漏报,一直是低功耗产品的痛点之一。采用Atlas的AI+侦测方案,则可以结合两者的优点,在低功耗情况下,实现传统安防摄像机的30米视野触发,有效解决痛点。

而全彩夜视,则是视觉产品的本质需求,部署于室外的摄像机,对高清与全彩夜视的追求十分迫切。不同于Pre-Roll的低分辨率和模糊夜视能力,T41 Atlas能提供全尺寸分辨率的夜视效果,即使在无补光的夜间环境中,也能够提供实时彩色清晰的图像。

比如捷高今年新推出的球机模组,结合君正的Atlas方案,弥补了传统低功耗无法24小时全天录像及报警漏报、误报等用户痛点,而且通过搭载的AI算法,可以实现30米超远距离的极速侦测唤醒,并且夜晚在图像呈现上做到了黑夜全彩。

“按现在行业的能力,单独支持30米AI侦测不难,单独支持4G不难,单独支持太阳能不难,单独支持全彩夜视甚至是AISP也不难,难的是在超低功耗的前提下,把以上几个点都支持起来,并在实际产品中真实落地;这个是一个极高的门槛。”

除了安防场景,拥有“超低功耗+全时录像+AI能力+全彩夜视”的Atlas方案,还可以广泛应用于运营商场景,人脸门锁、掌静脉锁,打猎相机等产品。

通过与4G技术结合,Atlas摄像机把视觉延伸的覆盖范围从原来的“离家十多米”增加到“离家几公里”。当再结合太阳能以后,可以实现远途野外部署,结合4G运营之后,可以催生一种新的运营品类。

在迅猛发展的智能门锁、智能门铃两个场景上,Atlas方案能带来体验的升级。

AI门锁的算法启动速度,直接影响人们对于智能门锁类产品的使用体验。以人脸智能门锁为例,以往的方案需要先先加载人脸算法模型,开门速度在秒级。如果使用Atlas方案则有机会做到毫秒级开门。

总之对于智能视觉赛道,Atlas提供了新的商机,新的卖点,也为行业发展注入了新的动力。“这件事仅凭一家之力是远远不够的,需要行业一起努力,发掘探索Atlas背后的更多机会,一起收获变化的价值,我们的初衷就是如此。”

一步,再一步

世界已经高速发展了几十年,到如今,每一个创新都来之不易。

“没什么高大上的战略,就是一步一步地改变原有,做出新东西”。

Atlas的下一步,必然走向普惠化,对触发式摄像机做全面升级,培育出一个错落有致的产品序列,覆盖各类用户需求。即将到位的T32芯片会走向更低成本,让产品升级没有大的成本差别。

Atlas的下一步,必然走向多元化,结合更多的技术点,探索更先进的,更高性能的可能性。正在研发的T42,目标就是Atlas2.0。

“前一步是后一步的基础,前一步要先走稳后一步才能立足;Atlas依赖第一波低功耗的认知和广度,我们希望普惠发展,并惠及生态圈里的所有人。”

摄像机是人类视觉在空间维度和时间维度的延伸,这个行业的探索热情,来自于人们对记载过去,眺望远方的渴望。

商业世界或许从不缺降维打击的传奇故事,但更多是在日复一日的平凡中洒下汗水,然后收获果实的企业,这样的耕耘就像四季轮替,春生、夏长、秋收、冬藏,遵循着自己的气候和规律。


]]>
AI+ //m.drvow.com/category/aijuejinzhi/T4bMam8OWrVCsmb9.html#comments Mon, 25 Mar 2024 11:11:00 +0800
对话丨ChatLaw 团队袁粒:做普通人也能用的法律大模型 //m.drvow.com/category/aijuejinzhi/qqggTwkYCtxfuriP.html 作者丨王悦

编辑丨董子博

大模型赛道的竞逐进行到6月,AI 行业的共识正发生着迅速而激烈的变化。

从开始对泛用大模型的追求,到对更具落地能力的行业模型,越来越多的从业者开始发现,如果无法实打实地成为生产力,那么无论是“大模型”还是“AGI”,都不过只是一个被炒热炒红的概念。

“只有被应用到实际生活里,科学技术才能产生价值。”如此坚信着,北京大学信息工程学院助理教授、博士生导师袁粒一门心思,扑在了大模型的应用层开发上。

今年早些时候,袁粒便带领团队开发了一款名为“ChatExcel”的产品,意图利用大模型技术,来帮助用户更高效地完成图表工作,一时间获得了不少好评。

而今天,袁粒和团队又推出了一个新的项目——“ChatLaw”。应用大模型技术,ChatLaw 可以帮助对法律知之甚少的普通人,让他们能够获得一些初步的法律建议,并且还能够进一步地帮助他们,完成分析证据、起草诉状、寻找法律援助中心等工作。

“ChatLaw 可以让老百姓获得专业法律帮助之前,完成律师30-40%的工作。”袁粒对 AI 科技评论表示道。

作为国内首个法律场景下的落地大语言模型产品,袁粒带领课题组和北京大学-兔展AIGC联合实验室,完成了不少工作。

一方面,袁粒和团队收集了大量的公开数据——如法律法条、判例、司法解释等,又通过北京大学的平台,在北大国际法学院和相关的律所收集到了不少私有数据,以及一个比较完备的知识图谱,形成了一套专业的数据库,让 ChatLaw 在法律领域,具有对场景的更好理解能力;

另一方面,大模型常常会“一本正经地胡说八道”,尤其是在专业领域,常常给出失之毫厘,差之千里的结果。为了最大程度上解决困扰大模型的“幻觉”问题,让 AI 能在法律领域保证输出的正确性,ChatLaw 并不是单个大模型“一人成军”,而是由四个分管不同能力的大模型“强强联合”,针对不同的专业法律领域,完成更高质量的生成输出。

在 ChatLaw 的实际测试中,袁粒说,单看法条输出的正确率,已经可以达到80%-90%,偶有错漏;而就给出的法律建议而言,也能达到60%以上的满意度——相较其他大模型产品高出不少。

ChatLaw 在今日已经开启了邀请制的内测,乘这个机会,AI 科技评论和袁粒进行了一场对谈,对有关 ChatLaw 和当下大模型产品的技术判断,讨论了许多先进的认知。

以下是 AI 科技评论与袁粒的对谈实录,雷峰网在不改变原意的情况下做了编辑和调整:


专业数据+知识图谱

让 ChatLaw 变成最专业的法律大模型


AI科技评论:专业数据对于大模型的垂直领域场景理解至关重要,ChatLaw 在数据收集的角度,做了哪些努力?

袁粒:法律领域相较其他比较特殊——很多最高质量的数据,都是公开数据。这其中就包括法律法规、判例文书、司法解释等等。我们的数据处理,主要就是基于这些公开的数据。

同时,我们也获得了一部分比较有价值的私有数据。这部分数据,主要是北大国际法学院,以及这个部分的行业律师事务所,提供给我们的私有数据。不仅如此,他们也对我们的数据集进行了一个专业的加持——具体而言,就是把这些数据集中,再将不行的部分删去。

但总体上,我们最大规模的数据集还是以法律法规为基础的公开数据。

AI 科技评论:具体而言,法律场景会用到的数据有什么特殊性?

袁粒:首先,我们认为法律法条其实是个有限子集,因为条文是有限的。而事实情况,则可能是会多种多样的。

在这样的情况下,用事实来带入法条,这些处理都是有迹可循的。所以,我们是以案例去构建了整个数据的核心,而不是单纯以法条或事件。

除了案例之外,我们还有几套支柱。对于每个案例,我们基于同案同判的原则,对每一种具体的 case 都会有一个律师的标注。

这也是我们数据集非常重要的一个环节,因为它包含了人的专业性在里面,在事实判例和法律之间完成了一个连接。

通过这个图谱,我们可以去对各种各样的法律的案例进行回答;并且也能让模型知道,什么是对的回答,这个非常重要。


“四合一”的架构

让“幻觉”更少出现

AI 科技评论:法律作为一个相当严肃的场景,和医疗、金融区别在哪里?

袁粒:法律这个行业,跟金融、医疗场景有一个比较大的区别——它的流程是非常程序化和标准化的。实际上 ChatLaw 去模拟的,就是一个法院、或者说律师,通过理解用户的事实,然后对他的事实提出对应的法条,然后最终做出整套的判断。

实际上在这套流程中有三个步骤:

归纳事实;

从事实推理到法条;

依据上面的结果,发现争议焦点,进行完整的推理,给出法律建议。

我们的 ChatLaw 虽然是大模型产品,但实际上包了四个模型,但其中放在 GitHub 上开源的只有一个模型。

AI 科技评论:这四个模型分别有什么功能?他们之间是如何协作的?

袁粒:四个模型中,第一个模型是调动模型,负责理解用户的这个语义,再来依据事实,来调度特定的子模型。

余下的三个模型,主要功能是从事实归纳出法律,或者说,法律加争议交锋点去做推理。

对这三个模型,我们在训练的过程中,关键是在训练阶段将对应这个模型专有和特定的知识,在模型里面去大量地输入,再去做特殊处理和强化学习。

那么这样,我们确保模型在一个单独的场景下,它具有非常高的推理能力,这三个模型就能针对专有的问题,完成高质量的输出。

AI 科技评论:1+3的这个模式相当新颖,并且听起来也更能应对专业领域的问题。这个模式,会成为以后行业大模型的新趋势吗?

袁粒:这里面有两个问题。

第一个问题,就是法律场景有它的特殊性。法律是一个非常流程化的场景,但是如果迁移到一个别的领域——比如说教育——它可能就不是这样了。

我认为,可能只会有两到三个特定领域的场景,它会可以使用这种方法,其他的场景应用起来,提升效果可能不会这么大。

第二个问题,是它的投入产出比可能会比较小,因为 ChatLaw 的模式,相当于为一个产品训练了三个模型。

AI 科技评论:在 ChatLaw 研发的阶段,最大的难点在哪里?

袁粒:其实我们现在是有一个瓶颈,它就是我们的调度模型。

因为参数量的问题,我们认为其实百亿级的调度模型,它的效果可能并不那么令人满意,我们之后会把它替换成别的算法。


千模大战下

袁粒的技术判断

AI科技评论:在团队建设上,我们的团队平均年龄有多大?

袁粒:我们的团队不少都是00后,当下有些还正在读研。其中几个比较优秀的同学,比如伯华,负责顶层设计和产品化,是我们项目的主要推动者;以及家熙,负责模型的训练,在科研上非常强。

AI 科技评论:在这样一个年轻的团队里,您观察到,大家对 AI 和大模型有什么新的看法?

袁粒:这一届年轻人都非常理性,从年初开始,团队就在讲,这是这会是一波巨大的科技浪潮,但是团队也同时深知这个过程会比较慢,可能会持续很久。

在这样一个比较慢的赛道,我们从一个商业的角度来说,更应该是“以终为始”。

AI 科技评论:具有一种“终局思维”。

袁粒:是的,我们更关注这个局面下,哪些要素更重要?掌握哪些要素的人会赢?而我们现在做的,就是要去提前把这些成功要素给凑出来。

AI 科技评论:商业化一定是个很重要的要素。

袁粒:没错,但对于 ChatLaw,我们不会急于把它变成一个太商业化的项目。主要是,ChatLaw 的模式,可能并不适合大规模向 C 端收费——毕竟法律帮助是一个低频需求。

现阶段,我认为 ChatLaw 还只是个showcase,是在我们一个名为 ChatKnowledge 这样一个计划中的第一步。

在做这个项目的同时,我们也积累了一整套的能力,包括我们刚才提到的模型调度能力,也包括外挂知识库对生成内容约束等等。

我们慢慢沉淀出来的 ChatKnowledge 这一整套打法,才是未来我们眼中的“终局”。未来我们也会走一些面向企业和政府的项目,来迎接大模型 AI 2.0 的潮流。

(未来,雷峰网会关注更多的大模型和 AIGC 赛道优秀创业者,欢迎和本文作者:s1060788086,交流认知,互通有无。)


]]>
AI+ //m.drvow.com/category/aijuejinzhi/qqggTwkYCtxfuriP.html#comments Mon, 31 Jul 2023 12:32:00 +0800
华为盘古大模型、特斯拉人形机器人...上海人工智能大会的「三大看点」 //m.drvow.com/category/aijuejinzhi/lUrA2WDGSfTn9NEZ.html 7月6日,2023世界人工智能大会在上海正式开幕,主题为“智联世界 生成未来”。

会场上,数百家AI公司携产品亮相展台,涵盖大模型、芯片、机器人、智能驾驶等领域。

其中最火热的当属大模型和机器人。

华为、百度、商汤、云天励飞等公司公布了自研大模型的最新进展,特斯拉人形机器人、美团无人机、擎朗机器人等悉数亮相。

从ChatGPT到“群模共舞”

  • 华为:盘古大模型

WAIC现场,华为展示了盘古大模型。据了解,盘古大模型分为三个层级,L0是基础通用大模型,L1是基础模型与行业数据进行混合训练后形成的行业大模型,L2则是把L1在下游业务场景部署后生成的部署模型。

具体来看,盘古大模型 3.0 是一个完全面向行业的大模型系列,包括 5+N+X 三层架构。

L0 层是盘古的 5 个基础大模型,包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型,提供满足行业场景的多种技能。

L1 层是 N 个行业大模型,既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等;也可以基于行业客户的自有数据,在盘古的 L0 和 L1 上,为客户训练专有大模型。比如矿山大模型、气象大模型、药物分子大模型、制造大模型等行业大模型,业应用于各个具体行业。

第三层 L2 层是为客户提供更多细化场景的模型,更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务。

  • 百度:文心大模型

本次WAIC上,百度首席技术官王海峰解读了文心大模型3.5版核心技术,以及发布了飞桨生态的最新进展。

自2019年3月发布1.0版后,文心大模型历经四年技术深耕和研发迭代,现已升级到文心大模型3.5。文心大模型3.5 实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,模型效果提升50%,训练速度提升2倍,推理速度提升30倍。

目前,文心一言已经落地在办公、会议、编码等场景的应用,帮助工作人员总结沟通要点,实时记录会议内容,形成会议议题、摘要及总结等关键信息。这些功能已通过智能工作平台“如流”应用于百度的工作流程中,提升工作效率、决策质量。

未来,文心一言可以采用“集约化生产,平台化应用”的模式,即具有算法、算力和数据综合优势的企业将模型生产的复杂过程封装起来,通过低门槛、高效率的生产平台,为千行百业提供大模型服务。

王海峰表示,文心大模型的最新成果,也得益于飞桨深度学习平台和文心的联合优化。飞桨是国内第一个自主研发的产业级深度学习开源开放平台,截至目前飞桨已凝聚750万名开发者。

  • 商汤:商量SenseChat

“商量SenseChat”是商汤科技“日日新SenseNova”大模型体系下的千亿级参数语言大模型,目前已迭代到2.0版本。

“商量SenseChat 2.0”在知识信息准确性、逻辑判断能力、上下文理解能力、创作性等方面均有提升,并且推出了基于不同参数量级的多尺寸模型版本,可适用于不同终端和场景的应用需求,支持多种语言交互。同时,模型还可快速挂载和融合知识库进行知识领域的扩展。

商汤“商量SenseChat 2.0”将通过公有云或私有化部署的方式为客户提供服务,已在医疗、金融、移动终端、代码开发等领域为客户提供赋能,并持续实现快速迭代和提升,以及知识的实时更新。

  • 云天励飞:芯片+天书大模型

云天励飞展示了自主设计开发的新一代边缘计算芯片 Deep Edge10 系列 SoC 芯片,并公布“天书”大模型的最新动态。

该芯片于2022年底成功流片,采用支持多芯粒扩展的 Chiplet 技术,可提供 12TOPS(INT8)整型计算和 2T FLOPS(FP16)浮点计算的深度学习推理计算算力,满足市场对处理芯片在算法的多样性、准确性、算力密度及效能方面的要求,可应用于AIoT边缘视频、移动机器人等场景,预计今年量产投入使用。

芯片之外,云天励飞还在大会上首次揭露大模型“云天天书”的最新情况,该模型包含三个层级:通用大模型、行业大模型、场景大模型。

云天励飞表示,基于算法开发平台和算法芯片化平台,可通过海量数据预训练生产通用大模型;在通用大模型基础上,引入高质量行业数据,生产行业大模型;再在行业大模型基础上,通过细分场景数据微调研发场景大模型。突如此搭建起“基础+行业+场景”三级架构,让大模型赋能千行百业。

  • 云从:从容大模型一体化解决方案

在昇腾人工智能产业高峰论坛上,云从科技携手华为联合发布从容大模型一体化解决方案。

该方案基于云从从容大模型算法及工具,使得用户可以训练、构建和管理自己的大模型。同时,它还配备了华为昇腾AI硬件及分布式计算平台,可以在短时间内完成大规模数据的训练和推理任务,提高了训练效率和精度。

云从科技董事长周曦表示,行业大模型需要大量的行业经验支撑,云从科技长期与各垂直领域企业的合作,在数字政府、金融、大交通、智能制造等领域,可以直接联合各行头部企业、机构打造不同的行业大模型,推动行业数智化建设。

  • 天壤智能:大模型产品生态

AI公司天壤智能推出了一种新颖的大模型产品生态——天壤小白,包含三款产品,即大语言模型、语义搜索引擎和开发平台,三者共同构成了一个为开发者打造的全栈式支持体系。

具体来看,天壤自研的通用语言大模型,通过1860亿参数的深度学习训练,具备面向多语言的对话互动、知识问答、逻辑推理等核心能力,能够理解复杂的上下文信息,并根据先前的对话内容做出准确回应。

语义引擎增强了大模型基于准确事实的生成能力,在生成文本前后检索相关的事实信息,对输入和输出进行验证,以确保内容是正确、合理、完整、一致的,避免大模型产生“幻觉”。

应用开发平台则是为了解决开发者们需要穿梭各种工具来获取信息的痛点,让不懂AI的用户,也能在平台上轻松创建AI应用。该平台针对大模型选择、引擎配置、应用类型选择和提示词参数都有不同参数的选择,通过灵活调控各类参数,以实现对语言大模型输出结果的把控。开发平台采用RESTful API格式体系,便于开发者能自由接入各类本地应用。

目前,天壤小白应用开发平台已经对外开放预约试用。用户可以按需配置不同的应用场景,也可以在平台的应用市场直接调用系统内置的不同场景。

从人形机器人到配送机器人

  • 特斯拉人形机器人

在WAIC开幕式上,特斯拉CEO马斯克在演讲中表示,人工智能在未来人类的演进中将发挥重要作用,并对文明产生深远的影响。

马斯克认为,机器人的计算能力和生产效率将远远超过人类,它们具备足够的智能来完成一些人类不愿意做的重复乏味和危险工作,未来机器人与人的比例将超过1:1,“这是一个肯定的发展趋势。”

WAIC现场,特斯拉首次参展,带来了Model Y/X两款车型,以及人形机器人Optimus。

Optimus身高172cm,体重56.6kg,接近一个正常成年人的体形。参数方面,Optimus全身拥有28个自由度,手部有 11个自由度,可以更加灵活的抓握。

  • 美团无人机

美团发布了第四代无人机,跟此前几代机型相比,新机型升级了环境适应能力,可在“零下20度至50度”的中雨、中雪、6级风、夜晚等环境中稳定飞行,能够适应97%以上国内城市的自然环境要求。

美团高级副总裁、到家事业群总裁王莆中表示,近两年,越来越多的用户倾向于“线上买一切”,且对配送时效的要求愈发严格,通过搭建空地一体的立体化城市配送网络,无人机配送可以为消费者提供更好的服务体验。

截至目前,美团无人机已经在深圳、上海等多个城市的多个商圈、景区、居民区等落地运营,累计配送近17万单,可配送品类近2万种。

  • 擎朗机器人

作为国内配送机器人领域的重要玩家,擎朗展示了W3、M2、M103等多款配送机器人,已应用在餐饮、酒店、医院、大型商超等场景。

其中,W3主要聚焦酒店配送场景,打通了云管理平台和物联网系统,可以自动乘梯,连接酒店电话系统,实现从平面到立体空间配送。并且,W3主打私密性、安全性、非接触的客房配送,同时具备智能迎宾、顾客互动、高效协作的特点。

M2则适用于医疗场景,具备喷雾消毒模块和紫外线杀菌模块、多种消毒模式,适用于不同场景。M103则是医疗配送机器人,内部立体舱适用不同尺寸医疗耗材配送,并且可通过RFID刷卡取物,实现安全精准配送。

从建筑到治理,AI赋能千行百业

  • 中科智云:AI+建筑,解决建造行业痛点

AI公司中科智云推出了智能建造AI解决方案。

该方案基于智能无人化塔吊系统和智能挖掘机系统搭载深度相机、激光雷达、RTK等多种环境感知传感器, 可扫描识别、定位塔吊和挖掘机工作范围内的人员、机械、建筑物、临时设施以及自身位置姿态等信息,构建实时三维地图;并通过EIM系统将施工作业任务布置到各台设备。在智能作业算法引导控制下,可进行吊装物或挖掘的自动路径规划,规避障碍物碰撞及人员伤亡等安全事故,完成作业。

此外,中科智云演示了核心AI+物模型平台X-Brain。

X-Brain平台提供智能样本和标注管理、模型算法自动训练和管理、AIGC零代码开发等功能;可为不同行业场景快速构建算法定制,实现视频、图像、文本语义等各类模型的训练和应用;仅需少量样本,就能够实现与传统模式相当的算法精度提升,并大幅缩减训练时间和人力成本。

该平台已经落地到航空,发电,轨交,建材生产,能源生产等多个行业。

  • 旷视:AI可持续发展

7月6日,旷视正式发布《2022年可持续发展报告》,报告涉及旷视在驱动科技创新、AI普惠、绿色发展等方面的理念与行动。

在科技创新方面,旷视构建了涵盖算法、系统和硬件的全栈式技术体系。

AI普惠方面,旷视与通信运营商合作,基于自研的AI智能摄像机、面板机、魔方智能分析盒等产品,为乡村基层提供智能化治理能力,帮助农户看家护院,防止儿童落水、老人走失等事件发生。

绿色发展方面,旷视通过AI创新,一方面依托自研的Brain++平台,构建全套支持公司AI研发落地的绿色AI计算体系和高效的算法生产模式,使原本需耗时数月才能完成的工作能在最快数小时内完成,显著提高了资源利用率和人效率,大幅降低了能源消耗量;

另一方面,旷视的3A智慧物流解决方案(AS/RS+AMR+AI),帮助能源、制造类等企业增强供应链韧性和智能化水平,显著提升生产线与仓储物流效率及产量,并大幅降低其能源、资源开销,打造24小时不间断的节能“黑灯”工厂。

总结

当前,伴随着ChatGPT的出现,通用型人工智能已见曙光。

AI也正在极速深入到各个行业,落地到各个场景。

作为时代弄潮儿,这些人工智能公司,将在产业升级的大海中,打造属于自己的战船,逐浪前行。雷峰网雷峰网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/lUrA2WDGSfTn9NEZ.html#comments Fri, 07 Jul 2023 20:46:00 +0800
从技术到产品,AI-ISP夜视的破局之路 //m.drvow.com/category/aijuejinzhi/vSNbk2D17rriEsCC.html 具备夜视能力的摄像机,可以打破昼夜限制,识别夜间无法辨别的目标,提高夜间工作的能力,目前已落地到安防、交通管理、环保监测、夜景拍摄、户外探险等场景。

当前,市场上夜视相机的极限光照度基本在0.01Lux。

照度(Lux),指单位面积上接收到的可见光的光通量,是衡量环境光的亮度单位。“最低照度”反映的是摄像机可以在多黑的环境下仍能看到物体。

然而,受到硬件发展的制约,视觉成像系统的成像效果已接近天花板。但在一些特定场景下,市场需求达到了0.001Lux及以下的星光级。

在未来较长一段时间内,通过硬件实现最低光照度从0.1Lux到0.001lux的跳升,困难极大。

并且,随着复杂场景和图像处理要求的提高,传统ISP在暗光条件下的降噪、对比度增强和暗光提亮方面的局限性,已经越来越明显。

2018年,英特尔实验室发表论文《Learning to see in the dark》,提供了一条新的路径,其通过深度学习算法打造全新AI-ISP成像体系的思路,成为时下提升光照度的主流。

低照度下的夜视技术探索:硬件方案受阻,AI技术解围

在AI-ISP技术出现前,夜视领域的玩家们更多在硬件上想办法,实现更低的照度。

索尼是感光芯片领域的最强玩家,上世纪90年代便已进入低照度全彩夜视领域,并且是背照式、堆栈式CMOS图像传感器的率先研发者。

索尼主要针对感光芯片进行工艺上的改进,核心思路是不断减少电路所占的面积,同时增加感光芯片的感光面积。硬件上,索尼做出不少努力,比如推出全画幅感光芯片。

但即便是索尼,将低照度感光芯片的光照感知能力 0. 14 Lux 提升到 0. 07 Lux,也花费了五年时间。使用的最高端的全画幅感光芯片,售价高达上万块钱。

材料学及制造工艺难以突破,硬件制约下的视觉成像系统,成像效果已接近天花板。

短期内,通过硬件提升光照度,难度显而易见,在软件上进行探索,则能打开局面。

2018年,英特尔实验室针对这一世界级难题,提出可以通过整个神经网络实现ISP的全部功能。

ISP(图像处理芯片)类似人脑的视觉处理中枢,当我们想要看到这个世界的时候,大脑中几百亿个神经元链接就会开始工作。AI-ISP相当于将人类复杂的视觉神经网络在摄像机中实现,为摄像机提供一个新的大脑。

ISP作为一系列图像处理算法的集合,负责完成从sensor RAW到图像RGB数据的转换,过程包括各种矫正、去噪、转换和增强等环节。

然而,随着复杂场景越来越多,图像处理要求越来越高,传统ISP在暗光条件下的降噪、对比度增强和暗光提亮方面,局限性越来越明显。

由于传统ISP通常采用硬件实现,不断扩充的参数库,带来调试上的困难,整体开发周期逐步拉长。

而以AI技术为辅助,通过深度学习海量场景和数据,输出算法模型,对图像进行精准处理,则可以在某些场景大幅改善传统ISP的成像效果。

得到端侧大算力的支持后,这种全新的ISP成像体系,突破了传统ISP图像处理体系的硬件限制。

作为解决低照度下实时全彩夜视这一难题的一剂良方,AI-ISP的技术成果,已经落地到了安防、矿井、石油、自动驾驶、无人机等场景。

目前,国外的索尼、豪威、安霸,国内的海康、大华、华为等都是该领域的重要玩家。

除了上述大厂,也有一些创业公司参与其中,比如深知未来、京德致远、影石等。

在深知未来创始人&CEO张齐宁看来,“AI夜视技术是目前唯一能够实现全彩夜视的技术路径”。

目前,深知未来基于其AI-ISP全彩夜视技术,已发布一系列产品,包括无人机载荷S2 PRO和S6,手持夜视单筒镜等。

这些产品突破了传统夜视技术的局限,具有全彩实时成像、高分辨率、不惧强光、成本低、场景适应力强等特点。

AI-ISP商业化落地的两大难点:难调试、成本高

最开始,深知未来按照英特尔的思路,用一个端到端的一体化神经网络实现ISP。

然而,团队很快发现,英特尔的思路虽然可行,但终归只是一个实验室中的技术,很难实现商业化。

原因在于,这一技术需要巨大的算力支持,成本颇高。即使以当下的算力平台,要支持这样一个端到端的一体化神经网络,也仍是一件难事。

经过半年探索,深知未来发现了两个横亘在商业化途中的问题。

其一,用一体化神经网络实现ISP时,很难对其进行调试。

由于不同产品应用对图像的要求不一,因此芯片厂商基本都会预留大量参数,以供产品厂商再做调整,调试出具备自身风格的图像。

然而,对于使用ISP芯片的厂商们来说,想要对一整个神经网络进行调整,为此专门另招专业的算法工程师并不切合实际,此外也根本没有数据对图像风格进行调整。

其二,通过整个神经网络实现ISP的全部功能,难度太大且不必要。

“事实上,只需做跟图像质量相关的关键ISP环节,如降噪、HDR、3A等 AI 化,就能立刻提升图像质量,而不必对整个ISP进行神经网络化。”张齐宁对雷峰网表示。

截止目前,大多数业界针对AI-ISP的研究,都只将少数模块AI化,“大多数芯片厂商只处理其中的一部分任务,仍然留很多参数,让下游产品厂商做调整。”

深知未来于是转换思路,抛弃高成本的整体路线,转而针对关键ISP环节进行AI化,并将自己的夜视神经网络命名为“EODNet”(end of dark)。

2019年,安霸公司提出“AI-ISP”概念,用以描述这种全新的ISP成像体系。

自安霸提出AI-ISP概念后,业界都将自己的相关技术定义为AI-ISP,并提出各不相同的理解。在当时,连AI人脸识别这一更上层的应用,也被纳入AI-ISP领域。

经过几年的探索,业界对于AI-ISP的理解渐渐趋于一致。

张齐宁对雷峰网解释道:“AI-ISP的定义,是完成从感光芯片到成像过程的一整个算法集合体,包含20-30个算法。凡解决的问题与这20-30个成像任务相关,如降噪、锐化、HDR等,那么就可以被认为是在解决AI-ISP的问题。”

业界主要玩家中,索尼的重心主要在低照度的底层技术研究上,前期更多探索如何通过硬件实现最低照度;国内在夜视应用领域长期布局的海康、大华,重心则在使用更好的光学镜头与感光芯片,解决具体场景中的夜视难题。

“对比做AI-ISP的友商,深知未来对整个AI-ISP体系研究涵盖的范围和深度是最大的。有的厂商在20-30个算法中,只关注了2-4个领域,深知未来关注了7-8个成像领域。其中3A、超分等技术,很多AI-ISP厂商还没有开始涉及,而深知未来已经做了很多年研究。”张齐宁介绍道。

行业应用多样,同类赛道该如何竞技?

如今,低照度全彩夜视成像,已在G端、B端和C端市场形成多样分支。

比如,在公安领域,低照度全彩夜视成像的摄像机被用于刑侦场景。

数据显示,80%的重大刑事案件发生在夜间,这给刑侦带来了很大困难,传统AI视觉摄像头很难解决黑夜场景下成像模糊乃至缺失的痛点。

全彩夜视摄像机的优点是,即使在极低照度、肉眼无法看清、无补光的夜间环境下,仍能以较低的成本,提供实时彩色清晰的图像。

此外,自动驾驶领域的夜间行驶,工业检测领域的复杂光线场景,基于AI-ISP的低照度全彩夜视成像,都能极大改善图像质量。

根据客户属性的不同,深知未来提供差异化产品,以满足客户需求。

面对B端市场,深知未来的定位是一家技术公司。

深知未来在B端市场,类似一个单点技术服务商,以为合作伙伴竞标提供更有竞争优势的前端产品为主。

“B端选择深知未来,更多的是对方自己有成熟的解决方案,需要一些让客户更感兴趣的点,避免同质化竞争。”

深知未来在B端的产品形态,主要分为两种:整机产品和机芯。

工业无人机是深知未来最先商业化的领域,主要提供完整的产品形态。截止目前,深知未来一共发布了 4 款全彩夜视相机,可适配搭载于大疆的行业机。

其中,全彩夜视无人机载荷S2 PRO在S2的基础上,着重解决夜间作业的关键痛点,实现更远的视距与更精准的定位。

安防领域,深知未来主要提供夜视机芯,合作伙伴基于深知未来的机芯,已经开发出10款不同的安防产品。

面对C端市场,深知未来的定位是一家产品公司。

C端客户需求相对简单,更注重新奇的体验。

深知未来在C端主要推出完整产品,如今年推出的两款便携式夜视设备,单反式的夜视设备P6,以类似单筒望远镜形态的P8 Pro。

P6和P8 Pro是两款从行业到户外的产品。

行业端,应急救援、公安侦查、边防巡检等场景对便携手持夜视设备有着长期的更新需求。

消费端,欧美地区户外文化成熟,徒步露营、打猎观鸟等场景,对便携手持夜视设备的需求同样必不可少。

当下,夜间全彩成像,需求缺口巨大。北美地区,用户对户外精准夜视的需求几近刚需,但市面上主流的热成像夜视仪和红外补光夜视仪,多为黑白成像或弱彩,存在目标细节特征不明显等缺点。

除了便携式设备向消费端的倾斜,深知未来也计划将工业无人机的整个模组和产品做得更加轻量级,在未来搭载到消费无人机上。

结语

在夜间实时全彩成像这一难题上,AI-ISP技术已被证实取得了突破性的进展,但其商业化之路,经历了不断的调整和适配。

自2010年的计算革命开始,AI视觉成像成为一股浪潮。但是夜间在极低照度下,如何在多个行业应用场景里实现全彩成像,仍然是一个需要不断突破的命题。

当下,入局AI-ISP的玩家众多,不仅有海康、大华等安防巨头,还有OPPO、vivo 等手机大厂,芯片端海思、地平线、瑞芯微、安霸、豪威、国芯微等也都有所涉及。投身于其中的巨头们,虽有技术、品牌、渠道优势,但整个赛道仍处于早期发展阶段。

创业公司们通过不同的技术路线进行差异化布局,仍然可以在众多细分领域中找到属于自己的位置。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/vSNbk2D17rriEsCC.html#comments Mon, 26 Jun 2023 10:34:00 +0800
发布「从容大模型」,云从扬起「数实融合」的帆 //m.drvow.com/category/aijuejinzhi/uA9MUzcAsNoIJ07C.html 2023年上半年,科技圈最火热的话题莫过于大模型、AIGC。

ChatGPT4.0的问世,让人们看到了通用型人工智能的希望。

大模型风潮之下,国内厂商也快速跟进,推出了自研大模型。

例如百度的文心一言、阿里的通义千问、商汤的日日新等等。

5月18日,作为国内人工智能企业第一梯队的云从科技,也发布了自身的行业大模型“从容大模型”。

云从科技董事长周曦认为,AI在第一浪、第二浪之后,迎来了第三浪,进入大模型时代。

在大模型时代,AI开始像人一样思考和工作,传统的交互方式和内容生成方式将被彻底颠覆,新的业态和商业模式将出现,相关产业也将被重构。

1、AI进化三段论:从单点到多模态大模型

2016年,阿尔法狗战胜李世石,掀起新一轮AI热潮。

这轮热潮实际上发迹于深度学习技术的应用。

当技术延伸至产业界,以“云从、商汤、旷视、依图”等为代表的人工智能企业先后成立,开启AI的百家争鸣时代。

彼时,AI还处于“一浪”时期,主要表现为人脸识别技术的单点突破。

在业界,有数百家企业做人脸识别,拼技术、拼算法、拼模型,进行技术竞争,最终跑出了“AI四小龙”。

“单点技术能解决部分需求,创造了一定价值,但市场空间非常有限。”周曦认为。

人脸识别确实在诸多领域广泛应用,比如金融支付、手机终端、安防等等。但在许多场景下,单靠人脸识别很难解决具体的需求,无法产生更大的业务增量。

2016年,阿尔法狗的胜利,标志着AI进入第二浪,即多点技术闭环,利用多种技术来解决单一场景问题。

这时,AI技术开始深入到各种各样的行业及落地场景,来改变生产生活。

但该阶段AI面临的问题是:很难标准化。

如果要解决一个具体的场景问题,需要投入大量的人力、算力来收集数据、标注和训练模型,并且与其他技术进行融合。这样做固然能解决问题,却属于高度定制化,随之而来的是海量的研发投入、运营成本。

这种投入与产出不成正比的商业模式并不成立,AI也一度陷入落地难的窘境,对应的AI公司也备受盈利质疑。

周曦表示,在该阶段,受限于技术、成本等因素,AI落地难、盈利难等问题客观存在,但技术的变革是阶跃式的,技术在某个阶段将涌现出来,量变终究产生质变。

2019年,云从提出了AI进化的“三浪理论”。

在第三浪时期,技术平台化、标准化成为现实,技术复用的边际成本大大降低,甚至接近于零。一个统一的底座平台能快速地响应需求,提供对应场景的解决方案,原有场景和产业的内容,以及交互方式将全面变革。

“AI的第三浪,即当前的大模型时代。”

大模型时代,AI在交互方式和生成内容方面将产生质变。

  • 交互方式

大模型将以问答、伴随、托管三种递进的形式颠覆传统交互方式:问答即当前的GPT,属于离线、非实时的交互方式;伴随是AI会像一个朋友伴随执行很多事情,具有主动性;托管则意味着一件事主要交给AI来做,即托管。

  • 生成内容

从互联网到移动互联网,内容生成方式从PGC进化到了UGC,带来了“创作平权”,每个用户都成为内容生产者。而到了大模型时代,AI将可以生成内容,即生成式AI(AIGC)。相比于UGC,AIGC生成内容的速度和效率更高,并且在一些特殊领域,效果也更好。

“此前,AI的定位是一个工具,用来解决问题;大模型时代,AI已经开始像人一样思考和工作。”

基于此,在行业大规模变革前夕,云从推出了“从容大模型”。

2、“从容大模型”与云从CWOS

“从容大模型”是一个基础大模型,属于“基础设施”。

与其他开源大模型不同的是,云从自身拥有预训练大模型,具备在预训练层调优模型的能力。

在“从容大模型”之上,根据不同行业,可对应开发出行业大模型。

行业大模型可通过实时学习并同步反馈结果,解决AI应用的痛点,快速普及个性化应用,提高生产效率。

比如,在教育领域,基于从容大模型的“智能教育AI精灵”,教师可以通过设置题目难度、题型模式,批量生成题目。AI精灵还可以作为教师的助手,根据学生在系统中的表现,做出相关评价,极大地简化教师期末评价的任务工作量。

周曦认为,行业大模型是解决场景问题的专用模型,不同的行业,比如金融、教育、媒体等都有对应的垂直领域大模型。但如果没有基础大模型,行业大模型就不具备长期持续的生命力。

原因在于,如果想让行业大模型足够实用,便需要重新训练基础大模型;另一方面,行业大模型真正做到在产业上量产实用,它的效率及成本控制必须是极致的,而这个极致的优化必须要掌握基础大模型,否则便是纸上谈兵。

如同人一样,在中学,人要学习数学、语文、英语、历史等基础课程,来沉淀基本的思考、逻辑能力;而到了大学,就要学习金融、法律、医学等细分领域的专业知识。如果没有基础能力,专业知识很难学懂。

基础大模型就像一块万能的黑土地,种瓜得瓜,种豆得豆,但没有黑土地,什么也种不了。

有了基础大模型之后,根据行业的不同,可以训练出不同的行业大模型,比如金融、文娱等。

不同的行业大模型,又可以构建不同的行业系统,这意味着云从的CWOS(人机协同操作系统)将进一步得到提升与应用。

举个例子:基础大模型就像是芯片领域的ARM架构,不同的厂商可以设计出不同芯片,比如苹果可以设计出A系列芯片,而高通可以设计出骁龙系列芯片,这些芯片适用于不同的系统(IOS和Android),也服务不同行业的软件厂商。

具体到CWOS,“从容大模型”提供了基础能力,云从可以根据不同行业训练出专用大模型,从而为CWOS提供行业性的技术能力支撑,最终赋能到不同行业、不同属性的客户。

“通过基础大模型,构造了基础能力之后,我们可以不断地给它增加行业大模型的技能包,就构造出来更加强大的行业系统。这个系统,它可以去服务toG、toB和toC等各行各业。”

3、大模型之下,云从初探C端业务

技术革命延伸至产业界,新的生产方式正在涌现。

许多厂商开始接入ChatGPT来改良产品。

比如微软更新了Office365、Bing,带来生产力和生产效率的提升。

大模型之下,新的业务正在产生,新的痛点正在出现,新的价值正在形成。

“大模型的变化就是把整个IT行业从流程为中心的开发,变成以知识为中心的开发,所以会带动用户和供应商价值的提升。以流程为开发的一个核心就是做定制化,以知识为核心的开发就是需要构建知识的能力。 ”

对应地,云从除了在B/G业务发力以外,也开始探索大模型在C端领域的应用。

在B/G端,基于从容大模型的行业大模型,可广泛运用到智能制造、金融、游戏等多个领域。

以智能制造为例,企业在“从容大模型”基础上开发出的行业数字平台,可以把不同的数据来源做成数据的叠层管理,来构建数据神经网络,从而优化整个的工厂端到供应端到客户端的大模型,从而实现管理的优化。

在金融领域,云从科技基于从容大模型、金融行业模型、智能业务流等核心技术研发的虚拟客户经理,具备智能问答、自动语义、意图判断等AI交互能力,可赋能金融机构实现从客户引流、咨询、营销、运营等全流程智能化客户服务能力,创新金融机构服务触达通道,以AI驱动金融机构客户服务智能化转型。

并且,与过去提供API接口服务不同,云从提供提供模型级别的AI赋能服务,可进行私有化部署,更符合客户需求,合作的深度与粘性更强;同时有对模型的剪枝能力,根据行业场景需求去帮助客户部署模型,性价比更高。

而在C端业务上,以当下比较火热的直播为例。

许多人想要开直播间带货,但并不会搭建直播间,也无法做精细化运营,效果一般甚至较差。

云从基于“从容大模型”推出了大麦数字人直播平台,该平台可以提供对应的主播库、音色库、背景板等基础能力,同时支持相应的智能话术的撰写、相应的违禁词的检测等等;实时监控直播间的数字,从而调整演讲策略和商品的话术配比、提升GMV,在整个运营层面来提高效率和质量。

平台还可以根据不同行业生成一站式的人、货、场的完整解决方案,数字人主播选取、话术风格等等,打造具备个性化特征的数字人直播间。

又比如,在市民服务方面,“从容大模型能”够针对市民出游,基于当天交通与天气状况等及时给出建议,体现出模型跨数据、跨部门融合的能力。

“大模型带来了全新的时代,千行百业都将发生颠覆性改变。”周曦表示,云从提供大模型的底层核心能力,与行业垂直伙伴一起探索场景、行业,解决业务痛点,创造价值。

总结

AI技术是数字经济发展的加速器。

ChatGPT的突破和应用,再次证明了AI大模型技术预计将给传统经济模式带来巨大变革。

数字经济将在AI加持下,从概念走向数实融合,并进一步构建全新的数字经济发展技术基础和商业模式。

AI的发展,离不开以云从为代表的人工智能公司在技术方面的探索与应用。

“从容大模型”即是云从基于自身AI技术能力推出的一个基础大模型,在此基础上,不同的行业可构建垂直大模型来适应具体的业务场景,解决业务痛点,并创造新的价值。

“云从将继续坚持以CWOS为技术底座,生产通用大模型和行业大模型,加深解决方案对行业核心业务支持,促进数实融合。”(雷峰网雷峰网)

]]>
AI+ //m.drvow.com/category/aijuejinzhi/uA9MUzcAsNoIJ07C.html#comments Sat, 20 May 2023 10:13:00 +0800
樊钰:一位3D视觉创业者的「生意经」 | 3D 视觉十人谈 //m.drvow.com/category/aijuejinzhi/JQwBG3TUuv9GvTPl.html

如果说中国的2D视觉时代,是一段追赶史,那么国内外厂商站在同一起跑线的3D视觉时代,很可能是一段超越史。

过去一年,当不少行业在经历寒冬,3D视觉赛道却火热如夏。

逆势而上过程中,行业也存在诸多热议的话题,关于投资、关于竞技、关于挑战、关于落地、关于盈利……

这是一个关于3D视觉领域创业者的系列报道,也是中国3D视觉大浪蓬勃发展中群英荟萃的英雄史记。

本文为该系列的第三篇,故事主角是迁移科技创始人&CEO樊钰。

2014年6月7日,经过层层选拔后,樊钰获得了在浙大首届创业团队峰会上路演的难得机会。

台下前来观看路演的,有新东方俞敏洪、真格基金徐小平、优米网王丽芬,以及在浙大创业圈非常活跃、人称“花姐”的华旦天使投资创始人张洁等明星投资人。

在能容纳近五千人的浙大体育馆里,樊钰紧张而又激动地介绍着自己的创业项目。

在当天路演的三个项目中,樊钰的项目是唯一具有高科技含量的,备受欢迎,风光无两。

路演结束后一个月,樊钰发现公司账户上多了一笔钱:华旦天使投资创始人张洁非常看好樊钰的项目,便联合泰有投资、天使湾,一起投资了数百万元人民币。

这场毕业前夕的路演,樊钰至今印象深刻。

“我一开始并不打算创业,只是喜欢技术,想做一些有意思的东西。”

樊钰告诉 AI掘金志,当时自己觉得技术好玩,做项目完全出于兴趣。但在那场路演之后,台下观众的掌声以及投资人的关注,让他对创业有了新的认知。

不过,这个时候的樊钰对创业并没有很强的执念。路演之后不久,他便将项目交给了另一个负责人,自己前往北京某研究所攻读硕士。

瞄准技术风口,二次创业选择3D视觉

基于之前的创业经历,硕士毕业后不久,樊钰在强烈创业想法的催促下,开始有计划地寻找二次创业方向。

彼时,AI的风口刚刚吹起,华盛顿大学 Joseph Redmon 等人创新的YOLO (You Only Look Once)目标检测算法,在图像处理上,达到了实时级别的突破。

这引起了樊钰对基于神经网络的机器视觉领域的注意,“当时就想,要趁着这波人工智能的热潮,去做图像处理。”

在实地走访制造业工厂的过程中,樊钰的认知进一步具象化。

中国的制造业,尤其是高端自动化行业,普遍存在提升工业良品率和“机器换人”的迫切需求。AI的注入,将很有可能重新定义工业机器视觉应用。

当时,2D视觉赛道已呈巨头林立之势,基恩士、康耐视等占据了绝对的市场份额。另一方面,随着消费电子、智能汽车、半导体等精密制造行业不断提升精度要求,2D视觉技术的缺陷将愈发明显。

2017年底,iPhone X的“Face ID”刷脸解锁风靡全球。樊钰突然意识到,3D视觉在工业场景中的规模化应用也许即将到来。

抱着这个想法,樊钰拉来了研究机器人方向的研究生同学,一起创办了「迁移科技」,旨在用“AI+3D”赋能工业。

第二次创业,从表面上看,是由消费领域转入工业领域,跨度很大声。但从产品类别看,两者同属智能硬件范畴,只是场景有所差异。并且,除光学外,机械、电子、算法、软件等能力,早期做高科技消费电子时都已有所积累,使得二次创业很容易上手。

彼时,工业3D视觉赛道的创业公司,可以大致分为三类:一类是做高精度检测类产品的公司;一类是像迁移科技这样做机械臂引导的公司;一类是做3D视觉导航的公司。

「迁移科技 」选择做3D视觉机械臂引导系统,同时自研3D工业相机,以3D视觉和机械臂结合的解决方案作为下场参赛的切入点。

创业的头两年,行业整体处于低调搞研发的阶段,「迁移科技」的产品也还在研发、打磨过程中。

“那个时候工业客户还没听过3D视觉,都不太敢批量采购,只敢用一两个工位试试水。”樊钰对雷峰网说。资本市场的态度,也表现出对新技术的怀疑、谨慎与观望。

寻找早期融资的过程中,投资人的问题基本如出一辙:到底需不需要3D视觉?这些场景2D视觉能不能解决?甚至有部分投资人直言,3D视觉就是伪需求,所谓的场景化痛点,只需要2D视觉加上一个激光测距的传感器就能够解决。

这时,银杏谷资本创始人兼总裁陈向明在看过「迁移科技」的3D视觉抓取案例展示后,当即拍板决定投资一千万元。曾投资过樊钰第一次创业项目的投资人张洁,也追加了300万元的投资。

也正是在这段时间前后,通过不停地跑供应商现场做考察,反复试验、打样,保证运输,迁移科技在视觉引导场景中的产品,逐步有了比较稳定、可靠的落地。

与此同时,伴随着3D视觉技术的进一步发展与落地应用,市场对于3D视觉的认知也逐渐祛魅,这条赛道开始火热。不少投资人在寻找优质标的,像奥比中光,先后获得巨额融资,并成功登陆科创板。

「迁移科技」也获得了资本青睐,先后完成了来自零一创投、立元创投、微光创投等投资机构的Pre-A、A轮融资。

市场火热之下,资本的关注点,也随之转变到了批量化复制,以及如何实现盈利等商业化难题上。

技术与场景融合,才能解决市场痛点

樊钰在创业过程中,得出一个结论:创业过程中遇到难度最大的事,不是技术上的难点,而是如何让技术走出实验室,实现量产。

以3D工业相机为例,虽然在实验室里,相机可以达到很高的工艺水平 ,稳定性表现也很好。但在具体的工业场景下,仍会因不同环境导致效果有变化。如何满足客户的产线落地需求,以及产品的运输、定价、销售模式、客户运维、售后等环节中可能出现的问题,是樊钰此前始料未及的。

捷安特是迁移的第一个大型知名客户。

这次检测项目合作前,「迁移科技」已有一些落地案例,但由于交付规模小,在行业内并没有太大名气,亟需借助头部客户的总包项目,树立标杆。

这意味着,与捷安特的合作,不仅不能出错,还必须交付得非常漂亮。

项目进行到最后几天,整个团队的氛围都紧张起来。樊钰几乎将自己钉在项目现场,对每一个新出现的问题,每一处细节,都亲自上阵寻找解决办法。

当检测方案终于在捷安特的生产线上平稳运转后,樊钰和整个团队终于松了一口气,就像刚跑完一场半马,疲惫却又感觉放松。

如今,捷安特项目已经交付两年多,「迁移科技」的产品运行依然稳定。

这次交付让樊钰意识到,产品从实验室落地到工厂,有太多的难点、细节,只有深入市场,了解需求,才能实现技术到产品再到商品的价值闭环。而这次项目经历,加深了团队对场景以及工艺的理解,也为后续产品的优化提供了极其必要的帮助。

创业前,樊钰对生产加工中的工艺问题,理解不深。在跑了大量项目现场、调研,与一线生产员工交流之后,他变得他越来越敬畏市场,敬畏工艺。

每次去工厂出差,樊钰都有两个目的:一是找3D视觉的应用场景;二是了解生产工艺 。

樊钰认为,如果一家公司只关注走量,而不关注如何做深做透场景和工艺,那么这家公司一定是短视的。“赛道里有些公司的烂尾项目非常多,他们相当于在透支整个3D视觉行业的信任度。我们一直保持着100%的交付。”

樊钰对工艺的重视,也传递给了销售与方案团队。

“我们从2020年底开始,要求所有的销售跟方案同事,都必须深入一线去了解行业工艺。“现在这些同事在一些特殊的行业,可以跟客户聊一些工艺的细节,甚至能够给客户做一些工艺方面的指导。”

捷安特的案例,给了「迁移科技 」很大的背书,后续其又拿到了多家世界500强企业的项目。“有了核心技术能力和产品,以及销售能力,再有比较小的商务能力,其实就能够让公司运转起来。”樊钰对雷峰网说。

前两年,「迁移科技 」做了不少以树立行业标杆为目的的工作站,其根本目的是搭建一个“梯子”,让合作伙伴去摘“果子”。打出名气之后 ,「迁移科技」聚焦于3D视觉,而将此前的集成业务“送”给集成商合作伙伴。

以3D相机+软件作为核心定位,「迁移科技」构建了一个从机械臂本体到集成应用的智能化平台,出货模式也以“相机硬件+标准化软件”进行产品交付。

3D视觉赛道尚未一家独大,细分领域仍有机会

虽然3D视觉赛道出现了类似奥比中光的上市企业,但整个赛道依然处于早期发展阶段。并且硬件行业并不像互联网平台一样存在赢者通吃的现象。

相反,在很多细分领域,年轻的创业公司仍有机会。

这条赛道的难点,主要体现在两个方面:一方面3D视觉技术本身富有挑战性,技术的发展与行业的增长,符合工业发展的客观规律;另一方面工艺理解有难度。

在樊钰看来,想要把握住机会,起点是一方面,企业的“加速度”也很重要,“加速度”就是企业“规模化”的能力。

“在3D视觉领域,怎样才更符合规模化,这是非常值得深入思考的。我们会把所有的事情拆分成两部分,一部分是规模化要素,另一部分是非规模化要素,要做的就是让规模化要素占比更高。”

樊钰认为,赛道玩家能够不依赖融资实现盈利,是衡量一个行业成熟的标志。

“从行业客观规律来讲,3D视觉行业距离普遍盈利,可能还得几年的时间。”

同时,樊钰认为,伴随着一些2D巨头的入局,未来两年内,整个3D视觉行业将进入一轮洗牌期。

那些只具备硬件能力,没有软件算法能力的公司,以及一些山寨公司“会很惨”。但从好的一面看,这些留下来的公司,将会推着整个行业的商业模式走向一个更健康的发展方向。

不一样的《团队管理经》

樊钰是一位特别的创业者:没有大公司的工作经验;招聘的员工中很多是90后或00后;公司内部倡导坦诚沟通,甚至鼓励建设性的冲突……

樊钰的管理很灵活,在打造公司的时候,他可以不受之前工作习惯的束缚,自由地向全球领先的大公司取经。

比如,向字节学习坦诚清晰,追求卓越,不设边界;向网飞学习自由与责任工作法,提升人才密度;向华为学习铁三角工作法。

目前,3D视觉领域,场景与算法通吃的人才还十分稀缺,主要原因在于做算法研究的人大都比较年轻,缺乏在生产一线的经验。

面对这一短期内无法改变的人才缺口现实,樊钰在人才聘用上,看重一个人的底层能力甚于经验技能,信任“ASK模型”,即才能(Ability)、技能(Skill)、知识(Knowledge)。

“Ability是难以培养的,Skill是通过两三个月的培训就能获得的。一个具备底层逻辑思维能力的人,更能胜任前沿技术类创业公司富有挑战性的工作。”

公司氛围上,樊钰希望打造出一个坦诚沟通,追求效率的团队。在他看来,一个不怕内部冲突,能够让问题暴露的团队,才能避免走上弯路。

从这些年的创业经历中,樊钰总结出了几条经验:

1、公司是一个组织,最底层的是文化氛围,公司氛围最早的来源是创始团队,要对创始团队要求高一些;

2、公司要形成比较强的战斗力、创新力,需要做严格的招聘与选拔,迁移招人的标准非常高,每一个员工,我都要亲自面试; 

3、要做战略共创,然后解码,再去执行。共创出来的战略可能是一个更好的战略,也是更容易被中层执行的战略; 

4、创业公司人力、精力、财力有限,不同的人或观点都有其可信度,因此所有决策要能够量化,最终的决策要做可信度加权。

“如果将前后两次创业进行对比,最大的改变是更加成熟,更加敬畏市场,更加注重MVP。”樊钰说。

结语

关于创业,樊钰最近又有了新的思考。

“许多公司计划制定得很详细、很科学,但执行起来就变味了。原因还是基本功不踏实,比如一个流程制定得很好,A+B+C+D,但如果每一部分都打了折扣,最终的结果就是面目全非。”

其中,一篇写美团王兴苦练基本功的文章给樊钰很大启发。文中提到,于一家公司而言,每一次开会讨论和每一次文档记录,都是基本功。比如,每次开会,会议的主题、与会人员、讨论时间、会议纪要、执行等等,都要标准化,事后复盘才能找到问题的症结,进而解决问题。

工作之余,樊钰总会忙里抽闲,读一些书。

在不同的创业阶段,书的类别也各不相同。

创业初期,他读到了《乔布斯传》,沃兹尼亚克那句“未来我们回忆往事的时候,可以说自己创办了一家伟大的公司”让他心潮澎湃。

产品阶段,他读到了《从零到一》,学习到创业公司要选择一个利基市场,找到突破口,然后“大力出奇迹”;学习如何做产品差异化竞争。

后来,樊钰开始读企业管理,像《不拘一格:网飞的自由与责任工作法》,首先要提高人才密度,而后通过给团队提供更多上下文,以及尽可能减少管控,来激发团队创造力。

商业化阶段,樊钰推崇《华为铁三角工作法》,学到了企业要以效率为前提、客户为中心,将销售、方案、交付三个角色真正的凝聚起来。

“创业有一个非常令人兴奋的事情,就是可以让读过的书,真正学以致用。”樊钰说道。

本篇为3D视觉系列第三篇,感兴趣的读者欢迎添加作者微信MOON_ERS,分享你的企业故事和行业洞察。


]]>
AI+ //m.drvow.com/category/aijuejinzhi/JQwBG3TUuv9GvTPl.html#comments Wed, 22 Feb 2023 19:30:00 +0800
聚焦小样本学习,「中科智云」获数千万元Pre-A轮融资 //m.drvow.com/category/aijuejinzhi/bjTDaGNvbSMf5UxV.html 雷峰网获悉:聚焦小样本学习的人工智能公司「中科智云」近日获数千万元Pre-A轮融资,由浙商创投旗下管理的国家中小企业发展基金浙普(上海)基金领投,该轮融资将用于加强X-Brain AIoT技术研发,及AI平台迭代升级。

中科智云成立于2018年,公司团队成员目前百余人,核心团队来自中科院、牛津大学等院校,其中技术研发人员占比近70%。其主要业务是以自研X-Brain AI主动学习平台为核心,融合小样本学习框架、多源融合感知计算等技术,为行业提供AI 安全治理服务。

当前,以深度学习为核心的AI,为了避免发生过拟合或欠拟合的情况,需要使用大量数据来进行模型训练,从而使模型达到更好的拟合优度,解决场景问题。但这一路径在面临碎片化场景时,由于数据较少,训练效果也较差,很难落地。

为此,小样本学习(FSL)和AutoML(自动机器学习)逐渐成为新的算法生产模式。

与传统机器学习相比,小样本学习的优势在于,直接通过较少的数据量或样本,来训练算法模型。AutoML则可以从特征工程、模型构建、超参选择,优化方法四方面实现自动化,既减少了算法生产成本,又提高效率,并且降低了算法生产门槛。

在接受雷峰网采访时,中科智云CEO魏宏峰表示,小样本是低成本的基础,因为样本量小,训练模型不需要高算力硬件设备。但在一些场景中,小样本训练出来的精度,在初期很难达到商用水平。因此可以通过AutoML来缩短从初期模型到商用这个过程。

中科智云推出的X-Brain 平台,其核心是一套主动学习算法框架,应用自研的主动学习(Active Learning)技术,改变了监督学习的被动接受人工标注样本的模式。

该平台可通过AI主动判断样本是否需要算法工程师的参与,通过只让算法工程师参与部分困难样本的确认,形成人在回路(Human-in-the-Loop)模式,主动训练模型,形成模型自动迭代,从而解决算法生产落地成本高的问题。

截至目前,X-Brain AI平台已经在工业、建造、电力等行业应用。

魏宏峰认为,小样本学习和AutoML从技术上解决算法生产难题,但如何让技术更好地服务于企业,解决实际场景问题,就需要把具体场景痛点拆解之后,融入到整个算法生产过程中,从业务和问题定义开始,到模型调优,最后到算法交付,都要让懂业务的人参与。雷峰网雷峰网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/bjTDaGNvbSMf5UxV.html#comments Tue, 17 Jan 2023 18:19:00 +0800
费浙平:3D 视觉,我为何死磕核心零部件 | 3D 视觉十人谈 //m.drvow.com/category/aijuejinzhi/NB7KgHBIMp7MKcEx.html

如果说中国的2D视觉时代,是一段追赶史,那么国内外厂商站在同一起跑线的3D视觉时代,很可能是一段超越史。

过去一年,当不少行业在经历寒冬,3D视觉赛道却火热如夏。

逆势而上过程中,行业也存在诸多热议的话题,关于投资、关于竞技、关于挑战、关于落地、关于盈利……

这是一个关于3D视觉领域创业者的系列报道,也是中国3D视觉大浪蓬勃发展中群英荟萃的英雄史记。


本文为该系列的第一篇,故事主角是图漾科技创始人&CEO费浙平。

80年代,费浙平出生在浙江农村,但幸运的是,就在自家门口,有一个藏书万册、每天都有新鲜报纸可以借阅的“万册图书馆”。

在整个县城也不过只有一家新华书店的时代背景板上,这个家门口的图书馆更显得格外难得。

从小学二年级拥有自己的读书卡开始,费浙平平均每天都有一两个小时时间泡在图书馆中,当时他期期必看的书籍有两本,一本是《山海经》,一本是《故事会》。

那是互联网尚未普及,外界诱惑较少的时代,同时也是中国改革开放飞速发展的黄金时代。

费浙平将自己学生生涯的绝大部分时间都用在了阅读和思考上,加之江浙一带自古便是富庶之地,在当地优势基础教育资源的助力下,费浙平在1996年夏天拿到了复旦大学电子工程系的录取通知书。

“我觉得我人生最大的认知跃升和眼界的开阔,完全是在大学期间完成的。”

ARM中国第一批「开荒者」

正如爱好文学的他,最终在文理分科时走向理科一样,大学前从未碰过键盘的他,在计算机和电子工程两个专业之间犹豫,并最终选择在当地录取分数最高的电子工程,走的都是一条寒门子弟想要出人头地最常走的路,看似“盲目”,实则掺杂着某种强烈的“明确”。

这一成长的选择还包括,一毕业就参加工作,最好是外企,不同之处仅在于,费浙平在外企和工作前面都加上了三个字“最好的”。

这个目标明显区别于很多自入学之日起就确定要出国的上海本地同学,但后来顺利进入ARM,成为ARM在中国的第一位本土员工,确实给费浙平带来巨大的满足感。

或许当时连他自己也没有预料到,在ARM的日子会为之后创业埋下多么重要的伏笔。

2000年前后,伴随着第一批美国半导体科技公司率先进入北京和上海两个一线城市,ARM也进入中国市场,准备立地生根、开枝散叶。

就这样,在2002年,初出茅庐的费浙平,遇上了大自己一轮的复旦学长谭军,后者当时刚带着妻儿从英国回到中国上海,正要奉命为ARM开拓国内市场。后来,谭军成了ARM中国区第一任“总舵主”。

在费浙平看来,谭军是自己的一位“贵人”。

费浙平是谭军招募的第一位员工,在之后很长的一段时间里,谭军+费浙平=早期ARM中国所有员工。

谭军带领下,ARM用IP授权打破垄断,以开放式IP架构构建了国内的半导体生态链,行业知名度和美誉度越来越高。

2007年的一天,谭军找到已经在技术岗位发光发热六年的费浙平,想要把市场和销售经理的担子交给他。

费浙平本能地拒绝了。在当时很多理工科学生的认知里,似乎成绩优秀的都在研发技术岗,只有成绩不好的才会转行干销售。

在一家技术实力上被行业广泛公认的公司担任技术负责人,早已被费浙平视为自己的“本命”,而ARM又恰好就是这样一家公司。

谭军耐心地说服了费浙平,在外企,想要往更高的平台发展应当向外走,相比于沉淀技术,市场、业务、生态系统这些更宏观的平台型业务口方面的锻炼机会才是最稀缺的。

从岗位职责来看,谭军指派费浙平的并非传统销售岗位。当时,面对一片空白的国内市场,ARM完全处于卖方市场,最大的困难不在竞争,而在于如何大规模推广新概念和新技术,让客户发现32位CPU的价值,拥抱从8位到32位CPU的升级浪潮。这项工作需要带头人有非常强的技术背景和市场前瞻性。

谭军的一番说辞不无道理,虽然并非完全自愿,费浙平还是接过了市场和销售经理的担子。

如今,费浙平实实在在地从这次转型中品出了好处,“回头来看,我觉得这是一个非常明智和正确的决定,如果没有在ARM最后几年的锻炼和成长,不会有今天。”

费浙平对雷峰网坦言,后来创立图漾过程中,对于宏观市场的行业认知、商业模式的选择、市场战略以及战略执行中的战略定力等,从ARM最后几年的锻炼中获益良多,而具备这样能力的创始人,从数量上看称得上稀缺。

更巧的是,当初在ARM工作时经历的挑战,与图漾今天面临的困难和挑战别无二致。图漾当前的挑战和任务也是把3D机器视觉这个新市场的渗透率提上去,让以前不用的客户认可其使用价值。

从2002年初次相识,到2009年、2010年两人因为一些众所周知的原因相继离开ARM,可以说,费浙平与谭军一起,亲手推动了ARM中国从无到有,从小到大,是当仁不让的ARM中国1.0。

离开ARM后,费浙平加入同样做CPU技术的美国企业MIPS,担任了两年多中国区市场总监,在参与MIPS和Imagination这两家CPU和GPU公司的合并之后,功成身退。两段职业经历相加,费浙平在芯片行业度过了外企在中国发展的黄金十年。

离开MIPS的费浙平自感已触及职业天花板,左瞧右瞧都无法找到理想的职业下一站,“创业”的想法愈渐明确。

于是,2013年,费浙平一边帮助朋友的芯片创业公司深圳中微电做市场营销,一边开始和几个朋友捣鼓图漾最初的模型。

盯上当时「冷门」的3D视觉

在半导体行业深掘十年后,费浙平最终选择了3D机器视觉作为创业方向,并且一开始便以3D工业相机软硬件产品为切入口,而非更为熟悉的处理器芯片。

2013年左右,3D视觉还是一个少有人关注的冷门学科,为什么以此作为创业方向?

“处理器上面还有什么颠覆性的创新机会?”这是费浙平决定创业后时常问自己的一个问题。

智能化的视觉识别和视觉处理,会对处理器架构带来全新挑战,而把智能视觉处理做好,需要一个创新的处理器架构。

当时在费浙平看来,从CPU、GPU、DSP上着眼机会不大,AI的概念也还未兴起,自己显然也没有AI的工作背景,自然而然,他将目光落在了机器视觉上。

机器视觉并非一个新的概念,2D视觉市场已经趋于成熟,巨头林立下,想要在同质化产品中杀出一条生路,费浙平认为不是自己的能力所在,况且他理想中的公司,要有能打的产品能力,而不是纯粹的销售能力。

他断定3D视觉的应用将会是机器视觉中的一个创新点,并且当时3D视觉市场几乎一片空白,还没有明显的竞争对手,更容易打出产品的竞争力和差异化。

事实上,费浙平并不是第一个“吃螃蟹”的人,他关注到当时在以色列有一家计算机视觉处理器创业公司 Movidius 已经开始做出一些不错的成果( Movidius 最终于2016年被英特尔收购),这进一步坚定了费浙平构建一个技术团队的信心。

创业的蓝图已经有了最初的轮廓,拥有处理器技术背景和市场背景的费浙平,很快在技术群里主动认识了擅长视觉算法和光学的另外两位合伙人。

寻找创业伙伴的过程几乎没费什么功夫。自参加工作开始,北京、上海、深圳就成了费浙平的三点两线,他对北上深三地技术圈大大小小的公司、团队、人物都很熟悉。再者这个圈子本身相对垂直小众,既有技术能力,又有创业热情的人,就像夜晚被灯光照亮的路边指示牌,很容易被注意到。

更为重要的是,大家的目标一致,要做就做行业上游核心零部件。并且他们很快认识到,3D视觉商业化的第一个阶段,是3D工业相机和软件产品,而不是上来就做芯片。

至于为什么不做系统集成,在费浙平看来,ARM做的就是芯片行业的核心零部件,ARM成为了一家伟大的公司。在机器视觉领域,提到最好的两家公司,所有人首先想到的也都是康耐视和基恩士这两家核心零部件公司,没有人会提任何一家集成商的名字。

换言之,费浙平追求的不是人数和规模,而是如ARM、基恩士和康耐视一样的行业地位、行业影响力以及高市值。“集成商多一个不多,少一个不少,只有做核心零部件,才能实现这一愿望。”

为此,费浙平和初期伙伴做了充分的准备,一定要从底层技术架构和方法学做起,公司几个关于方法学的基础发明专利,早在公司成立前便已完成申请。

2015年,已做好充足准备,并下定决心要走一条极具辨识度道路的图漾科技正式成立。

所有人都知道核心零部件是一个好的商业模式,但能真正把这个商业模式和战略执行下来的团队却是少数。

想要追求第一梯队的生存机会,就必须筑起别人难以翻越的围墙,费浙平的选择是极具性价比优势的产品。

极致性价比的实现,考验的是技术创新、物理实现、供应链管理以及成本控制等综合能力,整个过程需要时间的淬炼,需要在方法学和底层技术上进行深度创新。

从公司成立前的酝酿阶段一直到2018年左右,图漾一直处于底层创新与产品研发阶段,这段单纯搞研发的日子,是费浙平创业中感到最轻松的几年。

2019年开始,图漾进入产品化阶段,其第一代成熟产品进入物流行业的头部客户开始了批量部署,在这一过程中,逐渐积攒起各行各业两三百家领先的集成商客户。

图漾本身就是一家创业公司,想要尽快做出有巨大使用价值的成熟产品,一开始便瞄准行业头部客户很关键,带着这种理念,工业机器人四大家族中的三家,国内物流设备最早上市公司中的一半,都被图漾发展成了重要客户。

与此同时,费浙平也会拒绝那些讲不清楚如何降本增效的“样板工程”项目,以及被资本市场偏爱的“故事型客户”。图漾对客户的要求是,不需要客户出研发费,但客户要能说清楚最终产品的真实使用价值,并且要有严肃认真的研发投入,比如人、时间、资源等,进行联合开发,共同开拓最终用户和应用场景。

经过数年发展,整个市场对3D视觉价值的认识逐步加深,应用的领域也越来越多。2021年开始,图漾进入规模化放量阶段,出现了工业自动化、物流科技、移动机器人、安全、医疗设备等多个优势行业。产品线从单一走向丰富的过程中,服务客户也从300家增加到500多家。2021年全年,图漾的3D工业相机出货量超过1万套,走在了行业前列。

时至今日,图漾已经形成以FPGA为算力单元,以工业相机为产品载体的硬件产品矩阵,以及赋能广大集成商工程师进行二次开发的RVS软件平台。

集成赛道很热闹,但我还是坚持好看不好做的核心零部件

费浙平的人生归纳起来有三个大的转折点:考上复旦、进入ARM和创业。

前两个转折点的成功,分别在于出色的专业能力,以及技术向市场的顺利转型,而创业阶段的成功则要归功于战略定力。

不同于3D视觉领域的学术派代表,费浙平属于靠实战经验行走江湖的一类。

当不少公司极力将自己往更大概念上套的时候,图漾却在努力将自己安放于一个明确的概念上。

在费浙平划定的明确界限内,他认为尽管在宣传层面有很多和图漾同类型的公司,但本质上存在差异。

2016年,雷峰网曾和费浙平有过一次谈话,当时聊到3D视觉在手机上的应用,费浙平的看法很负面。如今重拾老话题,费浙平苦笑道,“3D视觉之于手机,的确是个伪需求,大家喊了两三年,现在已经完全消停了,这验证了我对市场的判断是正确的。但没有想到的是,在这个过程中,有些公司可以利用这个故事融到很多钱,那好像也是一条发展路径。”

钱,一个任何时刻都相对敏感的话题,钱既具有变废为宝的潜力,也可以变成牵着人鼻子走的缰绳。

成立至今,费浙平最庆幸的有两件事:一是核心团队成立至今一直非常稳定,大家在战略层面认知一致、目标清晰;二是图漾的财务状况一直控制得比较健康,融资上从容,开支上也并不烧钱,这种健康让图漾活了下来,并且拥有足够的弹药进入下半场。

这两件事,是图漾之所以能够保持战略定力的重要原因。

“我们的同行要么做消费去了,要么不断地追逐着新的热点,要么下沉做集成去了。国内不少于10家公司都号称以3D相机作为产品定位,都喊着做核心零部件,都觉得基恩士、康耐视的模式好,但结果都纷纷无一例外走向了做集成。我可以很负责任地讲,目前市场上除了图漾之外,所有号称做3D相机的公司都是集成商。”

当资本寒冬悄然而至,各行业均呈现一片萎靡之状,3D视觉领域却热度不减,2021全年整个国内3D视觉市场实现 100%的增速,今年以来,大额融资事件频起,“3D视觉第一股”的桂冠也尘埃落定。

费浙平认为,3D视觉赛道中最热闹的,还是数量众多的集成商环节,他们通常都有自己的视觉软件,同时自研或者外采其他公司的相机。

3D视觉行业的繁荣,说明了市场前景的乐观。但为什么会有如此多公司,在相近的时间点,都经历了从核心零部件到集成的商业模式转变呢?

费浙平认为,一部分原因在于这些团队没有市场战略,或者缺少战略执行力。当团队缺乏用一两年甚至更长时间专心做研发而不担心收入问题的底气时,做集成便成了最佳选择。

这种集成商层面的混乱与无序,也侧面凸显出图漾立足的上游核心零部件企业的稀有和空缺。

对谈中,费浙平数次提及康耐视,在表达一位后辈对行业前辈敬佩的同时,也从竞争者的视角给出自己的观点“未来,在图漾的优势产品上,康耐视与图漾合作的可能性更大。”

3D视觉赛道玩家密集转型集成商的另一半原因,出在背后的投资人身上。费浙平认为很多互联网跨界过来的美元投资人并不懂机器视觉的行业规律和行业特征,“他们会认为烧钱亏损不要紧,但不允许一家公司的人员规模和收入流水没有几倍几倍的增长,以为规模代表一切。很多美元投资人的设定预期是未来市场会出现三五家千亿市值的巨头玩家,但事实上,无论AI还是机器视觉,我觉得最终市场格局会是50家百亿市值的公司,很多投资人对此的认知和预期是错误的,所以他们90%以上的投资会打水漂。”

在费浙平看来,国内3D视觉市场今年“卷”得不太寻常,已经开始重演起互联网企业大打价格战的“老历史”,而在此之前,类似的打法在工业集成商领域几乎难觅踪影。

作为一种市场行为,不同的公司都在其中努力适应。但对于企业发展而言,这种业务模型和商业模式上的错位,天然注定无法逃离亏损的泥潭,接下来或早或晚上市的企业,都将经历一次估值的大考。

费浙平的观察和思考,部分来自于复旦师兄、格灵深瞳创始人赵勇。

从大家预期中的千亿美金估值到如今的50亿人民币市值,格灵深瞳估值向理性的回归,向整个市场展现出这一行真实的一面。“今天拿了很多钱,给了很高估值,但如果运营模式和人力成本脱离行业规律,可能导致他们根本等不到上市,即使上了市也将长期徘徊在发行价以下,这样的公司就不算成功。格灵深瞳能凭借主营业务的成长上市,业务和人才结构的转型,经历了两年非常痛苦的时期,才终于回归到健康的路径上来。”

3D视觉的发展路径也遵循着2D视觉成长的规律,不同之处在于,在大量投资的驱动下,3D视觉的整体进程可能会被提速3倍到4倍。

3D视觉想要走向规模化,眼下就有一块十分具体的绊脚石,即3D视觉软件开发的高门槛,造成集成商客户开发工程师数量极其稀缺。降低软件工程师开发时的难度,意义重大。

图漾正在做的一件事情是,开发一个功能强大且专门用于3D视觉开发的软件平台,正如2D视觉领域康耐视开发的 VisionPro ,以及德国的 HALCON 。更重要的是,不同于后两者的收费模式,图漾开发的软件平台将免费提供给所有工程师。

那些「失语」的瞬间

判断一家好公司的标准,不是比拼规模,而是比拼产品、比拼价值、比拼行业影响力。

费浙平想让图漾成为一家好的公司,这也是他为什么选择机器视觉核心零部件为创业方向的初心。正如他的学长赵勇接受甲子光年采访时所说“小可以变大,但丑不会变美。”

今天的费浙平仍然“固执己见”,在选定的道路上不偏不倚,此时的他诚然是快乐的。

公司规模扩大后来自方方面面的挑战,技术与产品领先性的保持,高昂的试错成本与机会成本,3D视觉与协作机器人搭配在商业上的机会,疫情影响下今年盈利目标的推迟,三年后30%的海外市场收入等,此时的费浙平诚然也是焦虑的。

在ARM工作的时候,老板谭军曾问过费浙平一个问题,自己管得并不严格,是什么让他坚持每天早出晚归,这么努力拼命地工作,当时费浙平没能答上来。

如今旧事重提,费浙平顿了顿,说“这个问题到今天为止我都回答不了,好像天生就是这样。”

类似的“失语”在费浙平的一生中发生过很多次。

也许,失语的背后,是某种潜意识力量,这股力量驱使他去往心之所向,没有犹豫,无所畏惧。

他向我们回忆起从前:

比如小的时候,他是一个不喜欢见面打招呼的人,因为生性腼腆,不好意思;

比如大学时,他站在毕业答辩的讲台上,紧张到两手发抖,连声音也跟着带出波纹;

比如工作后,领导让他帮忙讲解技术培训的资料,他讲了两分钟就讲不下去了,因为觉得对方是熟人,尴尬地下不了口;

……

如今,面对我们的提问,费浙平侃侃而谈。

回过头来,也许连他自己都难以察觉,自己是何时发生如此质变。

“大概是表达的都是内心相信的东西吧。”他回答。

费浙平从一个内向腼腆的少年,到知名外企的技术骨干,到乐于发表观点的创业公司CEO,创业近10年,有过焦虑,有过彷徨,有过孤独,有过欣喜,也有不变的那份坚持与勇敢。

费浙平不再是从前那个自己,费浙平也还是从前的自己。

更多3D视觉故事,欢迎加作者微信MOON_ERS互通有无

]]>
AI+ //m.drvow.com/category/aijuejinzhi/NB7KgHBIMp7MKcEx.html#comments Wed, 07 Dec 2022 10:59:00 +0800
创企扎堆、亿级融资十余起,3D 视觉赛道吸金不断 //m.drvow.com/category/aijuejinzhi/valZLEqAbrdjAt5i.html 资本的嗅觉是最敏锐的。

2021年,中国3D视觉市场增速超过 100%,行业热情高涨,融资事件频起,机器视觉新品与解决方案频频推出。

进入2022年,资本寒冬悄然而至,各行业一片萎靡之时,3D视觉赛道却被拉升至一个新的热度,仅今年一季度,3D视觉在工业机器人领域的融资事件就超过10起,而去年全年3D视觉领域融资事件也才31起。

市场广阔,资本蜂拥,3D视觉技术就像是寒夜中一处燃烧的火堆,因不断新添的柴火而愈燃愈旺。视比特机器人、灵西机器人、梅卡曼德、深视智能、如本科技、盛相科技、板石智能、翌视科技、星猿哲、苏映视等,一个又一个拿下大额融资,凌云光、奥比中光也在今年相继奔赴IPO。

这些令人振奋的资本动作,正是3D视觉技术从尝鲜走向普及的初始铺垫。

作为一个肉眼可见,面向未来的新技术,3D视觉正在资本的“供养”下,强筋壮骨。

吸金不断,3D视觉赛道热度不减

资本力量在每一个不同的阶段,都有其明确且具体的含义。

现阶段的3D视觉市场,资本力量的价值更多体现在帮助初创企业成长,以及进行技术创新的完善与落地。

不难发现,当下机器视觉赛道融资企业,以初创公司为主,融资轮次也集中在C轮以下。

据雷峰网不完全统计,今年以来,我国3D视觉领域已发生至少41起融资事件,其中有至少12家3D视觉企业获得亿元级融资。

其中,以提供软硬一体化解决方案或集成的初创企业较多。

为更直观了解今年以来3D视觉领域的融资情况,雷峰网通过公开信息整理了部分融资事件。

相比于已经独当一面的2D视觉市场,3D视觉市场尚处培育阶段。根据GGII数据,去年全年2D视觉市场规模约126.65 亿元,3D视觉市场约11.51 亿元,除部分顺势下场的老对手,让3D视觉赛道变得越来越拥挤的,是众多应时而生的新玩家。

这些新玩家,大多数成立于2017年至2020年之间。

去年,企查查大数据研究院发布一组统计数据:自2011年以来,机器视觉相关企业注册量呈逐年增长的趋势,2019年的注册量达到了十年之最,共计442家,同比增长15%。

其中,2017-2020这四年,是机器视觉企业注册数量最多的年份。

这批密集入局的玩家中,不少都是未来3D市场的生力军,他们从机器人、3D传感器芯片、各类硬件相机、软件、系统方案集成等中,或取其一端,或择其二三,向3D市场进行渗透。

  • 具有芯片研发能力的中科融合、灵明光子、炬佑智能、元橡科技、埃瓦科技、视海芯图等;

  • 具备硬件相机研发能力的如本科技、翌视科技、光鉴科技、迁移科技、盛相科技等;

  • 以平台形象示人的阿丘科技;

  • 主要提供3D视觉解决方案的易思维、苏映视、熵智科技、埃尔森、跨维智能、视科普、地标科技等。

竞争日益激烈的当下,差异化有助于企业发挥优势,找到合适的落地场景,但事实上,除部分相对聚焦芯片研发与机器视觉底层技术研发的企业外,大部分本土厂商往往既做产品,又做集成。

背后体现的是不同玩家面对资本时,对自身商业模式的不同思考逻辑。

从融资方向上可以看到,资本朝着产业链上下游延伸的趋势较为明显,3D视觉赛道,激光器、工具元器件等相关供应链已经相对完善。

光鉴科技CEO朱力此前接受雷峰网采访时曾表示“3D技术做产品的应用端公司基本完成了对市场的教育,未来一至两年,3D视觉市场的商业化速度会越来越快,包括已经使用3D的行业和新的行业。”

落地场景上,随着3D视觉技术从最初的手机渗透到出货量较大的消费电子领域,随后资本的橄榄枝也从工业领域传递到消费领域,如安思疆科技、盎锐科技等企业在今年受到资本的青睐。

工业和商业就像是两道门。

机器视觉厂商们率先打开了工业的大门,但受制于非标、成本、技术等原因,渗透率只达到10%左右。走出工厂、走向商业场景是第二道门,通过3D视觉+机器人完成柔性化动作,可以在消费、餐饮、教育、健康等非工业场景获得更多的市场增量。

不过,目前大部分3D视觉玩家还是聚焦在工业场景。

随着柔性生产和智能制造比例提升,3D视觉在工业场景被广泛解锁,进入3C电子、汽车、半导体、光伏、锂电池、医药、食品包装、物流仓储等应用场景。

与此同时,各家之间的场景化之争也日益凸显,本土厂商针对细分行业及自身定位的抓取越来越精准,针对特定场景研发新品的趋势也越来越清晰、聚焦,在抓取、拆码垛等热门领域,已呈现短兵相接之势。

3D视觉赛道为何火热?

抓住工业4.0时代的红利,实现智能制造,“眼睛”是关键点之一。

在3D视觉技术出现以前,人们想要识别三维世界,需要先拍摄2D画面,再经过计算得出三维立体数据,尽管最终也能得出数据,但毕竟“绕了远路”,耗时又费力。

3D视觉技术的出现,则为我们认识三维世界找到了一条原生路径,从A直线到B,不用再绕远路。

3D视觉之所以受到资本竞相追捧,首先在于它的“独特性”。

当前应用最多的3C电子、锂电、汽车等高端制造领域,对产品生产质量有着极为严苛的要求,任何微小的瑕疵都有可能带来巨大损失。

通过满足更高精确度、更高自动化的要求,3D视觉技术得以进入更多行业应用场景,带来更多改变人们生产、生活的高科技产品。

以汽车零部件行业举例,由于其离散制造的生产特性,使得柔性化制造成为必然趋势,3D视觉的出现,恰好能够解决汽车零部件生产中至为关键的柔性定位难题。

此外,3D视觉技术作为下一代机器视觉革命,已经站在了风口上。

在超高精度测量等领域,国内企业逐渐迈出了步伐。

相比于受“外资压倒性先发优势”限制的2D视觉市场,国内3D视觉企业诞生之初,就几乎与外资厂商站在同一起跑线,双方软硬件层面的差距并不大,并且内资厂商更早布局“AI+3D+机器人”的相互赋能,在成本及交期上更具优势。

从去年开始资本的不断涌入,也与行业的发展阶段密不可分。

当前3D视觉市场处于发展初期阶段,市场需求和现有技术之间还存在差距,增强研发能力、引进优质人才、寻找差异化出路、挖掘资源、提升服务质量是现阶段的任务,尤其对于现阶段的初创企业来说,对资本有着迫切的需求。

3D视觉市场的发展,需要3D成像+3D传感+AI人工智能技术驱动的设备和机器对周围环境有更深入的理解,相关技术门槛和成本正在逐步降低。

应用场景的明晰,也在不断证明其价值。比如锂电池行业的快速扩张,拉动了视觉检测方面的需求,再比如物流行业智能化需求的提高,也为3D视觉定位分拣提供了更多落地应用场景。

总结

3D视觉面对的是一个无限想象力的增量市场。

这个市场正在被快速打开,其技术已经得到市场的反馈,迈出了商业化的第一步,更大规模的应用将随着科技公司做出更多关键性的创新而出现。

与此同时,原材料大涨、芯片短缺、供应链不完善、疫情等不确定的外部因素,也为行业发展带来重重挑战。

未来一到两年内,一些没能积累客户资源,或在技术和产品方面没有明确优势的公司,将面临生存的挑战。

如何正视资本,立稳自身商业模式,避免被乱拳出局,在“混战”中厮杀出一条血路,是这一轮资本热浪中,企业需要思考的迫切问题。

雷峰网长期关注智能制造领域,如果你有好的项目、故事、观点以及企业内幕,欢迎添加作者微信Yukuaikuaier或MOON_ERS进行爆料、讨论。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/valZLEqAbrdjAt5i.html#comments Thu, 03 Nov 2022 15:13:00 +0800
四大势力暗战 3D 视觉 //m.drvow.com/category/aijuejinzhi/TLumiPEXBdn40Frj.html 增速超100%。

过去一年,当大多数资本由激情回归理性,3D视觉赛道却热度不减,并且这股热潮还在持续蔓延。

一方面,融资频起,无论是视比特机器人、灵西机器人、梅卡曼德等智能机器人公司,还是图漾科技、深视智能、知象光电等AI视觉公司,都在今年接连披露大额融资。

据不完全统计,仅今年7月,3D视觉在工业机器人领域的融资就有5起,相当于去年一个季度的量。

另一方面,从下游应用产业来看,3D视觉已经在汽车、半导体、薄膜、锂电、面板、3C、光伏、物流、PCB、食品饮料等多个行业落地。

正面战场,各家使出看家本领抢市场、推方案,在后方战场,他们在防护等级、稳定性、精度、扫描速度、数据传输等等方面挖河道、修筑高墙。

在这场共同奔赴的背后,雷峰网总结出四股代表势力:机器视觉元老、AI视觉企业、机器人部落、互联网科技巨头。

热门赛道中,多方势力的混战并不罕见,但我们关心的是,为什么是他们?各方在工业制造领域占据的分量又如何?究竟哪一方的立足之处才是未来竞争的核心阵地?

自带光环的机器人部落

机器人,是目前3D视觉最热门的应用赛道之一。

机器人赛道想要保持高速发展,离不开一双更智慧的3D视觉之眼;3D视觉技术想要证明自己的实力,机器人也是一个绝佳的载体。

机器人部落大多定位“3D视觉+AI+机器人”。

如果说3D视觉相当于眼睛,用以获取外部信息,那么AI就相当于大脑,可以指导眼睛更加精准地识别图像,与人工智能融合,3D视觉可以最大限度发挥优势。

机器人部落的特点之一,天生自带机器人基因,参与产业链多个环节,一体化方案上走在前列。

有了大脑和眼睛只是第一步,只有将其搭载在合适的躯体上,优势才能够被真正激活。

3D视觉从实验室走向复杂工业现场的过程中,必然要经过寻找躯体的阶段,技术链条长、易做难精使得这一过程困难重重,这也成为当下兵家必争的要塞。

机器人厂商一开始就选择扎根机器人硬件,在AI、3D与机器人的相互赋能上更具优势。

他们更易于在保证产品性能的同时降低研发成本,在实现产品迭代升级对技术的反哺上,也更加高效。

换句话说,机器人厂商建立起更强的综合实力,也就拥有了面对其他厂商竞争压力的底气。

机器人部落特点之二,集结了国内3D高端人才,以整个企业之力拼劲。

机器人赛道已经迈过技术产品化的阶段,正处在产品商品化阶段,大量手握资源的科技巨头都已经冲了进来。

但不同之处在于,双方能够给予的战略关注存在较大差距。

于大厂而言,机器人和3D视觉只是其中一条产业线;但于机器人部落而言,却是他们的立身之本,势必会倾尽全力。

再者,3D机器人领域是一个需要潜心深耕的领域。

梅卡曼德通过在海内外组建多个子公司分公司和支持团队,形成近500人规模的核心团队。

灵西机器人的长处在硬件技术和3D成像技术。其团队成员来自北大、浙大、清华等知名学府,有着十年以上机器人、计算机视觉和自动化设备的研究开发经验。

视比特机器人是该部落的学术派代表,长处在于软件。核心技术骨干来自普林斯顿、哥大、武大、中科院等高校和研究机构,在计算机视觉、机器人、3D图形、云计算大数据等领域有多年研究积累,每年研发投入占比超50%。

机器人部落特点之三,加速收割重点场景。

工业4.0时代,应用场景是机器视觉厂商发展3D机器视觉业务的重要资源。

然而,3D视觉+机器人可落地的场景很多,不同行业,不同场景所需的技术标准不同,十分考验机器视觉厂商的技术能力。

灵西布局仓储物流、工业制造等领域;梅卡曼德布局汽车、工程机械等行业;视比特瞄准工程机械、物流、汽车三大行业。

上述三家企业为代表的智能机器人创业公司,都选择在重点领域加速落地。

在梅卡曼德的官网上,其3D视觉与大型汽车主机厂和龙头能源公司的案例已经成为标杆。

视比特针对智能制造、智慧物流这两个典型的深水区场景,打造出“3D视觉感知与机器人柔性控制深度融合”的视觉大脑,以标准化、低成本的解决方案,攻克制造业场景多品种、小批量生产模式带来的难题。

踏浪而来的AI视觉新秀

如果将2D时代机器视觉的头部厂商比作沉稳老练的中年人,那么AI视觉企业就是风华正茂的青年人。

他们一手握着新兴的3D视觉技术,时刻准备着演出一场后生可畏的戏码。

发展多年的2D视觉技术,只能得到物体的平面图,3D视觉好比人类的眼睛,可以完整重现各类三维场景,工业生产过程中,无论是规则零部件的长、宽、高,还是不规则零部件的曲面、弧度、深度识别,只需“惊鸿一瞥”,便可给出实时、高精度的三维数据测量结果。

这就意味着,从2D到3D,并非一场简单的技术升级,其背后是所能获取信息质量和数量的一次“质”的飞跃,后者具有较高的底层光学技术和算法成像技术壁垒。

因此,想要从事3D视觉领域的研发工作,技术实力是一项硬性指标。

3D视觉市场的发展,需要3D视觉感知技术和AI人工智能技术的有机结合。

在此基础上进行物体的数字重建,可以让虚拟世界更加真实,为AR/VR、虚拟购物、自动驾驶汽车及先进驾驶辅助系统等领域带来大规模落地。

技术是这类企业的强项,秉持“小而精”的思路,站稳差异化的落脚点。

一个强大的对手,往往具有过硬的综合素质,而能够扎根一处,做到单点专精的对手,同样令人敬畏。

强敌来犯,若想护卫城池,势必得对自己的长处与短板了然于胸。

他们有的聚焦更深更细的上游核心零部件,有的依托软件算法自研或外购相机,构建自己的壁垒。

奥比中光是3D视觉感知领域的头部企业,通过“芯片+模组+算法”的模型进行底层技术研发构筑护城河。同时以标准品覆盖中小客户的需求,识别潜力的细分市场,寻找细分行业龙头客户,为他们提供定制开发服务。

光鉴科技对雷峰网表示,其强项在3D相机的深度学习算法和光学深度耦合的整体软硬件方案的开发能力上。凭借将纳米光学技术应用在3D视觉领域,光鉴科技研发出全球首个量产消费级纳米光子芯片,在3D视觉领域形成独有的技术壁垒。

值得一提的是,在众多3D设备中,3D相机/3D采集设备销售额增速最快,2021年,国内机器视觉市场规模约160亿,其中3D相机占比近5%,预计到2025年占比有望达到近10%,因此这也成为大部分厂商的重点布局方向。

肯吃苦,专挑机器视觉难啃的硬骨头。

灵明光子专注于3D传感器芯片研发,将前沿的单光子探测器技术,应用于手机3D模组、激光雷达和其它高性能深度传感系统。

埃瓦科技一开始走的就是“芯片+算法”双研发路线,公司近80%都是技术人员,作为一家初创公司,目前研发投入已经超过一个亿。

视海芯图成立于2020年,同样以3D视觉AI芯片研发商的身姿入局,为市场输送机器视觉和人工智能领域高度整合的芯片解决方案。

奥比中光研发副总裁张丁军也表示,奥比中光一开始就选择了“困难”模式,从芯片做起。

光鉴科技先后与中兴手机、OPPO手机合作,基于自研纳米光子技术的原创专利,推出全新屏下3D结构光技术,打破了苹果的专利和产业链垄断。

从硬件到解决方案,细分领域不留短板。

围绕3D视觉的业务,可以大致分为两类,以3D视觉相机、传感器、芯片等硬件产品为主,或者以3D视觉系统解决方案为主。

前者的问题在于,以硬件产品为主要业务,需要集成,不能直接面对客户。

后者也有局限,选择做软件整体解决方案或者集成,最核心的3D视觉技术占比不多,容易被“卡脖子”。

因此,从硬件产品到系统解决方案,他们均有涉猎,专注于在各个细分场景解决某个问题。

通过3D技术,AI视觉企业已经进入3D相机、3D传感芯片和3D视觉平台等产业链的不同环节。

几家起步较早,技术相对有优势的机器视觉公司,已经成为人工智能领域的小巨头。

根基深厚的机器视觉元老

历史无数次用它优胜劣汰的筛选过程,向我们展示着商业世界的残酷与奖赏。

那些能够穿越历史周期律,傲然而立的企业,不仅懂得扬长避短,在擅长的领域做深做透,也懂得欲速则不达,不断在时代更迭中发现不足,而后用年复一年的定力补齐短板。

背后无外乎一个简洁的道理:大浪淘沙,沉者为金。

诞生于上世纪80年代的基恩士和康耐视,是机器视觉赛道久负盛名的元老级企业。

国内机器视觉产业相比国外起步较晚,在奋起直追二十年后,从筚路蓝缕走向全面开挂,终于与国际巨头同场竞技,共享盛名。

作为2D视觉时代的龙头企业,他们向3D视觉的滑行动作,流畅且自然。

而其关键便在于利用时间这道特有的门槛,在己与彼之间,画出了一个“早”字。

“早”字背后,是他们随处彰显的深厚行业背景。

首先,技术的突破需要时间、金钱与人才的积累。

过去几十年中,他们早早积累视觉技术,在产品性能、工艺上打磨出自己的核心竞争力,以成熟的2D视觉技术,获得了广泛认可。

诚然,2D与3D同属一个视觉体系,但技术门槛却提高了一大截。不仅涉及光学、结构、散热等跨学科设计难题,更有芯片、算法构成等复杂系统设计。

他们是2D视觉的强者,但也谦逊地在3D视觉上默默投入多年,基于以往经验做试探,这些是初创企业难以轻易超越的鸿沟。

如若没有足够的资金弹药和扎实的技术团队,便冒然闯进3D视觉这片蓝海,一个大浪便有可能造成搁浅。他们深知技术、资金与人才,恰是他们立于3D视觉大浪前的底气。

其次,具有顺畅的供应链优势,以及稳定的客户群体。

2D时代,他们就与产业链上下游磨合得很好,为自己踏出了一条康庄大道。

前边栽树,后边乘凉。这份用时间浇灌的“盟友”关系牵涉甚广,实力、利益、信赖与习惯交织背后是高昂的替代成本,因此一经形成便难轻易撼动,让行业新人难以追赶。

如今到了3D时代,他们便可以更好借用此前通道。

再者,品牌光环与口碑优势是其坚硬的盔甲。

在行业发展初期,他们便以其产品的通用性和高品质,以及优质的客户服务,吸引了一批“铁杆粉丝”。

待客户形成品牌粘性后,便可以通过稳定出货占据市场份额,客户认可也利于带来资金、人才、供应链等资源的倾斜,由此形成一个良性循环。

跨界袭来的互联网科技巨头

互联网时代流淌着牛奶和蜜的时代结束了,创新的机会走向市场深水区,数字化的落点步入产业更深处。

家大业大的互联网科技巨头,在工业细分领域的左右出击、狭路相逢 ,早已屡见不鲜。

3D视觉就是其中一条受到科技巨头们“围追堵截”的赛道。

智能制造的浪潮之下,互联网巨头想要进行科技创新,除了要有躬身入局的前瞻与定力,更需要有深水笃行的智慧与耐力。

坦白讲,硬科技需要长期的研究积累,具有较高的技术门槛和明确的应用场景。

奥比中光作为3D视觉头部企业,从成立到上市尚且用了9年。

而互联网科技巨头,往往是在产品商业化临近的时间点密集闯入,技术落地、产业理解上是短板。

因此,利用好手中大把资源,互通有无,成为互联网企业的普遍选择。

其一,与上游企业直接进行合作。

支付宝与提供3D人脸识别模组的创新企业奥比中光进行合作。

微信支付与光鉴科技开展深度合作,光鉴进而也拿下了微信刷脸支付完整的市场份额。

小米也在人脸识别上选择与的卢深视合作,定制3D人脸识别模组“重明”。

除了手机和刷脸支付,互联网科技巨头们也将3D视觉技术应用场景在国内的应用,逐渐拓展到了智能制造、智能安防、智能硬件等众多领域。

其二,借鸡下蛋,通过对外投资,扩大自己的3D视觉版图。

2020年,小米投资了3D机器视觉初创企业深浅优视,后者的主要产品是微米级智能深度相机,具备微米级测量精度、智能分析、还原物体三维形貌的能力。

小米在2020年便投资了机器视觉初创企业深浅优视,后者是一家以光学精密测量为核心技术的3D工业相机研发商。

扬长避短,用影响力构筑生态,是互联网企业的独特优势。

制造业产业链条长,建设周期缓慢,生产过程极其复杂,技术研发投入高,是难啃的硬骨头。

除此以外,技术改造、产线升级无时不在发生,而每一次升级背后都是供应链、供应生态的变化甚至重新洗牌。

互联网科技巨头强大的品牌影响力,有助于聚合生态,吸引产业上下游共同投入,在平台级别的战争上,可以轻易秒杀对手。

3D视觉尚处起步阶段,产业链的打通、产品的规模化落地,都有待时间的积累。

站在竞争角度,这些隐形对手在3D视觉领域陆续集结,以其资本和影响力换市场,不失为“曲线救国”的办法。

从更高处着眼,行业需要搅局者,巨头们的生态引领,也有助于带动整个产业链的发展。

玩家络绎不绝,3D视觉领域谁能领跑?

随着2D视觉不足以满足消费电子、智能汽车、半导体等精密制造行业不断提高的精度要求,增加了物理空间的深度信息,得以更全面、更真实记录物理世界的3D视觉粉墨登场。

以对于离散制造的汽车零部件行业来说,柔性化制造是必然趋势,3D视觉恰好解决了汽车零部件柔性产线中至为关键的柔性定位难题。

2021年我国机器视觉市场增速超过45%,分支之一的3D视觉市场增速迅猛,超过100%,已经成为今年CV界热捧的“香饽饽”。

而这也是中国企业借助技术与资本,进行弯道超车的绝佳机会。

作为新兴技术,国内外在工业级3D视觉技术上的起步时间基本都在2014年前后,国内外起跑线相差不远。

国家发布诸多利好政策,同时工业制造智能化升级的市场需求旺盛,在资本高度关注、赛道升温的背景下,新老玩家的激烈对垒,已经拉开帷幕。

在光鉴科技CEO朱力看来,3D视觉真正成熟的标志有两个:一看传感器、3D相机的硬件系统在场景中是否开始标准化,二看3D视觉能否覆盖市场10%的需求。

前者将意味着整个上游元器件供应链已进入成熟与标准化;后者则意味着3D视觉已完成高端场景覆盖,市场迈进快速渗透成长的阶段。

随着万物物联时代的到来,全球有约有数十亿智能设备具有3D视觉感知需求。这让搭载3D视觉技术的初代产品已经走向市场,让机器看到立体世界,仅仅只是开始。


]]>
AI+ //m.drvow.com/category/aijuejinzhi/TLumiPEXBdn40Frj.html#comments Sat, 08 Oct 2022 14:18:00 +0800
《魔幻手机》成现实?人工智能在元宇宙踏出了「变人」最后一步 //m.drvow.com/category/aijuejinzhi/GuH46bKwwj87XLGd.html 元宇宙已经成为了这两年最热门的词汇之一。元宇宙一词来源于史蒂芬森1992年的小说《雪崩》。小说中,人们通过虚拟现实设备连接上虚拟城市Metaverse,并在其中生活。如今,随着科技的发展,这个未来正在逐渐变成现实。雷峰网

随着越来越多的厂商和开发者的加入,元宇宙的大门已经打开。

但元宇宙究竟能为我们带来什么?它的到来又意味着什么?这个问题依然扑朔。

在2022年的SIGGRAPH主题演讲上,英伟达创始人给出了自己的答案:“人工智能和计算机图形学的结合将为元宇宙提供动力,这将是互联网的下一次演变。”

英伟达仿真技术副总裁Rev Lebaredian也说到:“我们看到的是互联网新时代的开始,一个被广泛的称为“元宇宙”的时代。”

在英伟达看来,元宇宙是互联网的“3D升级版”。

作为GPU龙头和元宇宙的积极建设者,在去年的SIGGRAPH大会上,英伟达揭秘了“虚拟老黄”代班主持15秒的故事,震撼了全世界。

而今年的SIGGRAPH大会上,英伟达除了继续展示自身在元宇宙领域的实力外,还为共建元宇宙的开发者带来了元宇宙“基建”所需要的更简便的工具。

开发门槛大降,人人都能造“虚拟人”

如今的人工智能应用广泛,小到手机中的语音助手,大到能够管理一个城市的智慧城市系统。人工智能如今正无处不在的发挥着其作用。

在功能层面上,人工智能已经逐渐摆脱了初期“人工智障”的阴影,成为了人们数字生活中不可或缺的一部分。但人们对人工智能的想象不止于此,人们更希望的是有一天与人工智能的交流能够同与人聊天一样自然。

这不仅需要人工智能更进一步的提升其“智能”的一面,还需要人工智能在形象上更“像人”。

毕竟,人们更愿意与有着人类五官的同类而不是一颗光球交谈。

在元宇宙中,人工智能可能会进化成为更聪明,并且拥有人类形象的“虚拟人”。

在去年的SIGGRAPH大会上,英伟达就已经通过“虚拟人老黄”的演讲展示了将虚拟人做到以假乱真的能力。

如果说去年SIGGRAPH大会上的“虚拟人老黄”是英伟达告诉世界在打造以假乱真的虚拟人上“我们行”,那么今年SIGGRAPH上英伟达的发布则更像是喊话开发者,告诉他们“你们也行”。

在SIGGRAPH 2022上,英伟达发布了一个用于创建3D虚拟形象的云原生AI模型Omniverse Avatar Cloud Engine(ACE)。

英伟达称,这个模型内置了许多复杂的AI功能,并提供了丰富的API,让开发者能够“触手可及”的开发具有逼真形象的虚拟人。

这个系统建立在英伟达统计算架构的基础上,包含了语义识别、语音回复、视频分析等系统,组成了虚拟人的“六感”。

ACE还内置了能够通过音频文件直接创建面部动画,并能通过人工智能推理生成逼真情绪的Audio2Face工具;能够通过音频生成逼真身体姿态的Audio2Gesture工具等能够帮助开发者更简便的完成虚拟人的开发。

同时,ACE的模型和服务都布置在云端,这让使用者可以不必担心算力问题。通过访问云端,小型企业也能够获得开发虚拟人所需要的庞大算力。

USD打破元宇宙“数字高墙”

元宇宙的设想总是恢弘而广大,但连接其中的人们不可能同时身处元宇宙的每个角落。

如何连接这些分散的信息孤岛,打破元宇宙中正在逐渐升起的“数字高墙”成为了元宇宙发展中的一个难题。

对于这个问题,互联网的发展历史为元宇宙提供了经验。

互联网之所以能够取得成功,成功建成一个连接世界的信息网络,一个重要原因就是在互联网早期就建立了HTML这样统一开放的标准。HTML定义了网页内容的含义和结构,被开发者用来创建网页。

互联网不断进化。从文字到图片再到视频,内容变得越来越丰富多彩。其中的一砖一瓦,都是由HTML所创造。

而元宇宙实际上可以被看做是更高维度的互联网。无论是开发者还是用户都需要一种像HTML将网页连接起来一样将不同的元宇宙世界连接起来的纽带。

目前看来,USD具备着成为这样纽带的潜力。

USD最初主要由好莱坞的动画设计人员使用。使用这种语言可以将很多工具连接在一起,大大简化了动画电影的制作过程。由于USD的开源和可扩展性,它的适用范围正在变得越来越大。

对于元宇宙而言,USD则可以起到更大的作用。

在本次SIGGRAPH上,英伟达宣布了一项发展通用场景描述(USD)的大型计划。英伟达表示,将把这种3D语言发展成元宇宙和3D时代互联网的基础。

通用场景描述(USD)是一种3D的开源和可扩展语言,由皮克斯动画工作室于2012年发明,2016年发布并作为一种标准语言。

为了加速USD在元宇宙中的开发和应用,英伟达宣布将开发一个开放的USD兼容性测试和认证套件,开发者可以自由使用。同时英伟达还宣布投资构建能够将流行的3D软件生态连接到NVIDIA Omniverse的USD插件。

英伟达将与USD的发明者皮克斯以及Adobe、Autodesk、西门子等多家行业内领先的企业合作,实施一项多年发展路线图,让USD能够更好的支持建筑、工程、制造业、科学计算、机器人、工业数字孪生等领域的工业元宇宙应用。

这让开发者不再孤立,无论他们是艺术家、设计师还是工程师,都能够将自己开发的内容变成一个互相联系的3D“网页”中。

不仅仅是英伟达,Adobe、Autodesk、皮克斯和西门子等众多公司都在为USD的发展提供帮助和支持。

英伟达还将USD加入了Omniverse中,并在Omniverse中加入了更多工具,让开发者不仅可以获得免费的数字资源,从而更简单的开发游戏和动画,还可以利用使用了AI技术的DeepSearch在庞大的资源数据库中进行搜索,使得在元宇宙中找资料变得像在网页上“百度一下”一样简单。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/GuH46bKwwj87XLGd.html#comments Thu, 11 Aug 2022 19:47:00 +0800
360 人工智能院长邓亚峰离职创业,入局生命科学,曾任百度资深科学家、格灵深瞳 CTO //m.drvow.com/category/aijuejinzhi/OwvtOqtL9IRrc4n3.html 雷峰网消息,原360集团副总裁、人工智能研究院院长兼搜索事业部总经理邓亚峰,于上周六出席了2022年自然语言处理峰会并发表演讲。

会上,邓亚峰首次以碳硅智慧创始人兼CEO身份公开亮相。

碳硅智慧是一家聚焦于新药研发的科技公司,定位是新药研发领域的人工智能基础设施和服务提供商,核心理念为用AI计算驱动生命科学。

根据天眼查消息,碳硅智慧成立于2021年10月12日,邓亚峰于三天前刚刚变更为公司法定代表人。

邓亚峰本科就读于北京航空航天大学电子工程专业,研究生毕业于清华大学人工智能相关专业,主要进行计算机视觉方向的研究。

邓亚峰毕业后的第一份工作是在一家芯片公司做人工智能算法,后经一家创业公司进入阿里云,开始与互联网行业结缘。

随着深度学习在国内兴起,邓亚峰察觉到深度学习在未来的发展潜力,于是义无反顾的加入了百度深度学习研究院,成为一名资深科学家。

百度期间,邓亚峰主要负责人脸识别方向,曾多次带领团队在主流的人脸检测、人脸识别算法竞赛中取得过优异成绩。

离开百度后,邓亚峰于2016年8月加入格灵深瞳,担任技术总监,主要负责人脸识别算法的研发工作。至此他已经拥有14年人工智能特别是计算机视觉方向的研发经验,并在过去的工作中发表论文十余篇,获得国家专利授权95项。

当时,AI赛道正是最火热的时候,然而由于业务落地不利,格灵深瞳在消费、交通和金融场景的尝试屡次流产,公司现金流几近断裂。

2017年初,格灵深瞳董事长及CTO赵勇出任CEO一职,邓亚峰被提拔为CTO,职业角色从一名技术专家,转变为一个百人技术团队的管理者。

2020年,格灵深瞳走出漫长的沉默发展时期,逐步走向正轨,与此同时,邓亚峰离开格灵深瞳加入360集团,接替加入依图科技的颜水成,成为360人工智能研究院新一届院长。

在360,邓亚峰的title包括360集团副总裁、人工智能研究院院长兼搜索事业部总经理,管理400人左右的产品技术团队。

AI掘金志消息,同样是360集团副总裁、人工智能研究院院长,名义上也是邓亚峰接替颜水成之位,外界普遍以为两人的职位一样,其实不同。

颜水成在360集团期间的职位是副总裁、人工智能研究院院长、首席科学家,邓亚峰是360集团副总裁、人工智能研究院院长兼搜索事业部总经理。

而邓亚峰的360搜索总经理的职位其实在意料之外,可能存在临危受命。

2020年,当时正逢360集团搜索业务总经理杨康离职,跳槽到字节任清北网校负责人,之后任为字节教育硬件业务负责人,而360搜索业务负责人吴凯也在2019年年底加入了字节,担任搜索业务的负责人。

核心人员相继出走使得当时的360搜索部门几乎无大将,不得已让没有搜索经验的邓亚峰接棒,兼任了搜索事业部总经理。

对于生命科学的探索,在今年6月22日与36氪的一次访谈中也有迹可循,当时邓亚峰提到,计算机特别是人工智能技术正在和生命科学领域深度结合,展现出巨大的可能性。“AI for Science、计算机创作等诸多领域,不断产生着让我们激动甚至惊诧的成果。”

不难听出,这正是为其即将躬身入局的生命科学和能源科技领域打擂台。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/OwvtOqtL9IRrc4n3.html#comments Tue, 02 Aug 2022 11:40:00 +0800
超清重温 25 年前香港回归时刻,AI 如何「翻新历史」? //m.drvow.com/category/aijuejinzhi/Hbc9E8XrPAeqZxki.html

作者 | 江子逸

编辑 |    余快

“你们可以下岗,我们上岗!”25年前,香港回归祖国怀抱,在中英防务交接仪式上,中国解放军指挥官谭善爱喊出这句让无数国人热血沸腾的话。

昨天,一段香港回归高清历史影像在各大平台迅速刷屏,多个话题登上微博热搜榜。

与此同时,由深圳卫视直新闻策划,香港回归当晚,数十万深圳市民涌上街头,挥舞着鲜红色的国旗,欢送解放军进驻香港的高清修复视频也同样引发了广泛的关注与讨论。

AI掘金志发现,这些珍贵的高清历史影像背后,或多或少地都出现了腾讯多媒体实验室的影子。我们也找到了背后的技术修复师——腾讯多媒体实验室专家研究员夏珍,跟他聊了聊香港回归25周年视频修复的相关技术。

1、多媒体智能技术如何复原历史经典时刻?

1997年7月1日的中英交接仪式,吸引了全世界的聚光灯。这场世界瞩目的典礼筹备,也倾注了无数人的心血。但受限于场地、环境等因素,绝大多数国人25年前无法亲临现场感受这一历史时刻。与此同时,这个史无前例的历史珍贵影像,也受当时技术限制、视频压缩等影响,画质不清、视频模糊。

智能影像修复,绝非将低分辨率视频放大、输出为高分辨率影像那般简单。

通常,修复一支常规的老旧视频,大概需要用到去模糊、提高分辨率、降噪和色彩增强等技术,从而解决包括但不限于划痕、竖线、雪花点、噪声、压缩失真、抖动等问题。

腾讯多媒体实验室专家研究员夏珍表示,修复历史影像作品甚至残损影像,对于实验室来说是比较日常的工作,但本次视频修复工作还是存在不小的难点和问题。

一来,作为我国重要的历史节点,这些视频极其珍贵,军人们的每一个眼神、每一个表情、每一个词语都经过千锤百炼,修复效果应最大程度还原当初的每一景、每一秒;二来,举行交接仪式时已是深夜,现场灯光微弱、无数台摄像机闪光灯交替。另外,深圳市民欢送解放军进驻香港时还是雨天,街道两旁有数十万市民朋友。

“尽管困难不小,但在实验室小伙伴们的合力攻坚下,我们在人脸修复、画质增强及画质修复方面下了不少功夫,算是比较完美地解决了上述问题。”夏珍提到。

画质增强里的“小”细节:刚毅的眼神与动容的军人

香港回归当天,中英防务交接仪式在室外举行。与室内相比,室外环境并不“友好”:黑夜、下雨、无尽的闪光灯。换句话说,想要超清还原中英防务交接仪式现场的视频清晰度,对算法的鲁棒性要求非常之高。

与此同时,关于这段视频的修复工作,夏珍与团队成员讨论之后,给实验室提出了更高的修复要求:不放过彼时彼刻的任何一个重要细节。

譬如视频中的关键人物之一:与英军交接的指挥官——谭善爱。夏珍明白,彼时的谭善爱,不单单是他自己,展现的不仅是中国军人的风采,更代表了整个国家的风貌。

“我在几个月的训练期间,将交接时的话重复了上千遍。”谭善爱受访时表示,“用什么样的语气、用什么样的状态,把这段话充分地演绎好,一定要以最高标准展现中国军人的良好形象。”

通过视频影像对比观察,原先只能看到模糊的人脸,而修复后可以看清谭善爱清晰的面部轮廓,甚至皮肤纹理、汗渍都清晰可见。同时,也能更为直观地感受到中国解放军军人坚毅、不畏的眼神。

当国旗升起时,战士们的眼神又变得柔和,眸中泪光清晰可见。在《义勇军进行曲》的背景音中,镜头缓慢扫过每一个敬礼的中国解放军军人,他们黝黑但硬朗的脸庞在炎炎夏夜下汗水流淌,但眼角之上是无尽的柔情与骄傲。

那场景,让人动容。

如此细节的修复处理,夏珍提到,主要用到了多项画质增强技术,包括分辨率增强、细节增强、色彩增强等。

谭善爱等军人流畅的脸部细节特写,源于腾讯多媒体实验室采用了自研人脸修复模型。它融合了人脸检测、人脸修复等模块,将图像修复迁移到视频过程中加入帧间稳定性处理,优化多角度人脸效果,解决人脸检测稳定性、动态人脸遇到的复杂场景问题。

同时,针对视频失真及细节生成,实验室做了最大程度优化。在人脸修复基础上使用“超分辨率”加成,通过基于GAN超分网络的多帧技术,生成的细节更加丰富细腻及稳定。

所以看到,实验室在放大视频分辨率同时,也大幅提升了人物的整体感官层次,人物脸部的皮肤纹理、毛孔、头发均清晰可见。

细节还原问题解决完毕,接下来则是色彩优化。

不少老旧视频除了画质模糊、噪点多,随着时间流逝画面也容易变成灰色。夏珍表示,除了想让画面清晰度更高、细节更丰富、饱和度更均衡,也想在改变灰色画面前提下,保留90年代深圳和香港的原汁原味。

而深圳市民欢送解放军驻港部队时的视频画质情况与交接时有相似之处:天色晚、灯光弱、光源杂乱、人物多。

实验室首先通过画质提升算法,在空间上提升视频的分辨率和帧率。细节清晰度提升之后,再采用更强的色彩增强模块增加色彩丰富度,在尊重历史和原版的基础上,让视频画面色彩更为强烈。

驻港部队上岗第一天,香港市民纷纷围观拍照,从修复视频来看,场景变为白天,但画面色彩效果不减。

多维度提升画质:冒雨进驻香港和2秒之争下的五星红旗

画质修复,解决的是老片中的灰尘、污垢、霉斑、掉色、图像抖动、划痕、闪烁、噪声、变色、模糊等问题。

翻阅视频不难发现,三军冒雨进驻香港、市民夹道欢迎时大雨倾盆。原始画面异常模糊,画中人物糊作一团。

“如何既能还原真实场景,又能高效提升画质?”夏珍提到,“有雨的场景对算法来说其实考验很大,因为雨天画面不仅更模糊,同时雨滴也会影响噪声去除。”

换句话说,他们不仅需提高视频的画质,还要将当时的雨、雾更清晰地呈现出来。

针对上述问题,夏珍和他的同事通过一系列修复算法组合,包括视频降噪、去压缩失真、去划痕算法、去雪花点斑点算法等,去除噪声和失真、提升画面清晰度的同时,尽量保持雨、雾的真实感。

针对整体效果和特殊场景,他们进行了十多次的算法升级和优化,为视频提效提供了稳定性和鲁棒性更强、效果更好的技术支撑。

以上图为例,原视频只能看到女军人模糊的脸部轮廓,修复后则增加了不少细节,面部顿时清晰许多,同时车窗上还能看出雨后的水滴和雾气。

同样的难题也出现在修复升起的五星红旗上。

前期协商阶段,英方原本打算在7月1日的0点0分0秒降下英国国旗,但为确保中国国旗在7月1日零时零分零秒准时升起,中方要求英国国旗必须于前一天的23点59分58秒降落。

为了让香港主权准时回归祖国,仅此一项,中英双方就谈判了16次。

看似微不足道的2秒,却事关国家的主权与尊严。也就是说,7月1日零点零分准时升起中国国旗很重要。本次视频修复工作,那一刻的国旗更重要。

从原视频来看,旗杆高达十几米,身处夜间灯光环境弱,且因为直播分辨率较低,国旗极为模糊。

修复过程中,实验室不仅需要提高国旗的分辨率,还需将每个像素点的内容填充好。

为了真正达到4K画质,让五星红旗更清晰醒目,夏珍团队通过最新的模型优化,精确到每个像素点,让五星红旗的五角星都清晰可见。

2、感恩技术,让历史永不逝去

“我们周围的高技术越多,就越需要人的感情。”一位网友在看过智能影像技术修复老视频后发出如此感叹。

智能影像修复技术翻新的那些老电影、老视频、老照片。让我们看见父亲母亲的少年少女模样;让我们重温常看常新的经典电影;让我们回望百年前的北京,看见同一片土地上的国人生活点滴;让我们看见张国荣的演唱会,重温那个香港影视文艺的黄金时代。

他们还原每一个真情的、有趣的、历史的、激动人心的画面。这些不被概念定义的、不被第三方描述的、不被凭空想象的画面,在岁月尘埃中,越发弥足珍贵。如今,这些视频穿越时光的尘埃,可以真切地呈现在我们面前。

技术人员以科技的理性,给所有人一份无法量化的柔情,让我们在或枯燥、或苦闷、或平凡的生活之余,为过去热泪盈眶,在未来保持热爱。

从前,AI离我们很远,但此刻,我们深刻感受到了它的力量。雷峰网雷峰网雷峰网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/Hbc9E8XrPAeqZxki.html#comments Thu, 30 Jun 2022 22:00:00 +0800
围攻「智能制造」,机器视觉的后起之秀 //m.drvow.com/category/aijuejinzhi/m78VCVBDf49wAUFo.html 机器视觉是实现工业4.0的关键点之一。

从18世纪60年代开始,工业革命对人类历史的进程产生了重要影响。

「工业1.0」是机械制造,即通过引入机械设备实现工厂机械化的制造时代。上世纪40年代进入「工业2.0」,电气与自动化时代开创了产品批量生产的高效模式。70年代开始并持续至今的信息化则是「工业3.0」,通过数字化的技术将信息存储起来,方便工厂的决策者管理。而如今的「工业4.0」时代,是智能制造时代,对生产力提出了更高的要求,背后的动力极有可能是如今蓬勃发展的人工智能技术。

前三次工业革命,中国都没赶上。18世纪,中国处于闭关锁国的封建时期;上世纪 40年代,中国处于动荡之中;70年代,中国则刚刚起步发展。因此,对当下的中国来说,国泰民安,人才培养增多,资源丰富,抓住「工业4.0」的智能制造时代机遇至关重要。

过去十五年,中国制造业的规模以近三十倍的速度疯狂增长,到2020年,中国工业增加值达31.3万亿元,连续11年蝉联世界最大制造业国家,占据全球30%的市场份额。

在2015年提出的「中国制造2025」计划中,工业计算机视觉应用占了重要位置。

在智能世界中,机器可以替代人力,带来安全与效率的提升,并以强大的数据搜集与分析能力,为整个产业带来颠覆性的改变。

而实现这一切的关键,是首先为机器点亮一双明察秋毫的“智慧之眼”。

AI工业界有句老话:得视觉者得天下。

从人脸识别到工业智造,计算机视觉的落地目前已跨越了半导体、汽车、航空、新能源、精度光学等行业,如镜片分拣、轴承检测、特种条码设计与识别、偏光弯膜、模具检测、AVI检测等。以芯片检测为例,基于深度学习的计算机视觉算法就有可以完成亿级晶体结构的全自动聚类分析:检出率超过99.99%、单流程处理效率提高96%、AI自动化全检处理效率提升90%。

传统制造业在国家经济中的占比,就是智能制造未来的市场容量。据国家统计局数据显示,2019年、2020年,中国工业增加值的规模均超过了31万亿。工业领域1-2%的效率提升就意味着数千亿级的经济增值。

纷繁复杂的机器视觉市场是一个足够大,足够远的市场,同时也是一个需要众多玩家齐心协力,发挥所长,共同拉高需求,推动水平的市场。

智能制造这片汪洋大海,于是涌现出一批随中国工业化进程而汇聚起来的各路人马。

在这批人马中,有一路卧薪尝胆,穿越时间的曲线而老当益壮的传统视觉厂商;有从安防市场切入,带头突破国际巨头防线的海大宇;有从人脸识别赛道拔地而起,分走计算机视觉市场半壁江山的AI四小龙。

同时,一大批AI新锐企业,也正沿着前辈们开垦过的视觉之路你追我赶,稳扎稳打,循序渐进。

他们凭借自身的技术实力,从各个细分领域切入,一寸一寸地攻城略地,大有抢占智能化时代潮头之势。

受限于文章篇幅,雷峰网AI掘金志仅列举四个在机器视觉展露头角的初创企业。本文不能代表所有企业,但玩家或能从中一窥工业数字化的发展动态。

易视智瞳:两次转型,瞄准精密点胶、视觉检测高端制造

易视智瞳在经过两次转型后,确定了在高端制造领域深挖护城河的打法。

2015年,全球制造链条的进一步加深融合,倒逼着国内制造业同步进入精细化阶段。

易视智瞳随之下场工业视觉智能技术研发及产业化,成立初期以软件为主,致力于为工业机器人和高端装备“提供一个包括大脑、小脑、眼睛的脑袋。”

具体来说就是结合机器视觉,利用深度学习提供大脑做分析,利用运动控制提供小脑。

2017年与蓝思科技合作提供点胶技术,使易视智瞳挖到了规模化发展的第一桶金。

在获得稳定的收入来源后,2018年,易视智瞳开始从软件、算法等核心模块,延展到重资产的实际生产中,完成了从只做"脑袋",向既做"脑袋"也做"躯体"的探索,从软件向整机转型。

到2020年,易视智瞳已经在精密视觉点胶、工业视觉检测等细分领域,落地了上百个应用场景。

同年,公司开始进行二次转型,开拓出了整线交付的形态,走上了整机和整线两种形态并举的交付路径。

与此同时,为了配合产能,公司也将虎门的工厂,进一步整合到深圳龙华区大浪生产基地。

相比于全面竞争,易视智瞳追求的是将视觉智能技术在工业细分场景中进行有效落地。

目前,易视智瞳主要聚焦于智能装备、视觉检测、系统集成三大板块,积累了300多个落地项目,并拥有113个专利申请,在视觉精密点胶机、AOI智能视觉检测设备等核心产品上,打破国际巨头的关键工序垄断。

定位解决高端装备的复杂精密视控及工业场景的智能视觉检测,易视智瞳已成为电子装联、半导体及新能源领域众多一线企业的供应商,合作客户包括华为、鸿利智汇、领益智造、蓝思科技、瑞声科技、安捷利、宁德时代等。

中科摇橹船:机器视觉“国家队”,发力“光+AI"

中科摇橹船是2020年如潮水般涌现出来的企业之一。

虽然成立时间短,来头却一点也不小,它是一家由中国科学院和重庆人民政府合力孵化的“硬科技”企业。

走“光+AI"路线的中科摇橹船,其"硬"主要体现在两个方面:一是完整掌握高端光电传感设备设计开发能力;二是专攻光电测量中的"卡脖子"难题。

依托中国科学院西光所深厚的技术背景和重庆丰富的制造场景,中科摇橹船以机器视觉“国家队”的身姿,对传统制造业转型升级中的难点、痛点问题逐个击破。

目前,中科摇橹船最新推出一系列智能视觉产品,包括基于5G的高精度多功能工业AI机器人平台、3D双目结构光相机、3D激光轮廓相机、2D/3D涂胶质量在线检测系统等。

一直以来,非标工业场景多、需求变化快、联通性差等问题,一直是中国制造业转型升级中的痛点,深陷国外巨头不愿做,国内小厂做不了的窘境。

高端工业相机是其中的典型场景,中科摇橹船自主研发首款3D激光轮廓相机,解决了皮革材料表面反光、无法透光检测等行业难题,一举填补了国内高端工业相机的空白。

在汽车制造行业,中科摇橹船瞄准汽车焊装和总装密封胶条质量在线检测场景,同时进行2D视觉和3D视觉两个应用场景的探索。彻底解决了涂胶机器人成像盲区造成的高漏检率问题,成为国内首家同时掌握2D/3D涂胶质量在线检测技术及装备的企业。

基于视觉感知的无人驾驶领域,中科摇橹船自研出光场相机,通过融合微透镜阵列成像技术、四维光场重构技术以及像质评价优化技术于一体,打破了国外巨头的技术封锁,为自动驾驶迈入L4阶段提供了技术支撑。

在人力成本飞速增长的当下,中科摇橹船重磅推出基于5G的高精度多功能工业AI机器人平台,兼具移动和协作两大特点,可同时替代多个工位。不仅如此,其更大的优势还在于通过一体化控制软件,同时实现多个场景的作业。

从疫情中成长起来的中科摇橹船,正如其创始人郑道勤所说:“只能前进,不能后退”。

舜宇智能光学:出身光学龙头舜宇集团,立足光学进军机器视觉

与其他视觉厂商相比,舜宇智能光学根基深厚。

舜宇智能光学隶属于光学龙头舜宇集团,目前舜宇集团在车载镜头领域做到了占有率全球第一,玻璃镜片、手机镜头销量全球第二,国际化之路不断深化。

面迎新技术浪潮,于2015年成立的舜宇智能光学,抓住良机,开始面向全球提供领先的光学影像产品及专业的行业解决方案,立志成为机器人视觉系统方案解决商。

其在机器人视觉上的信心,主要来自两个方面:

一是与生俱来的技术能力。舜宇集团已经深耕光学技术38年,这使得舜宇智能光学在2D图像处理、3D 图像处理、几何光学、物理光学的设计与仿真等基础研发能力上拥有天然的基因。

二是强大的生产制造能力。舜宇智能光学从最底层的光学设计,到软件算法,进行全方位核心技术布局与产品布局,并与各主流平台厂商、图像芯片等核心器件厂商、算法公司都保持着紧密合作。

在深耕3D深度视觉传感多年后,舜宇智能光学已经形成了"识别"和"定位"两大类产品,涵盖了LDV及工业相机、AR/VR、智能家居、移动支付、扫地机器人等新兴市场。

在工业生产领域,舜宇智能光学基于十多年的激光位移传感技术面向焊接机器人导引市场推出了激光焊缝跟踪系统解决方案。利用视觉激光传感器焊接机器人可跟踪识别各类缝隙,检测焊缝偏差,即时纠偏焊枪位置以对准焊缝,避免了焊接过程中因工件位置偏差、热变形等造成的焊缝缺陷,提高了生产效率及产品质量,并能满足柔性制造场景下多品种小批量的焊接需求。

在工业仓储领域,舜宇智能光学的深度视觉相机通过捕获和分析机器人运动过程中的视觉特征和深度信息,可辅助AGV进行自主定位、运动控制以及障碍物躲避,从而实现AGV在复杂场景中货物的自动搬运。

在扫地机器人领域,深度相机测量范围从0.2米到5米,误差小于1%,可快速实现扫地机器人的导航、识别、避障、建图、路径规划等各类需求。

在XR领域,提供的XR视觉解决方案涵盖6 DoF tracking、See Through、手势追踪、眼球追踪、面部追踪等XR领域主流功能需求,并实现各类结构光视觉、双目视觉、TOF视觉等全视觉方案覆盖,支持光学、结构、硬件、算法高度定制化开发,为不同需求的客户提供从场景到硬件的系统解决方案,是全球领先的XR视觉方案解决商。

精锐视觉:主攻AI质检、巡检,聚焦三大产品板块

在智能制造领域,精锐视觉是一位战略聚焦者。

创业伊始,就致力于从事机器视觉和人工智能技术在制造业中的产业化应用,目前主要形成了三大产品板块:三维高精度视觉检测系统、智能视觉巡检机器人系统、外观缺陷智能视觉检测系统。

在我国装备制造从低端迈向中高端的过程中,要解决制造质量问题,关键是解决超精密测量能力的问题。

而这正是精锐视觉的核心能力所在。

在微米级的检测领域,精锐视觉具备从图像采集到识别、处理、算法、硬件的多方技术能力。

其三维高精度视觉检测系统与外观缺陷智能视觉检测系统,主打高精度测量,目前在3C产业质量检测方面精度已经达到微米级(0.001mm),相较之下,行业中大多数检测精度仍维持在0.01mm级。

智能视觉巡检机器人系统围绕工业生产环境监测展开,对工业生产中难以实时监控或危险性较高的场景,利用轨道机器人进行检测。如发电厂煤仓间输煤皮带异常状况监测、钢铁厂原料输送区输煤皮带异常状况监测,煤矿矿井的危险气体浓度监测、化工厂设备危险气体、液体泄漏监测等。

精锐视觉智能视觉巡检机器人系统以巡检机器人为核心,配有轨道系统、供电系统、通信系统、后台管理系统。通过搭载可见光相机、红外热成像仪、拾音器等信息采集设备,可通过轨道24小时不间断自主前往各个巡检位置对相关设备进行信息采集,并在系统后台中进行分类存储、分析、展示,实现对钢铁厂炼铁原料筒仓输料系统的全覆盖闭环巡检。

目前,精锐视觉的相关产品和方案已经落地了钢铁、发电、化工、矿山、港口、汽车等诸多场景。

据悉,精锐视觉的客户已经覆盖国内超18个省份,与各领域制造业龙头企业、国企、央企建立了良好的合作关系,服务客户包括中国石化、中国航天、宝武钢铁、中国华能、中国铁塔、中国能源、环新集团等。

不拘一格,发挥专长

机器视觉,是通向智能制造时代之船的一块跳板,这块跳板正在日益加剧的行业竞争中,被不断拓宽、加固。

在这块并未被完全开发的宝地上,一批新冒头的AI企业动作快、势头猛、技术强、肯吃苦,特别善于在时代转型的弥合处寻找机会,发挥自身的技术专长。

从各个环节来看,上游的核心零部件生产存在极大的技术壁垒,核心零部件及软件开发占据了80%的比例,是产业链的价值高地。其中美国康耐视和日本基恩士作为全球机器视觉行业的两大巨头,都是机器视觉核心零部件的制造商,垄断了近 50%的全球市场份额,市值均超千亿美元。面对“卡脖子”,这些后起之秀根植自身的技术基因,在找准自我定位的基础上,扎根短板,图精求专,走出了新秀的特色。

在供大于求的需求经济时代,他们也包含忧患意识,以至少领先同行1-2年的自觉,不断挖掘产业新的需求。

他们为数甚众,是汪洋底下涌动的暗流,时刻准备着翻上潮头。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/m78VCVBDf49wAUFo.html#comments Wed, 29 Jun 2022 10:32:00 +0800
「鸿海之子」张宗尧想让人人都成为拥有智能管家的「工业钢铁侠」 //m.drvow.com/category/aijuejinzhi/SN59CPEn4wNDXcO2.html 2007年,富士康工厂正因产品不良率突然暴涨至10%焦头烂额,无论是内部团队,还是外部请来的几家专业咨询公司,都没能做出有效分析。

彼时,张宗尧从台湾大学研究生毕业,来到了他最景仰的公司富士康母公司鸿海精密担任工程师。

初入鸿海精密的张宗尧,本着初生牛犊不怕虎的精神,设计出一个机器学习模型,通过机器学习和线性分析发现包含温湿度,及其它影响制造的关键因子,并模拟出最优的因子参数,从而才消除了这次产品不良率的暴涨。

这也是他第一次用数据的方式,实际解决制造业中的生产难题。

病根确认,这一困扰工厂良久的“大难题”,最终顺利解决。张宗尧设计的机器学习模型,帮富士康省去了2000万美元的潜在损失。

数次脱颖而出的表现,让一直有意提携年轻后辈的郭台铭,精神为之一振,张宗尧于是有了“鸿海之子”的称号。

用数据分析,破解“黑天鹅”问题

成为一名科学家,是讯能集思创始人张宗尧从小就努力实现着的一个愿景。

正是由于这段与鸿海之间阴差阳错的缘分,张宗尧成为亚洲最早一批将机器学习在工业中落地的人。

在他眼中,许多实用的机器学习模型,并没有太高的技术壁垒。大企业花大力气都没分析出原因的关键,是囿于传统人工经验的固有认知。

面对罕见事件,既有的人工经验失效了。“企业大多时候不是利用数字化决策,而是凭经验。不常发生的事,他们就没有感觉。”

通过在富士康的学习,张宗尧近距离观察到了AI参与制造业转型升级的必要性。同时,他也意识到,数据分析尽管优势明显,但门槛颇高,只有很小一部分人才具备这种能力。

后来,张宗尧申请到了前往麻省理工读博的机会,在电机工程和计算机科学系,他做了大量指向降低技术使用门槛的AI自动化研究。

除了技术上的钻研,顶尖学府的教学理念以及整体的创业氛围,也为日后张宗尧的创业,带来不少启发。

一是做事前一定要明确其价值。麻省理工十分强调“研究要以应用为基础”。课程结束,即意味着将研究成果落地,并且保证实用性。

二是有大量现成的创业经验可参考。从孵化创业想法,到选择创业路径,再到寻找合作伙伴获得融资,后来者得以从整个创业链条中,获得借鉴与鼓舞。

六年前回国后,张宗尧四处走访智能制造公司以及制造业企业,惊异于国内企业竟还秉持着直觉与经验式的传统做法,“其他行业已经天翻地覆,为什么中国的制造业还是没有改变?”

彼时,中国的制造业正值脱胎换骨之际,数字化转型已成为企业进入下一个时代的门票。

想要在行业竞争中保持领先,如何高效利用数据,变得尤为重要。

以往企业做数据决策过程中,完成数据提取、清洗、分析、建模等一系列操作,需要借助数据分析师/科学家,整套流程不仅贵,结果也是滞后的,并不能支撑起“即时决策”或华为所说的“随需响应”,而且数据模型还难以复用。

系统数据困境的背后,是数据科学家的匮乏,以及技术与业务在知识、技能和经验上天然的壁垒。高成本投入下,企业决策却明显滞后,低效率的运转,很容易遭到市场淘汰。

面对行业痛点,张宗尧在2016年底创立了讯能集思,决定成为一家利用AI技术,辅助工业企业更好进行决策的公司,其解决方案是一款结合前沿自然语音及AI数据分析技术的人工智能决策平台JarviX。

这款平台最大的特点,就是没有使用门槛,每个人都可以成为数据分析师。

传统商业决策向下,智能化BI向上

传统式BI的最大弊端, 就在于效率低下。

2014年开始,自助式BI工具(也叫二代敏捷BI)开始在国内迅速生长,它面向业务人员,打破传统工业决策上的桎梏,但此时的BI产品,仍旧具有局限性,仅适用于具有一定IT能力的业务人员。并且,针对数据分析的能力而言,现行BI在Gartner定义的四种深度中(描述型分析、诊断型分析、预测型分析、指示型分析),也只能达到描述型分析的深度。

最理想的AI决策模式,无疑是让业务人员,广泛拥有数据分析的能力,且能做到不仅仅是陈述现状的统计分析。

随着 AI 、大数据和云计算的普及,叠加自然语言、机器学习等技术的发展,到2019年,完全由业务人员主导,几乎没有任何使用门槛的智能化BI,开始在国内引领新的发展趋势。

讯能集思致力于探索的智能化BI,就是相对于传统式BI和自助式BI而言的。

当时,智能分析领域的主要玩家,大多来自海外市场,国内企业使用的决策系统,往往是简单的英译汉版本。语言的隔阂,导致实际应用效果欠佳,也让众多国内有心转型智能制造的企业望而却步。

2019年,讯能集思正式在中国本土落地,立志成为一个能够以中文进行交互的AI决策系统。

随着大规模大机器工业时代的不断推进,市场需求不断变化,提升作业价值、降低库存风险、缩短产品上市周期、少量多样的个性化产品、高弹性低附加价值等,正在逐渐成为未来制造产业的发展趋势。

讯能集思主要客户以 1- 10 亿元的中型企业或者工厂为主,典型落地场景主要分为三类:

以富士康为代表的EMS工厂、以福耀玻璃为代表的汽车零配件工厂、以钰齐为代表的鞋厂。其中,前两类代表的电子制造业和汽车零配件是讯能集思布局重点领域。

在这一系列的需求变革中,将数据分析的能力赋能传统业务人员,是至关重要的一步,张宗尧认为“数据分析如果永远只停留在少数技术专家的手上,人工智能根本就没有办法取得长足的进步。”

如何才能让数据分析不仅仅是少数专家的特权?

基于这一核心问题,讯能集思研发了一款基于增强分析技术开发的通用 SaaS ——无代码 AI 智能决策平台JarviX。

JarviX这个名字来源于电影《钢铁侠》,剧中Jarvis是钢铁侠Tony的AI管家,拥有超强大的数据分析能力,而拥有了Jarvis的Tony,得以快速处理各种信息,拯救世界。

不过,张宗尧对雷峰网说,他把Jarvis的最后一个字母“s”,替换成了《X战警》中Professor X的“X”。

在张宗尧的认知里,Jarvis+ProfessorX,是终极技术理想的象征“最聪明的人脑结合最聪明的AI,帮助企业变成最聪明的企业。”

张宗尧认为,AI的作用,并非取代决策,而是辅助决策。他们想实现的,就是借助JarviX,人人都能独立且快速地拥有数据分析的能力。

对于不懂算法的业务人员来说,JarviX的操作步骤,可以简化为三步:键入关键词或问句、点击分析结果、点击建模指导决策。

与之相对应,JarviX背后的技术逻辑:

第一步:将各类数据(结构、半结构)导入到JarviX;

第二步:JarviX通过差异分析、根因分析、趋势预测、关联挖掘等AI算法发现因子,并结合机器学习找到关键因子;

第三步:通过行业优质实践模板与仿真器,实时AI建模,模拟出最优参数,找到解决方案。

JarviX的目的是无代码的解决企业内部数据源各异的需求,从经管与供应链的智能排产排程、自动库存优化、共用料优化、报价分析预测、到猜测供应商底价以及采购的分析预测;从生生端的良品率优化、不良根因查找、预测性维护到生厂参数优化等不同场景。

“以前的AI应用往往是一个算法对应一个应用,然后再搭建一个系统,JarviX可以自行组合各种算法并即时生成应用程序应对不同的客户应用需求。”张宗尧表示。

大部分中小企类连一个完整IT团队都沒有,更遑论建构数据团队提升数字化決策能力。张宗尧想要帮助那些没有足夠资源完成数字化转型的中小企业,让他们借助JarviX实现数据的快速导入和规模化应用,在不同的业务场景快速得到有效的决策辅助。

某消费电子制造商供应链部门,在应用JarviX后,项目准备流程从4人5天缩短至5分钟,分析销量提升95%;决策时间由1天压缩至30分钟,时间成本降低93%。

数字化转型,不是自动化转型

当下的中国商业智能软件市场,是一个颇具潜力的增量市场。

根据IDC数据,到2025年,中国商业智能软件市场的规模将达到16亿美元,未来5年,整体市场的年复合增长率为21.6 %。

然而客观来看,制造业中,AI、大数据等技术仍未在决策中得到广泛应用。下一步,该如何从这个市场中分食蛋糕?

讯能集思团队将今年的主要精力,放在了与这个世界的沟通上。

在张宗尧看来,“在国内从传统粗放型制造走向高端制造的路上,制造业赚的除了技术财,更核心的还是管理财”。

最开始创业的时候,讯能集思面对的还是一个未经培育的新兴市场。经常是“掏尽所有的脑子和别人解释”,然而对方却始终一脸不知所云的表情。

最记忆犹新的一次,张宗尧与一位有合作意向的厂商时隔一周后再见面,对方兴奋地说找到一家和讯能集思很像的AI公司,结果他发现那是一家机器视觉公司,张宗尧哭笑不得。

观念上的转变,是当时的商业智能软件提供商们,集体面临的困境。近些年,随着整个智能制造大局的持续推进,创业环境早已不复当年。

张宗尧最直观的感受是,客户已经会主动带着问题,前来寻求解决方案了。

尽管当下的市场,已不复荒蛮时期独立开垦的艰难,但智能BI在国内的发展只有短短3年,商业智能软件提供商与企业之间的隔阂依然存在。

张宗尧仔细研究后发现,那些被企业遗弃在角落的产品,其实本身做得并不差,问题在于产品手册写得不够详细。

产品的成功,从上至下每一处细节都至关重要。将产品各项功能与价值描述清楚,同样是一项需要耗费大量时间和精力的工作。“现在我们团队的两个人,就专门负责做这件事,我发现这是我们需要一直强化的地方。”

经过内部市场调研,张宗尧从以往经验中,发现另一个事实,即最成功的客户,领导者本身都拥有一定程度的数据思维,能够在企业内部慢慢引导形成正向循环。

“我们是降低门槛,但是不代表他们可以什么都不懂。”张宗尧对雷峰网说。

这意味着,当企业越清楚自己需要AI解决何种问题,实际落地效果就会越好。

怎样在几乎不用教育的情况下,在企业内部快速形成正向反馈,使业务人员具备数据思维,是包括讯能集思在内,整个行业将持续攻克的又一道难题。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/SN59CPEn4wNDXcO2.html#comments Thu, 23 Jun 2022 18:58:00 +0800
狂奔向 AI 质检「小」市场,互联网巨头的抢滩、上位与机遇 //m.drvow.com/category/aijuejinzhi/ifAampbljpUrYt1r.html 智能制造领域,工业AI质检这个细分市场正快速奔跑。

据IDC去年8月发布的《中国AI赋能的工业质检解决方案市场分析2021》报告显示,即使受疫情影响,相较2019年,2020全年中国工业质检软件和服务市场,依旧保持了近32%的增长。

这份存在感中,BATH等互联网巨头、AI龙头企业的声量颇高。

在各类榜单、报告、网站、分析文章中,都能见到他们的身影。

IDC数据,2020年的中国AI工业质检市场,份额前四的企业,百度、阿里、华为就占了3个。

值得注意的是,截止2020年,中国工业质检软件和服务市场的规模仅有1.42亿美元,在高速增长下,2024年的规模也仅为4亿美元。(IDC数据)

对于动辄在百亿、千亿规模市场操弄风云的互联网巨头们来说,这似乎只是一条颇为狭窄的赛道,但他们却一路挺进。

强烈反差背后,工业AI质检赛道何以能吸引互联网巨头纷纷下场厮杀?

AI巨头与工业的双向奔赴

传统制造业已经渴求AI质检太久。

一直以来,传统质检都主要依靠人工进行质量质检与产品分拣,瑕疵品常常难以被有效记录与分拣,再加上质检员经验水平参差不齐,效率低下、覆盖面积小、质检标准不一。

与此同时,中国人口老龄化、劳动力成本上升等问题,让“用工荒”浪潮席卷各个行业,重复、枯燥流水化作业的人工质检岗位更是如此。

AI质检伴随时代的鼓点而生。

相比于人工质检,AI质检优势明显。具有降低人力资源成本,实现质检范围100%覆盖,检测标准统一,提升良品率等优点,大大提升了生产效率。

不仅如此,AI质检借助机器学习建模进行深度分析,在流程优化与工艺改进上的优势,也非人工质检可以比肩。

商汤科技智慧工业负责人崔磊介绍道,目前商汤打造的AI质检产品和解决方案,已经贯穿了材料研发和设计、来料分拣、工业质检、仓储物流、安监运营等全流程,实现降本增效的同时,可以对生产工艺和运营质量持续优化。

传统工业制造领域对AI技术的渴求,催生出了一批前仆后继者,其中就包括手握人才、技术、资金、数据分析能力的互联网巨头和AI头部企业。

经历过消费互联网近20年的厮杀,互联网大厂优势不小。

首先是强大的资金。

市场初期,企业进行上下游延伸、技术研发投入、客户拓展、行业推广都需要强大的资金支持。

巨头们雄厚的资金,在建设周期长、速度慢的制造业,可以以资本换市场,某种程度上可以推动行业前进。

其次是足够的品牌影响力。

理想的智能制造,需要全产业链的共同投入,基础设施的支撑和上下游的共同配合才能完成。

他们品牌力,面对产业链长、生产过程极其复杂的制造业,可以以生态聚合能力吸引产业上下游一起玩。

再者是新视角带来的潜在创新能力。

科技历史无数次论证,创新往往出现在不同层面交叉点,对于工业领域,巨头们带来不同的知识背景和认知层次,从不同的角度和立场出发,也许,能带来不一样的业务模式、运营模式和商业模式的数字化、智能化变革思路。

事实证明,他们的确给工业制造带了新气息。

雷峰网了解到,早在2017年,AI质检还未被各路追捧之前,百度就已经进场了。

在某3C精密零部件的制造企业,百度智能云的AI质检方案将检测效率提高了近9倍,为企业年节省成本4000万。

在中国化纤行业的龙头企业恒逸化纤工厂,百度智能云的智能质检系统改变了过去依靠人眼+手电筒的传统质检模式,大幅提升了质检效率;

当初从首钢的AI质检出发,5年长途跋涉,百度智能云AI质检走进了电子、汽车、钢铁、纺织、能源、航天等十余个行业。

2017年,阿里云研发了业界首个工业视觉AI方案,并逐步应用于钢铁、化纤、汽车等领域。

近年,腾讯也承接了液晶面板制造行业龙头型企业华星光电项目,有消息称,该项目是目前为止国内最大规模的工业AI质检项目。

AI企业也不甘示弱。

商汤科技作为中国头部AI企业,商汤AI大装置也在各大工业质检领域落地。从汽车到3C,从纺织到医药,制造业对质检都存在巨大需求,也与巨大挑战。为了解决这些问题,商汤的深泉平台从质、敏、柔三个方面重点发力。质的方面,深泉平台从多光学方案支持、多零部件形态支持、多重质检支持三个角度提供了解决方案,可以将缺陷漏检率和误检率压缩到极致。敏的方面,深泉平台针对生产前-轻量化产线、生产中-软硬一体高效推理、生产后-工艺快速迭代提供了多方面解决方案,将工艺的迭代从“月”为单位改变为“周”为单位。柔的方面,

深泉平台提供了工业模型训练组件、推理工作流调度组件、报表配置组件,实现低代码支撑柔性质检,满足多件小批次的高质量质检。

应用深泉平台后,全球灯塔工厂之一的福田康明斯发动机工厂的质检效率得到大大提升,同时随着工厂向智能制造转型,企业竞争力也得到显著增强。

在他们的强势入局下,工业AI质检领域,也已经在3C电子、新能源、汽车等行业实现了规模化应用,且增长迅速,智能制造呈现出遍地开花的态势。

双向奔赴的背面

但巨头们看中的,真的只是AI质检吗?

这里不得不谈互联网大厂们的处境。

大势当前,美国工业互联网、德国的工业4.0、中国的智能制造2025、日本的超智能社会5.0蓝图,全世界都在向智能制造迈进。

海水将退,过去10年,他们是信息化革命红利的最大尝鲜者,如今,流量争夺战趋于顶峰,产业互联网金矿价值蓄势待发。

“光靠BAT撑不起中国经济”呼声高涨,在兴奋与焦虑参杂中,传统互联网巨头们几乎不约而同地,一个箭步跑向工业领域。

智能制造这艘时代之船,他们必须搭上。

但任何一个试图通过AI技术改造制造的企业,都无法回避的一点是:智能制造是一个极其复杂、庞大的体系。

想要做好工业,技术功底、资金支持、人才是必需项,但还远远不够。

最基础,也最核心的要点之一是,工业需要深厚的行业知识与经验。

智能制造,核心在于“制造”,一切“智能”都需要建立在此基础之上。

中国是全世界唯一拥有联合国产业分类中全部工业门类的国家,而每类工业企业都有自己独特的工业Know-How和行业知识。

“一米的宽度,一百米的深度”的行业特性,背后是深厚、专业的行业知识。

没有对制造业的理解,所有数字化、智能化方案都将是无源之水、无本之木。

在技术愈发内卷背景下,能吃透工业知识的跨界企业,并不多。

互联网企业也意识到这一问题,对于不可不得的智能制造领域,在目光所及之处,工业AI质检成为智能制造一个绝佳的切入口:

AI质检效果直观、投入产出相对清晰:质检可以直观的告诉工厂主能节省多少成本,能降低多少误检漏检率,赋能企业也能更快获得产出。

行业know-how要求相对低:质检的精细化特质,对故障率的要求极高(1%或更低),让AI的高精特性得到最大程度体现。

部分市场接受度高:已经在3C电子、新能源、汽车等行业规模化应用,且增长迅速。

而对于中国工业质检市场1.42亿美元规模数据(IDC统计的2020年数据),百度智能云智慧工业事业部副总经理黄锋和商汤科技智慧工业负责人崔磊指出,1.42亿美元仅是软件的规模,而工业企业最终使用的是包含光学、自动化在内软硬一体的方案。

“而且AI质检市场的渗透率不足5%,目前属于快速增长的增量市场。”黄锋补充。

“目前商汤的工业质检产品,都采用了软硬一体的方式,工业质检中软硬一体设备的市场,远远超过这个规模。”崔磊肯定的说。

政策利好、市场需求、技术优势下,进入这个赛道的云厂商、AI创企、传统机器视觉企业、工业互联网平台企业等,看中的是这个赛道未来发展的潜力与增速。

智能制造,任重道远

所有跨界企业需要明白2点:

第一,工业AI质检只是相对简单。

正如前文所述,AI质检发展数年,渗透率依然仅有5%。

对于漫长的工业革命进程而言,AI质检的发展时间的确不长,但不可否认的是,AI质检市场也许没有大量入局者想象中容易。

需求碎片化、定制化;数据库样本不足;工业领域的数据极为庞杂、分散,且贯穿研发、生产、测试、运营等生命周期;数据开采周期长,效率低;AI质检,背后还涉及光学、自动化、电器等多学科交叉融合......都是制约AI质检市场规模化的拦路虎。

这些都需要扎根工业,逐个摸索。

黄锋介绍道,AI质检的研发与落地,都需要深入工厂,而工厂一般位于郊区,内部环境嘈杂,生活上也有诸多不便之处。算法工程师们在工厂经常一待就是几个月“不是所有大厂、所有的算法工程师都能耐的住寂寞,吃得了这个苦。”

黄锋认为,百度AI质检取得领跑优势的原因之一就在于扎实。

第二,AI质检领域卧虎藏龙,他们需要面对的,还有一群虎视眈眈的竞争对手。

以海康、大华为代表的安防巨头,早已在工业视觉领域占据一席之地。

碎片化的工业视觉市场,具有可预见性差、稳定性强的显著特点,但这恰恰是海康、大华擅长的领域,这种业务模式,他们已经在安防领域操练了近20年。此外,6、7年前就开始的战略布局,产品和服务方面的经验迁移,都是海康、大华等“老将”们的优势。

时代潮流下,也催生出一批AI创业企业。

他们一开始就目标明确,心无旁骛的扎根智能制造。技术实力与互联网大厂相比,也不遑多让。快速响应、吃苦耐劳是他们甩开竞争对手的必杀技,“XX(某行业巨头),他们自己不想花时间和精力攻克某个技术难点,我们整个项目组花了好几个月时间,捣鼓出来了。”此前一家AI创业企业这样对雷峰网表述。

如果说,将AI创企比作工业视觉领域,血气方刚的年轻人,那么传统视觉厂商,就是一路卧薪尝胆的智者,在中国工业视觉市场承担着中流砥柱的重任。

他们是大风大浪中淘洗出来的胜利者,历史的积淀使他们拥有品牌、客户、资金、技术多重优势,在不断巩固自身地位的同时,一边默默啃食对手的份额。

在国外,则有盘踞高端、垄断中国约60%市场份额的美日德巨头康耐视、基恩士等。

他们以高端市场为目标,同时极其注重产品质量和技术创新,通过差异化功能,和“比客户先行一步”的行动力,保持着让行业难以望其项背的业务能力与营业能力。

黄锋也提到,未来的AI质检市场,比拼的是更优的效果、更快的交付,更低的成本,更好的客户ROI。对AI技术提供商而言,产品化和交付标准化是核心竞争力。

在推动传统制造业数字化转型的过程中,这些困难是不可避免的。对于互联网巨头来说,这并不是一条容易走的路。

第三,始于AI质检,但不应止于AI质检。

所谓智能制造,即是利用新一代信息技术,来提高生产效率、产品质量、降低能耗等,贯穿设计、生产、管理等制造的各个环节和产品的整个生命周期。

AI无疑是最适合回答这道题的主角,但是现下,还没有出现通用性解法,大多是以某个行业的单一场景做突破。

如果仅聚焦于单个设备、单项技术的智能化,无法带来整个生产环节的效率提高。

如何让人工智能技术给制造业带来普惠,引领制造业的升级,而非在一个细分赛道与众多企业缠斗,是巨头们需要思考的问题。为此,百度智能云基于“点线面体”,从单点设备到生产流程,到企业,到产业区域,探索全方面赋能企业和地方经济发展。

当下的工业AI市场,无疑是一块色香味俱全的大蛋糕,且存量颇丰。随着这条赛道的难点被不断攻克,蛋糕被不断瓜分,届时,这条赛道上的所有入局者之间,势必产生一番激烈的角逐。实际上,除了AI质检,互联网大厂们也在利用已有的落地成果改进算法,提高技术通用性,探索更多帮助企业降本增效的方案。

历史的经验教训告诉我们,在此之前,哪家企业始终怀揣智能制造的大局,率先在其他领域多方布局,才能最终把握时代风向,书写更为精彩的历史。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/ifAampbljpUrYt1r.html#comments Sun, 05 Jun 2022 18:43:00 +0800
AI 公司难逃「豪车定律」? //m.drvow.com/category/aijuejinzhi/vsbHt4h6e8agtlW0.html 在大众旗下的超豪华车品牌里面,保时捷绝对是最特殊的一个。

当劳斯莱斯、宾利、兰博基尼等一众品牌因亏损不得不「卖身」给大众时,保时捷却反其道而行之:曾计划收购大众。

虽然该计划并未成功,保时捷汽车也成为大众旗下的品牌,但却并非是因为亏损,而是一次精心的资本运作:即便保时捷汽车贴上了大众的标签,但保时捷汽车曾经的所有者,保时捷控股却持有大众50.76%的股权。所以从某种程度看,反而是保时捷的成功。

而在一众亏损的超豪华车品牌中,保时捷却能以331亿欧元(2021年数据,下同)的营收及53亿元的销售利润傲视群雄,成为大众最为吸金的奶牛。

2021年底,关于保时捷上市的消息甚嚣尘上,与之相对应的是,网传大众正打算出售兰博基尼。

同样是豪华品牌,一个赚钱准备上市,估值900亿欧元;一个持续亏损,多次被卖易主;令人唏嘘之余,却也让人遐思,保时捷为何能打破魔咒,在一众亏损的品牌脱颖而出?

如果将之迁移到AI行业,便会有一个触摸灵魂的问题:在一众亏损的AI公司里面,有没有可能出现类似保时捷的AI公司?

如果有,这样的AI公司将以何种形式出现?如果没有,等待AI公司们的,会是怎样的命运?

技术、成本、利润:AI的不可能三角?

成本高企,是让所有AI公司头疼的问题。

以已经上市的商汤科技为例,2021年,其研发投入30.6亿元,占其营收(47亿元)的比重约为65.1%,这还不包括其它的开支,如运营、管理等;对应地,其净利润为-14.2亿元,同比扩大61.5%。(数据来源:商汤科技2021年报)

头部企业尚且如此,其余AI公司的经营数据可想而知,亏损成了AI公司挥之不去的噩梦。

“大家都在亏,只是亏多亏少的问题。”某AI公司员工告诉掘金志,其所在公司正筹备上市,由于财务数据不好看,原定于上半年IPO的计划也一再推迟。

“加上疫情、经济形势等错综复杂的因素,现在上市或许不是最佳选择,IPO计划仍在稳步推进,但管理层更为小心。”

疫情、冬奥会等赛事确实创造了一些机会,比如智能防疫、智慧园区等项目,但在巨额亏损面前显得杯水车薪。

“疫情期间,集测温、健康码、身份验证于一体的面板机火了,然而要扭亏为盈,得卖多少面板机呢?”

面板机火之后,市场上很多集成商,一夜之间全冒出来了,推出了各种各样的牌子。这些“杂牌”具备价格优势,在集成商的渠道加持下,成功打入企业、小区等市场。而搭载AI公司算法的面板机,反而在价格上无法与之竞争,市场上出现了劣币驱逐良币的现象,因为“市场需求没那么大,多数企业只要能满足日常就行,不会为了更强大的功能,多出钱。”

换句话说,追求技术的AI公司,反而被技术掣肘,被自己困住了:

公司研发成本高,加上销售、运营、管理等费用,导致成本巨高不下。在此情况下,AI产品本身定价相对较高,而市场本身不存在对AI消费的刚性,也很难为高成本的AI买单。为了保持技术优势,AI公司又不得不加大研发投入......从而陷入「越亏越投、越投越亏」的循环。

“高不成低不就。”某证券研究员表示,高成本的AI产品必然难以形成低价的AI普惠,而如果降价出售,利润率又是一个非常头疼的问题,相当于亏本买卖,AI产品处于一个相对尴尬的位置。

他认为,公司要赚钱,需要考虑两个因素:利润空间和销量。

当利润空间足够大,销量的影响便会弱化,企业以技术、质量取胜,对跑量反而不那么关注,也能盈利。但类似产品一般适用于垄断性产品,并且消费存在一定刚性,例如荷兰阿斯麦的光刻机。

而利润空间不大时,企业也可以量取胜,通过规模化生产拉低边际成本,类似产品通常具备标准化能力,能够快速、大规模地复制,尤其适合一些技术不高的工业产品。

但对于AI来说,市场需求本身无刚性可言,因为AI是锦上添花,而非不可或缺,因而销量本身是AI公司无法完全把控的,不单受产品本身,还受到各种市场因素影响,是个未知变量。

所以AI公司能做的,方法之一是提高利润空间,削减成本,把AI产品的价格降下来,进而带动销量增长,形成正向循环。

保时捷「出圈」的秘密:成本、成本、成本!

保时捷的成功,一要归功于对市场的把握,较早推出了SUV车型,时至今日,卡宴和Macan都是其最为卖座的车型;二要归功于其对成本的控制,加上其强大的品牌效应,带来的品牌溢价,使其利润空间非常之大。根据一些机构的测算,每卖一辆保时捷,平均利润大概为12.4万元,而作为参考,每一辆丰田,平均能挣1.78万元。

在2022年3月的新闻发布会上, 保时捷全球执行董事会副主席兼成员、负责财务与信息技术的麦思格表示:“健康的成本结构是保时捷取得优异业绩的基础之一。”

但这家最赚钱的豪华车品牌,也曾一度濒临破产。

1991年,保时捷亏损高达1.33亿美元,销量日益下滑,而在此时,魏德金重返保时捷,进入董事会,并于次年担任董事长,带领保时捷走上了逆袭之路。

魏德金上任之后,将精力放在两方面:控制成本、提高效率。

成本方面,保时捷把除发动机以外的部件,多数外包给供应商,缩减了自建厂房、零部件产线等固定成本,保时捷自己生产零部件的比例维持在10%-15%左右,并且派人指导供应商提高效率,以缩减零部件采购成本。

效率方面,魏德金派人前往日本学习精益生产模式,改造生产流程,以实现规模收益。

魏德金接手保时捷后的第四年,便实现扭亏为盈,后来又推出了卡宴、macan等SUV,在世纪之初汽车行业不景气的大环境下,保时捷一骑绝尘,甚至想要把大众收入囊中。

虽然收购大众的计划破产,魏德金也因涉嫌操纵股价被捕,大众完成了对保时捷的「反向收购」,将其纳入麾下。但这并未影响到保时捷本身的发展,背靠大众,保时捷反而利用其生产平台,在研发成本、提高效率及利润方面获得了极大的优势。

比如,卡宴、Q7、途锐,都出自于大众MLB Evo平台,这种共享平台的模式缩短了研发周期,降低制造成本。从外表上看,这几款车非常神似,甚至不少零部件都是通用的。

在保时捷的车型里,不少零部件实际上印着奥迪的logo,模块化生产的方式,让其能够实现流水作业,大大提高了生产效率。保时捷的一些发动机,实际上也是与奥迪共同研发,双方可以在同一平台下进行针对性的技术调校,从而降低研发投入。

这或是保时捷成功的秘诀:通过控制成本,提高效率,进而提高单车利润,使其具备强大的盈利能力。而与大众的珠联璧合,保时捷进一步拓展成本优势,巩固市场,其品牌效应及产生的利润,又反哺至生产的各环节,进而支撑其技术、产品研发,形成完整闭环。

保时捷的成功来源于多方面,但产品本身的竞争力,尤其是成本控制之后形成的价格优势,是其能够在众多亏损品牌之中「出圈」的根本原因。

AI与豪车:同样的宿命?

如今,除了少数几个品牌,如保时捷、法拉利能赚钱以外,无一例外都是亏损的,多数超豪华车品牌成为车企“秀肌肉”、展现技术实力的途径。

AI与豪车,虽然性质不同,分属行业不同,但基本现状很接近:成本高、价格高、缺少需求刚性等三大特点,是其实现盈利的三大阻碍。

通过保时捷的例子,AI公司或许能借鉴些许经验:削减成本。

削减成本有多种方式,比如保时捷将核心零部件以外的产品外包、改造产线等,削减的是厂房建设、开设产线等固定成本;而与大众旗下其它品牌共用平台,削减的是研发成本。

对于AI公司而言,高昂的研发投入,是其成本高企的重头。

不少企业都通过建设自家的AI生产力平台,来缩减研发周期,以降低研发投入,但构建、维护平台本身就是一笔不菲投入,明星公司或许能cover,但对于许多创业公司而言,这笔费用不一定吃得消。

尤其是在资本逐渐「退位」的趋势下,AI融资更加聚焦头部企业等优质项目,许多AI公司账面已经面临「余额不足」的窘境,纷纷削减宣传、行政等开支,节衣缩食过寒冬。

因而,通过构建平台、或者拓展别的技术,如小样本学习等来缩减研发投入,对多数AI公司而言“可以尝试”,并且“浅尝辄止”,但根本上无法改变高研发的现状。

AI公司或许可以走第二条路:像保时捷与大众那样,选择一家企业彼此「互相成就」。

实际上,AI公司被收购的案例,在国外并不少见,比如微软收购Nuance,脸书收购GrokStyle,英伟达收购Mellanox Technologies;但在国内,类似的收购非常少,即便有,也以国内互联网公司收购国外AI初创公司为主。

这种现象背后有两方面因素。

一是AI公司不愿意被卖,这与很多国外AI公司不一样。一位AI公司创始人告诉掘金志,国外许多初创公司被收购,就已经认为是一种成功;但在国内,被收购是一件丢脸的事,管理层的目的是将公司带上市,来证明自己。

二是大厂不愿意买。没有充足的资金实力,很难养一个AI公司规模的团队,而且AI人才成本极高,能在薪资上无压力cover AI人才的公司,多以互联网为主,传统企业显然吃不消。但互联网企业本身会成立AI团队,花钱从AI公司挖人,而非整个团队。

买方没有买的必要,卖方也没有卖的意愿,这是国内几乎很少有AI公司被并购的主要原因。

在并购希望不大的情况下,AI公司其实可以与大公司合作,尤其是在研发层面,以共同合作、成果共享的方式来缩减研发成本,但这又涉及到利益分配及信任问题。对于AI公司而言,技术就是生命,很少有人愿意这样做。

因此,很难有像保时捷一样的AI公司出现,摆在AI公司面前的路,似乎只有上市这个「唯一」的选择。

但上市也并不能让AI公司扭亏为盈,虽然融资更为方便,但盈利问题始终没有得到解决,资本市场也很难看好。

其中不乏已成功上市的AI企业,其股价在短暂推高之后便开始回落,当前股价较最高位已接近腰斩,这与大环境不无关系,但最核心的问题仍然是亏损,商业化落地前景不明朗,不及人们的预期。

“最难过的是苦苦挣扎的中小企业,融资市场已经出现「二八定律」,头部企业拿走了大头,剩下的中小企业拿到钱并不容易,上市基本无望。”

时间继续往前走,AI公司们也将面临来自市场的自发出清,当部分AI公司烧完融到的钱之后,在无法获得新一轮融资「输血」的情况下,未来不乏有AI公司破产甚至被收购的可能,与那些被收购的豪车们,殊途同归。

结语

从最早强调技术,到现在以产品为中心,AI公司们在寻找商业化落地的路径上寻寻觅觅,却始终未能找到财富密码。这或许并不是AI公司的问题,而是技术本身,还不能形成普惠。

这正如汽车一开始是奢侈品,而今变成了必需品,整个过程花了上百年时间,背后是汽车相关技术的普惠。

AI也终将迎来大放异彩的日子,但在通往光明的路上,已经上岸(市)的AI公司们面临业绩压力,没有上岸的公司在苦苦坚持。

他们都在努力着,避免倒在天明前的黑暗之中。雷峰网雷峰网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/vsbHt4h6e8agtlW0.html#comments Thu, 26 May 2022 16:08:00 +0800
旷视 to B 的核心「秘密」 //m.drvow.com/category/aijuejinzhi/5HPmKyz7nfVogYzv.html "To be or not to be,that is the question."

莎士比亚这句流传极广的名言,被国内的翻译学者朱生豪先生,汉化为"生存还是毁灭,这是个问题",成为翻译界不可多得的神来之笔。

这句话的普世价值在于,不论是人、企业、组织,往往都会面临抉择,一个错误的决定很可能带来的是无休止的痛苦与煎熬,在试错成本极高的情况下,不论做什么事,都应该问一句:做,还是不做?

对于AI企业而言,现在已经到了做出选择的时候了。

经过十数年的沉淀与摸索,AI已经不再是空中楼阁,也褪去了神秘外衣,成为触手可及、能够为普通人感知到的技术。资本故事已经无法再续写下去,通过商业化落地来实现自身「造血」,成为AI企业的头等大事。

摆在AI企业面前的,并不是"to be or not to be"这个哲学命题,而是"to B or not to B"这个业务选择问题。两者之间的关系在于,AI 必须to be,可以选择是否to B,但to B 直接影响到AI "生存还是毁灭"。

在"回答to B or not to B"这个问题时,旷视选择了to B,也就是企业端业务。

2020年初成立企业业务事业部(EBG)到现在,两年时间里,旷视持续在B端发力,不管是从组织结构,还是人力、技术等资源,都能看到旷视对拓展B端业务真金白银的投入。

然而,如果不把旷视为什么做,怎么做,以及怎么把B端业务做得更好,这三个问题进行回答,就如同组织失去了行动纲领,政策缺了顶层设计,到头来只会造成一片混乱。

在跟踪报道旷视多年、与多位旷视高管进行对话之后,雷峰网试着来回答这三个问题。

为什么to B?

先看势。

而今,正处于AIoT时代,AI、云计算、大数据等技术的进一步发展与落地,驱动着最广泛的一波数字化浪潮汹涌而来。

从企业侧看,在人口老龄化、用工荒等现实难题下,越来越多的企业拥抱数字化,采用人工智能、大数据等技术来提高效率;同时,疫情环境下,运营管理成本的上升,也促使企业利用数字化工具、系统来降本增效,提升管理效率。

从政策端看,政府也积极鼓励企业数字化转型,数字化已经多次出现在政府工作报告、十四五规划等政府文件之中,先后出台了多种政策助力企业数字化转型。

从市场动向看,不论是腾讯阿里等互联网公司,还是华为这类ICT公司,都已经瞄准B端业务,先后投入大量人财物,志在抢占数字化市场高地。

正所谓:"激水之疾,至于漂石者,势也。"

对于做B端业务的企业而言,客户有需求,政府有政策,市场有竞争,前景很广阔。因此,旷视选择 to B,是发生在数字化转型这个浪潮之下的必然选择。

再看形。

所谓形,指的是企业本身。

在AI进入商业化落地阶段之后,AI企业也急需寻找自身技术、产品能够落地的行业,拓展业务来自身造血。而企业做生意大致有三类客户:消费者业务(C),企业业务(B)和政府端业务(G)。

这三类客户对于AI的理解、需求以及付费能力都是不一样的。

普通消费者对于AI的理解较为失真,或低估,或高估,而对于消费者业务,AI企业也很难开发出一款现象级产品来推动AI落地,加之AI产品研发周期长,成本高,很难通过大规模出货来拉低边际成本。因而C端业务对于AI企业而言,在现阶段或许并不适合全面铺开。

B/G端用户和C端有着比较明显的区别:付费能力、付费意愿更强,而且对AI的赋能有着庞大的需求。但与B端不同的是,G端很多大项目,但数量有限,而且需要较为稳定的渠道;但B端业务则更偏向于"完全市场竞争",市场本身够大,玩家够多。

所以作为一家AI企业,旷视现阶段发力B端业务,也是最为合适的选择。

"势"为外因,"形"为内因,形与势的结合,即可产生海量势能。旷视之所以选择做B,实际上是结合自身AI能力、定位,与对市场前景的判断,综合因素做出的业务战略。

怎么to B?

旷视的B端业务起步很早,在2020年之前,成长于消费物联网、城市物联网以及供应链物联网三大业务板块之中。

2020年1月,旷视正式成立了企业业务事业部(EBG),五个月后,旷视首次对外公布了「企业服务战略大图」。

"EBG的成立不是偶然决定,而是旷视业务发展水到渠成的规划和升级,是一个必然趋势。"

这是当时的EBG向业界发出的讯号,很显然,这里的趋势便是此前提到的数字化浪潮与AI企业本身追求落地业务场景的诉求。

不过,B端业务面临着一个问题:碎片化。由于B端客户来源于各种行业,场景需求也千差万别,很难像消费者业务那样形成标准化产品,因此B端业务对AI企业本身具有很强的挑战难度。

旷视的打法分两层:一层对内,一层对外。

对内,旷视启动了组织架构变革、发布新战略,也就是2020年成立的EBG事业部,以及「1+3+6」战略。

具体来看,EBG业务部将原来的大客户业务单元、商业业务单元进行资源整合,将产品交付中心、软件研发中心、硬件研发中心、解决方案中心,以及强大的客户拓展和客户支持团队,以事业部的方式展开协作。

这样做的目的是,打通原来部门之间形成的烟囱壁垒,降低沟通成本,提高部门协作效率,从而快速响应企业客户的碎片化需求,缩短解决方案交付周期。

「1+3+6」战略则从顶层设计上确定了发展方向,即以"一个平台、三大主赛道、六大细分领域"为指南,所有部门围绕着该战略进行部署调动。

对外,旷视建立了初步的合作伙伴体系。

在选择合作企业时,旷视首先选择具备一定数字化、信息化程度的企业,这些企业已经积累了数据,能够实现AI算法训练,能够让AI产品跑起来、用起来。

旷视本身作为一家AIoT公司,划分了自身的界限,即"有所为有所不为",所不为的是"一些行业应用非常窄、非常复杂的行业",而是选择与那些懂行业的生态合作伙伴,为后者提供平台和软硬一体的产品支持。

在对内对外双管齐下的打法之下,旷视以EBG为作战部队,配合以「1+3+6」行动指南,再配合合伙人这一重要外援,共同征战to B战场。

如何在to B领域做得更好?

"向空间要效率。"

这是旷视在两年时间里摸索到的企业用户的新痛点。

过去,在IT时代,企业向"事、流程要效率",催生了ERP、CRM等系统,也成就了SAP、Oracle、用友网络等知名厂商。

到了IoT时代,企业开始"向物、机器要效率",通过接入大量的IoT设备,使生产过程中的大量数据能被自动获取、上传,来提高设备生产效率,形成了SCAD、MES、PLM等系统,又成就了一批提供自动化服务的公司。

而今,到了AIoT时代,通过AI与IoT的深度融合,打通设备感知、执行的双向互联互通,在此基础上,构建智能化、数字化生产生活空间,"向空间要效率"成为B端客户的新需求。

换句话说,在这场数字化浪潮里面,旷视瞄准了空间数字化。

所谓空间数字化,并非单指物理空间,比如实体办公室,而是将这个空间里面的人、事、物三要素整合,打造成一个数字空间。

在这个数字空间里,人的体验、尊严等都得到保障;在AIoT技术和产品的加持下,人的工作效率、企业的生产/管理/运营效率都得到显著提升。

雷峰网了解到,旷视的空间数字化主要涵盖"办公空间、公共空间和生产空间"三大领域。

办公空间数字化:包括一些智慧办公应用;

公共空间数字化:包括警戒、安全等各种识别;

生产空间数字化:包括人是否有戴安全帽、穿工作服以及其他违法操作检测。

那么,旷视如何打造"空间数字化"?

简单来说分三步。

第一步:建立数字感知超级入口,即打通各种空间形成的竖井系统,推动多个价值场景的闭环应用;

第二步:打造数字感知体系,包括了AIoT的应用、平台以及管理云、边、端的各类设备,共同构成了"新型基础设施"。

第三步:由“数字感知”进一步推动分析决策到自动化执行的过程。

这整套数字感知系统,是旷视实现空间数字化的重要基石。而旷视EBG的任务,就是"提供高智能的数字感知系统",构建空间数字化合作生态,为企业/组织实现降本增效、助力转型。

打法之外,旷视在产品层与合作伙伴层也有动作。

在产品层,旷视推出了一整套AIoT产品作为支撑,既有神行面板机、敏观IPC等前端(也就是超级入口之一),也有鸿图、魔方等边缘侧设备,终端侧加上边缘侧的智能硬件,共同构成了AIoT的基础产品;同时,旷视也推出了盘古应用平台。

在合作伙伴层,旷视发布了新的"AIoT生态合伙人计划"。

此前,旷视与合作伙伴是"上下游、厂商与渠道"的关系,通过卖标品和方案给到合作伙伴,最终服务最终用户,完成整个前线的闭环。

该计划推出之后,将升级原来的模式,实现从渠道型合作向能力互补型合作的转变。将通过三类合作伙伴来服务行业客户:全国性的行业ISV、区域ISV、产品方案商。针对不同类型的合作伙伴,所合作的内容、方式也是不同的。

譬如,ISV可能具备特定区域的资源以及渠道,但缺乏标准产品,旷视就提供AI单品、AIoT软硬一体化产品;而对于产品方案商,拥有硬件研发、产品生产的能力,但缺少AI算法,那么旷视就提供算法、SDK等,协助它们做好自家产品。

可以看出,旷视在企业数字化转型方面的思考与探索,一直保持与时俱进、观察市场动向,而在锚定方向之后,便快速升级了路径。

这或许是旷视 to B 最为核心的「秘密」。

结语

在企业数字化转型浪潮下,对于AI企业,to B已经是必选项,但对于B端业务的理解,也会形成不一样的思路、方法。旷视在经历多年的摸索中,渐渐找到了合适自身的模式:以产品为中心,打造多层次生态合作伙伴体系。

独行虽疾,众行更远。未来,旷视将与合作伙伴一同开拓空间数字化,to B and to Be。雷峰网雷峰网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/5HPmKyz7nfVogYzv.html#comments Fri, 15 Apr 2022 18:16:00 +0800
“请给AI一些包容。” //m.drvow.com/category/aijuejinzhi/2Tqm7MSrcrrfIc81.html “说实话,我很不喜欢「人工智障」这个词。”

在与掘金志的聊天中,一位从事计算机视觉方向的算法工程师多次表示,他讨厌这个词很久了,几乎是本能的反感,即便只是一种调侃,在他看来都是一种嘲讽。

这种嘲讽就好像是,一名路人,对着自己刚刚学会爬的孩子冷嘲热讽:这孩子真笨,连路都不会走。

他甚至坦言,如果身边有同事使用这个词自嘲,他会刻意与之保持距离,因为这种自嘲实属对自己的工作、对专业知识的“不尊重”。

拥有他这种技术性癖好的工程师不在少数,在掘金志询问的多个从业人员之中,都表达了类似观点:通常被问及人工智能水平时,类似表述以「弱人工智能」为准。

某负责品牌传播与公关的业务专员透露,如果在对外交流中使用了「人工智障」之类的词,被举报或是被公司发现,“直接影响绩效考核”,因为这类不专业的表述很可能导致负面的传播效果。

在与这些人的谈话中,掘金志发现,在AI圈内,从业者对于AI有着清晰的认知,在外宣的时候,对AI的负面化表述都较为严谨。

然而,在圈外,接二连三发生的各种AI事故,让大众对AI的真实能力产生诸多怀疑,关于人工智能变成人工智障的言论甚嚣尘上,唱衰人工智能的声音时常见诸报端。

表面上,这只是一场关于AI的舆论争议。但,其实质却是企业与大众对AI话语权的争夺,并会直接影响到AI的推广、落地与应用。

“如果大众无法对新技术形成有效的认知,那么新技术的推广则是非常缓慢的。”某传媒大学在读研究生表示,大众对于新技术的接受能力是逐层递进的,这个进程很容易受到舆论影响,而负面舆论则存在一种「爆破效应」,可能会直接摧毁此前建立起的「信任基础」。

比如自动驾驶,公众对其的信任基础很薄弱,出现多次事故之后,这种信任实际上已经消耗殆尽。

相关调研报告显示,自动驾驶一哥——特斯拉FSD在国内的激活率不足10%,甚至相当一部分人没有开通AP服务,即便在开通的人群中,也很少有人会使用AP功能。

这种现象固然有其客观原因(比如路侧数据不够、算法能力有限),但从舆论传播的角度看,自动驾驶的一次失误,比起传统汽车的十次车祸更加严重,从而也给自动驾驶的进一步落地,带来阻碍。

那么,如何给大众建立起对AI的有效认知,推动AI更快、更广泛地落地?

掘金志通过采访之后认为:媒体报道、企业外宣、大众知识普及教育,是三个最主要的途径。而围绕着大众展开的各种「认知教育」,也注定是一场旷日持久的「攻坚战」。

“未曾下海,不知水深”

人工智能应用有一个有趣的悖论:当一种AI技术已经非常普及的时候,人们普遍不会认为这就是AI。

好比上世纪八九十年代,一台黑白电视机可能是划时代的象征,需要手动调频;但现在遥控型的彩色电视机成为标配,人们也不觉得这就算智能。又比如,小区停车场通过车牌识别进出、刷脸进入小区等,在近几年开始普及,但人们很少将之与AI联系起来,即便这里面实际上用了各种识别算法、芯片等等。

在大众的认知里,人工智能理所应当达到电影里机器人的水平,或者近似人一样地思考、行动。

“大众有时对于人工智能过于乐观,甚至高估。”中国计量大学信息学院副教授、人工智能专业负责人杨力认为,作为走向社会的新技术,人们对AI的理解并不全面,认为AI应该无所不能,这种认知与实际并不相符。

在掘金志看来,大众对于人工智能的认知比较浅层,这主要表现在两个方面:

  • 不了解、不清楚,对于什么是人工智能,没有直接的印象;

  • 有一定了解,但无法理解AI的深层逻辑(原理结构)。

这种浅层认知很容易被诱导,而在一些不着边际的宣传之下,AI本身的能力被过分夸大,大众对AI产生盲目「自信」或高估。

“外行看热闹,内行看门道。”

杨力表示,以人脸识别为例,5年前可能人们会觉得很神秘、先进,但在经过消费类电子的普及之后,许多人觉得人脸识别已经没什么难度了。当他给学生们授课讲人脸识别时,同学们都觉得这已经是很成熟的技术,“并不新鲜,难度不大。”

但其实人脸识别距离高度智能化还有很长一段距离,在许多复杂场景下,很难捕捉到有效的人脸信息。并且,人脸识别在小规模(数据库较小)场景下效果很好,但当数据库非常大的时候,识别的准确率就没那么高了。

“大众由于缺少专业知识,很容易把复杂问题简单化,但从事AI研究的人对此却非常谨慎,普通人觉得简单的技术,从业者可能会觉得‘这个做不了,那个做不了’,简单而言,就是望山跑死马的感觉。

掘金志发现,由于缺少专业的通识教育,大众对于人工智能的了解渠道比较单一,多数是通过媒体报道、企业宣传这两种途径来触及AI,只有小部分人会自发研读相关书籍、学习课程,以增进了解。

从传播的角度看,如果受众获取信息的渠道有限,那么该信息渠道的控制人将具有信息传递的「控制权」,形成一种「舆论垄断」的局面,而信息在经过多次传播之下,极易「失真」。

实际上,这种「失真」是在所难免的。在AI的传播过程当中,形成了圈内和圈外两大群体,由于人工智能本身属于较高门槛的专业,圈内(企业)和圈外(普通受众)之间的连接,主要通过媒体来实现。

但媒体宣传存在问题是,许多从业者要么科班出身,要么跨界转型,真正懂AI的媒体人只有少数。并且媒体本身随着大数据、互联网技术的变化,进一步下沉到各平台,又造就了无数自媒体,形成了媒体界良莠不齐的局面。在流量导向的环境下,各种消息报道层出不穷,而这类信息又存在「放大效应」(比如标题过于惊乍),以至于大众接受到的信息与实际信息存在「误差」。

在人工智能最为火热的时候,不少AI企业为了拿融资、打知名度,纷纷投放广告、软文,宣传产品,造成人工智能已经能够大规模落地的假象。后来AI遇冷,大众对AI的调侃某种程度上可以看作是前期宣传过于猛烈的一种「反噬」。

当然,圈内也注意到大众传媒存在的局限,不少企业在重要的社交平台上都开辟了宣传渠道,但由于内容差异(比如太垂直、产品推广)或渠道差异,并不符合C端属性,多数AI企业无法直接建立起与大众的有效连接。

因此,在“企业-媒体-大众”这一传播链条下,由于大众传媒本身存在机制缺陷,导致大众很难在参差不齐的信息中,建立起对AI的有效认知。然而企业又不得不依赖大众传媒来宣传AI,这种内在矛盾,是造成圈内与圈外对AI产生「认知差异」的重要原因。

“归根到底,还是AI人才太少。”在杨力看来,人才是推动产业发展的核心力量,当前AI处于爬坡阶段,技术本身的问题是造成大众对AI产生质疑的根本因素,舆论传播一定程度上加剧了这种影响。

解铃还须系铃人,不论是AI纵深发展,还是横向传播,只有AI人才,可以给AI「正名」,但现阶段的情况是,国内AI人才极度紧缺。

“乘风破浪,人才先行”

“应用型人才真的太少了。”杨力感叹道,当AI从空中楼阁走向田间地头,懂技术又懂行业的人“真的不多”。

而在工信部《人工智能产业人才发展报告(2019-2020)》(下称“报告”)里,预计我国人工智能产业内有效人才缺口达 30 万,而这仅是两年前的数据。实际上,在过去的两年里,根据掘金志观察,AI企业对人才的需求持续旺盛,整个AI产业的应用人才缺口进一步拉大。

作为技术/知识密集型产业,AI的人才准入门槛较高,对学历、工作经验非常看重。

根据报告,2019年AI企业发布的岗位中,仅有11.9%的岗位接受专科学历;也仅有5.4%的岗位接受1年以下工作经验的求职人才;接受提供应届生的岗位仅占3.3%。

这意味着要从事AI行业,基本上要求本科学历,同时,由于多数AI企业缺乏人力、资金和动力去培养应届毕业生(至少一年以上),企业对应届毕业生的需求并不旺盛,而更青睐那些拥有知识储备和实践经验的人才,这种“排新”性质的招聘需求,又加重了人才短缺情况。

除此之外,AI对人才的专业性要求极强,尤其是算法研究、应用开发等岗位,60%以上岗位要求具备计算机、数学相关专业背景。

各种线性条件约束下,原本就短缺的AI人才,显得更加「紧俏」。

一位AI初创公司HR告诉掘金志,招人是一件很困难的事,“专业、学校、工作经历筛选下来,符合条件的人很少,加上公司要的是进来立马能产出的人,还要考虑薪资这些因素,优秀的人才很难招到;而走校招的话,优秀的毕业生早早被互联网、明星AI公司签下,剩下的也更青睐大公司。筛选去筛选来,选择真的不多。”

除了缺少与行业相结合的应用型人才以外,在杨力的观察之中,AI的另一个人才缺口,是能够“扎下心来做基础性工作”的理论研究型人才。

根据斯坦福发布的《2022年人工智能报告》,虽然我国在AI 期刊论文的引用数、会议论文发表数量以及在人工智能专利申请数量上排名世界第一,但在AI会议论文被引数上却远落后于欧美。并且,一些创新性的基础理论、前沿科技的研究仍以欧美为主。

“很多人工智能的基础理论,都是由外国人/机构提出来的,比如现在比较火热的深度学习。”

杨力表示,这与我国人工智能起步较晚有很大关系,要弥补这样的差距,除了要加强对基础理论研究的资金、人才投入以外,也应该建立起标准的AI人才培养体系,为AI研究提供源源不断的人才活力。

“学校是培养人才的摇篮,理想的情况是,一部分学生毕业以后从事理论研究,更多的毕业生进入行业,通过产学研联动,来推动AI的落地。”

掘金志了解到,当前我国人工智能产业已经初步形成“政产学研一体化”人才培养生态体系,但仍然处于起步阶段。2019年,人工智能专业正式获批列入本科专业名单,国内诸多高校开始自建或与企业共建人工智能学院(研究院),并开设AI专业。

然而,对于如何培养专业的AI人才,各大高校也正处于摸索之中,尚未形成行之有效的范式。

“因材施教,激发兴趣”

2019年,国内人工智能专业正式获批,被列入本科专业名单,但开办专业需要经过课程建设、实验条件、专业申报等流程,多数学校于近两年才开始正式招生。

换句话说,距离最早的一批AI本科生毕业,离毕业也还需要大概一到两年的时间。

如何把这一批新生培养成才,来填补当前存在的人才缺口,是一件并不容易的事情。此外,未来的第一批毕业生,其综合能力是否达标也极具象征意义。

“一方面,人工智能专业学的内容很难,以前很多研究生阶段才开设的课程,现在放到本科阶段来学了,对学生是一种压力,对老师的教学方式、技巧也带来挑战;另一方面,如何将人才培养与社会需求结合起来,让学生能够学以致用,也是难点。”

作为人工智能领域的资深学者,杨力在多年的执教生涯中,除了对AI有着深入的研究与思考外,也探索出了一些关于培养AI人才的「方法论」。

“首先要尊重学习规律。”杨力告诉掘金志,AI本身对实践能力的要求较高,这就不能照搬传统学科的培养模式,即大一大二侧重于理论,大三大四侧重于专业。而应该理论和实践并用,先学习、再实践,在实践中学习,然后呈“螺旋式上升”。

在具体举措方面,他表示,可以通过成立「科创小组」的模式,鼓励学生以团队协作的方式参加各种学习竞赛、研究课题。

这种小组模式的优势在于:小组覆盖全体学生,通过团队协作,形成内部互帮互助的学习氛围,让成员都能参与到实践之中,成为一个「利益团体」;并且,小组的持续时间覆盖学生的整个大学生涯,所有成员都能共享「利益成果」。同时,小组成员之间互相帮助,从某种程度上也能给老师减轻压力。

“其次要因材施教,激发学生对AI的求知欲、探索欲。”

杨力表示,学生对AI的学习兴趣也呈现出明显的「二八定律」,即20%的学生求知欲很强,而80%的学生兴趣一般。

“对于这20%的学生,你只需要告诉他怎样做到最好,并且告诉他这个过程中需要注意的事项、细节,其余的无需太过关心;而对于80%的学生,他们的兴趣没那么高,就需要比较细致的指导,并且需要搭配一些「强制指派」,例如直接分配任务让他们参加。”

“再而,通过激励机制来刺激学生的创作灵感。”

比如,在课程设计时,将创新性纳入评分标准之中,以课程成绩来驱动学生进行创新。

例如,在做某个案例时,如果学生只是根据老师列的步骤照猫画虎,其成绩最高可能也就刚好及格,而剩下的分数则全靠个人创意和发挥。

“大多数学生需要老师给一些推力,而成绩就是最好的激励。”杨力表示,学生为了拿更高的绩点,便不得不“多费心思”,而不是敷衍了之,最终交上来的作品“往往有很多意想不到的亮点”。

“最后,教师与学生之间要形成良性互动的正循环。”

本科教学存在的一个普遍问题是,学生与教师之间的互动较弱,或者只存在于课堂之上,课外的联系非常少,“上课是师生,下课是路人”的情况并不少见。

在杨力看来,如果老师仅仅把教学当作是一种工作任务来完成,那么学生也会采取应付的态度。相反,如果老师富有责任感,学生也会受到其“以身作则的影响“,更有进取意识。

因而,老师可以通过带项目、线上线下互动等方式与学生沟通,来了解学生的需求,给自身的教学工作进行反馈,而这种反馈最终又将通过教学的方式来触及学生,形成「师生共赢」的局面。

除了培养AI人才方法论外,杨力也指出,培养人工智能专业人才需要破除「唯研究生论」。

“读人工智能专业必须读研究生,不读研究生就没有前途。”

不少人持有这样的观点,但杨力却坚决表示反对。他认为,原来很多研究生的课程已经下放到本科来学,本科阶段的人才培养成体系之后,学生的理论、实践能力将能够满足AI行业的基本需求,一味追求研究生教育,只会造成AI圈越来越卷,无助于缓解行业人才短缺情况。

“当然,研究生教育也很重要,但研究生人才培养可能更应该倾向于基础理论方面,而AI的规模化落地,需要更多应用型人才去推动。”

举个例子:很多传统制造业引进了人工智能,比如机械臂、自动化生产设备等,但由于缺少应用型人才,企业买回去的设备不知道该怎么使用,也不知道如何做到效益最大化,更不懂运营维护。

这样的岗位,并不需要从业者非常深厚的理论功底,而是有AI基础,又懂行业的人才。而在传统产业智能化升级过程中,类似的人才缺口非常大。

“实际上,当AI走向各行各业、落地之后,对人才的需求也会发生变化,而在本科阶段,通过理论学习加上与专业相关的社会实践,也能培养出优秀的人才。”

“通向AI大时代的坎坷之路”

在刚结束的冬奥会上,杨力教授带领他的团队做了一个智能辅助技术,可通过视频来实现对选手动作进行回顾与分析,给裁判打分给予参考。

虽然只是一个比较简单的行为识别,模型并不精巧,市场上有很多AI公司具备开发该技术的能力。但让人欣慰的是,这个项目一经提出,学生们便踊跃参加,在导师的指引下,一步步挖掘数据、标注、建模、训练、测试,整个过程持续两周之久,大部分工作由学生完成,而且是在春节期间,有同学甚至因为出力不够而深感抱歉。

“Talk is cheap.”在杨力看来,这个项目别人有能力做,然而只有他们去落地实践了,并且整个项目由大一学生完成,过程远重于结果,他们“代表着AI领域的新生力量。”

做这个项目也并非一帆风顺。

该项目的成员,中国计量大学信息学院 21级人工智能专业学生,蒋正阳告诉掘金志,小组在建模的时候,要么网络太大训练太慢,要么网络太小而不适合要求,难以达到预期目标。同时,训练也会遇到算力不够的情况。

经过多次失败尝试之后,小组不得不求助于杨力教授,后者补充了一种网络结构,该结构下,模型变得相对“较轻”,训练也可以符合预期。

最终,小组成功研发出“单板滑雪AI裁判技术”。该技术可在画面模糊、相机高速运动、长距离全景画面等复杂场景下,对运动员是否抓板进行精准识别,从而为裁判打分提供依据,助力「冬奥公平」。

“我们的专业知识有限,需要继续加强理论学习。通过这个项目,我们了解了从零开始做项目的过程、方法、难度,积累了经验。当然,最后看到项目跑出来的结果,内心还是很欣喜的。”蒋总结道。

杨力认为,遇到问题很正常,关键在于去行动、实践了。“人在学走的路上,会跌倒很多次,但不能因为跌倒,就只学爬,这样永远也不会走。”

这何尝不是国内AI发展的缩影。

在经历无人问津的韬光养晦期之后,国内AI于10年开始蓬勃发展,商汤、旷视、云从、依图等一众AI公司先后诞生,受到资本热捧,撑起国内AI的希望。但激情燃烧之后,随之而来的是行业落地难、商业化难、变现难等各种质疑。

如今的AI,正处于从爬到走的摸索期,磕磕碰碰、跌倒摔倒等时有发生,也被大众调侃成「人工智障」。

但杨力对此并不沮丧,反而感到乐观,因为“有越来越多的企业、越来越多的人才参与到AI的发展、推广、落地之中”,在“政产学研”模式的推动之下,AI也将被掀开神秘面纱,显露出最真实的样子,而大众在未来也会对AI形成一个“全面、客观”的认知。

在掘金志与多位AI从业者的交流过程中,几乎所有人都对AI充满希望,即便AI仍然处于「弱人工智能」阶段,他们仍然坚信,AI有着光明的未来。

“AI的浩海不止于边边角角,而在于改变世界。”开篇吐槽「人工智障」的那位工程师告诉掘金志,即便改变世界的路途,充满坎坷,但“因为热爱,所以坚持。”

而对于大众的一些调侃和质疑,他迟疑了一下,回道:

“请给AI一些包容。”雷峰网雷峰网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/2Tqm7MSrcrrfIc81.html#comments Fri, 01 Apr 2022 11:12:00 +0800
大华、宇视、商汤、旷视......扒一扒冬奥会上的「AI」力量 //m.drvow.com/category/aijuejinzhi/D3h4VBMqLl6E2cTY.html 毫无疑问,2月份国内最火热的赛事莫过于北京冬奥会:人见人爱的冰墩墩,如美如画的开幕式,以及假期“霸榜”的谷爱凌选手......都给观众留下了深刻印象。

这一精彩纷呈的赛事,背后离不开高新技术的支持。不论是场内外的安全防疫、观众引导和治安,还是场上捕捉精彩瞬间、赛事转播,以及现场8K观赛、线上VR观赛,背后都需要各类技术的融合支撑。

随着冬奥会走向尾声,各种AI技术也先后露面。今天,掘金志就来扒一扒冬奥会上,那些让人眼前一亮的「黑科技」。

旷视:区间智能防疫系统+室内视觉定位导航

首先,假设你为一名观众,正在体育场外等候入场,除了要检票之外,更重要的是测量体温、查验健康码,实现疫情的精准防控。

旷视为此提出「智能测温」解决方案,一方面可实现多人同时测温通行,另一方面能够实现非接触式AI辅助筛查疑似发热人员。主办方仅需要少量工作人员即可完成观众体温排查,在大幅度提升检测效率的同时,减少了交叉感染的风险。

进入体育场之后,你对场馆肯定是陌生的,不论是找座位,还是洗手间,都需要「室内导航」。

市面上常见的室内导航,主要依靠蓝牙、Wi-Fi等技术进行识别,成本高并且精度较低,容易受场景限制。在相对封闭的场馆,由于观众密集,手机信号很差,传统的室内导航效果并不明显。

为此,旷视研发出室内视觉定位导航系统,该系统采用室内视觉定位技术,无需对室内建筑环境二次改造,仅使用激光视觉地图采集设备对现有环境采集,就可以实现定位功能。

与传统室内导航相比,该系统主要有两个亮点:

  • 精度提升至亚米级,相比较而言,传统GPS定位精度在5米左右,WiFi、蓝牙定位则是1-3米;

  • 无需额外增加传感器,室内环境也不用加装辅助定位设备,具备成本优势。

旷视冬奥项目工程师张长胜表示,观众通过手机随手拍方式便可轻松定位;并且支持离线识别定位,在人流密度较大5G/4G无法完全覆盖的场所仍然可顺畅导航。

商汤:AI观赛+AR导航

假设你已经找到了自己的座位,并开始欣赏选手们的精彩表演。但受限于人的视力、角度等问题,观众很难捕捉到比赛的精彩画面;并且,对于一些专业性较强的运动,观众需要专业解说才能感受到运动的美感。

例如,在被誉为冬奥会“国际象棋”的冰壶运动中,由于冰壶壶体较小,视距较远,并容易受到运动员身体遮挡干扰,座位席上的观众不得不借助于望远镜,或者现场大屏幕来观察细节。

为了解决这个难题,商汤基于视觉AI感知、深度学习、三维建模和空间定位等技术,打造了「冰壶运动轨迹捕捉」技术。

该技术克服了超大空间环境下基于远视距对较小物体运动轨迹精准捕捉的难题,通过对真实场景的数字化映射,实现对运动冰壶的检测跟踪和轨迹捕捉。同时,结合实时渲染、虚实同步技术,系统可以将冰壶轨迹进行精准还原,并将画面转化为视频流,输出至网络平台和现场大屏幕。

凭借该技术,不论是线下,还是线上,观众都可以近距离观察冰壶运动的细节、运动规律和赛况;解说员也能分析运动员的状态和投壶技巧、战术等,实现「AI观赛」。

与旷视类似,商汤在导航方面推出了「AR导航」,但侧重于室外,服务对象主要为奥运村的运动员和工作人员。

在张家口冬奥村中,由于奥运村及周边面积较大(超30万平米),要在短时间内构建高精度三维地图,对技术要求很高;而且,村内建筑风格统一,加上冰雪覆盖,这种环境下,很难基于图像来实现精准地识别自身位置。

对此,商汤通过GPS与视觉融合的数据关联方法和参数分块优化方法,以及综合利用视觉、蓝牙、GPS等信号等技术,并针对冰雪场景,训练了不同天气条件下鲁棒的图像特征,从而在复杂场景下,实现了6自由度空间定位。

据了解,该导航系统可以实现大尺度场景下厘米级的三维地图构建和部署,并解决了动态复杂场景下实现精准定位跟踪等难题。用户打开手机专属APP,打开摄像头识别周边环境,即可定位自身位置,输入目的地后,跟随AR虚拟箭头,即可进行导航。

大华股份:智能视频跟踪系统

对于冬奥而言,另一个重要的环节是,利用视频技术来甄别选手的动作是否违规,以辅助裁判对选手的得分情况进行更为准确的判罚,这既是对选手、赛事的尊重,也体现出举办方公平公正公开的奥运精神。

以往的判罚主要基于裁判的主观意识,而人本身会受限于视角、经验等因素,容易忽略一些动作细节。

比如,在一些速度快、赛道窄的项目中,受场地环境影响,成误判、错判等情况并不少见,从而影响选手的成绩和比赛的公平性。

大华股份为此研发出专门适用于冬奥会雪车、雪橇项目的「智能视频跟踪系统」,该系统能实现在高速移动场景下,捕捉到运动员在通过不同斜坡道的画面,并进行无缝衔接、有序展示,全程记录比赛的每一处细节,为裁判的判罚提供视频依据,保证比赛的公平公正。

该系统同样可用于改进运动员训练,为赛前训练提供数据支撑。运动员通过赛事视频进行回顾,可以发现难以察觉的动作细节或者说存在的动作缺陷,从而制定具有针对性的训练计划,来提高训练效果。

宇视:户外LED大屏+智能安防系统

前面提到,在部分冬奥项目中,观众需要通过大屏幕来观察比赛细节。对于一些比赛场馆而言,户外大屏作为信息传递的重要平台,屏幕本身需要满足诸多严苛的条件。

比如,大屏幕要在极寒、防水条件下稳定运行,并且,8K转播技术对于IC芯片、电源的要求非常高。

宇视从实际场景出发,提供户外MW75XX系列P5产品,该产品主要采用了高刷新IC、高效防潮电源、IP65等级的信号等配置。

在防水方面,通过模组防水、箱体防水、关键器件防水的处理,保证在大雪或潮湿环境依旧可以正常工作。在耐寒方面,除了选用低温电源以外,还在屏体内安装制热设备,以保证设备稳定运行。

宇视在冬奥会上的另一个亮点,是参与了首都体育馆、冰雪小镇文创商街的智能安防系统的改造。

在首都体育馆的智能安防项目中,宇视提供了近1000路的高清视频监控、智能一体化存储、等产整网解决方案。整个场馆的实时数据可直接推送至奥组委平台,为奥运安全保障提供技术支持。

冰雪小镇文创商街的智能安防系统,宇视提供了近1500路的高清视频监控、智能一体化存储、超融合分析平台及LED大屏显控等整网解决方案,可在重要通道布置相应设备,结合后台数据,助力冬奥会的安保工作。

除此之外,宇视在智慧高速方面也有参与。

以延崇高速为例,作为进入冬奥会张家口崇礼赛区的公路主通道,宇视觉通过部署千余路摄像机,199套智能运维箱等设备,提高了交管平台的运营、管理效率等等。

中科智云:智能哨兵机器人

许多比赛项目在户外举行,因此户外项目的安保工作也非常重要。

在场外,赛事场地通常会加装物理围栏或使用人力来维持安防工作,但在地形复杂、气候条件严苛以及昼夜温差大的环境下,如何为赛场提供安全防护工作、减轻人力负担,也是需要解决的问题。

例如,张家口密苑云顶乐园(冬奥会和冬残奥会比赛场地之一),占地面积约100平方公里,地处太行山和燕山交会的大马群山中,夜晚温度可达零下四十度。

这种恶劣条件下,依托人力、围栏等传统方式不但效率低、效果差,而且增加高昂的人力成本。基于此,中科智云及其合作伙伴共同研发了「智能哨兵机器人」。

该机器人运用了中科智云的识别算法和反入侵技术,能够分辨低特征差异,解决防攻击防伪装,稳定性问题。在日常监测中,机器人能全天候进行边界监控、目标识别、多目标跟踪、异物检测、道口警示等功能,并自动精准判断入侵者的类别,将监测到的情况或入侵者的行踪轨迹上传至后台指挥中心,从而确保赛场安全。

掘金志了解到,目前,已有13台智能哨兵机器人上岗,监测距离超过15公里,形成电子屏障,相当于传统200个警卫的安防力量。

科大讯飞:语音交互终端

作为国际性赛事,冬奥会的参赛人员、部分观众来自世界各地,语言各有差异,容易造成交流障碍;并且一些特殊人群,例如残奥会的部分选手、冬奥会的部分具备沟通障碍的观众,在参赛、观赛过程中也会遇到困难。

科大讯飞为此研发出了多语种智能语音及语言服务平台,以及各种翻译设备,提供定制优化的语音识别、语音合成、机器翻译、自动问答等服务。

据悉,该平台同时支持60个语种语音合成、69个语种语音识别、168个语种机器翻译和3个语种交互理解。冬奥场景下汉语与英、俄、法、西、日、韩等重点语种翻译准确率不低于95%;平均每句翻译响应时间不超过0.5秒。

科大讯飞高级副总裁杜兰表示,科大讯飞从3个方面助力本届冬奥会。

人与人的沟通,助力来自不同国家和地区的选手、教练、游客及志愿者等人群之间的语言交流;

人与组织的沟通,实现会议机器自动翻译及转写;

人与赛事的沟通,主要是帮助各国观众、游客快速掌握赛事信息,并辅助视障人士听得见奥运文字、听障人士看得见奥运声音。

科大讯飞还推出了诸如双屏翻译机、虚拟人智能交互一体机等设备,提升了多语种信息获取、发布、传播的及时性和便捷性,满足冬奥及冬残奥会无障碍、跨语言沟通的需要。

当虹科技:8K编码器

受制于疫情,能到现场观赛的观众终究是少数,许多人只能通过线上的方式,来参与冬奥、欣赏冬奥选手的高光时刻,这就需要用到8K直播技术。

作为目前最接近“人眼真实”的超高清技术,8K的分辨率是高清的16倍,在量化、帧率、色域等方面比4K更强,结合3D渲染等技术,能给观众带来“身临其境”的体验。

但要实现8K超高清直播,除了要采用专门的8K相机以及专业的调色、包装,进行采集制作之外,还涉及「编码传输」这一核心步骤。

编码传输,即是将视频数据量巨大的8K超高清视频,通过编码器来压缩8K直播信号码流,在减少传输带宽的压力的同时,使其适应8K超高清电视、8K超高清户外大屏等终端,最终能够流畅、稳定地呈现出来。

由于8K超高清直播要求低码率、高画质、高并发、低延时,这对编码传输带来了许多挑战。

一方面,视频数据量过于庞大,对计算性能(如算力、算法等)和编码效率的要求很高;

另一方面,在需要更高压缩率的同时,用户也对于画质提出了更高的要求。

因此,当虹科技通过与英特尔合作,推出了8K AVS3 超高清一站式解决方案。

这里提到的AVS3,是我国具有自主知识产权的视频编码标准(第三代),采用了更灵活的块划分结构、更精细的预测模式、更具适应性的变换核,比AVS2节省约30%的码率,从而提升编码效率。

同时,该方案基于图像分析及主观视觉的编码模型,通过数十万素材库的深度学习超分技术,以及不同场景、高低分辨率差别学习和AI训练,来提升编码画质。

在这次冬奥会中,当虹科技8K编码器还适配国内首个HDR标准(HDR Vivid),实现更大曝光动态范围,能更好提取和显示高光及暗部细节,丰富色彩和层次,增强纵深感,让画面更趋近自然。

天地伟业:环保卡口+超星光违停球

在举办大型赛事期间,交通问题也显得较为突出,尤其是车流量剧增之后,交通执法也不能单靠人力巡查来解决。

为了保障交通的平稳运行,北京交管部门特意划分了42条近239.5公里的奥运专用车道。在这些车道上,部署着专用的“电子警察”,通过执勤交警现场执法,和卡口摄像机抓拍记录非现场执法两种方式,进行执法工作。

天地伟业为此推出了「天星环保卡口」和「超星光违停球」。

普通电子警察在夜间抓拍时,会产生瞬间爆闪,容易给驾驶员造成视觉障碍,存在一定的交通隐患。

天星环保卡口主要采取了双Sensor多光谱融合技术,入射光经过摄像机内部的分光装置,可见光用来捕捉色彩;同时红外光用来感受纹理和亮度,将获取的画面进行像素级逐帧融合,整体色彩还原性高、无偏色,图像整体亮度质量高。

在夜间,该产品可通过红外补光把光污染降到最低,获得和白光爆闪相同的全彩效果,既可检测抓拍违法车辆,也不会对驾驶员造成影响。

对于违停现象,天地伟业的超星光违停球可在布置场域内形成360度巡视,形成全方位、全时段覆盖,并且通过语音警戒来驱离违停车辆。

天地伟业品牌总监张征表示,该违停球可适用于复杂场景,检测违停车辆的成功率在95%以上。

苏州科达:AI超微光电警+AR实景指挥

苏州科达在交通方面推出了「超微光电警」、电子卡口、违停球等产品,布置在张家口市区的诸多路段、路口。

其中,共有近400套AI超微光电警落地主干道,无需补光灯,就可在夜间抓拍清晰准确的违章图片,减少光污染的同时,为解决违停、违章等提供视觉支撑。

在整个交通运行状态中,科达依托高点监控搭载了AR实景指挥系统。

传统的交通指挥系统需要多个摄像机提供实时数据,但存在画面独立、不连贯的问题,割裂的画面很难反映整体的交通区域状况,指挥中心也无法兼顾全局。

科达的AR实景指挥系统依托3D定位、AI等技术,可通过AR高点全景摄像机获取监控点全景视频,进而与区域内低点摄像机形成视频联动,兼顾整体与局部。

同时,该系统支持视频调阅、数据展示、信息标注等功能,给指挥中心提供立体化、可视化的交通信息,从多个角度助力冬奥会的交通运行。

结语

“智能化、人性化”是冬奥会的科技底色,各种闻所未闻、见所未见的技术,在提升竞技效果、改变观赛方式的同时,为世界呈现出了全新的「中国名片」。

为那些默默在背后提供技术支撑的企业点赞、致敬!雷峰网雷峰网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/D3h4VBMqLl6E2cTY.html#comments Sun, 20 Feb 2022 23:45:00 +0800
工业视觉「春秋时代」:五派博弈、诸侯迭兴 //m.drvow.com/category/aijuejinzhi/LxrSugIhuDhx29Mo.html


国学大家钱穆先生曾称春秋时代是一个极优美、极细腻、极高尚雅致的时代。

百家争鸣中,催生出了一群人类最杰出的思想家,那是思想文化的黄金年代,也是诸侯争霸、英雄辈出的黄金年代。

之后的几千年里,人类经历了以内燃机为代表的蒸汽技术革命、以电动机为代表的电气技术革命,以互联网为代表的信息技术革命。

如今,第四次工业革命呼之欲出。工业智能化为代表的高新技术革命的巨大潜力,很有可能成为下一场革命的原爆点。

AI工业界有句老话:得视觉者得天下。

工业视觉是什么?你前天刚吃的月饼、你手上玩的手机、你工作用的电脑、你周遭几乎所有的商品,出厂之前都用上了工业视觉技术,以此来保证产品质量、提高生产效率。

如果把一台机器比作一个人的话,那么工业视觉就相当于机器的眼睛。

过去二十年,“工业视觉强国”的桂冠从来都在欧日美诸国流转,沾不上边的中国奋起直追了数十年,成为继美国、日本之后的世界第三大工业视觉市场。

风云际会之下,催生了无数诸侯:

  • 冲破欧美安防铁幕,厮杀到全球顶端的中国安防巨头

  • 智能化时代的弄潮儿,在细分领域摸爬滚打、攻池略地的AI精锐骑兵

  • 从线上向线下奔袭而来,财大气粗的互联网巨鳄

  • 跟随中国「世界工厂」崛起的传统工业视觉头部大咖

  • 盘踞高端、垄断全球约50%市场的美日德工业大佬

你很难在哪个赛道,看到如此多巨头下场,如此多派系纷争。当他们在同一赛道罕见聚首,一个好故事的开头也由此启幕。

工业视觉万里河山,发令枪在即,酣战将起,一个新的黄金时代缓缓开启。

这五大派系如何搅动工业视觉江湖,我们一一来看。

1、号令一方视觉江湖的世家大族

20多年前,从代理生意起步的中国安防厂商,以突破性技术方案及产品,硬生生将市场从国际大厂嘴里抢了回来。

领头的"海大宇"撸起袖子干了十几二十年,从模拟到数字、从数字到智能、从藉藉无名干到全球前列。

快节奏商业时代,各类榜单变化更迭,但放眼全球安防市场,他们行业一二的宝座,近十年来也未曾有过易主。

面对AI四小龙的气势汹汹也不遑多让;面对互联网企业的跃跃欲试依旧笑谈风云;面对华为的强势介入亦不慌不忙。

当经历过招招致命的中外大战,也品尝过方寸间的谷脊之战,从骨头瓦砾中一步步走到金字塔顶端的企业要“收天下之兵,聚之咸阳”,那力量,你难以忽视。

是的,工业视觉这块宝地,海康、大华也看上了。

如果说安防是他们的立身之本,那么智能制造、工业4.0应该是他们的存世之资。

近几年,海康、大华进攻To B领域的猛烈已经有目共睹。机器人、工业视觉在各类问答、财报中频频现身:机器人正成为海康、大华安防G端生态之外,另一个B端现象增长极。

“我们将是智能制造领域的重要玩家。”一向低调沉稳的海康,今年在多个场合如此强调,甚至直言“我们是国内机器视觉的龙头公司”。

海康、大华凭什么能在工业视觉领域占据一席之地?

从市场特性层面,工业视觉领域作为碎片化市场,一方面可预见性差,另一方面稳定性很强。

而这种业务模式,海康、大华已经演习了近20年。

正如海康高级副总裁、EBG负责人徐习明徐习明所言:海康的基因适合这样的碎片化市场。

从技术层面,两者所需大多是相通的。

二十年的打磨与沉炼,海康、大华在耕耘安防市场的同时,也积累了不少技术和人才。今天海康智能视觉方面的团队和核心技术绝大多数都是原先在安防领域储备而来。

从产品和服务方面,在安防领域的经验也驾轻就熟。

“在机器视觉领域里,这个市场过去欧美日韩的企业做得多一些,技术门槛比较高,这类产品的技术上海康机器人有很不错的传承和沉淀,比国外产品性价比也会更高,本地的售前售后的支持能力也比海外品牌更强,这也是我们快速增长的一个原因。”

从战略层面,经由20多年的积淀,6、7年的布局,海康、大华的基本盘已经浮现。

移动机器人聚焦室内物流,仓储物流机器人已经遍布大江南北;工业视觉聚焦工业传感,在3C、电子半导体、物流等工业自动化各领域落地开花;在工业之脑(软件平台)上厉兵秣马。

工业之足(机器人)+工业之眼(工业视觉)+工业之脑(软件平台)的王炸组合,将会支撑起一个超级技术集团的不凡野心。

“以基恩士等为追赶目标”之下,是若影若现的取而代之之心,但细想,谁说他们未来不会重现安防往事,号令工业视觉江湖呢?

2、异军突起的武林高手

机器视觉领域也少不了武艺高强的AI公司,他们掌握着搅动江湖的武功秘籍:技术实力。

当无数AI视觉企业在智慧安防、智慧交通、智慧社区等领域前赴后继,他们从诞生之初就在智能制造安营扎寨。

如果说人口红利渐失是制造业转型的外在原因,那么行业本身创新能力不足、核心元器件缺失则是制造业转型内在桎梏。

“智能”要想攀上“制造”这门亲事,比其他行业更难。

人脸识别所需的AI能力对应的是一个8岁孩子的智力,那么智能制造需要AI智力水平就接近一个成年人。

这是块未完全开发的宝地,也是沼泽密布的无人区。 

这正是他们诞生的理由。

这些新冒头的AI企业,动作快、势头猛、技术强、肯吃苦,喜挑机器视觉难啃的猎物,虎视眈眈。

他们具备计算机视觉、语音语义识别、自然语言理解、深度学习、大数据分析等中的一项或多项底层技术,他们懂得找准机会,发挥技术特长。

“XX(某行业巨头),他们自己不想花时间和精力攻克某个技术难点,我们整个项目组花了好几个月时间,捣鼓出来了。” 阮梦(化名)对雷锋网表示,为了拿下这个合作,他们不怕投入。

底层算法、软件环节是机器视觉的核心技术壁垒,是产业链的价值中心之一。比如一些传统的工业视觉系统依赖程序员手动编写缺陷特征,当缺陷数据库越来越庞大时,算法和检测系统的编程难度超乎想象。

以思谋科技为例,以实现与成年人水平媲美的AI能力为目标,研发出新一代AI系统,融入行业知识,让从前依赖数据、算力的深度学习,可以用更少的数据训练出更好的模型。

不怕苦不怕累,未来他们能做的,也许不仅仅是解放程序员生产力。

势头猛的还有一个创新奇智,这个成立于2018年的AI企业,用时2年半,晋升为独角兽,用时3年,走到IPO的门口。如果上市成功,其将成为国内“AI+制造”第一股。

根植AI企业的技术基因,扎根一处短板,不贪多求全,只图精求专,每一步稳扎稳打之余,走出新秀的特色,自我要求至少领先同行1-2年,一条路下来,创造机器视觉细分领域的隐形冠军也未可知。

3、大步迈进的豪商巨贾

传统互联网巨头们,当然也不能缺席。

大势当前,美国工业互联网、德国的工业4.0、中国的智能制造2025、日本的超智能社会5.0蓝图,全世界都在向智能制造迈进。

海水将退,过去10年,他们是信息化革命红利的最大尝鲜者,如今,流量争夺战趋于顶峰,产业互联网金矿价值蓄势待发。

“光靠BAT撑不起中国经济”呼声高涨,在兴奋与焦虑参杂中,传统互联网巨头们几乎不约而同地,一个箭步跑向工业领域。

新制造稳坐阿里新五大战略,马云毫不掩饰“新零售之后最重要的是新制造”;腾讯云的智能制造三大战略布局,聚焦工业制造研、产、供、销、服5大环节;百度大张旗鼓AI to B。

以互联网之躯,融合共享经济、数字化、智能化,给制造业的这次转型升级革命再添一把火。

坦白讲,他们的专长的确不在生产制造,也常被诟病飘在空中。

他们也尝试低下在消费互联网高扬的头颅,姿态谦卑。

“制造业的市场非常大,我们相信技术的红利能够带来巨大的变革。可是在这样大且沉淀悠久的产业面前,阿里新制造也不敢轻言赋能,因为赋能是很高的姿态,我们要踏踏实实地深扎进去,关起门来做三年,主要是选择走得稳。”犀牛智造CEO伍学刚曾表示。

“技术成功的关键在于我们的工程师能够深入行业,理解不同的业务场景。算法的红利正在消失,不存在通用的AI,只有精耕细作、深入行业才能成为真正的高手。”阿里副总裁华先胜曾表示。

制造业的精细化特质,对故障率的要求极高(1%或更低),让质检成为中国玩家的竞技场。

2017年,百度智能云从首钢的AI质检出发,4年长途跋涉,落地领域扩展至电子、汽车、钢铁、能源、橡胶等行业。

这一年,阿里云研发了业界首个工业视觉AI方案,并逐步应用于钢铁、化纤、汽车等领域。

2020年9月,阿里还推出新制造一号工程“犀牛智造”,阿里从服装制造为切入点,建立了业界首个布料训练集,数十种布料,近百种布料瑕疵,布料纹理特征,自动识别布料细微瑕疵,准确率高达90%,检测效率提升5倍。

液晶面板制造行业的龙头型企业华星光电,已经在面板质检环节应用了腾讯的工业视觉平台。有消息称,该项目是目前为止国内最大规模的工业AI质检项目。

全球权威咨询机构IDC发布《中国AI赋能的工业质检解决方案市场分析2019》报告中,阿里云、百度云、华为云霸占头部份额。

经历过消费互联网近20年的厮杀,传统互联网大厂也建立了独特优势。

企业进行上下游延伸、技术研发投入、客户拓展、行业推广都指向强大的资金实力或融资能力。

他们积累了雄厚的资金,面对建设周期长、速度慢的制造业,以资本换市场,某种程度上可以推动行业前进。

理想的智能制造,需要全产业链的共同投入,基础设施的支撑和上下游的共同配合才能完成。

他们拥有品牌影响力,面对产业链长、生产过程极其复杂的制造业,可以以生态聚合能力吸引产业上下游一起玩。

不同的知识背景和认知层次,从不同的角度和立场出发,也许,他们能带来不一样的业务模式、运营模式和商业模式的数字化、智能化变革思路。

4、与世界工厂同崛起的地主豪强

工业视觉市场并不是个容易的行当。

产品研发周期性长,从策划、开发、立项、样机成型、量产,渠道构建、供应链打造,前后需要3-5年甚至更久。

市场扩展的周期性长,与美日德相比,中国企业起跑时间晚,底层软件算法与硬件都落后于先入局者,巨头环伺,品牌效益强悍,间歇通过降价对入侵者进行精准打击。

能熬过前期零营收、中期市场拓展隐痛,后期万千竞争者厮杀的企业,寥寥。

但荆棘遍野中,依然有企业,凭着一股韧性,坚持至今;

在铜墙铁壁中,还是有企业,一路跌跌撞撞,卧薪尝胆。

他们在并不平坦的路途中摩肩擦踵,愣是从美日德品牌耀眼的聚光灯下跑了出来,发出独属于自己的光芒。

跑出来的传统工业视觉厂商们,都不是等闲之辈。

有的以工业机器视觉为核心,一步一步打造完整的产品线,也成为最先钻研行业技术的领头羊。

如天准科技,核心武器是标准化设备及非标专机的底层软件算法,检测精度高达0.3微米,是少有的涉猎多领域多产品的企业。参与起草行业标准,承担国家重大科学仪器设备专项。

2020年,天准科技以1.6亿元收购德国企业MueTec,创造了科创板首个海外并购案例,布局全球半导体野心初显。

有的从传统自动化设备制造商起步,一步步进入工业视觉。

如精测电子,在传感器、控制器等工业自动化设备中的关键部件拥有巨大技术优势,能够将工业视觉技术融入自动化设备中去扩大销售。

有从上游某一零部件向下延伸,逐步形成完整的工业机器视觉系统或产品线。

如奥普特,通过工业视觉核心零部件(如对最终成品的精度和效率影响巨大的光源和工业机器)等先进技术,成为A股被寄予厚望的工业视觉企业,市值超300亿。

从光源、面阵相机、线扫相机、镜头,到如今快速增长的3D相机、智能相机、结构光相机、高速相机、光谱共焦传感器,到向高端镜头突围的远心镜头、微距镜头。

他们带着穿越了近20年的痴念与执着,逐渐构筑起品牌、客户、资金和技术多重优势,一点点啃噬康、基的蛋糕,成为撑起中国工业视觉市场的中流砥柱。

5、傲视群雄的三朝元老

工业视觉领域绕不开美日德,更绕不开两大全球性质的巨头:康耐视、基恩士。

无论是论资排辈,还是业务能力,亦或是盈利能力,他们都领袖群伦立潮头,称得上元老级企业。

他们有技术、有行业背景。

康耐视成立后推出DataMan在内的多款产品皆为业内第一,自动化领域,基恩士更是七成产品为“世界首创”或者“业界首创”。

他们成绩可圈可点。

康耐视和基恩士垄断了约50%的全球市场份额。在中国收入超65亿,中国市场份额合计市占率约60%(基恩士市占率约41%,康耐视市占率约18%)。

2008-2018年的十年间,基恩士收入增长超过230%, 净利润增长超过682%。

2020年,当无数企业在疫情的风暴节节败退时,康、基逆势向前,大步跨越。基恩士更是突破千亿美元市值。

这些工业大佬们哪里强?为何强?

高端市场、高附加值、高盈利能力。

无论是安防、自动驾驶,还是工业视觉,海外品牌似乎都喜欢定位高端市场。要命的是,他们不仅瞄得准,还站得牢。

康、基以高附加值为目标,极其注重产品质量和技术创新,“具有其他竞争对手没有的某些功能”“比客户先行一步”,由此带来的高客单价与高议价能力,也让他们保持着令行业望其项背的高盈利能力:康、基的毛利率达70%-80%,且长期稳居高位。

Fabless(无工厂)模式。

鲜有人知,当初潼崎武光创立基恩士因无法筹集足够的资金建立自己工厂的无奈选择,成为如今为人津津乐道的“Fabless”模式。

在重资产盛行的制造业,康、基却选择轻资产模式,生产制造由第三方代工厂完成。

如此,不投资工厂设备,集中资源到产品企划和销售;只从整个供应链体系角度管理统筹,让整体的生产能力也更加灵活;还可以根据每个商品的特性,在世界范围内选择最佳的生产线,并通过大规模采购来降低原材料的价格。

这里提一句,选择容易、走通很难。要形成平台型公司,需要从成本、质量、产品一致性等多个层面对供应商体系进行管理,具体实现上,难度极高。这也侧面论证康、基在此模式的成功更加难得。

完全的直销模式,以销售导向。

以基恩士为例,销售人员占企业总员工超6成。这个有“销售人员的黄埔军校”之称的企业,具备完备的培训体系和管理体系,可以高效、快速地塑造高专业度员工。

前基恩士工作人员对雷锋网表示,公司人与岗位高度绑定,专业化、模块化程度极高,每个员工可替代性非常强,保证了企业运转体系极其高效。

他们的顾问式直销模式,可以直接与几十万客户群体对接,基于一手客户信息和反馈,反哺产品研发,并精准、快速地体现在新产品的研发中,这给了基恩士“不仅能够满足客户今天的需求,甚至能够满足客户明天的需求”的底气。

“走过展台时会被五个销售拉住,电话、邮件、短信、上门拜访。”某业内人表示,曾在展会上感受过基恩士销售的热情与执着。

庞大的销售团队、强悍的销售能力、强大的销售模式,他们将销售水平做到了行业极致。

标准化程度高、可复制性高。

主攻高标准化(比如汽车)的行业,向OEM厂商销售标准工业视觉硬件和软件产品,可复制性更高、 无需直接支持客户应用。

在天时地利人和里,成就康、基今日工业视觉帝国。

混战中,晨光熹微

1969年,第一片CCD图像传感器诞生,为工业视觉行业开启了数码图像采集的大门,自此人类社会进步的各个领域都与图像和视觉结下了不解之缘。

过去十五年,中国制造业的规模增长了近三十倍。据工信部部长肖亚庆介绍,2020年,中国工业增加值达31.3万亿元,连续11年成为世界最大的制造业国家,全球市场占比达30%。

巨大的制造业生态系统造就了「世界工厂」,工业革命4.0之下,目之所及,皆是奔向台前的科技暗涌。

在如此规模、复杂且极具成长空间的行业,哪怕有一点改变都无比振奋。

据《中国工业视觉产业全景图谱》,目前进入中国的国际工业视觉品牌已有200多家,中国本土的工业视觉品牌有100多家,各类产品代理商超过300家,系统集成商也有超过100家。

八仙过海,各显神通,构成了不同玩家画像,在智能制造这个大舞台上同台竞技。

如此多玩家,却并不拥挤。

不论是聚焦某一领域,还是涉及多个领域,可以肯定的是,没有一家企业可以解决制造业全部问题。

制造业需要众多玩家齐心协力,推高水平,拉高需求,这个领域够大、够远,也能够容纳足够多的玩家。

我们敬佩于传统入局者们忍受着行业开垦期长年累月的寂寞,也欣喜于工业转型之路上的新鲜血液们酣畅淋漓地你追我赶。

当大局抵定,潮水退去,我们终会看见浮出水面,熠熠生辉的那群人。

工业视觉疆场内烟雾弥漫,在战火硝烟中,新历史正在被书写。雷锋网雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/LxrSugIhuDhx29Mo.html#comments Sun, 26 Sep 2021 15:12:00 +0800
虚拟更衣室火了!Revery.ai 用计算机视觉来增强购物体验 //m.drvow.com/category/aijuejinzhi/wbi9PmvfPfhqK2H3.html 网络购物丰富了人们的生活体验,但对于贴身衣物来说,依靠单一的尺码和裁剪,很难让人们购买到合适的衣物,因此技术人员开始利用 AI 技术来弥补这一缺陷。

据 TechCrunch报道,一家名为 Revery.ai 的公司正在开发一种工具,利用计算机视觉和人工智能来创造更好的在线更衣室体验。

“我们正在创建第一个使用现有目录图像处理服装的工具,每周能处理超过100万件服装,这是以前版本难以达到的。” Revery 的一名核心技术人员Kedan Li 表示。

Revery 是美国著名孵化器 Y Combinator 2021 年夏季计划的一部分,后者正打算以12.5万美元支持该公司,并且在本月晚些时候完成该计划。 Kedan Li 透露,该公司已有两年的运营经验,并且希望筹集 150 万美元的种子轮资金,以帮助其更快地发展,从而进入大型零售商店。

该团队与 Forsyth 的合作取得了长足的进步,并对技术进行了多次迭代,以满足那些已经在其网站上拥有图像和注册用户,但想要在计算机视觉方面获得更多功能的客户。

“与使用 3D 建模或拍摄图像并手动清理以叠加在模型上的竞争对手不同,Revery 使用深度学习和计算机视觉,使服装悬垂性更好,用户还可以自定义他们的服装模型,使其看起来更像使用肤色、发型和姿势。它也是完全自动化的,可以处理数百万个 SKU,并在几周内与客户一起启动和运行。”

Kedan Li 说,其虚拟更衣室产品现已在许多时尚电子商务平台上线,其中包括东南亚最大的时尚公司之一 Zalora-Global Fashion Group。

“令人惊讶的是,我们得到的结果如此之好,客户报告的转化率很高,大约是他们以前从未见过的3到5倍。我们发布了 Zalora 的 A/B 测试,结果增长了 380%,非常高兴能够向前推进并在他们的所有平台上部署我们的技术。”

Revery 已经在与 40 多家零售商进行谈判,这些零售商“正在考虑合作,利用该技术来增强竞争优势。”

在接下来的一年中,Revery 将专注于获得更多采用并与更多客户合作。为了与继续上网的竞争对手区分开来,Kedan Li 打算投入更多的精力用于研发与体型相关的技术。“这是零售商所要求的”,他说,这种类型的技术具有挑战性,因为可供选择的各种体型模型并不多。

他预计公司将不得不自己收集专有数据,以便 Revery 能够为用户提供创建自己的头像的能力,并且可以看到衣服的外观。

“我们可能正在看到潮流的开始,并且拥有相关的产品来满足需求。”他补充道。雷锋网雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/wbi9PmvfPfhqK2H3.html#comments Tue, 24 Aug 2021 11:05:00 +0800
AI 商业模式的脱靶、崩塌、救赎 //m.drvow.com/category/aijuejinzhi/YNSUISd80P9LkLyG.html

人工智能的商业模式应该是什么样?

每次谈到这个问题,答案分两个极端:

要么同质、无趣、世俗。

要么天马行空,外行高呼震撼,内行斥其没有常识。

在雷锋网《AI冰与火之歌·五问》第一篇文章《依图医疗「变卖」内幕:出走、截胡与派系整合》中,我们谈到,依图医疗成为弃子,其实是多数AI公司商业战略摇摆不定的缩影。

无人能预知命运会陷入如此险境。短短几年,AI市场的低气压不知何时开始盘旋成型。

商业化变现困境剥落了AI的优越,让AI企业直面最粗糙的生死。

“AI做不了颠覆式创新,还是要走产业+AI的路。”

这句话虽是业内共识,但走这路的方法论其实是过时的,毕竟,这与十几年前的信息化和IT软件商业路径,并无本质差异:以外包的姿态,啃项目,搭集成,做交付,任劳任怨,不怕吃苦。

纪北嘉(化名)笑着说,姿态低不低现在不是我们主要考虑的,赚钱嘛,不寒碜。

这些AI企业践行了一个最糙也最为实在的真理:先活下去,再考虑怎么活好。

真理背后,则是盘旋在所有AI从业者头上的四个问题:

  • AI标准化、通用化的美梦是如何破灭的?

  • 高度定制化解决方案为什么走不通?

  • 海外高利润解决方案我们为何借鉴不来?

  • AI企业跳出低毛利死胡同的三种激进模式是什么?

我们一个个聊聊。

标准化、通用化的黄粱美梦

在全球权威的人脸识别算法测试中,XX企业获得XX赛道冠军。

XX在国际权威机构ACM MM主办的大赛中,行为识别再夺一冠。

识别率提升、精度突破、榜单排行,是早期AI界的主旋律。

这段时期,中国的AI公司上演一场疯狂的刷榜竞赛,让算法识别俨然间成了一项竞技体育。

为什么热衷刷榜?

在早期AI公司的蓝图里,他们只需研发出标准化的模块,然后被集成在所有公司的各个解决方案里,如此,哪怕一个开发包(SDK)只卖几万、几十万,薄利多销,一年的利润也非常可观,而且作为被集成的软件,所得几乎均为净利润,说躺平赚钱也不为过。

这一意识形成后,很多公司将比拼算法精度作为头等大事,甚至一度认为,不需要招销售,客户自然会闻讯榜单而来。

一级市场用挥金如土表达了乐观的情绪,AI企业在宣传上毫不掩饰科技标签的高贵,似乎一套SDK扫天下的时代就在眼前。

但很快,在算法刷屏约两年后,他们察觉不对劲,怎么投入不见少,铜子儿却没见着?

2017年是觉醒的一年,尝试落地的他们发现,在赛事中频频拔得头筹的算法,一旦走出实验室或特定的场景进入实战,根本玩不转。

而且,作为最先落地的两大行业,无论是公安还是银行,客户需要的不是单个模块或开发包,也不具备集成SDK的能力,他们要的,是一套定制化的解决方案。

结果就是,在算法领域的神仙打架,在业务落地成了菜鸡互啄。

SDK走天下梦碎后,他们的解决方案从轻变重,跟传统IT企业一样,走高度定制化解决方案的路子。

高度定制化解决方案的利润困局

To B行业有什么特点?个性化定制;获客周期长(决策流程较长);产品有实施成本;成长较为线性;价值敏感。

而一旦进入高度定制化赛道,就意味着AI企业成为一家集成商,而非高大上的产品型科技公司。

陈冀(化名)表示,重型解决方案模式的最大弊病是,你能做的,别人也能做,这导致门槛大大降低,业务利润大大降低,最后大多需要靠关系驱动。

他们吭哧吭哧地进入的重型解决方案行业,一不留神就走进利润死胡同。

有人问,安防行业也定制化,为什么海康走得通?

简单来说,就是把“成本三低”做到了极致:

平均人力成本低

运营成本和销售成本低

产量扩大后的边际成本低

海康威视总裁胡扬忠曾告诉雷锋网,他对科技公司做安防持审慎态度。

“以通讯行业为例,其运营和销售成本比安防高很多,所以用高成本的人力去跑安防,就像拿步枪打苍蝇一样,投入与产出是非常不匹配的。”

这句话背后,也许是对高成本的科技公司走碎片化定制解决方案路径的怀疑,甚至是否定。

大型IT公司之所以能在定制化赛道里存活,很大部分原因在于人效的极致追求,说得不好听,就是用更低的成本,去省出更多的利润空间。

海康威视总裁胡扬忠也曾发表对此的看法,他说:

这个行业场景碎片化,用户需求差异化和定制化需求明显,而且这个行业的平均回报并不高,每个项目贡献度都不大。所以如果人力成本过高,会是个很关键的问题,会导致人均产出/费用比不划算。

“从公开资料看,AI企业年度人均营收约50万,人均费用也约50万,即使毛利率能到50%,依然会有明显的亏损。”陈冀坦言,“而且,他们很难达到50%的毛利率,想做大人均,很难。”

这也正是当初华为大张旗鼓地进入安防时,胡扬忠表示:华为是一家做大生意的公司,捡豆子、捡芝麻的生意不适合他,华为很快会认识到这一点。

“海康威视的人均人力成本只有华为的三分之一,任正非历来不提倡华为在低维市场的泥潭里死缠乱耗,华为如果以海康的方式做安防,被集团叫停只是时间问题。”业内人告诉雷锋网。

华为安防后续转换战略,主推平台,也侧面证实这一点。

在人效优势+规模化效应的前提下,海康做了20年,也才做到约600亿元的营收。

与互联网动辄千亿战果相比,这盘实在算不上大肉,与动辄估值几百亿、亏损几十亿的AI企业相比,这不像是经得起折腾的赛道。

这里提一句,彭易(化名)告诉雷锋网,在他看来,云从之所以能够上市,除了国家队属性,也在于他们的亏损率控制。

而亏损率不高,与人效或者说重庆人力成本低有关。同时,与其他几位小龙喜欢重金聘请AI大牛和博士相比,云从则显得低调得多,鲜少有盛名在外的科学家。

云从科技提交的IPO招股书显示,2019年高管总薪酬仅890.47万元,要知道,在不少企业,一个AI大牛的薪资就高达千万。

千人级别员工规模下的高薪酬,一年的人力成本就可高达几亿到十几亿。

而且,AI企业虽技术优势傍身,但作为不单纯靠高科技能打下市场的行业,难以通过单点突破快速占领市场。

大多数AI企业逃不开“三高”病(高投入、高亏损、高人才),同时又不具备规模化效应,让他们在高度定制化且毛利低的市场,转不开磨盘、吃不饱。

AI企业放得下高大上的科技标签,吃得了长苦,但就是赚不到钱。

所以无论是安防也好,金融、医疗、工业也罢,都面临这个问题,无论是走平台模式还是定制化模式,都难逃利润的死胡同。

欧美的高分作业,国内企业抄不来

1.重型解决方案的困局:国内企业难做出高毛利的核心产品

有人说,海外走通此模式的大有人在,中国为什么玩不转?

比如IBM,它就是在重型解决方案领域走出康庄大道的典型代表。

郭士纳时期开始,IBM转型成为一家高定制化的解决方案公司,但IBM却并未受困于此,反而一直有着超高的利润率。

雷锋网在这先感叹一句,真正的高人,往往能通过深入浅出的话语,道出核心本质,毛泽东是一个,郭士纳是另一个。

他当初对IBM转型解决方案公司的定位是:如果客户需要马桶,那IBM也卖。

这句话背后的本质是,以客户为核心,牢牢把握住客户,而这,正是一家解决方案公司的立身之本。

当然,IBM转型成功,除了抓住了这一根本,也离不开IBM的核心产品、服务和并购。

这里重点谈下IBM的核心产品。核心产品,是那些通用化的、高毛利的产品。

IBM的解决方案,集成了众多生态伙伴的产品,但方案中有些重要的组件和中间件,由IBM自研把控,比如服务器、存储。

这些技术门槛高、占据核心地位且通用的基础系统硬件,也带来了高利润。

IBM看似在高度定制化解决方案里又苦又累,帮其他公司牵线搭桥,实则拿捏住了最核心的中间件,以至于一个项目可以拿到近五成的营收以及高毛利。

“以前银行IT系统里最要命的中间件都是IBM在控制,成本不高,但服务费非常贵。十几年前那批服务银行业务的IBM销售,真是躺着赚钱。”IBM 前员工告诉雷锋网。

所以,即使他们做重解决方案,依然可以通过核心产品获得高毛利。

同样,SAP有ECC,甲骨文有数据库。

数据库是基础软件皇冠上的明珠,几十年来与操作系统齐名,是每一家公司业务系统的核心,以刚需“收割”企业利润。

这些都是解决方案里的利润来源、客户不得不买的核心产品。

那么为什么中国的解决方案公司缺少这类高毛利的核心产品?在雷锋网看来,原因有四:

第一,复杂的系统性工程能力有限。吃透一个复杂业务系统,需要强大的工程能力,庞大的知识体系和深厚的经验积累,中国在系统性工程能力上一直较为欠缺。

第二,浮躁,倾向于赚快钱。(其实这也是工程能力弱的原因)

这类核心产品,属性重、壁垒高,需要极大的时间、资金、精力和研发投入,但中国发达的互联网产业让大多数企业习惯于短期获利,在海量的客户、海量的营收规模、高营收增长率、高利润率的面前,难以沉下心来做各项要求极高,且不一定能成功的产品。

第三,对资金投入、战略坚持要求极高。

以数据库为例,在云计算的光芒下,这两年中国数据库领域进展迅速,阿里、腾讯、华为都初尝甜头。

在这背后,他们投入了巨大的人力、物力、财力,即便如此,因中国To B市场环境问题,在相当长一段时期内,这类产品的工作推进得尤为艰难。

在那些前路星光暗淡的日子里,能坚持至今,实属不易,这离不开企业在战略上坚定地支持。

第四,企业对有效专利的保护远远不够,在法律手段上不够狠,市场惩罚力度有限,导致抄袭成本低。仿制品多了,自然会进入打价格战的恶性循环,没有利润。

这个问题过去20年没有解决,可能未来10年也很难解决。

早期,AI公司以为AI技术就是类似ECC、Oracle的“中间件”,但是AI本身并不是一个产品,且门槛逐渐降低,同质化严重。

而IT软件领域,中国至今也没有一个保持高毛利率的软件企业。以金蝶、用友为例,这些具有二、三十年历史的公司,利润一直在低位徘徊。

眼下的中国AI公司,大多缺钱、缺精力、缺战略底气去支持一款核心产品的开发。

2.轻量标准化产品模式:盘子是大,收费模式扭曲

做重不行,那就来轻的,比如SaaS模式。

的确,SaaS也是目前各大互联网巨头最为重视的产品形态之一。

它模式轻,无需定制,一套SaaS产品可以复用;收入可持续,不是一锤子买卖;高毛利,SaaS收入的毛利至少能达到70%。

它打通To B,通用化、标准化,是个突破困局的好苗子。

此模式也得到欧美市场认可,单2020年,美股的SaaS公司就有不少突破了百亿甚至千亿美金估值。

甚至有一种说法:美股过去十年属于FAANG(互联网),下一个十年属于SaaS(软件即服务),未来软件定义世界。

理论上可行,但要明白,美国的企业服务程度远在中国之上,且美国人口红利弱势下,长期以来注重人效比。

其次,中国环境较为尴尬,中国的付费意识有所提升,但依然不容乐观,尤其在软件领域。而有了免费的钉钉、企业微信、飞书后,更是加剧了国内小公司的软件“白嫖”意识,愿意付出可观费用的企业数量非常少。

其实,这间接导致SaaS也逐步进化成定制化项目。

其次,仔细想想,淘宝在以另一种SaaS的形态存在于市场,以羊毛出在猪身上的方式,赚走了多数小微企业的钱。

3.企业知识产权保护:不够快、不够狠、不够全

当然,高毛利的困局,除了战略坚持、工程能力,更在于当前知识产权保护环境的不成熟。

首先,中国企业一个重大认知误区,就是“谁掌握的技术多,谁最需要加强知识产权保护”。

知识产权其实具备技术与法律的双重属性,本质上是运用于商业。

但中国大多数企业没有意识到它不是一个法律问题,而是一个资产管理问题,知识产权长期得不到足够的重视。

这一点上,硅谷地区尤为优秀。

《烧掉舰船》一书中,就鲜活地展示了知识产权的力量。

马歇尔•菲尔普斯在任职IBM公司副总裁期间,利用知识产权武器,在IBM命悬一线之时,通过一系列组织架构及专利许可的改革,成功使得IBM公司摆脱经营困境:

当年,IBM的利润收入总额中有25%来自于知识产权的与授权的项目。

如果说在IBM马歇尔只是利用知识产权拯救IBM公司脱离水火困局,那么后来在微软马歇尔则利用知识产权所做的变革,让知识产权成为微软的战略核心,并支撑巨轮前行。

而另一个依靠知识产权的运营为企业带来盈利的典型案例,非甲骨文莫属。

甲骨文的法务团队是全公司最强势的部门,有人调侃,它应该是一家大型律所,而不是一家软件科技巨头。


其法务团队,已经形成一条完整的产业链,有负责起草滴水不漏的授权许可合同/格式合同的律师;有负责探索并调查市场上侵权公司,进行许可授权谈判的律师;有负责诉讼的律师,开启漫长的司法程序,并申请配套的诉讼保全或禁止令等,捆住目标公司的手脚。

这些法务团队出现在董事会、在风控会、在谈判现场、在危机处理等等场景,只要与公司业务相关,他们似乎无处不在。

一家一流公司,不仅需要能创造IP,更需要运营IP。

作为一个软件系统公司,甲骨文前期需要为产品投入巨大的成本,此举本意是为保护自身不受侵害,后来,这种架构融入企业生命,成为一种生产力。

只要他们开发出一款好的数据库产品或组件,即举整个公司之力保护权益,甚至经常通过一场官司就可赢得数亿美金,以至于网上出现不少诸如此类的段子:

黑客:你好,在吗?

受害企业:?

黑客:我在你公司网络里安装了几个oracle数据库,给我2-btc我就告诉具体安装位置,要不我就告到oracle法务部。

受害企业:......大哥,有话好商量

这套机制在保护他们的核心产品的同时,也让其在一段时间内形成市场垄断。

公司业务上无处不在的法务团队,其实是法务成熟的体现。显然,国内仍不够成熟:知识产权保护体系不健全,企业也缺乏相关的意识。

比如知识产权保护到位,是建立在一系列前提之上,大多数企业并没有完备的团队:

是合适利用知识产权保护还是适合商业秘密保护是否做了全面的或针对性的知识产权布局是否有团队在监控和维护知识产权

比如实际执法问题多,处罚力度有限。不仅存在认知力度水平不一、地方保护主义等等问题,且目前知识产权界的不少重大侵权案件中的赔偿金额也较为有限。

“真正的惩罚是市场禁入,真正的奖励是国家允许的市场垄断。”某法律从业者对雷锋网表示。

中国的知识产权,大多数仍处于低端的专利代理和诉讼工作,很难去真正认识到知识产权保护这种无形资产对一个企业价值体。

整个知识产权结构的不成熟,让拿来主义盛行。当企业呕心沥血开发的产品一转手成为他人获利的工具,得不到保护的创新,就是市场恶性竞争的开始。

不在死局中消耗,就在“三大激进商业模式”上九死一生

难道没有其他出路吗?

未必,短道被挡,还有长道。在雷锋网看来,AI未来的转机,也许在以下三种路径里。

路径一:重定制集成项目实施→ 数字化咨询 → 咨询业务反哺重定制实施 → 与大型客户建立高粘性和系统不可替代性

眼下,整个To B行业,一边被传统体系与落后的生产方式相互拉扯,一边在纷繁复杂的新兴技术洪流中被左右推搡。

在技术迭代的窗口,要么向上冲锋,跃进下一个时代,要么混同扑面而来的泥沙,跌入时代的谷底。

转型是不是找死不知道,但不转型一定是等死。

身处其中的传统企业们怎能不明白这个道理,但是AI时代,如何提升企业生产与管理效率?如何重构线上与线下的关系?换句话说,往哪里转?怎么转?

这些问题,单靠企业本身,难以全面回答,而咨询机构可以。

德鲁克说过:动荡时代最大的危险不是动荡本身,而是仍然用过去的逻辑做事。

数字化咨询最大的价值不是解决细节的技术问题,而是通过对商业流程的把握,通过整个体系的重塑实现更高的企业运营效率。最终目的,是让企业花费最小的金钱、时间等成本,实现企业数字化转型。

为什么说AI公司,在当前适合开辟数字化咨询业务?

先说说必要性。

首先以往的AI公司完全不需要做咨询业务,因为它们只是给客户提供单点技术服务,如人脸识别、语音交互、机器学习决策等等,远没到战略咨询、IT咨询阶段。

但现阶段的AI企业,随着业务不断下沉,逐渐做重,本质上成了数字化企业。

数字化,用什么技术不重要,重要的是做好顶层设计、组织管理规划、数据沉淀、数据流通、数据决策,最终实现智能化。

这个时候,做咨询,势在必行。

咨询行业本身是高智力的工作,难以产生高规模营收、高利润,但咨询不是目的,盈利也不是。

如今的数字化转型解决方案,不再是单纯的软硬件实施,而是对人、组织、流程、IT的整体改造。

AI企业可以设立“咨询子公司”,自上而下摸清楚各种场景、客户、领导的需求,拉通供应链关系,一来,以自身的方式经营客群关系,并帮助母公司去直接获客,承接项目实施。二来,在更深入了解客户需求后,反哺主公司的整体解决方案。

坦白讲,咨询只是引子,打通客户决策层之际,为自己的项目实施业务拉客。更通过这个引子,吃透行业,了解更多客户需求,让解决方案更为健全、通用。

好比一家装修实施公司,额外经营了一家家装设计子公司,设计公司先给业主做出设计规划,提供装修的用料、实施商的选型参考,同时推荐自家的实施母公司,来做最终落地。

再说说可能性。

模式轻,市值高。

咨询是轻模式,资金压力小,AI企业入局风险较小。

其实IT数字化领域,走通此模式的咨询企业不在少数。以埃森哲为例,其以IT咨询起家,在咨询领域站稳脚跟后做,逐步扩展到解决方案的实施和部署,目前年营收500亿美元,市值达2000亿美元。

即使不以巨头参照,咨询本身最大的成本是人力,项目人效高,利润与重型解决方案相比,也较为可观。

咨询行业市场大。

未来智库数据显示,2018年全球咨询行业达 2770 亿美元,复合增长 4.3%。在增长方面,亚太地区是行业的最前沿。亚太地区 2018 年的市场规模为 470 亿美元,约占全球管理咨询业的 17%,其中中国市场是增长龙头,年复合增速超过 10%,是全球市场的两倍。

AI企业可根据自身基础,选择不同的模式组合:轻咨询+重实施;重咨询+轻实施;重咨询+没有实施。

其实目前不少AI企业已经在往咨询领域发力,比如金融风控领域的头部企业同盾就孵化了咨询子品牌。

在定制化场景摸爬滚打的海康也暗戳戳地有动作。

2018年12月,海康进行了组织架构调整,成立了全新的三大BG事业部(PBG、EBG、SMBG)。其中,EBG已经成为海康新的动力引擎之一,承担了海康推进企业数字化转型业务重任,海康委以重任的EBG负责人徐习明, 就是IT咨询出身,曾是IBM咨询部门的副总裁。

最鼎盛时期的IBM,是解决方案的集大成者,更是一只“高毛利的通用服务器、中间件产品 + 高定制化实施团队 + IT咨询服务部”三轮驱动的巨型航母。

路径二:重定制集成项目实施 → 进入非标市场的标准市场(自动驾驶、芯片) → 形成标准化产品 → 低成本规模化复制

AI公司为何都在赔?

核心在于:AI未能标准化,项目需求又无穷多,也就有了做得越多亏得越多。

业务特性上,以项目制为主,产品和服务门槛高,生产流程复杂、定制化高;

行业特性上,周期长、反馈慢,不具备高增长性,投资回报率低。

竞争格局上,传统巨头林立,扩展业务边界;互联网大厂跨界,财大气粗广撒网,搭建生态。

说白了,非标市场,容不下AI企业浩瀚的AI梦。

那就去标准化市场?有人说。

标准化市场可以一夜之间把价格做到无穷低,高额运营支出会逼着他们重回定制化市场。

上不得,下不去,还不能不做,毕竟日子还得过?怎么办?

在非标准化市场找到标准化赛道,这才是AI公司的路子。

没找到之前,一定不赚钱,一定亏下去,一定成不了巨头,一定被质疑。

所以不管他们现阶段是否依赖于非标领域获得营收,要在未来立足,必须瞄准更大的赛道,如此,才能支撑他们“昂贵的未来”。

这个“更大的赛道”在哪里呢?

场景上,自动驾驶、芯片都是明显的非标市场中的标准市场。

技术上,软件定义、人机协同一旦成型,可以一招吃遍天下鲜。

这些赛道长线、资本看好(热钱关注)、短期无法盈利,能讲出不一样的故事。

正如《依图医疗「变卖」内幕:出走、截胡与派系整合》中,前依图员工的一句话点破了AI公司对标准化市场壮士断腕般的执着:

安防和医疗都不是依图未来的主业,安防只是规模比医疗大,哪一天无人车或者芯片做起来,安防也能像医疗一样卖掉。现在分管安防的高管Steve,背景是企业级产品研发,想做个类似数据库的产品,什么行业都可以用。因此,对行业领域没有太多的感知或者感情。”

路径三:开源深度学习框架,占位国产化高地。

至今,主流的开源深度学习框架一直由国外科技巨头主导,其中Google的TensorFlow以强大的工业部署能力深受工业界喜爱,Facebook的PyTorch以灵活性横扫学术千军,两者占据了90%的市场份额。

在AI界,两大开源框架的地位等同于IOS和安卓系统,算得上开源框架的双煞。

既然巨头成就在前,框架开源不受限,为什么要重复造轮子,胜算又在哪里?

1. 深度学习框架,一场潜在的制高点之争。

如果把炒菜比作场景,优质的食材(大数据)、高超的方法(算法)、上等的锅(框架),加上恰当的火力(算力),才能炒出一盘好菜。

作为底层语言和算法模型的骨架,深度学习框架省去了开发者从0到1地搭建地基的成本,提高开发效率。

开发人员可以像搭积木一般,根据自身行业的特点和场景需要,选择框架中的模型,进行组装或训练自己的模型,导入数据并得到模型,最终实现部署。

深度学习框架其实将数据、算力、算法三者相连接,向下对接芯片(算力),向上支撑应用。

如果说芯片是算力平台,那么深度学习框架就是编程生产力平台,两者已经成为AI基础设施基座。

成为一家平台型公司,建立以自身为主导的庞大的AI生态,是大多数科技巨头的愿景,在“得开发者得天下”的影响下,开源深度学习框架将是企业跻身“平台型AI”的关键。

开源本身,是将自家的独门绝技分解成一招一式,慷慨对外,既是开诚布公的交流,也是明枪暗箭的较量。

深度学习框架话语权的争夺,暗藏着对未来AI行业标准制定主话人的争夺。

百度CTO、深度学习技术及应用国家工程实验室主任王海峰也曾表示,深度学习框架是“智能时代的操作系统”。

深度学习框架的竞争,已经成为未来人工智能场上竞赛的制高点。

Google有TensorFlow、Facebook有PyTorch,百度有Paddle Paddle、华为有华为 MindSpore。

你看,这一制高点,早已有无数巨头争相竞夺。

2. 技术没有终点,企业没有永胜将军。

当年TensorFlow横贯世界,谁能想到PyTorch愣是冲破铁幕,上演了后来居上的故事呢?

按理说如今TensorFlow和PyTorch牢牢把控市场,然而TensorFlow性能高、部署方式高效,但调试性不足,而PyTorch灵活易上手,但命令式编程运行效率低。

说白了,开发端的需求动态化、多元化,没有哪一个框架能完全满足市场需求。

这意味着,任何一个框架都不会有决定性的胜利。没有永恒的强者,只有永恒的挑战者——新的框架出现具有历史必然性。

华为徐直军曾对此表示:“我们现在还没有看到哪一个框架能够真正做到支撑全场景,而华为 MindSpore 的目标就是成为这样一个框架”。

也因此,不断有挑战霸主地位的冲锋者。

开源深度学习框架的代表性崛起出现在2012年-2015年间,历史并不悠久,也许追着追着,就赶上了呢?

3. 局势动荡,国产替代势头大。

中国超九成的开发者使用的AI开源软件包来自美国。

很显然,中国的人工智能严重依赖美国的开源框架,往严重了说,中国人工智能产业,有相当一部分是建立在美国智能框架之上。

在中美关系缓解的前提下,尚且影响不大,但如果这个前提生变呢?

轻则影响工程进度,重则步中国芯片产业被美制裁的后尘。

中兴、华为事件的爆发、美国至今仍在更新的实体清单,无不在提醒着中国企业,作为编程生产力平台的深度学习框架,不是没有成为下一目标的可能。

一旦中国AI企业成为制裁对象,关上了深度学习框架的大门,将是对中国开发人员甚至AI产业的致命一击。

退一步讲,目前在国家数据安全越加敏感的背景下,即使没有中美科技战,数据向国内迁移也将成为趋势。

要知道,AI的训练全部基于开源框架,这意味着海量的真实食材(数据)都将在美国企业的大锅(开源框架)里烹饪,一旦上升到国家,数据安全将成重要隐患。

所以我们看到,百度开源了,华为开源了,阿里开源了,腾讯开源了,旷视开源了,清华也开源了......

从这个角度看,也许2020年国产深度学习框架开源集中爆发不是巧合。

而在这之中有个信号——少见的AI企业的身影。

2020年3月,旷视开源核心深度学习框架旷视天元(MegEngine),成为全球首个将底层框架开源的人工智能企业。

MegEngine开源发布会上,除了有图灵奖得主姚期智、高文院士、怀进鹏院士坐镇,还有前微软人工智能领航人物沈向洋捧场,单从嘉宾阵容,可一窥旷视对其开源框架的重视。

旷视的出现,让这场竞争不再是科技巨头玩得起的游戏。

首先,前文提到目前AI公司的困境在于,AI并非核心技术,重型定制化解决方案容易进入死胡同,轻量的标准化产品模式收费潜力有限,可谈得上“价值”的人才难以量化。

AI企业一直在寻找一个站得住、走得长的“价值”,基于上述分析,开源可以是那个“价值”。

站在旷视的角度,当初商汤以平台型为目标,旷视若无亮眼标签傍身,未来很可能与二线AI企业无异。

一知名投资人向雷锋网透露,他们投资人看企业,更多看的是想象空间,不是看现在能赚多少钱,如果比赚钱,何不去投资集成商?

“当今的AI行业,除了极个别企业外,我们实在看不到任何大的想象空间。旷视的想象空间,我认为是深度学习开源框架,如果能把它做好,这就是他们的最大增量之一。”

再来谈谈现实,开源框架的商业价值。

TensorFlow和PyTorch其实都存在百亿美元的营收潜力,Google和Facebook之所以不以此盈利,是因为开源承载的更多是战略意义,是防止被对手吞噬的防御性措施。

安卓的免费开源,从战略意义上讲,是为了防止被iOS和Window卡脖子。

设想下,如果Google没有自己的安卓阵营,几十个应用全部架设在苹果和微软的操作系统之上,一旦发生巨头之间的卡脖子事件,Google的处境会有多么艰难。

巨头不缺钱,可以不在乎盈利,但AI企业在乎。他们需要钱,且理论上可操作。

方式一,可先提供一个基础版本,针对高级版本收服务费;方式二,开源一段时期后闭源,按需使用收费;方式三,与使用框架的公司合作,开发新产品。

当然,这是一条可行的路,但并不是一条容易的路。

TensorFlow和PyTorch,背靠科技巨头,框架性能强大、工具链成熟、社区生态庞大,它们汇聚了全球的工程师、顶尖的代码和产品,仍然位居开源领域顶峰。

这个赛道里,创业公司极少,侧面意味着高壁垒、周期长、生意慢,需要得到开发者认可,需要巨大的生态支持,才能变成大生意。

而且,这一路径的成立必要前提,是科技制裁加剧、外国主流框架使用受限、中国相关政策支持,且成立后,仅有中国人使用,其生态环境无法与前两者比拟,这是此模式天然的局限性。

时代万象,成王败寇

距离那场让各界激动不已的人机大战,已经五年了,也才短短五年。

有人赶不上热点,抓不紧核心,在队伍末端吊坠。

有人挑最重的担子,啃最硬的骨头,无惧下沉。

有人交枪、抢跑、狂奔,全力以赴想抢先初达拐点。

有人羞羞答答,不知该破釜还是坚守,两只手相互拉扯,左右为难。

无论以何种姿态闪亮登场,未能寻得一片安身之地的企业,都将被大浪冲散。商战残酷,无人怜惜蔷薇横卧,唯有在历史的缝隙里,辗转腾挪,活到下一时代。

但市场铁律会摧毁秩序,也会重建规则,催生新的万象。

数字化浪潮正引发新一轮社会进化,所有人将通过商业路径选择,完成一场公平竞跑。

这既是一个AI企业赌命的关键节点,也是AI企业在新时代开篇建制的绝佳时机。最先适应的人,将收到时代馈赠的红利。

AI商业化落地的镜像里,谁能称王,谁是败寇?

新故事已然开始。让我们拿起望远镜,随着时代的曲线开始一场大变革浪潮的奇幻漂流吧。

————

《AI冰与火之歌· 五问》第三篇预告

人都说技术前进无终局,但AI基础研究似乎逐渐进入了停滞期。

中国工程院院士、中科院计算所首席科学家李国杰近日提到,目前我国大学和企业的人工智能实验室大多遇到顶天顶不了、立地又落不下去的困境。

他认为,不少科研项目要么是增量式的技术改进,要么是几十年难以突破的理想型目标。

AI公司商业模式落寞背后,当然也离不开底层研究的支撑。

8月24日,我们将发布深度报道《锁死AI基础研究的「智子」是什么?》,从技术和人文角度,讲述基础研究难突破的深层原因,并探索未来AI研究的新方向。雷锋网雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/YNSUISd80P9LkLyG.html#comments Mon, 23 Aug 2021 22:44:00 +0800
专访文安智能董事长陶海:AI 企业要「输血」,更要「造血」 //m.drvow.com/category/aijuejinzhi/d0bDJJWWUcadChN8.html

从教授到企业家。陶海与计算机视觉(CV)的故事,要从高校讲起。

本硕期间,陶海跟随清华大学自动化系“中国模式识别宗师”边肇祺教授,开始从事指纹识别方面的研究。硕士毕业后,陶海赴美继续深造,拜于“华人计算机视觉之父” Thomas S. Huang教授门下攻读博士学位,对人脸表情识别、非刚体运动跟踪和超低码率视频传输等领域展开深入探索,并于2001年任教加州大学,与学生共同发表计算机视觉领域学术论文百余篇。
  
名校、名师、名人光环之下,陶海却将目光投向了技术落地的最前线。

2005年,陶海回到国内创立北京文安智能技术股份有限公司(VION),暗含视觉技术(Vision)即将登上(On)产业化舞台的意思。

至此,文安智能成为本次AI创业浪潮中最早的一家CV企业。

“我们只做垂直的、聚焦的深耕,不止是要做到落地,更要给用户一个价值体现。”陶海表示,文安智能的目的,是跨越从技术供给到商业需求的鸿沟,实现一定的商业及社会价值,推动产业的发展与变革。

近日,雷锋网AI掘金志与陶海进行了一次深度对话。本次访谈中,谈到了他对眼下、未来AI的思考,以及对产业的洞见。

泡沫破裂

自2016年阿尔法狗击败李世石取得人机大战胜利之后,资本对AI的追捧甚嚣尘上,一时间各类创业企业遍地开花,资金有如潮水般蜂拥而来,浇灌在人工智能这片田野上。
 
然而,在资金的加持下,人工智能技术虽然取得长足发展,几年后却在商业变现上栽了跟斗:绝大多数AI公司很难实现盈利,并且处于持续亏损状态。这给热情高涨的资本泼了一盆冷水,资本对AI的关注趋于平静。

亿欧智库数据显示,资本对人工智能企业的投资数量在2018年达到顶峰,随后峰回路转,近两年的投资数量开始渐渐回落,但投资金额却在不断上升。这反映出一个趋势:资本正从此前的大水漫灌走向精耕细作。

来源:《亿欧智库:2021年中国AI商业落地市场研究报告》

正如Gartner曲线所示,任一创新技术的热度周期,都会经历非理性追捧的高峰启动期,而后泡沫破灭来到低谷,再逐步走向正规、稳定发展的攀升期。

陶海表示,碎裂的泡沫让人们更清晰客观地看出一项技术的优劣性,更理智、现实地发展行业,进行稳健地进步。

随着技术壁垒、应用门槛不断降低,AI日趋工具化、常态化,AI创业也步入深水区,不断“下沉”。

此时,算法越来越难以成为AI企业之间壁垒,与具体产业的结合、应用行业的属性变得越来越重。
 
“前几年AI热潮兴起之时,涌现出很多AI概念的企业,其中不乏‘伪AI企业’,本质上并不具有真正的AI技术。退潮之后,它们逐渐暴露出短板,无法用技术解决客户的痛点,必然会在商业化的过程中落败。”九合创投创始人王啸曾表示,投资机构对AI创业团队的评判标准正发生着较大的迁移。

过去,投资机构更看重技术难度、技术带头人的背景等等,以技术为核心进行判断。但现在,“产业理解力”在评价体系中的比重显著提升,更看重AI技术能否在产业里创造真实的价值、市场规模是否足够大。

“技术价值与商业价值不能顾此失彼,要‘两条腿走路’。”陶海表示,AI产品面临的问题与普通消费品不同,一方面算力壁垒下,短时间内难以从成本上形成普惠,一方面局限于B/G市场的定制化、碎片化,难以在市场上形成规模收益,也因此,在成本居高不下中,多数AI企业被困于此。
 
那么,在资本日趋理性的泛AI时代,CV赛道之上苦苦求索的企业们,路在何方?

自食其力

长期以来,AI作为改变生活的新技术获得了社会的认可,但随着产业从技术探索走向规模商用阶段,如何将技术能力转化为商业能力成为一道必答题。
 
头部企业尚且亏损,其他AI公司的情况亦不容乐观。在投资成本远远大于收益的现实下,“AI落地难、变现难”成为业界常谈,关于AI商业化的各种质疑纷至沓来。

不久前云从科技、云天励飞等企业成功过会虽回应了部分质疑,给市场注入一剂“强心针”,但今年以来仍有诸多人工智能企业相继在上市道路上遭遇“滑铁卢”。

“人工智能企业也是企业,要始终遵循企业的发展规律,在企业创立之初就把盈利放在首位,不断用技术创新来创造价值。”陶海坦言。
 
市场上有两类公司,一类是资本驱动型,在充足的资本支持下,可加大研发,也允许亏损,而一旦离开资本,他们便难以维系。

另一类则是凭借自身造血。在陶海看来,资本固然对AI公司具备助推力,但这力量的前提是资方明确的利益诉求:投资回报。

来源:《艾瑞咨询:2021年中国人工智能基础层行业发展研究报告》

过度依赖外部输血的AI公司会背上营收快速增长的包袱,这种营收的压力会影响技术和商业落地的进程,破坏AI本身的商业逻辑,忽略盈利,带来“过犹不及”的后果。

陶海指出,AI行业有其自身发展的规律。AI从技术到应用,从亏损到盈利,都存在一个周期。这个周期具体表现为,前期要投入大量的人力财力,才能将技术转化为产品,而产品的应用则受制于成本、场景等因素,商业化过程比较漫长。
 
“AI企业要‘自食其力’,严格按照AI本身的发展节奏来走。”陶海认为,这样一来,即使在没有融资的情况下,也能养活自己,其代价是企业的发展稍慢,但对公司的竞争力和创新力都是一种锻炼。
 
“既不能过久停于平台期,也不要过度激进,到头来形成资金窟窿。”
 
陶海表示,只有在自我造血的基础上持续积累,找到一条适合自身的路子,在技术和产品足够支撑起公司的快速增长的背景下,再寻求融资,才能最大程度上吸收资本带来的帮助。

开源节流

前面提到,产品进入流通领域之后才成为商品,在交换(消费)过程中产生商业价值(利润),然后用利润扩大再生产,形成“技术-产品-商品-消费-利润-再生产”的商业闭环。
 
但多数AI企业在“产品-商品-消费”这个环节面临困境,也就是“落地难”,而最大的难处就是:成本。
 
AI属于资金技术密集型产业,对人才、资金、材料等要素的需求非常之高,研发投入很大,这些成本最终附加在产品上,因此AI产品因“高精尖”特性,定价较高。
 
“如果产品成本过高,就没法大规模推广下去。”陶海表示,做一件成熟的产品相对容易,但做一件成熟的商品却很难。

“既要开源,也要节流。”观察下来,现阶段AI企业要想实现成本控制,其一应“合理的资源分配”,将绝大多数的纯基础研究工作交给学校,企业则专注于应用创新与价值创造;其二应“价值匹配刚需”,不做伪需求,深入行业,关注且找准真正的需求痛点。

而要实现稳定营收,陶海进一步提出,具体应从两个方面着手:“在应用层面持续创新,在性能层面追求极致。”

一方面,要做到应用创新,最重要的是对行业的深刻理解,即了解需求和市场,包括现有产品的不足,以及市场出现的新的需求痛点;另一方面,AI企业必须在夯实技术创新底层的基础上,把产品的性能做到极致。

AI内卷之下,算法的核心竞争力地位正在减弱。新的AI公司层出不穷,开放式算法平台也日见增多,几年争奇斗艳,人工智能得以普及,AI门槛降低,算法不再是九天月,遥不可及。
 
“留给那些只做算法的公司的生存空间越来越小,这边一个好的算法亮相,就宣告那边差的算法消亡。”
 
所以,AI企业要活下去,且活得更滋润,就必须从价值入手,通过应用创新和极致性能,将技术运用到合适的地方,来解决市场痛点。

但这显然还不够,因为AI企业除了内部竞争以外,还面临着激烈的外部竞争:如今的AI圈,行业巨头根基深厚、渠道广布,已经形成比较完整的产品体系,牢牢占据大部分市场份额,只能追赶,难以超越;跨界巨头资本雄厚,来势汹汹;以四小龙为代表的AI厂商,成长为一方领头羊,自成体系;无数CV黑马,力图弯道超车,不甘人后。
 
AI企业要虎口夺食,除了在硬实力上下功夫,还应该逢强智取。

“再好的技术,最终也要与实际应用结合产生价值;再好的算法,最终也要在可控成本的前提下,实现人们最需要的功能。”陶海认为,AI企业不能脱离“以人为本”,要将人工智能技术产业化,把技术落地为产品,进而转化成商品,为“人”的生活服务。

“必须开拓新的商业模式,就是走运营与服务的路线。”陶海认为,AI企业要从单纯的技术产品供应商,向“集技术、产品、运营、服务于一体”的综合方案解决商的角色转变。

AI运营与服务

陶海认为,眼下盛行的两种商业路径都难以走通。
 
1、做创新AIoT硬件或算法供应商。
 
这一模式已经在过去几年被验证行不通,一来,会面临海康、大华等巨鳄的终端产品规模化优势的价格碾压;二来,这类AI企业逐渐被架空,话语权依然在下游集成商或运营商手里。
 
2、做开放的算法平台或AI芯片。
 
算法上,巨头高效率、低成本地获客,算法甚至可免费打包到云服务;芯片上,芯片成功的要素除了优异的识别性能,更在于成本和出货量。高昂的研发成本和流片成本,需要企业极为慎重。
 
“在国内要把AI创新做好,光做算法,光做AIoT的智能摄像机都是不够的。”对此,陶海提出了“全栈AI智能闭环”的思路,即延伸产业链,增加附加值,不单单提供产品,还提供对应的运维、决策等增值服务。

在他看来,人工智能企业的发展路径都会经历最初的算法设计、硬件研发,到数据平台、运营决策,进而形成一个闭环,而目前许多AI企业都聚焦于搞算法研究,缺少硬件能力和前端感知设备,对于平台的开发也较为滞后。

“除了算法还要做感知硬件,感知之后会得到许多有用的数据,通过数据不仅能优化算法,提高感知精度,而且可以进行决策AI,进而形成业务闭环。”
 
未来的AI企业不再是简单地卖技术、卖产品,而是进入一个长期的全栈AI的业务模式。通过提供更多的增值服务,从而实现盈利、持续增值。
 
“目前的AI还只是半自动,而非全自动,系统、数据较为复杂,用户需要AI企业进行指导和帮助,而这恰恰是AI服务的痛点。”
 
不过,要实现全栈AI智能闭环并不容易。除了算法,企业还要有做硬件的能力,还要做平台和决策,资金投入大、周期相对较长,并且对AI技术和产品也提出了更高的要求——比如“感知”。

计算机视觉是AI比较成熟的一个分支,已有不少产品落地并商用。但计算机视觉主要通过样本进行统计意义上的回归与拟合来进行识别,缺少逻辑推理,严重依赖样本,而且不同的场景对算法的要求也各不相同,带来的成本问题也亟待解决。
 
“把感知做到全覆盖,功能做得更全,精度提上去,依然是CV公司未来5年内要做的事。”陶海表示,要做到这一点,就要深入行业,了解具体场景下应用的痛点和难点。
 
“要做运营与服务,必须深入行业,深入基层,去理解这个行业,才能知道怎么通过感知加数据、加决策、加行动、加迭代来真正的创造价值。”

顺势增长,逆势突围

命运对每个人设置了难度不同的障碍,在近几年浪潮里的摸爬滚打让AI领悟不少。历经碰撞与跌宕后的再出发,AI后半段场的鏖战,必将格外精彩。
 
以文安智能为例,似乎找到了自身的路径。作为最早的一批计算机视觉公司,其发展历程正如创始人陶海所描述的那样:遵循其自身发展的规律,不过度依赖“输血”,而主要靠“造血”来完成技术积淀。

成立16载,文安智能以AI运营与服务为核心,专注于从感知、协同到决策的全栈人工智能核心技术,产品系列覆盖前端摄像机、边缘端、集群服务器以及后端应用平台,在智慧交管、智慧商业、中观智慧城市等应用场景打造了一系列创新实用的解决方案。

在找到一条适合自身发展的路之后,文安智能开始借力资本:去年十月完成C1轮融资之后,新的融资计划已提上日程,将在智慧交管、智慧商业、中观智慧城市等业务板块继续发力,为G/B端客户持续赋能。
 
这意味着AI已经从“技术为王”过渡到“应用为王”的阶段,这个阶段同样需要资金的支持。而当资本对AI的追捧从“狂热”变成“冷静”的趋势下,只有那些专注于技术创新转化、满足应用需求,持续创造真实价值的“高端玩家”才能获得资金加持。
 
或许在AI这趟大潮中,并没有谁在裸泳,但最终能活下来的,始终是那些认真搞技术、耐心磨产品的公司。雷锋网雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/d0bDJJWWUcadChN8.html#comments Tue, 17 Aug 2021 18:56:00 +0800
关于AI的四个最常见的谬论 //m.drvow.com/category/aijuejinzhi/VyarzIdmiqa7JeTG.html 当今的AI系统可以在广泛的领域中执行复杂的任务,例如数学,游戏和逼真的图像生成。但是当我们接近AI的一些早期目标时,如管家机器人和自动驾驶汽车,这些目标仍将逐渐消失。

圣达菲研究所戴维斯复杂性教授、《人工智能:人类思维指南》的作者梅拉妮·米切尔(Melanie Mitchell)说,错过这些目标的持续循环的一部分是由于对AI和自然智能的错误假设 。

米切尔(Mitchell)在题为“为什么AI比我们想象的更难的原因”的新论文中提出了关于AI的四个常见谬论,这些谬论不仅在公众和媒体之间,而且在专家之间引起误解。这些谬论给人一种错误的信心,使我们对实现人工智能,可以与人类的认知能力和一般问题解决能力相匹配的人工智能系统有多大的信心 。

狭窄的AI和一般的AI规模不一样

现有的AI可以很好地解决狭窄的问题。比如在围棋和国际象棋上超越人类,以超乎寻常的准确性在X射线图像中发现癌变模式,并将音频数据转换为文本。

但是,设计可以解决单个问题的系统并不一定会使我们更接近解决更复杂的问题。米切尔(Mitchell)将第一个谬论描述为“狭义情报与普通情报是连续的”。

米切尔在论文中写道:“即使人们在狭窄的区域内看到一台机器在做奇妙的事情,他们通常会认为该领域对通用AI的发展要远得多。”

例如,当今的 自然语言处理系统在解决许多不同问题(例如翻译,文本生成以及对特定问题的问答)方面已经走了很长一段路。

同时,我们拥有可以将语音数据实时转换为文本的深度学习系统。每一项成就的背后都是数千小时的研发(以及在计算和数据上花费的数百万美元)。但是AI社区仍然没有解决创建能够参与开放式对话而又不会长时间失去连贯性的座席的问题。这样的系统不仅需要解决较小的问题,还需要解决更多的问题。

它需要常识,这是AI尚未解决的关键挑战之一。

简单的事情很难自动化

当涉及到人类时,我们希望一个聪明的人去做艰苦的事情,这需要多年的学习和实践。例子可能包括诸如解决微积分和物理问题,在大师级别下棋,或背诵很多诗之类的任务。

但是数十年来的AI研究证明,那些需要自动关注的艰巨任务更容易实现自动化。简单的任务,我们认为理所当然的事情,却很难自动化。米切尔(Mitchell)将第二个谬误描述为“容易的事情很容易,而艰难的事情很难。”

“我们人类不加思索地做的事情-放眼世界,了解我们所看到的东西,进行对话,走在拥挤的人行道上而不会撞到任何人,这对机器来说是最艰巨的挑战,”米切尔写道。

相反,让机器去做对人类来说非常困难的事情通常会更容易;例如,解决复杂的数学问题,精通国际象棋和围棋之类的游戏以及在数百种语言之间翻译句子对于机器来说都变得相对容易了。

例如,考虑视觉。数十亿年来,生物体已经开发出用于处理光信号的复杂设备。动物会用眼睛盘点周围的物体,导航周围的环境,寻找食物,检测威胁并完成许多其他对生存至关重要的任务。我们人类从祖先那里继承了所有这些能力,并且在没有意识的情况下使用它们。但是,其基本机制确实比使高中和大学感到沮丧的大型数学公式更为复杂。

恰当的例子:我们仍然没有  像人类视觉一样通用的计算机视觉系统。我们设法创建了 人工神经网络 ,可以大致模拟动物和人类视觉系统的各个部分,例如检测物体和分割图像。但是它们很脆弱,对许多不同种类的干扰都很敏感,并且它们无法模仿生物视觉可以完成的全部任务。例如,这就是为什么无人驾驶汽车中使用的计算机视觉系统需要使用激光雷达和地图数据等先进技术进行补充的原因。

另一个被证明是非常困难的领域是感觉运动技能,人类无需经过明确的培训即可掌握这些技能。想想如何处理物体,行走,奔跑和跳跃。这些是您可以在没有意识的情况下完成的任务。实际上,在走路时,您可以做其他事情,例如听播客或打电话。但是,对于当前的AI系统而言,这些技能仍然是一项巨大而昂贵的挑战。

米切尔写道:“人工智能比我们想象的要难,因为我们在很大程度上意识不到自己思考过程的复杂性。”

拟人化AI没有帮助

人工智能领域充满了词汇量,使软件与人类智能处于同一水平。我们使用诸如“学习”,“理解”,“阅读”和“思考”之类的术语来描述AI算法的工作方式。尽管此类拟人化术语通常用作简化复杂软件机制的简写,但它们可能误导我们认为当前的AI系统就像人类的大脑一样运作。

Mitchell将此谬误称为“一厢情愿的助记符的诱惑”,并写道:“这种简写可能会误导试图理解这些结果的公众(以及报道这些结果的媒体),并且还会无意识地影响甚至AI专家的思考方式。他们的系统以及这些系统与人类智能的相似程度。”

一厢情愿的谬论也导致AI社区以令人误解的方式命名算法评估基准。例如,考虑由AI中一些最受尊敬的组织和学术机构开发的 通用语言理解评估(GLUE)基准。GLUE提供了一组任务,这些任务可以帮助评估语言模型如何将其功能推广到其已受训的任务之外。但是,与媒体所描述的相反,如果AI代理获得的GLUE得分高于人类,则并不意味着它的语言理解能力要高于人类。

Mitchell写道:“虽然在这些特定基准上机器的性能优于人类,但AI系统仍远不能与我们与基准名称相关联的更一般的人类能力相匹配。”

如意算术的一个明显例子是Facebook人工智能研究公司2017年的一个项目,科学家在该项目中训练了两个AI代理以基于人类对话的任务进行谈判。在他们的 博客文章中,研究人员指出“更新两个代理的参数会导致与人类语言的差异,因为 代理开发了自己的语言 进行谈判(强调我的意思)。”

这导致了一系列的点击诱饵文章,它们警告了AI系统变得比人类更智能,并且正在以秘密方言进行交流。四年后,最先进的语言模型仍然 难以理解 大多数人在很小的年龄就没有受到指导的情况下所学的基本概念。

没有身体的AI

智慧能否与世界丰富的物理经验孤立地存在?这是科学家和哲学家几个世纪以来一直困惑的问题。

一种思想流派认为,智力全在大脑中,并且可以与身体分离,这也被称为“桶中的大脑”理论。米切尔(Mitchell)称其为“智力全在脑中”的谬论。有了正确的算法和数据,我们就可以创建可以生活在服务器中并与人类智能相匹配的AI。对于这种思维方式的拥护者,尤其是那些支持纯粹的基于深度学习的方法的人,达到通用AI取决于收集适量的数据并创建越来越大的神经网络。

同时,越来越多的证据表明这种方法注定会失败。她写道:“越来越多的研究人员正在质疑“全脑”信息处理模型的基础,以理解智能并创建人工智能。”

人和动物的大脑已经与所有其他人体器官一起进化,其最终目标是提高生存机会。我们的智力与身体的极限和能力紧密相关。嵌入式AI的领域不断扩大,其目的是通过通过不同的感官刺激与环境互动来创建能够发展智能技能的主体。

米切尔(Mitchell)指出,神经科学研究表明“控制认知的神经结构与控制感觉和运动系统的神经结构紧密相连,抽象思维利用了基于人体的神经“图”。”事实上,越来越多的证据和研究证明了来自反馈的反馈。大脑的不同感觉区域会影响我们的有意识和无意识思想。

米切尔(Mitchell)支持这样的观念,即情感,感觉,潜意识偏见和身体经验与智力密不可分。她写道:“在我们的心理学或神经科学知识上,没有任何东西可以支持'纯粹的理性'与可以影响我们的认知和目标的情感和文化偏见分开的可能性。” 

“相反,我们从体现认知的研究中学到的是,人类智力似乎是一个高度集成的系统,具有紧密相关的属性,包括情感,欲望,强烈的自我意识和自主性以及对世界的常识。尚不清楚这些属性是否可以分开。”

人工智能常识

发展通用人工智能需要对我们对智能本身的理解进行调整。我们仍在努力定义什么是智能以及如何在人工和自然界中对其进行测量。

“很明显,为了更有效地实现和评估AI的进步,我们将需要开发出更好的词汇来谈论机器可以做什么,” Mitchell写道。

“从更广泛的意义上讲,我们将需要对智能进行更好的科学理解,因为它体现在自然界的不同系统中。”

米切尔(Mitchell)在论文中讨论的另一个挑战是常识性挑战,她将其描述为“一种当今最先进的AI系统所缺少的保护伞”。

常识包括我们获得的有关世界的知识,并且每天无需付出太多努力就可以应用它。当我们还是孩子的时候,通过探索世界,我们可以学到很多东西,而无需明确指示。其中包括诸如空间,时间,重力和物体的物理属性之类的概念。

例如,一个孩子很小的时候就知道,当一个物体被另一个物体挡住时,它并没有消失并继续存在,或者当一个球在桌子上滚动并到达壁架时,它应该掉下来。我们使用这些知识来构建世界的心理模型,进行因果推断,并以相当高的准确性预测未来状态。

当今的AI系统缺少这种知识,这使它们变得不可预测且需要大量数据。实际上,本文开头提到的两个AI应用程序-客房清洁和驾驶是大多数人通过常识和一点点实践学习的东西。

常识还包括有关人类本性和生活的基本事实,我们在对话和写作中忽略的事物,因为我们知道我们的读者和听众都知道它们。例如,我们知道如果两个人在“打电话”,则意味着他们不在同一个房间。我们还知道,如果“约翰伸手去拿糖”,则意味着在约翰附近某处有一个装有糖的容器。这种知识对于自然语言处理等领域至关重要。

“还没有人知道如何在机器中捕获这样的知识或能力。这是人工智能研究的当前前沿,一种令人鼓舞的前进方式是利用有关幼儿中这些能力发展的已知知识。”米切尔写道。

尽管我们仍然不知道许多问题的答案,但寻找解决方案的第一步是要意识到我们自己的错误思想。 Mitchell写道:“了解这些谬论及其微妙的影响可以为创建更健壮,值得信赖甚至可能真正智能的AI系统指明方向 。”(雷锋网雷锋网雷锋网)

本文编译自:https://venturebeat.com/2021/05/08/the-four-most-common-fallacies-about-ai/

作者:Ben Dickson

]]>
AI+ //m.drvow.com/category/aijuejinzhi/VyarzIdmiqa7JeTG.html#comments Sun, 09 May 2021 06:55:00 +0800
百度AI这一年的"足迹" //m.drvow.com/category/aijuejinzhi/HS5HDseRWepFdbF2.html

“未来十年是智能经济时代。”

在2020年9月15日百度世界大会上,李彦宏(百度董事长兼首席执行官)为人们勾勒出了智能社会的大致模样:

“智能经济、智能社会的大致样子,就是三个智能化:第一是人机交互方式的智能化;第二是基础设施的智能化,包括新型的AI芯片、深度学习框架等;第三是产业的智能化,各行各业都会因为AI技术而发生翻天覆地的变化。”

就在12月30日,百度发布了《百度AI的2020》,回顾与总结了过去的一年。

“持续创新突破,探索科技前沿;自主可控、开源开放,夯实软硬一体 AI 大生产平台,打造 AI 新型基础设施;云智一体,使能行业,赋能生态,加速产业智能化。”

这是百度CTO王海峰对百度AI2020年的总结。从具体实践来看:

  • 这一年,百度地图的语音交互场景实现迅速增长,百度地图智能语音助手用户量已破4亿;百度地图携手百度 Apollo 实现在北京、沧州、长沙多地上线自动驾驶出租车打车功能;小度“破圈”,向人们展示了在家庭、地产、车载等场景中的应用,推出了首款随身产品小度真无线智能耳机;

  • 这一年,百度大脑升级至6.0,并确定了“AI 新型基础设施”的定位:基础层,飞桨深度学习平台和百度昆仑AI芯片“软硬一体”升级为开发者打下了坚实的基础;在技术层,百度大脑实现多项核心技术融合,形成知识增强的跨模态深度语义理解能力;

  • 就在这一年,百度智能云业务架构全面升级,推出了AI中台、知识中台;提出了智能计算服务AI-Native云服务架构;并将百度AI落地在了金融、城市、交通、工业等多个场景之中,为其智能化转型提供AI服务;

  • ……

可见,百度以一年的实践,在描绘智能社会的雏形,也让人们清楚的认识到人工智能产业,正在步入全新的阶段。

疫情之下,AI让人们生活重回正轨

2020年初,“黑天鹅”的出现,打乱了人们有序的生活,也让各行各业如临“大考”。

封城、隔离、医疗资源紧张……疫情与日俱增的肆虐,让人们经历了一场没有硝烟的战争。

就在疫情让整个社会充满了各种“不稳定性”的时候,AI成为了防疫战线上的中坚力量。

“根据目前的资料,新型冠状病毒肺炎是肯定的人传人。”

2020年1月20日晚上9点30分央视《新闻1+1》节目中,钟南山院士面对白岩松的提问坚定的说出这句话时。为防控疫情指明了一个方向,确定人员轨迹成为首要环节。

在此情况之下,百度地图AI时空大数据全速推出迁徙大数据平台、实时路况平台以及发热门诊地图、疫情小区地图、核酸检测机构查询等多项功能。客观地呈现了各个城市的迁徙、交通、医疗机构分布等状况,为公众、政府提供了全面、立体的大数据服务,让疫情防控建立在科学的数据基础上。

与此同时,新型冠状病毒核酸检测,对于临床早发现、早诊断、早隔离、早治疗至关重要,是有效防控新冠肺炎疫情的关键技术支撑。

然而,根据此前的办法,新冠病毒全基因组二级结构预测需要55分钟,对此,百度开源了线性时间算法Linearfold。

北京市科学技术委员会副主任许心超在北京市新型冠状病毒肺炎疫情防控工作第七十七场新闻发布会上表示:“LinearFold算法可使整序列、整基因组的RNA结构预测成为可能,并将此次新型冠状病毒的全基因组二级结构预测从55分钟缩短至27秒,提速120倍。

这也是RNA结构预测领域40年来第一次重大提速。

此外,百度推出的全球首个mRNA疫苗基因序列设计算法LinearDesign,专门用于优化mRNA序列设计,最快仅需16分钟就可优化mRNA疫苗序列稳定性。

mRNA疫苗序列稳定性问题的解决,正是新冠疫苗研发的关键一环。

百度AI在为科学防疫提供支撑的同时,也在人们日常生活以及防疫一线铺延开来。

  • 百度第一时间推出的免费智能外呼平台,为社区工作人员提供流动人员排查、本地居民排查等场景的外呼服务,用机器人代替人工打电话,快速排查社区内健康情况,比人工效率提高数倍,还能降低基层医护人员感染风险;

  • 小度与中国疾控中心联合打造的新型冠状病毒防控指南,为万千家庭进行自我防护、保障生命安全提供支持;

  • 针对公众剧增的医疗咨询,百度灵医智惠紧急推出“智能咨询助手”;百度智能云还携手东软,推出集测温防控、医护助理、无接触配送和消毒巡检为一体的机器人驰援抗疫一线;

  • 在复工复产中,为解决人员聚集、接触等情况,百度AI测温在全国近百处公共场所落地服务,让公众即走即测,不用停留,也不用摘口罩脱帽子;

  • 对应延迟开学的教育空窗期,小度推出价值超过1亿元的儿童教育课程,全维度覆盖3-12岁儿童群体,其带屏产品更是成为网课播放的终端;

  • ……

27秒、500万次智能外呼的随访、AI问诊完成1500万次、两个月超过2700万人次AI测温、24亿次人流迁徙记录……这是百度AI 在防疫期间的一张答卷。

 “如果没有人工智能的协助,我们的医护人员可能会增加感染的风险,返程复工的人们可能因为没有做好体温排查而增加人群感染量。”

这是疫情之后,来自奔赴一线的医疗人员的真实感悟。

不可否认的是,在疫情防控期间AI的表现并不尽如人意,甚至在一些场景中略显“鸡肋”,但也正是因为疫情,人们清晰的认识到了AI的价值。

而疫情也彻底拉开了之前半掩着的智能经济时代的大幕。

突破0到1的挑战,百度打造AI基础设施

经济智能化分为两部分,上半场是AI平台化蓄能,在搜索、信息流等少数领域落地;下半场是AI产业化,AI渗透到各行各业大规模商业化,我们正处于从经济智能化的前半段向后半段过渡的时期”。在第三届世界人工智能大会开幕式上李彦宏如是说到。

事实上,很多企业在疫情期间因为AI获益了之后,便也开始思量着如何能将AI应用在更多场景之中。

而在此过程中,作为国内在AI领域发力最早,综合实力最强的百度来说,思量的更多。

百度发现在这一关键节点,构建AI基础设施成为最重要的事情,这一点与我国发力的新基建不谋而合。也正是基于此,在国家宣布大力建设新型基础设施之后,

百度也对外宣布了其布局规划:到2030年,百度智能云服务器台数超过500万台;未来5年预计培养AI人才500万,为中国智能经济和智能社会的发展提供AI人才保障。

百度CTO王海峰则迅速找准百度AI的定位:“新基建将通过新兴科技的快速突破和落地应用,带动国家经济发展新旧动能的转换。对于百度而言,我们既是AI基础设施建设者,也是AI技术及应用创新引领者和推动者。

在5月18日举行的夏季百度云智峰会上,王海峰提出了新的发展战略:“以云计算为基础,以AI为抓手,聚焦重要赛道”。

为了新战略更好的执行,作为百度AI To B载体的百度智能云业务架构也进行了调整:

  • 底层是百度大脑,包括基础层、感知层、认知层和安全,是百度核心技术引擎;

  • 中间层在基础云平台上加入了两个中台:AI中台和知识中台。AI中台”包括AI能力引擎、AI开发平台两部分核心能力以及管理平台。“知识中台”是基于百度多年积累的知识图谱、自然语言处理、多模态语义理解、智能搜索等AI核心技术打造的全周期、智能化的企业知识赋能平台。

  • 顶层则是面向4大赛道(智慧金融、智能营销与客服、智慧医疗和智慧城市),提供的8大解决方案。

一个月后,百度AI 新基建版图的亮相,也显露出了百度的野心:成为我国AI新基建服务最大提供商。

2020年9月15号的百度世界大会中,更是重磅宣布,百度大脑升级至6.0,并确定了“AI 新型基础设施”的定位;Apollo全新升级到6.0版本,包括智能新模型、安全无人化、系统新升级等等……

一系列升级的背后,让人可见的是,百度面对新的机遇,不仅立刻找准了自己的定位,与此同时,在技术、应用场景以及战略上进行了高度的协同。

通过自主可控的百度大脑、飞桨、百度智能云等打造了AI新型基础设施,在此之上,打造面向各个行业的行业平台,针对交通、能源、城市、工业等行业提供解决方案。

在此“组合拳”之下,百度让AI更快的实现了规模工业化的应用。

百度AI规模化落地

事实上,在调整战略以及定位的同时,百度在2020年早已化身为“AI狂魔”,将AI迅速落地在各行各业。

2020年年底的百度云智峰会上,王海峰也向外界展现了战略高度协同后,百度AI取得的最新成绩和产业智能化成果。

AI cloud 活跃客户数增长65%,AI cloud、质检云等多项排名第一,并多次获选头部厂商及标杆案例;

百度大脑基础底座飞桨深度学习平台,作为我国首个自主研发、功能完备的产业级深度学习开源开放平台,目前累计开发者数量265万人,服务企业10万家,技术生态和产业创新愈加活跃和繁荣。

百度自主研发的云端 AI 通用芯片,第一代已实现量产和应用部署,量产约2万片,性能相比 T4 GPU 提升1.5-3倍;百度昆仑2则预计在2021年上半年实现量产,与百度昆仑1相比性能将提升3倍。

从产业实践来看,百度正在依托包括百度大脑、飞桨、智能云、数据中心等在内的新型AI基础设施,推动智能交通、智慧城市、智慧金融、智慧能源、智慧医疗、工业互联网和智能制造等领域实现产业智能化升级。例如:

在智慧城市建设中,百度智能云联合合作伙伴打造的海淀城市大脑,帮助海淀区发现和提炼城市潜在的运行规律,提供全局协同的决策依据支持管理与服务;利用AI和大数据技术,对全国卫星遥感图像进行分析,多次成功预警四川西昌、山东青岛和西藏林芝等地的森林火灾……

百度Apollo在2020年先后与北京、长沙、重庆、保定等地签约,推出了国内外第一个车路行融合的全栈式智能交通解决方案——“ACE交通引擎”;Apollo自动驾驶生态新增了Velodyne LiDAR、禾赛科技、中科慧眼、威马等重磅级合作伙伴;小度车载OS进一步开放,推出了智能驾舱、CarLife+、度小镜等产品……

在工业领域,百度与贵阳经开区合作打造 AI 技术和工业互联网应用相融合的 AI 工业互联网平台;携手中国建材打造智慧工厂、智慧物流、数字矿山、工业无人驾驶、数据中心等……

首个数字人员工“小浦”出现在浦发银行APP、网银和各类服务终端上,为用户提供“千人千面”的个性化定制服务……

而这些实例,仅仅是百度AI在各个行业应用中的冰山一角,在百度大脑、深度学习平台飞桨、百度智能云等底层技术的通力支持,百度正将AI能力规模化落地,为产业智能化提供服务。

百度的AI长期主义

“很多人都低估了百度的技术实力。”

在参加今年百度智能云夏季峰会上,一位行业分析师对雷锋网说到。

据2020年12月,国家工业信息安全发展研究中心、工信部电子知识产权中心发布《2020人工智能中国专利技术分析报告》数据显示,在人工智能专利申请量和授权量方面,百度以9364件专利申请和2682件专利授权处于第一位。这也是百度连续三年在该人工智能领域专利分析报告中总申请量蝉联第一。

在近日国家知识产权局知识产权发展研究中心发布的《新基建领域(人工智能)知识产权发展状况调查研究报告》(下称“报告”)显示,我国人工智能算法领域的发明专利申请总量达到6.4万余件,以百度为代表的国内企业已经占主导地位。

在人工智能操作系统方面,报告指出,主要包括微软的Cognitive Services、脸谱的Pytorch、谷歌的TensorFlow以及百度的飞桨(Paddle Paddle),其中前三者均为美国巨头所垄断,目前只有百度的飞桨系统为国内科技企业研发和构建,并能为产业界提供不受限制的全面支撑。

可见,现在到了要为百度正名的时候。

回头看百度10年的AI发展路程,其早已笃定地相信AI将会改变世界。

今年11月,国家发布的十四五规划中明确提出:“加快发展现代产业体系、推动经济体系优化升级”。作为2021—2025年的发展指南,十四五规划预示着产业升级将是下一个五年的主旋律。

显然,百度今年一直所提的“产业智能化”正与国家发布的十四五规划不谋而合。

在此背景之下,百度已经打造一股平台级人工智能力量,形成广泛的行业覆盖和标杆性试点项目。

而从百度发布的新基建的规划来看,百度在加深对产业智能化的理解的同时,也以十年作为周期去做面向未来的投入,建设AI基础设施,强化AI技术优势,特别是技术自主能力。

也正是在此AI长期主义之下,百度将迎来更好发展时机。雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/HS5HDseRWepFdbF2.html#comments Thu, 31 Dec 2020 18:26:00 +0800
思谋科技完成超1亿美元的A轮融资,加码智能制造、超高清视频的研发 //m.drvow.com/category/aijuejinzhi/Yr4Ttx9zN1dXJvho.html 新一代视觉AI公司思谋科技今天对外宣布,已完成超1亿美元的A轮融资,投资方包括松禾资本、红杉资本中国基金、基石资本、闻天下投资等。据知情人士透露,这是思谋科技继今年1月初完成数百万人民币天使轮,以及6月完成数千万美元的Pre-A轮融资之后的第三轮融资。

雷锋网了解到,思谋科技(SmartMore)成立于2019年12月,致力于AI视觉体系架构在智能制造、超高清视频领域的落地应用。公司是由香港中文大学终身教授、IEEE Fellow 贾佳亚主导创立,核心团队深耕计算机视觉领域20余年。

思谋科技联合创始人兼CEO沈小勇表示:“资金将主要用于继续加大在智能制造、超高清视频赛道的研发投入,面向海内外招纳更多顶尖人才,并加速全球化商业布局。”

快速商业化部署落地

自2019年12月成立至今,思谋科技穿越疫情“黑天鹅”和AI行业“资本寒冬”,在不到一年时间里,频频获得国内外投资人的青睐,成为业界重点关注的一匹“黑马”,迅速跻身“准独角兽”行列。

红杉资本全球执行合伙人沈南鹏表示:

“思谋科技这样的新型AI公司代表着新一代人工智能产业化的发展趋势,以核心技术创新为本源深度赋能产业界,让AI在实体经济中充分展现价值。我们对团队的深度思考和超强行动力印象深刻。放眼未来,AI与产业的结合将持续在产业变革中起到举足轻重的作用,相信思谋将快速成长,发挥越来越重要的引领角色,推动产业变革。”

松禾资本创始合伙人厉伟认为,思谋科技在一年不到的时间里,实现了多个里程碑式的进展,非常令人惊叹,而思谋也用过硬的技术实力和落地能力,证明了自身对产业的巨大价值。特别是在当前国家“新基建”战略大背景下,思谋所选择的赛道完全契合产业转型升级主攻方向,具有无可限量的发展空间,将为AI企业服务领域树立新的标杆。

联想集团高级副总裁、联想创投集团总裁贺志强表示,联想创投从思谋创立阶段就开始持续关注,在Pre-A轮基础上继续追加A轮投资,是对思谋发展以及中国AI产业的坚定看好和支持。思谋是一家惊喜不断的公司,发展速度超乎预料,一年不到就实现技术、业绩、落地等多个维度的突破,成为“准独角兽”企业,AI与产业界的全面深度融合将迸发出新的澎湃动力。联想创投将整合全球联想产业生态资源,一如既往全力支持和帮助思谋,实现更大的战略目标和国际化市场价值。

两大赛道并驾齐驱

作为AI产业新领军企业,思谋科技以制造业和超高清视频产业的核心需求为导向,直面产业痛点、难点,依托20多年计算机视觉研发应用能力的深厚积淀,提出以新一代视觉AI技术体系架构为引领,针对复杂各异的应用场景,打造出SMore ViMo智能制造和SMore Media超高清视频解决方案,具有通用性强、性能优异、快速部署、软硬件协同等优势,让AI技术深入产业一线,直接服务高质量发展的主战场。

目前,思谋科技的客户已达100多家,涵盖高端消费电子、新能源、汽车、视频内容制作及提供商等,并与国内外多家世界500强企业、全球手机及智能设备巨头等达成合作,赋能产线数百条,其视觉AI技术已累计应用到上千万件工业或消费产品中。

据思谋客户之一、某头部制造商反馈,对于一些高端精密产品的核心零部件而言,靠人工实现全部质检、一个不漏,在以前是不可想象的。但思谋的视觉AI就是把“做不到”的事情做到了,而且非常准确、高效、易用,这使得制造商对每一件产品实现全生命周期的跟踪管理成为了可能,极大提升了生产效能和智能化水平。

加快推进全球商业布局

从6月宣布完成Pre-A轮融资,到10月完成A轮融资,思谋科技发展速度引人注目。思谋科技联合创始人兼CEO沈小勇介绍,近半年里,思谋业务市场增长迅猛,员工规模稳步提升,公司目前在深圳、上海、香港、苏州都设立了研发与商务中心。下一步将继续完善国内布局,并持续加强对研发、销售人员尤其是业内顶尖人才的招聘力度,加快培养壮大骨干队伍,以适应公司高速发展需要。

与此同时,思谋科技正加快推进全球化商业步伐,目前已实现多个境外项目落地与交付,思谋AI技术率先覆盖到影视媒体、港口物流、公共服务等领域。今年11月,思谋日本公司(SmartMore Japan Ltd.)将落地东京,进一步加大海外市场拓展力度。

沈小勇认为,当前人工智能的产业应用正在走向深水区,水面之下还有巨大的价值空间有待挖掘,对AI的技术、落地效能、场景应用的灵活性和适配性提出了更高要求。“产业界需要什么样的工具,思谋就用AI打造出什么样的工具,”沈小勇表示:

“思谋将扎根中国乃至全球产业信息化、数字化、智能化进程,致力成为企业一直在找寻的那一位AI专家,携手顶尖人才和行业生态伙伴,共同分享AI科技革命红利,不断创造新的商业价值。”雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/Yr4Ttx9zN1dXJvho.html#comments Wed, 28 Oct 2020 10:03:00 +0800
云测数据99.99%标准发布,或将影响下游AI算法厂商 //m.drvow.com/category/aijuejinzhi/DbPhnvfqubFZ3eT3.html 虽然说AI不是数据的堆砌,但是AI的背后的确是数据的功劳。不然,我们居家必备的小爱同学、天猫精灵们怎么听得懂我们的话? 

尤其是今年国家不提GDP增长目标但极力推进高质量发展的背景下,追求更加精准的AI落地成为行业共识。 

这意味着,AI数据质量需要进一步提升。 

9月6日,在吸引了1.8万家境内外企业的服贸会上(全称是2020中国国际服务贸易交易会),云测数据首次发布了一项数据标注领域的重要成果:云测数据项目最高交付精准度达到了99.99%——这是目前数据标注领域可达到的最高服务标准。 

在数据标注行业,交付精度达到99.99%是什么概念呢?

一般来说,在AI行业,算力、算法、数据是三大要素,前两者是设备与能力,数据则是让AI学习的知识素材。 

AI数据服务,包含了为AI算法、算力训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。 

而AI就是通过大批量基于特定标注规则后学习的方法论,因此需要人工将像素、语音信号、文本内容转换为机器能理解、能看懂的数据内容,才可以被机器习得识别处理的方法论。 

这些被标注的结果为识别人的特征点,在脸上打上一个个特殊标记,为识别图像中的车辆,通过标注框的方式将对应像素位置范围框选其中。 

因此,数据标注的精准度提升,AI才不会把汽车识别为房子,把老虎识别为狮子。在AI越来越强调落地各个产业的今天,数据标注精准度是把控AI质量的关键。 

云测数据总经理贾宇航表示,进行99.99%的成果展示,也是向外传递数据标注高质量发展信心。 

云测数据是什么公司? 

行业内人士可能都知道Testin云测,成立于2011年,是一家以人工智能技术驱动的企业服务平台。实际上,云测数据正是Testin云测旗下AI数据标注服务品牌,是主打高质量AI数据服务的服务商,是算法厂商的上游,图像、语音、文本的数据类型都做到了全品类支持。 

雷锋网注意到,之所以他们有底气向行业展示出4个9的精准度,云测数据总经理贾宇航给出的理由在于:云测数据具备全品类的高效标注平台,已经完成了标准化API接口的流程嵌入,做到了模板化的任务创建,并支持了不同种类标注类型和标注方法。

此外,其工作平台包含项目管理、环节工具、标注平台,云测数据所沉淀的是完全自主知识产品的平台技术。 

值得一提的是,相比外包的数据标注业务,云测数据自建了数据交付中心以及自有员工,人员稳定。截至目前,云测数据在华东、华北、华南设有数据交付中心和数据采集基地。 

对于场景数据的把控和处理,正成为新竞争格局下的硬实力。 

雷锋网了解到,云测数据可能更偏向在智能驾驶、智慧城市、智能家居、智慧金融、新零售等场景的AI数据服务。 

以自动驾驶为例,在实际落地中,为对物体测距及测速更加精准,引入激光雷达传感器。车载摄像头中的数据与我们人眼相差无几,而激光雷达产生数据与人类所认知的现实世界差距甚远。 

据悉,完成激光雷达的相关3D点云数据标注工作,背后需要标注人员对3D点云数据有丰富的处理经验。云测数据在工具层面采用融合标注方式,让标注人员更加直观的将两个世界维度的数据融合一起判断,提高了标注人员的数据处理精准度,同时加快了标注效率。 

整体来看,国内的AI发展态势良好,场景化AI数据服务趋势凸显,且AI公司把自己快“逼”上落地极限了,与场景紧密捆绑的数据标注都将迎来发展热潮。 

伴随着5G的落地,更多丰富的场景也将井喷,AI行业数千亿的蛋糕,将成为今天企业走向未来的新动力。(雷锋网雷锋网)

]]>
AI+ //m.drvow.com/category/aijuejinzhi/DbPhnvfqubFZ3eT3.html#comments Thu, 10 Sep 2020 09:50:00 +0800
寻找工业AI『独角兽』的发源地 //m.drvow.com/category/aijuejinzhi/HxWR3WNpwrDHxdUe.html “华为云2019年做了一件非常重要的事情,就是逐渐走向各个行业。”

今年7月,华为云业务总裁郑叶来在TechWave技术峰会上阐述了华为云面向未来的新使命——“赋能应用、使能数据、做智能世界的黑土地”。

华为云正在重新思考如何跟客户、伙伴、上下游一起携手创新为产业发展带来价值。而具体到实践层面,华为云一方面发布沃土初创企业扶持计划,帮助初创企业通过云计算、人工智能等技术加速创新;另一方面通过举办初创企业大赛,鼓励大家围绕华为云平台创新,并向这些初创企业共享商业机会,与华为云共同成长。

 

9月9日,“华为云全球初创企业大赛2020秋季赛-总决赛”正式在东莞松山湖落下帷幕。本次大赛设置了EI赛道、鲲鹏云服务赛道和云视频赛道,三场分赛分别于7月8日、7月22日、8月7日通过线上路演直播的形式结束。总决赛时,有12支队伍从入围的18家企业中突围,其中EI赛道有5家企业获奖,分别为:闪马智能 摘得金奖,拓深科技 和 熵智科技 斩获银奖;圆心惠保、敬之网络 获得优胜奖。

所谓 EI,即企业智能,其实就是“行业+ AI”。今年7月,华为云发布了 EI 工业智能体 2.0,将为合作伙伴提供行业顶尖的 AI 算法专家资源、优质的华为云资源,以及开放的实验室资源,共同推进 AI 在工业领域落地。

工业+AI,在华为云的生态推动下,将会带给工业信息化、智能化怎样的“质变”?

让工业Know How开口说话 

近些年,国内工业互联网迎来了跨越式发展的时期。据公开数据显示,平台数量从2014年不到50个到2018年已经接近270个。2019年,行业延续高速态势,全国具有一定区域和行业影响力的平台超过70个,重点平台平均工业设备连接数已达到69万台、工业 App数量突破2124个。

另一方面,国内工业数字化发展水平仍然参差不齐,应用场景分布差异较大等,使得一些工业互联网平台的应用价值并没有完全发挥出来,特别是极为重要的“工业+AI”领域的落地也并不如人意。

探究其原因,我们可以发现,传统的以机理为核心的工业知识及工业数据,目前还不能很好地在工业互联网平台上转化为生产效率,而要让沉默的工业知识和数据逐渐学会“开口说话”,则需要企业核心生产作业流和AI等技术深度融合,由此才能帮助工业企业更好实现提质、降本、增效。

今年7月,华为云发布了 EI 工业智能体 2.0,并宣布将在超过20个工业细分行业,征集50家领先的行业 Know-How 伙伴,共同探索和实践100个工厂智能化升级项目。其基于大量的实践经验总结,围绕工业机理与AI,可支持企业便捷地开发、分享工业机理模型,将工业机理模型与AI进行融合,并能匹配企业客户组织部署运行环境。

华为云人工智能领域总裁贾永利表示:

“AI可进入工业核心生产系统解决关键业务挑战,创造价值;而将AI应用于效率提升、专家经验传承和跨越极限这三类场景,可提升AI落地成功率。” 

雷锋网了解到,华为云EI工业智能体2.0主要构建的能力有3方面,第一,支持多种语言的机理模型开发的平台,可基于知识图谱进行工业机理模型开发;再者,是将工业机理与AI融合的低代码开发平台;最后是提供工业级AI部署与运行管理能力,可匹配工业界典型的组织架构-总厂-厂区-车间-产线。

比如,在化纤行业智能化实践中,可在生产不停车状态下,以“即插即用”方式实现与现有设备与控制系统适配。匹配工业运行环境的时延要求,提供多种部署方式,通过模型压缩等技术,最大限度地减小模型对于计算空间和时间的消耗,满足工厂生产时延要求。

此外,我们知道,2019年华为工业互联网平台FusionPlant正式入选工信部十大“双跨”平台,而华为云EI工业智能体2.0的发布,首次将工业机理、专家知识、数据统计模型和AI模型结合到一个统一的平台之上,不仅实现了企业的提质降本增效,更加速了“普惠AI”在工业领域的落地,也为FusionPlant平台、为华为在工业领域谋求更多的话语权。

独行快,众行远

据了解,工业领域多年沉淀的大量行业知识,可以很好地解决定性问题,但在很多场景下,这些机理模型还不能精确地匹配工况的波动,工业过程仍是“黑盒”。此外,工厂老师傅多年积攒的经验知识还面临被传承和复制的难题。

当前,放眼国内外,其实并不乏为工业智能化转型升级提供解决方案的厂商,比如传统制造业巨头、老牌工业解决方案服务商,以及云服务厂商,各类细分领域软硬件供应商等。那么,华为云EI工业智能体2.0有何不同之处?

从不断深入探索的过程中,华为云发现既有的“工业+AI”尝试中普遍存在一些问题。比如适合工业的 AI 开发与运行管理平台的缺失、工业机理模型开发和分享比较困难、融入 AI 的生产系统存在一定的不稳定性等。华为云 EI 工业智能体 2.0不仅深度融合工业机理,它将有一个工业 AI 开发、运行部署的平台,帮助工业领域快速落地 AI。

“独行快,众行远”,工业智能化的时代不能只靠一个企业的单打独斗。在“华为云全球初创企业大赛2020秋季赛”上,华为又发掘了闪马智能、拓深科技、熵智科技等众多生态圈合作伙伴。这些企业,是如何切入工业AI的呢?

闪马智能:视频异常大数据赋能城市精细化管理

专注城市异常事件管理的AI中台公司闪马智能,通过对城市视频异常大数据的发现与分析,赋能城市精细化管理。2019年成立并成为华为智能摄像机和智能云首批运营商。核心算法ATOM基于容器弹性云打造,打破云计算边界,充分利旧之外能短时间内训练出模型,同时通过视频异常分析平台融合,形成了可用于智慧城市、工业生产、互联网内容安全等行业的视频异常分析闭环。从而赋能到具有行业Know-How的完整运营体系中,能快速推向市场,帮助管理者们及时发现、高效管理。

拓深科技:电流算法在电力终端、消防的应用实践

拓深科技是专注于电流指纹AI算法及其在消防场景应用研究的初创企业。其拥有端到端产品研发能力,云平台、预警终端和报警终端广泛应用于平安城市、智慧社区、高校等各行各业的楼宇消防智能化。

“电流的信号是分布在每一台设备,每一个建筑和每一个城市当中的,其AI算法也被认为是继图像和声音之后比较丰富的数据源的载体。”谈及为何率先把电流的算法用在消防领域,拓深科技CEO张轩铭表示:

“除了跟我本人的背景有关,更重要的是看到中国每年大概投入2750亿的资金在消防领域,但其实绝大多数投在救火上。核心是没有办法把火灾提前预警,由于设备故障和电池的爆炸,比如设备的保护操作失灵造成火灾占比超过40%,线路故障占到30%,有70%的火灾在电流上体现这样的特征,核心的一点:如果是通过电流算法计算出来,可以让火灾在事前计算出来,让火灾不再发生。”

熵智科技:5G与AI助力机器人的视觉分拣

3D视觉技术解决方案提供商熵智科技,公司自2018年成立到现在仅有两年半的时间。其核心技术是机器人的3D视觉与自主路径规划,典型应用场景是机器人的视觉分拣。

谈及用机器人去上下料的场景,熵智科技创始人CEO赵青表示:

“在工业链端可以通过工装、制具、夹具实现这种自动化,在物流完全没有,场景完全是自然状态,匹配太多无论是对箱子、拆垛、码垛还是针对单SKU的分解,如果需要机器人操作一定需要视觉的引导,整个市场机器人3D视觉的抓取,被称为“机器人技术的皇冠”自有其道理。”

“3D视觉作为机器人的眼睛依然可以与机器人配合更复杂更多的动作。在这里面有特殊点,在这个行业当中实际上更偏于做上游的硬件,做高精度测量的应用。”

目前熵智科技与华为进行合作,通过5G联接针对的是实际需求,在园区有多个机器人和多个相机实现远程的集中控制。公司的核心能力是偏上游的软硬件一体化,以及光学方面的研究。这也是一些比较上游的公司很少涉及的,因为学科比较综合,挑战比较大。

除了以上这些,雷锋网了解到,目前华为云EI工业智能体已广泛在钢铁、石油、纺织、煤炭、电子信息、装备制造、家具生产等领域开始应用,并帮助中国石油、三联虹普、石横特钢、鑫磊集团、德普特、拓斯达、正业科技等企业加速数字化和智能化转型。

AI落地到工业

据 Markets 报告预计,2025 年人工智能制造市场规模将达 172 亿美元,预测期 (2018-2025 年 ) 内的年复合增长率为 49.5%。而埃森哲在比较了人工智能对我国各个行业部门增加值增速的影响后得出,预计到 2035 年,制造业因人工智能的应用其增加值增速可以提高 2.0% 左右,是所有产业部门中提高幅度最大的。

由此可见,工业AI领域不管是市场容量,还是增速,其表现都足够出色。

然而,雷锋网了解到,工业AI是最难的、也是最复杂的AI应用领域。比如应用场景比较碎片化,这和我们熟知的交通领域、安防领域有很大不同。交通领域、安防领域识别的物体相对比较固定,场景也比较固定,这样可以针对这些场景收集大量的数据,得到一些网络模型以后,可以在这些场景里大面积推广。

而工业场景的碎片化很明显,比如在纺织工厂里做一个产品的识别,在半导体工厂里也做产品的识别,但是它们要检测的目标是不一样的,那带来的问题是需要不同的样本和设计不同的网络结构,在设计方面要用不同的方法进行调优,同时工业本身对准确度的要求很高,因而,在工业领域推广人工智能的话还有很长的路要走。

此外,工业AI还吸引了BAT等互联网巨头和科研大牛的加入,比如前阿里云机器智能首席科学家闵万里、前腾讯优图实验室联合负责人贾佳亚等,更是让工业AI的竞争有了更多变数。

有投资人表示,初创公司在人工智能领域还是有很多机会的,但他们需要往更细分的赛道里去专研,去挖掘,这样才能避开一些大公司,发挥自己的长处,实现AI与具体工业场景的相结合。

综上,这时候选择一个颇具成长力的生态或许是一个不错办法,在获得更多助力的同时,加上自己专注的领域足够细分,那么胜算就比较大了。

在过去10年所有的AI技术在落地应用时,可能大多数都落地在图像和声音,而这两个领域除了世界级的企业以外,出现了中国的独角兽企业,比如科大讯飞、商汤等估值超过50亿美金的公司。拓深科技表示:

“我们可以看到,电流的信号是分布在每一台设备,每一个建筑和每一个城市当中的。电流的AI算法也被认为继图像和声音之后比较丰富数据源的载体,出现了美国的公司市值超过10亿美金,拓深科技是致力于电流算法研究的中国企业,我们也希望成为在这个领域中国的独角兽企业。”

华为云的下一站

今年4月,工业互联网产业联盟(AII)发布的《工业智能白皮书》显示,截止到2019年底,在全球20多个经济体近三年发布的100份人工智能方面的战略规划或政策文件中,涉及与工业结合的超过一半以上。美、日、德、欧盟分别发布《国家人工智能研究和发展战略规划》《新机器人战略》《国家工业战略2030》《欧盟人工智能》等一系列政策战略,重点提及产品全生命周期优化、先进机器人、自动驾驶、大数据挖掘等在工业领域的应用。

雷锋网了解到,工业AI时代,企业的工业互联网的能力会进一步放大,企业之间差距会因为数据量的多寡进一步拉大,谁的数据节点多,谁的优势自然很大,每个节点不仅带动了产品的迭代,甚至会影响产品的销售。

华为云人工智能领域总裁贾永利表示:

“AI 进入企业核心生产系统,需要与工业界已有的机理模型、隐形行业知识深度融合,释放生产要素和生产资源的潜能,这是工业互联网的本质和关键所在。随着 AI 技术进入企业生产系统,AI 在关键生产环节将会带来大幅的质量提升与成本收益。相信未来5到10年,工业互联网将重塑企业的生产模式。”

今年,在全球分析师大会期间,华为宣布了以生态型产业布局推进计算型产业,其新的定位“云和计算产业是生态型产业”,围绕生态和华为云构建生态打造“黑土地”,成为数字世界的底座。其中,合作伙伴和开发者将是生态建设中的重中之重,因此持续为合作伙伴赋能,为开发者提供更多的支持和服务,将成为华为云未来的常态。

相应地,华为云生态下的EI、鲲鹏云服务和云视频等赛道,也将成为孕育细分行业小巨头的一方“沃土”......

]]>
AI+ //m.drvow.com/category/aijuejinzhi/HxWR3WNpwrDHxdUe.html#comments Wed, 09 Sep 2020 19:01:00 +0800
旷视研究院田忠博:旷视深度学习框架天元的开源演进 | CCF-GAIR 2020 //m.drvow.com/category/aijuejinzhi/gdi9JYJBSOtlFCfV.html

雷锋网按:8 月 7 日 - 9 日,由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,鹏城实验室、深圳市人工智能与机器人研究院协办的第五届 CCF-GAIR 2020 全球人工智能与机器人峰会如期落地。

8 日,大会与 AI 研习社、OpenI 启智社区联合举办“AI 源创专场”,重点讨论了新基建背景下,国内开源创新建设将催生的新势能,以及其将引发和促进的新产业机会。

会上,旷视研究院高级技术总监田忠博做了主题为《天元深度学习框架的开源演进》的分享。

旷视在数据、算力、算法方面有三大驱动:数据管理平台 MegData 、深度学习云计算平台 MegCompute、深度学习框架 MegEngine,三者共同构成了旷视的 AI 生产力平台 Brain++。

田忠博首先追溯了 Brain++ 的发展,从旷视在 AI 生产力基础设施构建上所积累的强大能力以及天元深度学习框架开源初衷展开,解析了天元深度学习框架的技术特点、迭代历程,及其正在努力构建的开源生态。雷锋网将田忠博的演讲进行了不改变原意的编辑,以下为全文:

大家好,我是旷视研究院的田忠博,我今天跟大家分享旷视在天元深度学习框架上的进展,也希望能够借助这个机会和在座的各位专家、各位同仁以及观看现场直播的朋友们介绍旷视是如何通过开源开放推动 AI 行业发展的。

旷视 AI 生产力平台 Brain++

我们认为,AI 有三个最主要的核心因素:数据、算力和算法。旷视自研的 AI 生产力平台 Brain++ 包括数据管理平台 MegData ,深度学习云计算平台 MegCompute,今天我要着重介绍的是其中最核心的组件——深度学习框架天元 MegEngine。现在旷视所有的算法研究和生产都是使用 MegEngine 进行的。

简单回顾一下旷视 Brain++ 的发展历程。2014年,MegEngine 立项,我们开始对它进行研发。2015 年,旷视的研发和生产都迁移到了 Brain++ 体系上来,我们多次用这样的技术获得了国际顶级 AI 竞赛的冠军,同时也依托这套技术在旷视研究院持续发布我们最领先的技术成果。2019 年,AI 生产力平台 Brain++ 在乌镇世界互联网大会上获得了“世界互联网先进成果奖”,这是对旷视技术理念和实践的认可。

2020 年 3 月,旷视决定将 Brain++ 的核心组件——深度学习框架天元 MegEngine 开源出来,我们也希望开源出来的框架能够帮助更多企业、研究机构以及学生更好地使用最新的 AI 技术。

我们第一个开源版本是天元 0.3.1,到 2020 年 6 月底,我们发布了 Beta 版,差不多经历了 90 天的时间。这期间有 339 个 committers 为天元贡献代码,代码量从 35 万行增长到 48 万行。 

我们也刚刚发布了 0.6 版本。我们有非常积极活跃的开发体系,希望把最新的工作和研究成果体现在天元的代码仓库中。

天元深度学习框架的技术特点

大家可能会想,现在已经有很多的深度学习框架,天元的开源意义是什么?天元能给大家带来什么?我给大家介绍一下天元的总体架构。

天元框架从上到下分成五个层次,最上面是服务开发者的 API 层,大家通过 API 层直接和深度学习框架打交道。我们提供了 Python 和 C++ 的接口,通过 C++ 接口可以进行工业生产和研发。 

下面有统一的图的表示层。现在深度学习框架有动态计算和静态计算两种流派,我们有动态图和静态图的表示方式,但在不同的表示方式下有统一的核心计算图,这是天元比较重要的区别。

天元在核心的计算图层提供了优化和编译功能,可以实现自动求导,完成复杂的图优化,使大家通过 API 层,将用户表达的人类可理解的计算范式,转化为机器易执行的范式。

图编译层可以做复杂的代码生成和代码的算子融合,进一步提升效率。

下面的一个层次是运算和运行管理。在运行期间,我们需要管理内存、不同设备的同步,这里包括计算的调度和内存管理的调度。在计算调度方面,我们把所有的设备抽象成流,通过流调度器,跨异构设备的图形可以被非常好地管理起来。

同时,我们在内存方面也下了非常大的功夫。我们有一个非常先进的静态内存管理器和管理机制,通过对整个计算流程的分析和分解,能够排布、安排内存最优的方案。在我们的测算下,静态可以给予相比主流框架 10% 到 20% 的提升。同时我们支持动态内存管理,可以把尺寸可变的内存有效管理起来。

深度优化器可以有效解决在内存比较小的设备上进行大规模模型训练的问题。 

最底层我们实现了一整套的计算内核层,实现一套高性能的算子,可以实现跨设备异构计算的统一接口,可以支持 X86、CUDA、ARM 和 ASIC 的设备,包括高性能异构通信库,支撑大规模分布式训练的需求。

深度学习框架天元非常重要、核心的特性就是可以同时在同一个框架内训练、量化、推理。

旷视是全球领先的人工智能产品和解决方案公司,既做人工智能方面的技术研究,同时也有非常强烈的需求把最新的成果变成每个人都可以获得的产品。所以我们在设计框架之初就有非常强烈的想法,把训练和推理在同一个框架内解决。

现在我们发现它有非常大的好处,比如说能够实现一次训练多端部署,能实现从训练到量化到推理的完整解决方案,可以支持各种主流量化范式,特别是量化感知训练,可以在精度几乎无损失的情况下进行低精度模型的生产,同时保持最好的性能。 

训练、推理、量化放在一起,不需要复杂的模型转化,不需要其它中间工具辅助,还可以借助这样的机制,在整个流程中嵌入自动模型优化手段,极大加速从原始算法到产品生成的流程。

旷视发现,静态的计算范式和动态范式各有长处。动态便于科学实验,静态方案非常适合做生产部署,所以我们把静态图、动态图在同样的范式内整合起来。我们可以把动态运行的部分变成静态运行的部分,关掉也可以用动态的方式执行,可以利用动态强大的表达能力和表达特性,很容易把全部的范式进行快速的产品部署。我们也可以进行混合编程,在部分结构灵活地穿插起来。

对于现在的深度学习框架来说,计算速度和性能不仅在训练侧,部署侧也越来越关键,我们可以看到,天元与主流框架训练时的对比,包括单卡和 8 卡的对比,都拥有明显的性能优势。推理框架的性能也非常出色,有 10%、20% 甚至更多的性能提升。

得益于内存方面的工作,我们不管在训练还是推理方面,对很多 IoT 设备、手机应用功耗都更友好,适用面更多。

我们还有非常全面的平台支持。Beta 版不仅包括英特尔 x86,还有 SSE、AVX、AVX512-VNNI。CUDA 支持 Maxwell、Pascal、Turing,ARM 支持 V7、V8、V8.2。天元可以实现更高的性能,更加灵活高效,而且可以在同一平台上同时支持英特尔 8 和 float 32 的推理,这样大家可以在同一个平台上非常容易地调用自己的量化模型。

天元还有一个特点是简单易用。我们做开源框架,用户是否容易上手使用非常关键。我们会不断提升用户使用体验,完善优化我们的文档体系、工具体系,帮助大家快速上手。

现在的主流框架中,其实对于推理、量化的部分,相关介绍文章非常少,0.5.0 版本里我们完成了一整套推理部署教程,让大家可以一步一步完成模型从训练到完整部署的全部过程。中间有推理性能分析工具和优化文档,可以看到各个算子在当前设备上的性能,也可以帮我们发现当前需要完善和提升的部分。同时,我们可以提供很好的一致性,可以在 Linux、Windows、Mac、Android 甚至自己的应用中,在一些无操作性的环境中部署和运行。

我们提供了量化参考模型,大家可以拿到量化模型训练代码以及预训练模型,得到具体的量化方式。同时我们有完整的对量化进行操作解读的方案,大家利用这样标准化的量化方式就能够自行对模型量化和优化,而且使用方法非常简单。

 

这里我提到的是亚线性内存优化技术,利用计算换取减少内存的使用量。这是我们在原有论文的基础上实现的一整套基于遗传算法方案的搜索,可以通过边界联动、块的移动,在有残差的结构搜寻到最节省的因素,用最小的方案使得在几乎不影响速度的情况下大幅度减少设备使用内存。

天元框架技术生态

我们期待以更开放的心态和大家一起把项目做得更好,我们也在这里做了很多工作,一方面希望把自己的研究成果拿出来,比如我们建立的天元的研究中心,包括最近的图像分类、检测、分拨、自然语言处理和标准的量化模型,都是在使用最频繁、最精炼的骨干网络。

我们还引入新型的算法。大家知道生成式对抗网络,这是非常流行的方法,我们在天元的模型中心提供了基于 DCGAN 和 WGAN 的方式,也实现了 Simple Baseline 和 MSPN。

我们发表了一篇以开源为主要发布方式的论文,密集人群检测的一些情况里,两个人的重合非常高,以至于以前的检测算法很难检出,新的算法则可以把重叠严重的人体检测出来,这样的代码也会通过天元发布出来。我们希望构建学术方面的影响力,可以帮助大家更好地认识天元和天元生态,也希望大家和我们一起做这方面的学术研究。

为了方便大家使用,我们还提供了 MegStudio 开箱即用的 AI 环境,大家可以在上面注册分配使用CPU 资源,试用我们的模型,也可以看一下天元现在的成熟程度和可用程度到底达到了什么样的情况。

我们的网站上提供了丰富的文档体系,包括如何做分布式训练,如何进行亚线性性能的优化,如何做模型部署,如何定制自己的算子,如何做量化,如何进行分析以及安卓推理,包括文档、API 文档全部提供了中文翻译,希望方便更多的、各个层次的开发者获得想要的知识。

我们还在官方网站上提供了我们和北大的深度学习实践系列课程,由旷视研究院院长的孙剑老师和资深研究员给大家授课,非常适合深度学习的初学者与爱好者了解这个行业的整体概况和先进技术。我们还提供了 MegEngine使用入门课程,学习 MegEngine 的使用方式。 

我们想做好天元的生态,和更多合作伙伴合作。(崔)宝秋老师促成了我们和小米 MACE 的合作,另外我们也和 Tengine 合作。我们希望通过这样的方式,更多体系内的研究员和学生都能享受到整个开源社区给大家带来的好东西。

我们在今年的 9 月份,把第一个里程碑的版本天元 1.0 版本推给大家。我们希望天元的生态更加开放、更加完善、更加具有吸引力,希望把更多有竞争力、有吸引力的功能提供给大家,助力中国开放生态的发展。希望大家加入我们的社区,和我们一起实践天元的核心理念,共建开源社区,谢谢大家。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/gdi9JYJBSOtlFCfV.html#comments Tue, 18 Aug 2020 17:37:00 +0800
美团夏华夏:人工智能如何应用到"吃喝玩乐"?|CCF-GAIR 2020 //m.drvow.com/category/aijuejinzhi/riNhAXsqhCoSYw0i.html 雷锋网按:2020年8月7日,全球人工智能和机器人峰会(CCF-GAIR 2020)正式开幕。CCF-GAIR 2020 峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。从 2016 年的学产结合,2017 年的产业落地,2018 年的垂直细分,2019 年的人工智能 40 周年,峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。

8月8日下午,在CCF-GAIR 2020「AIoT专场」论坛上,美团首席科学家、AI平台总经理夏华夏带来了《AI+生活:打造未来生活服务新基建》主题分享。

美团首席科学家、AI平台总经理夏华夏

夏华夏首先带我们回顾了AI技术的发展,AI自1965年诞生以来,已经历了几起几落,直到2016年AlphaGo以4:1绝对的优势打败了韩国棋手李世石,人工智能遇到了新的爆发期,现在也正是AI爆发的阶段,而人工智能也就此走入了实际应用的道路上。

他表示,人工智能技术可以应用在很多实际的物理生活场景中来,能够把吃喝玩乐、衣食住行等生活服务的每一个领域形成闭环,这对人工智能的发展会非常有用,因为形成闭环之后,数据才能形成闭环,才能用人工智能技术做很多的事情。

谈到美团是如何应用AI技术,夏华夏解释说:“美团用场景驱动做人工智能的发展。我们并不用是否前沿来判断技术的适用性,而是希望它能够切实帮助我们让生活更加的美好。”

具体可以分为以下几部分:

  • 美团本质上是做本地生活服务的一家企业,我们希望可以极大程度把本地生活服务数字化,然后用熟悉的互联网技术去提高效率。

  • 美团有4.5亿的用户,还有600多万的商户,用人工智能技术既帮助这4亿多用户得到很好的体验,还要帮助600多万商家得到很高效的经营管理提升,所以就做了很多在人工智能方面的内容。

  • 底层的基础还是刚刚提到的大量用户、商户和骑手所产生的大量真实的数据,比如说光美团点评平台产生的用户评论数据77亿,线上图片的数据超过100亿,基于这些大量的数据,就可以进行很多的人工智能技术的深度探索,包括图像、视觉、语音、智能交互、运动规划、智能调度等等,去解决人们在生活服务各种不同场景中的需求,这是美团做人工智能整体优势特点。

夏华夏在接受雷锋网采访时表示,美团做人工智能一方面是为用户提供更好的生活服务的引擎,让用户得到更好的服务体验;另一方面,为商家做产业升级的一系列工具、设施和系统。同时美团也在探索在未来的生活、未来的城市,最终希望让AI+生活成为未来生活的基础设施

作为新晋的互联网巨头企业,美团的AI技术图谱是什么样的?夏华夏的演讲包含了更多信息。

以下为夏华夏在CCF-GAIR 2020「AIoT专场」论坛上的演讲原文,雷锋网做了不改变原意的整理: 

大家下午好,美团做本地生活服务,希望给用户提供更好的体验,给本地生活的很多商家提供更高的效率。在这里面就会用到很多科技的东西,今天给大家分享的就是怎么用AI+生活打造生活服务的新篇章,介绍AI的应用。

几起几落 AI终迎爆发

简单回顾一下AI技术的发展,AI从1956年诞生以来,经历了几起几落,包括70年代的时候,做的符号推理、神经网络的计算,但那时候算力不够,所以对于人工智能到底能做什么人们是比较绝望的。第二次高峰,是出现BP算法,能够做大规模神经网络计算。但是90年代的时候,美国国防部想自主完成一个AI计算机,但以失败告终,这对人工智能领域是比较大的打击。直到2006年有了深度学习的算法,2011年证明了深度学习可以做非常好的训练结果,2016年谷歌AlphaGo在围棋方面打败人类的世界冠军。人工智能遇到了新的爆发期,现在也正是AI爆发阶段。

AI的产业规模不仅仅是每年在增长, 而且增长红线是AI产业年增速逐年增加的,所以人工智能到了爆发期。

AI的爆发与很多事情相关,比如说跟IoT(物联网)的发展,IoT帮助我们产生了大量的数据,帮助我们把线下更好的数字化,数字化后产生的数据,可以让AI有更大的发挥空间。当然,这个爆发也跟现在算法不断的迭代有关,除了深度学习之外,其他算法也层出不穷,包括算力方面,各种低功耗或者是高性能的算力不断的出现,帮助人工智能产业在飞速的发展。

以场景推动人工智能发展

人工智能技术可以应用在很多实际的物理生活场景中来。美团所在的场景,希望做“AI+生活”。我们判断能够将吃喝玩乐、衣食住行等生活服务每一个领域形成闭环,这对人工智能的发展会非常有用。

美团本质上是做本地生活服务,希望把本地生活服务数字化,数字化之后用熟悉的互联网技术去提高效率。美团有4.5亿的用户,还有600多万的商户,用人工智能技术既帮助这4亿多用户得到很好的体验,也能让600多万商家可以很高效的经营管理提升,所以就做了很多在人工智能方面的内容。

底层的基础是美团大量的用户、商户和骑手所产生的大量真实的数据,比如说光美团和点评平台上的用户评论数据就有77亿,而线上用户和商户上传的图片数据超过100亿,基于这些大量的数据,就可以做包括图像、视觉、语音、智能交互、运动规划、智能调度等大量人工智能技术的深度探索,用来解决在各种不同场景中的需求,这是美团做人工智能整体框架。

本质上,美团做人工智能最大的优势就是用场景驱动技术的发展,我们并不用是否前沿来判断技术的适用性,而是基于美团丰富的场景、大量的数据,再结合人工智能的算法,去用技术帮助每个人生活得更好。在美团200多种不同的生活服务场景中,就有很多我们可以用技术去优化用户的体验、提升商家经营效率的地方。

AI+生活 打造未来生活新基建

接下来从三个方面给大家介绍美团是如何应用人工智能的:

1.生活服务引擎

对用户服务的工作,让用户更简单、更便捷的获取各种生活服务,打开美团APP有两百多种不同的服务,但是屏幕就那么小,那怎么样才能基于用户喜好,让用户找到他想要的服务呢?这就需要大量的人工智能技术,包括智能推荐、智能搜索等。

在美团APP有“语音应用无障碍外卖”,当老人、小孩或者是残障人士没有办法输入文字点外卖时,用户可以用语音的方式做智能的交互,完成从挑选商家、挑选菜品、下单、支付等的全流程。这不仅得益于美团在语音交互层面的技术能力,更重要的是美团有丰富的生活服务的场景,能够通过语音交互、大数据、自然语言处理等技术的支撑,依赖于IoT的设备,比如手机、智能音箱、智能穿戴设备、车载机、家居设备等智能设备用语音完成服务唤醒、挑选、支付乃至获取的服务闭环,让用户获取服务像说话一样简单。 

2.助力产业升级

美团AI做的就是让整个产业受益于人工智能、受益于物联网。如果看整个商业的本质,就会发现开一家店,不管是餐馆、酒店或者是卡拉OK,它是非常非常难的。美团的平台现在有620万商户,每年在我们平台上有将近20%左右的商户因为经营不善倒闭。经营不善包括很多原因,比如说选址是不是好,选址后的经营管理是不是能够比较好的数字化反馈,能够及时地知道商店里的口味、卫生和服务能被用户认可。包括整个的物流、供给,是不是能跟得上等,这些都对经营有非常大的影响。

美团意识到我们所拥有的大数据、人工智能技术能够去帮助很多中小型商户去提升自身的经营管理效率,逐渐地建立起数字化的经营管理,去进行经营决策,比如可以帮助用户选址、经营管理、营销、决策和物流等。

3.成为未来生活的新基建

未来要更好地提升各个行业的经营效率和服务效率,很多地方就要推动自动化和无人化。美团闪购目前正在尝试建设无人前置仓,通过自动拣选、打包并无缝衔接配送服务,来帮助商超,实现经营效率的进一步提升。

除了无人微仓,美团还在进行配送场景下的无人车和无人机的相关研发测试,我们希望未来能够打造一个空中、地面的立体三维配送网络,跟现有的外卖小哥结合,形成高效的人机协同配送网络,可以能支撑未来外卖行业需求的飞速发展。未来5年整个外卖行业预计都会有更大的需求提升,就美团而言,目前每天在路上配送的小哥将近80万人左右,这已经很多了,如果未来再翻几倍的订单量,但凭骑手就比较难以承载那么多的订单,所以,美团要打造空地协同一体化的无人配送的及时配送网络。

这对于美团来说有一些优势,也有挑战。一方面,美团现已有的智能调度系统、美团云和大数据的基础设施都是从技术层面美团天然的优势,另一方面,美团有全球最大的即时配送网络,在全国2800多个城市都有外卖业务的落地,所以骑手是分布在很多城市的,当我们想去部署无人驾驶设备、无人配送设备时,各地都有小哥可以转化为运维、维保、充电和维修的人员,所以对于无人配送网络的运营是好的支撑。

实际落地运营方面,今年2月份,美团在北京顺义区落地了一款中型无人配送车,通过自动驾驶技术给用户配送美团买菜的订单。用户下单之后,买菜的仓库会接到订单的信息,将订单上的生鲜打包后放到车里,(由无人车进行后续的配送工作)。目前无人车主要完成距离较远及订单配重较重的配送任务,在附近约单程5-6公里的小区进行配送,而具有更高灵活度的骑手偏重于配送近距离及轻重量的订单。目前美团无人配送车以每小时最高20公里的时速前进,在路上自动识别红绿灯和各种行人、障碍物,按照交通规则的要求,最终把菜品送到用户的手上。

无人机现在是在深圳一些地方做测试运营,小哥接到订单之后,会把订单打包裹,然后放到专用的褐色定制的盒子里,按照既定路线行驶,最终落在用户所指定配送地方,放下之后自动解锁,把包裹放下来,自己飞走,用户再把它取走。

目前无人机还在测试迭代过程中,我们以优先保障安全为前提,将无人机配送流程不断优化完善,并在适当的时候跟大家分享新的进展。

总结

美团做人工智能主要是从场景和需求出发来做人工智能,一方面是为用户提供更好的生活服务的引擎,让用户得到更好的服务体验;另一方面,为商家做产业升级的一系列工具、设施和系统。

美团也在探索在未来的生活、未来的城市、可能期望看到的技术和设施,让AI+生活成为我们未来生活的基础设施,这种基础设施就是无处不在,就像水电煤一样,可以帮助每一个用户、每一个商户。

谢谢大家,我的分享就到这里。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/riNhAXsqhCoSYw0i.html#comments Mon, 17 Aug 2020 11:37:00 +0800
百度技术平台部高级总监马艳军:开源深度学习框架,生态构建是核心,产业赋能是试金石 | CCF-GAIR 2020 //m.drvow.com/category/aijuejinzhi/rmKAzzMEBbiexXOa.html

雷锋网按:8 月 7 日 - 9 日,由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,鹏城实验室、深圳市人工智能与机器人研究院协办的第五届 CCF-GAIR 2020 全球人工智能与机器人峰会如期落地。

8 日,大会与 AI 研习社、OpenI 启智社区联合举办“AI 源创专场”,重点讨论了新基建背景下,国内开源创新建设将催生的新势能,以及其将引发和促进的新产业机会。

会上,百度深度学习技术平台部高级总监马艳军做了主题为《开源深度学习平台助力产业智能化:百度飞桨的实践》的分享,他从开源如何为产业赋能的角度切入,结合飞桨四年来的成长与实践案例,就开源深度学习框架如何进行生态构建、深度学习如何赋能产业、飞桨的智能化落地案例等给出了清晰的解读。雷锋网将马艳军的演讲进行了不改变原意的编辑,以下为全文:

我跟大家分享的主题是“开源深度学习平台助力产业智能化”,我会从开源如何给产业赋能这个角度分享。

飞桨在 2016 年已经开源了,时间是比较早的,在这个过程中,我们一直认为,技术的迭代有两个方面: 

首先,在百度内部会有大量的应用,并且非常注重配合大量的落地场景,这会驱动我们做一些事情,比如速度做得更快,部署做得更好。

 

然后,在这个循环过程中持续打磨开源项目。开源以后,我们社区里的开发者非常多,他们的要求非常苛刻。社区里开源的工程师把代码亮出来以后,大家都能知道你是如何设计的,以及你的代码、文档有没有问题。这就对整个编程的易用性、API 的完备性提出了新的要求,这些要求以前在公司内不做开源时就不会考虑太多。

这两个循环同时进行,就形成了一个产品。 

现在的飞桨框架部分已经满 70 万行代码,是工程量非常大的工作。如果再加上围绕核心框架的周边一系列的模型、工具,现在飞桨有 200 万行代码。这样规模的工程量,要想真正让它打磨得比较顺畅,需要慢慢做,确实没办法一下子放出一个跑起来不出问题的大型的工程系统。

飞桨经过这么长时间,已经形成完整的体系,现在有一些能力可以直接在平台上使用。

开源深度学习框架的建设和很多开源项目有一定的差异性。很多开源项目是把这个开源项目做好,其他人拿去用就可以了。但深度学习框架上下游的生态比较复杂,我们经常说,它是一个生态系统的问题。生态系统里要和很多芯片做对接,因为要基于它做算法研发,再被集成解决方案,形成比较深的产业链条,由此就形成了生态。

所以,开源深度学习框架和一般开源项目的差异性就在于,它的生态体系构建非常关键,比如说 飞桨放在这儿没人用那它就挂了,因为没有生态体系和它一起联动。没有生态的构建很成问题,现在国内的深度学习框架一直朝着生态构建的方向发展,开源就是帮助构建生态的很好的方式。

飞桨发展了这么长时间,在很多行业中已经被应用,使用的场景也很多。AI 在应用时和行业绑定非常紧密,需要结合很多行业专家的知识,并和 AI 技术平台一起设计可在企业中应用的更完整方案。

另一方面,深度学习框架需要和芯片做深度的对接适配才能达到高性能。现在芯片的种类还是蛮多的,把芯片设计好需要非常大的工作量,芯片企业要做更多的贡献才能把能力提升上来。

现在真实应用中使用的芯片类型也是不一样的,环境差别很大。真正要让深度学习框架在芯片上跑起来,是非常大的工程,可能得投入不小的工程团队开发一年左右,才能把整个硬件的功能进行很好的适配。

咱们国家做开源很重要,需要时间投入,耐心把这事儿做了,没有巧妙的办法把工程开发的时间绕过去。一定要投入时间,把这些工程开发做了才有更好的发展基础。

 

飞桨一直和国内外的芯片企业都有非常紧密的合作,做软硬件的适配,社区也有快速的成长。到现在,整个飞桨在 Github 共有 45000 的 Star。

做项目的过程中,第三方的生态贡献增长非常重要。第三方生态贡献增长是指什么?比如飞桨这个项目,很多的开发不是百度工程师做的,还有一些其他人在基于这个做出新的项目和更多的贡献,这就是第三方的贡献。我们很高兴地看到,今年上半年,由于疫情原因,大家的时间变多了,贡献也非常踊跃,Star 数增长速度非常快,整个生态也在快速成长。这说明国内的开发者也在积极主动做这样的事情。

飞桨也有一个开发者专家计划(PPDE),希望不同层次的开发者都能够加入到这里面做贡献,可以给框架做贡献,也可以贡献算法库,贡献各种各样的应用工具,由此形成整套开发体系。非常欢迎开发者加入这个项目。

飞桨核心技术 

我们常常说飞桨有几个特点:

一是框架层,我们是动态图和静态图统一设计的框架,希望可以从动态图编程转成静态图部署,并做到极致。 

另外是训练。百度做大规模的数据处理,天然需要有大规模训练能力。这个大规模训练也有很大的挑战,包括真正做了大规模、分布式,飞桨的大规模分布式训练已经经过了实践验证,比如速度提上来了,收敛性怎么样,精度是否有保证,这些都需要在实践检验中持续打磨。

再就是部署,对多种硬件的支持。飞桨目前已经支持非常多的硬件,尤其对国产芯片也进行了深入的适配融合。

最后是模型算法。飞桨开放了很多的算法,这上面的算法有 146 个,工业界使用比较广泛的基本都涵盖了。 

动态图的编程是飞桨主推的,代码的行数、编程灵活性都提升很多,语义理解的算法现在都是动态图实现。

大规模分布式训练在 CPU 和 GPU 上都有做,并且支持异构硬件的训练,我们也做了大规模的稀疏参数训练,这些在公司内用得很多,多种大规模的分布式训练模式都能支持。 

大家可以看到,部署是多种平台、多种操作系统都支持。这就是部署麻烦的地方,要适配的环境很多、很复杂,需要很多的工程化工作才能把部署做上去。

现在飞桨的模型库算法很多,涵盖的任务也很多,这些算法我们都做了比较多的调优工作,把算法的速度、训练的速度、参数本身设计到最优。

 

飞桨助力产业智能化:案例剖析

互联网行业对深度学习的拥抱是非常明显的,但要进一步扩展到更多的行业,还有非常大的空间。今天的案例不是互联网行业,而是实体经济——无人巡检的场景。

我们是制造业大国,制造在我们国家占的 GDP 比重非常大。在真实的生活中,很多事情需要检测,比如设备是否可以正常运转;工厂里也常常有很多检查,比如听到设备发生异响,这些都是真实场景里遇到的。

深度学习在真实场景中的应用面临的挑战非常多,比如它有可能算力非常低,不像很多互联网公司有大型的服务器。在很多真实的行业场景,不仅很多算力很低,也没那么多的内存,这种情况下,要把深度学习技术真正应用到行业中就需要克服很多不一样的挑战。 

举一个例子,要监测哪儿有没有着火,需要在某个位置架设一个摄像头,把深度学习影像拍到。这是挺复杂的系统,深度学习的模型训练只是其中一环,行业里的业务系统是比较复杂的,即使设计了一个系统,跟业务系统再对接也是非常复杂的工作。这个过程就需要后台的训练,从数据标注到模型训练,通过摄像头、相机、光源一系列的因素,包括无人机的配合,在边缘端进行计算,和后台形成联动,最后形成预警系统。

整个系统搭建需要很复杂的设计,这个理念会涉及比较难的技术点,比如检测有没有着火,需要目标检测技术。飞桨开源的目标检测工具 PaddleDetection 里面有一些非常经典和实用的算法,结合真实的场景、少量的数据,效果基本上足够你用。内存要求有限,ARM 算力有限,可以通过 PaddleSlim 把模型变小。

另外需要部署,要部署在 ARM 架构的芯片上面,快速运行,这其中的技术选型就非常关键。

我们通过技术使得很小的模型识别的精度也可以非常高。烟雾检测一方面要有高准确率,再就是推理速度,比如着火这种应急场景下,对性能的要求非常高。

这是今年在淄博发生的一件真实的事情。高压线底下着火,通过刚刚的技术方案,可以真正发现并解决问题。 

目标检测在真实场景中应用非常多,是复杂的技术,里面涉及到的组件非常丰富,另外还需要把压缩能力和部署能力打通,涉及到的工程化工作非常多。这些都是通过 PaddleDetection 开源的。我们提供了一系列的算法,开发者可以非常灵活地组合自己想要的算法。当然我们也提供了在什么场景下用什么最好的组合方案,直接给出了几款应用最多、效果最好的算法。

算法丰富性、精度、速度以及一系列的验证,这个套件已经在很多场景下做了很多工作,基本上可以放心用到工业、企业里。

训练完这些模型以后,我们需要做一些压缩工作。算力毕竟有限,部署的场景非常复杂,有可能是服务器,有可能是边缘端、网页端的程序,也有可能集成到软件上或是做服务,部署的环节是非常复杂的流程,需要做非常多的工作。

我们把主流的压缩方案都做了,跟检测、分割算法库结合可以直接实现模型的压缩和使用。通过 Paddle Lite,可以实现的算法适用比较多,现在在飞腾、寒武纪、百度昆仑、RK、华为NPU、MTK APU 等多种芯片都可以实现端到端的使用。

 

飞桨在百度 AI 中是基础底座,对于整个 AI 平台而言是底层技术,这个基础上会有一系列的定制化开发以及 AI 能力,比如语音、语言、视觉,再结合一些场景化的方案,最终会形成一整套具备 AI 能力的完整方案。

]]>
AI+ //m.drvow.com/category/aijuejinzhi/rmKAzzMEBbiexXOa.html#comments Thu, 13 Aug 2020 08:52:00 +0800
顶级算法竞技来袭,2020腾讯广告算法大赛迎来最终决战! //m.drvow.com/category/aijuejinzhi/XSsKtJZAjYovVwQ5.html

2020腾讯广告算法大赛,自开赛以来,吸引了“大半个算法圈”的高度关注,报名及参赛人次远超全球主流算法比赛2倍以上,是全球最受关注的算法赛事之一。

本届赛事共有来自1000多所国内外院校和超过3000家事业单位的11000人报名参加,除高校专业生外,各大厂在职人员参赛者更是不在少数。

比赛过程中参赛选手们不断突破自我,在与高手、大神的不断切磋交流中历练成长,相信走到今天大家都收获颇丰。决赛临近,十支最强战队即将前往深圳参与现场决赛答辩,各路大神选手将上台,亲身分享解题思路,权威评委现场给予专业点评,助力选手实力进阶。

算法与算法的交锋,技术与实践的融合,8月3日,决战一触即发!

  大咖云集,直播分享行业前沿  

算法之路,学无止境,为了更好的助力产学研融合落地,腾讯广告算法大赛还将于决赛后开启“专题直播”,倾情邀请算法大赛顶级评委开启线上直播分享,聚焦行业关键技术,分享算法前沿知识。

这个8月,让我们跟随顶级产研大咖的脚步,走进无限可能的“算法世界”,聚焦当下,展望未来。

不仅如此,专题直播期间参与有奖调研,也有机会获得专属纪念礼品,惊喜多多,等你发现。

想亲眼见证,各路算法大神的交锋对抗吗?想了解,十强战队是如何剖析“逆算”上分思路吗?你是否也想感受算法竞技的无限魅力,在与各路学者专家的思维碰撞中收获成长?

赶快点击报名,观战此次精彩绝伦的算法巅峰之战!

AI研习社观看地址

https://mooc.yanxishe.com/open/course/859

]]>
AI+ //m.drvow.com/category/aijuejinzhi/XSsKtJZAjYovVwQ5.html#comments Fri, 31 Jul 2020 17:02:00 +0800
用AI分析姓名识别男女,Genderify为啥被骂到服务下线? //m.drvow.com/category/aijuejinzhi/l7lJBJzvZqXCUHNp.html

上周刚面世的一项服务Genderify,号称能通过AI分析姓名、用户名或电邮地址来判断某人性别,结果因为算法偏差实在离谱,在社交媒体上引起了广泛关注。

我们来看看Genderify的一小部分“成绩单”:

输入“Meghan Smith”,评估结果为“男性:39.60%,女性:60.40%”;

但输入“Dr.Meghan Smith”,评估就会变为:“男性:75.90%,女性:24.10%”。

其他名字加上“Dr”,也会让系统给出更偏向男性的结果。

有网友试着输入了一些单词或名人姓名,Genderify也表现得令人失望:

比如输入“scientist”,评估结果为“男性:95.7%,女性:4.3%”;

输入“Oprah Winfrey”(美国著名脱口秀女主持),评估结果为“男性:78.3%,女性:21.7%”;

Genderify的首席运营官Arevik Gasparyan是一名女性,但系统连自家高管都不认得,给出了“男性:91.2%,女性:8.8%”的结果。

群众抗议情绪之强烈,已经迫使Genderify彻底关闭了这项服务,网站现已脱机,其免费API也无法再访问。

一位代表通过电子邮件向媒体回应:“如果大家不想要,这样的结局也许是公平的。”

尽管类似的性别偏见经常出现在机器学习中,但Genderify这种“不过大脑”的程度似乎让该领域的许多专家感到惊讶。Meredith Whittaker是纽约大学 AI Now的联合创始人,专注研究AI对社会造成的影响,她的反应就非常典型:“科技圈的愚人节来了?这是一种干扰科技与司法世界的心理战吗?”

为什么Genderify会引发大规模吐槽?就因为它根据某人的名字对其性别做出假设?并非如此。业界指出,其实人类也会通过名字猜性别,有时也会在这个过程中犯错误,这就需要了解人们的自我认同感,思考对方希望得到怎样的称呼,才能降低冒犯对方的可能。

Genderify的问题在于,它自动化了这些假设,显得太过“想当然”了,加深了这个过程中的性别刻板印象。比如前文提到的,在名字前加Dr.的情况,意味着系统认为:如果你是医生,那你大概率是个男人。

虽然创始人Arevik Gasparyan强调这是一个用于营销的数据分析工具,但有观点认为,它在特定的应用方式和地点下,会出现潜在危害。

例如这项服务被集成到医疗聊天机器人中,它对用户性别的假设,可能会导致聊天机器人发出误导性的医疗建议。

用户们对产品的性别歧视色彩表示担忧,有提问称:“如果我选择了既不是男性也不是女性,你如何处理这个问题?你如何避免性别歧视?你是如何处理性别偏见的?”

对此,Gasparyan称,服务是基于“已经存在的姓名/性别数据库”,公司也“正在积极寻求解决办法,以改善跨性别者等群体的用户体验”,试图将姓名/用户名/电子邮件的概念与性别身份区分开来。

一位代表也通过电子邮件给出了较为详细的回应:

“我们明白,我们的模型永远不会提供理想的结果,算法需要显著改进。为了让它更好地发挥作用,我们非常期待LGBTQ等群体的反馈,以协助我们尽可能地改进性别分析算法。我们的目标是建立一个自学习的人工智能,它将不会像任何现有的解决方案那样带有偏见。”

雷锋网编译,参考来源:

https://www.theverge.com/2020/7/29/21346310/ai-service-gender-verification-identification-genderify

https://baijiahao.baidu.com/s?id=1673625518588393349&wfr=spider&for=pc

雷锋网雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/l7lJBJzvZqXCUHNp.html#comments Fri, 31 Jul 2020 10:40:00 +0800
颠覆性变革!青松智慧携手英特尔AI百佳创新激励计划引领网络安全AI时代 //m.drvow.com/category/aijuejinzhi/Z87i1qGOpyixlIKc.html 近年来,网络安全事件频发,大数据和AI时代最重要的数据频遭泄露。据Gemalto发布的《数据泄露水平指数》,仅2018年上半年,全球就发生了945起较大型的数据泄露事件,导致45亿条数据泄露,是2017年全年报告数量20亿的两倍多。数据泄露带来经济损失的同时,还会对企业的品牌造成严重的损害,这让更多人意识到网络防护的重要性和迫切性。

在数字化浪潮下,网络空间面临的威胁也随之改变和升级,传统的网络安全技术需要升级,AI成为了不二之选。未来,AI不仅会成为安全产品的基石,还将颠覆传统网络安全产品以人驱动的方式。

AI百佳创新激励计划第二期的成员青松智慧和英特尔正在引领这一时代的到来。

AI将给网络安全带来颠覆性变革

网络安全有非常多细分市场,比如防火墙、终端防护、身份管理与访问控制、Web安全网关、数据防泄漏等。在这个庞大而细分的市场里,主流传统安全产品采用“基于特征码的规则指纹”匹配技术,这种使用规则的方式非常依赖人工,并且只能识别固定有限的攻击行为。

在攻防技术不断迭代更新的过程中,传统方式已经无法有效抵抗黑客攻击,在规模化成本控制与技术进化的选择上,传统安全产品的发展面临很大挑战。如果把AI技术应用到网络安全领域,不仅能满足攻防实时对抗的需求,在规模化成本控制与技术迭代上都会有较好的平衡预期。

WEB安全面临的挑战

2014年,多位网络安全领域的老兵们创立青松智慧,想在网络安全产品中融入AI。青松智慧CTO郭洋接受雷锋网采访时表示:“青松智慧是我们的第二次创业,之所以在网络安全领域再次创业,一个非常重要的原因是我们看到了大数据、AI和云计算是未来的方向,尤其是AI,所以想把AI技术也用在安全领域。”

他认为,未来的安全产品一定是基于AI,并且会带来颠覆性的变化。这种变化除了改变多年来安全产品以人驱动的方式之外,AI的学习速度以及发现未知攻击的能力也将达到前所未有的程度。

但要找到合适的解决方案把有AI功能的安全产品传递给客户并非易事。郭洋所指的合适包含了产品性能、部署成本以及支持通用场景。他说:“我们给用户交付安全产品的时候,希望以一种通用的架构去交付,而不是有硬件上的特殊要求。”

之所以会有这样的考虑,是因为早期AI训练都使用GPU,但大部分用户使用的都是英特尔x86的服务器,包括主要的公有云服务提供商,如果因为增加AI功能要让用户单独配硬件,就很难以通用场景交付给用户。

加入英特尔AI百佳创新激励计划,让青松找到最合适的硬件,同时推出了融入AI技术且适用于通用场景的网络安全解决方案——青松智能WAF。

深度融合英特尔AI软硬件,智能WAF性能提升2倍

“我们错过了英特尔AI百佳创新激励计划的第一期,但当一个投资人给我们推荐这个项目的时候,我们马上就决定要试一试。”郭洋说,“加入英特尔AI百佳激励创新技术之后,我们不仅全面了解了英特尔全线AI产品,也找到了最适合我们的英特尔至强可扩展处理器。”

2019年4月,英特尔发布了第二代至强可扩展处理器,第二代至强可扩展处理器非常重要的特性就是内置了英特尔深度学习加速(Intel DL Boost)技术,推理性能提升1.4倍。这款全球领先的具有AI功能的CPU让青松能够打造出理想中的产品。

郭洋表示,“英特尔至强CPU的x86架构无论在通用服务器还是计算密集的场景都大规模使用,在这样通用的硬件上,我们就现在可以直接使用至强的AI性能,大幅提升产品性能。”

在多个系列的至强可扩展处理器中,青松选择了高端的至强铂金以及银牌两个系列的CPU。“我们主要考量的是未来用户实际部署时可能采用哪种硬件,基于这样的选择去做我们在英特尔AI百佳创新激励计划中的PoC(Proof of Concept)。”郭洋解释。

基于至强可扩展处理器,青松推出的青松智能WAF,集传统规则引擎及机器学习引擎于一体,既保留了规则引擎灵活高效,同时通过机器学习引擎的词向量拆分提升模型泛化能力。

与应用于图像和语音的AI技术不同,应用于安全领域的AI模型需要不停用数据训练模型,甚至还需要为特定客户定制模型,以应对不断推陈出新的攻击方法。为此,青松智能WAF采用的是Transformer模型,整个网络结构完全是由“自注意力”和“前馈神经网络”组成,在复杂场景下效果和性能优于卷积神经网络、递归神经网络。英特尔第二代至强可扩展处理器强大的AI性能完全可以满足用于网络安全的AI算法和模型需求。

青松智能WAF优势

再加上英特尔MKLDNN、最新指令集优化实现AI安全引擎,青松智能WAF在单路至强处理器上充分利用多核性能,实测下可以达到15000 QPS,完美解决了性能和超大计算的问题,有效节省带宽和计算资源20%。

青松智能WAF检测性能几乎提升1倍和带宽和计算资源节省20%的情况下,落地效果也非常令人满意,客户A使用测试准确率 99.97%,客户B使用测试准确率 99.83%。之所以效果如此理想,非常关键的就是英特尔AI百佳创新激励计划让青松这个以前对硬件了解不多的软件团队加深了对硬件的理解,并且非常好地将软硬件进行结合。

“用传统方式做安全产品的时候,硬件的性能虽然也是我们的考量,但不会特别考虑哪个平台会更好。加入英特尔AI百佳创新激励计划之后,我们增加了对硬件的了解,就会着重考虑选择的硬件平台,选择未来3-5年将更加通用的平台。”郭洋介绍。

“英特尔的产品体系比较成熟,与我们实验室使用的架构吻合度非常高,像OpenVINO使用起来非常便利,并且很容易带来性能和成本的降低。比如,我们在使用了英特尔版本的TensorFlow之后,在不做任何代码级别改动的情况下,就能够带来性能的提升。与此同时,相比使用人工去实现相同的性能提升,用硬件成本相对较低。”

更重要的是,英特尔AI百佳创新激励计划提供的是全方面的支持,这将让英特尔与合作伙伴一起用AI推动行业的进步。

英特尔将携手青松共同引领网络安全AI时代的到来

“对于我们来说,最头疼的问题就是产品如何落地。加入英特尔AI百佳创新激励计划后,我们和往期的优秀团队在一起交流,我们透过沟通可以寻找合作的机会。”郭洋进一步表示。

“以前我们也参加过一些加速项目,得到的支持都非常有限。这次加入英特尔AI百佳创新激励计划最大的感受就是非常实在,除了技术上得到了非常多支持,共同开发出性能佳通用性强的产品。资金上也给予了一定的支持,让我们的环境可以支持主流的至强平台。除此之外,还提供了生态和市场宣传方面的支持。”

青松和英特尔AI百佳创新激励计划共同打造出极具竞争力的网络安全AI产品,只是英特尔与合作伙伴一起引领网络安全时代的到来的一个典型案例。通过深度合作,英特尔给合作伙伴提供AI性能最佳、通用性非常好的软硬件AI产品组合。借助合适的软硬件AI产品组合,像青松这样在一个安全领域专精,乐于接纳新技术的团队就可以更好地发挥出英特尔提供软硬件AI产品性能,共同开发出通用且极具竞争力的AI网络安全产品。

需要注意,英特尔通用的至强可扩展处理器推动AI网络安全产品的普及优势明显,特别是在新政策和需求的推动下。

2019年6月,《国家网络安全产业发展规划》正式发布,根据规划,到2020年,依托产业园带动北京市网络安全产业规模超过 1000 亿元,拉动 GDP 增长超过 3300 亿元,打造不少3家年收入超过 100 亿元的骨干企业。另外,其它地方政府网络安全产业规划也陆续出台。

在相关政策和更严格的网络安全级别要求下,有合规需求的机构和企业对使用AI技术的网络安全产品有刚性需求。另外,对安全性要求更高的金融、电商、游戏和在线教育等用户也会率先应用融合AI技术的网络安全产品,从愿意为安全付出更多成本的高端开始,逐步渗透普及。

而英特尔和其合作伙伴将引领网络安全AI时代的到来,英特尔AI百佳激励计划正是其中关键的一部分。现在,英特尔AI百佳激励计划仍在进行中,第三期又会有哪些优秀的AI创企加入其中,携手英特尔一起创造新的行业突破,我们拭目以待。


雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/Z87i1qGOpyixlIKc.html#comments Sun, 28 Jun 2020 11:42:00 +0800
容器必将取代虚拟机,但还有一个问题没有解决 //m.drvow.com/category/aijuejinzhi/WhbcM1pIlujNmVfT.html

企业云化必然性的共识已经少有挑战,在云化的推进中,以容器 + Kubernetes 为基础的 PaaS 平台也已成为标配。

基于可扩展性、交付效率、运维成本等方面的优势,容器正在更多地替代虚拟机。伴随着虚拟化的规模扩大,管理、运维成本的增加,使用容器技术来构建云计算基础设施越来越具有普遍性,Kubernetes 也成为业界公认的容器调度和编排标准工具。在此,容器等云原生技术的发展也催生着新的运营模式与商业模式的产生。

根据 Gartner 预测,2020 年,全球容器市场将超过 20 亿美金, 到2023年,70%的组织将在生产中运行三个或更多容器化应用。容器、Kubernetes和微服务应用模式是企业IT创新和数字化转型的三大驱动力。但容器应用仍受限于迭代缓慢、交付延迟、运维复杂等困难。

容器云给出了一个容器应用的解决方案。作为基于容器技术,利用微服务思想和 DevOps 理念实现的管理运维平台,容器云可更好地提高资源利用率、应用质量与运维效率,实现 PaaS 层的云交付。容器云环境中涉及多工具链和跨部门工作,这也对企业原有的 IT 技术团队提出了更高要求。人才的更新需要活水的注入,也更依赖于原有团队的升级。

上周,twt 企业 IT 社区与红帽联合主办的 2020 容器云职业技能大赛正式开赛,大赛的首要目的即是帮助企业完成容器云技术的人才升级。大赛将针对具体岗位运营组织, 分为大众学习和精英比赛两大阶段,将从 6 月持续到 12 月,覆盖 4000 家大中型企业,12.6 万人。从项目落地、代码分析、平台构建、测试和部署上线,到后期的平台运营、运维以及结合应用更多 Workload 的磨合,覆盖项目建设的全生命周期。

提高交付能力是容器云应用的重要目的,也是此次大赛强调的重点培训方向。此次支持的企业大多是红帽多年的生态合作伙伴,如英伟达、Veritas、AWS、阿里、浪潮商用机器有限公司等。五家企业的支持也各有分工,比如,Veritas 将主要面向多云容器数据的洞察、运维解决方案的提供。大赛面向五大行业的大中型企业,包括银行业、保险业、电信业、制造行业、医疗行业,这些是企业云化最积极的领域,对技术团队的升级也更为紧迫。

对于容器云的技术与服务经验输出,红帽显然是最有发言权的企业之一。基于在开源社区的多年积累,以及面向企业的多方面服务能力,红帽可与社区深入结合,为大赛介绍、引进诸多经验证的容器云方案。

限于数据安全的考虑,越来越多的企业选择混合云架构,后者也势必将成为未来企业上云的主流架构。红帽在混合云方面有充足的技术积淀。2019 年,红帽委身于 IBM,后者看重的也是其在混合云业务方面的多年积累,而这也是 IBM 未来抢滩云服务市场的重要领地。

雷锋网、雷锋网、雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/WhbcM1pIlujNmVfT.html#comments Mon, 15 Jun 2020 16:46:00 +0800
绝佳的「C 位」,必看的「AI 安防顶会」丨倒计时 7 天 //m.drvow.com/category/aijuejinzhi/HeXTKXddBMFMXg0J.html

C位,舞台最中央的位置

得C位者,得天下

身为科技赛道的C位,AI已不再陌生

过去几年,AI改变传统行业的野心和成绩有目共睹

作为全行业最为专注AI赛道的科技媒体之一

雷锋网AI掘金志紧抓AI市场化急速前进节点

于2018年首开「中国人工智能安防峰会」

转眼间,大会已经成功举办两届

再过7天,第三届「中国人工智能安防峰会」将在杭州拉开帷幕

本届大会在嘉宾邀请、议程设置和演讲内容等环节把控严格

遵循“基础理论技术创新”和“行业解决方案落地”两项黄金标准

为参会者提供极具价值的学术研究新思路和 AI 技术落地方法论

目前,峰会价值499元的普通门票已全部售罄

但在后期,我们又收到了不少来自业界的参会需求

藉由此,我们特设了:采购代表/企业管理人员免费福利票

点击“这里”,完成注册雷锋网

我们将会随机挑选25位幸运观众,送出免费参会福利票

峰会期间,我们还会不定时派送各类大奖,保证你拿到手软

6月20日,杭州见雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/HeXTKXddBMFMXg0J.html#comments Sat, 13 Jun 2020 01:30:00 +0800
AI「试验厨房」在路上:让机器为新材料的发掘按下快进键 //m.drvow.com/category/aijuejinzhi/LlLGX4HRUEoSyEQF.html 在多伦多大学,Ted Sargent经营着一个类似的试验厨房。他的团队由研究人员和学生组成,开发食谱,仔细测量和混合配料,然后评估后果。

Sargent团队的构想之一,其实是用二氧化碳做饭。电气工程师出身的Sargent说,他们的目标是发明配方,把温室气体“升级”成有用的材料。未来的工厂和发电厂可以利用可再生能源,将二氧化碳转化为可以出售的原材料,或者把它们“抓起来”封存在地下,而不是将污染物直接排放到空气中。

有一类很有前景的配方,是将二氧化碳与其他反应物电轰击,将其转化为由两个碳原子和四个氢组成的六原子分子乙烯。乙烯是一种用来制造普通塑料的原料,包括超市和拉链袋中的塑料。Sargent认为这是一种很有商业价值的化学品,背后会是大约600亿美元的市场规模。

二氧化碳“升级”图

不过,Sargent工作的真正意义不只是他的食谱多么有意思——他在用人工智能做饭。

Sargent团队通过使用新的人工智能和超级计算机驱动的技术,发现了制造乙烯的新成分,而这些技术在过去十年里在材料科学家中越来越受欢迎。

Sargent与卡内基梅隆大学的Zachary Ulissi合作,后者专门研究如何利用算法发明新材料。

Ulissi模拟了12229张共244种不同晶体的显微特写照片,瞄准了最有希望制造乙烯的候选晶体。特别是,他们希望找到一种材料,能让二氧化碳分解过程中产生的一氧化碳分子更容易粘附。

Ulissi用一台超级计算机进行了一小部分模拟,但这项任务太费时间了,不可能完成所有12229张特写。又所以他用这些超级计算的结果训练了一个机器学习算法,让机器学会怎么快速进行剩下的模拟。

在多伦多大学,Ted Sargent用类似的电子设备来“升级”二氧化碳

这些基于计算机的方法为研究人员发现新材料提供了一个更快、更全面的策略。科学家要发现一种材料,完成微调,然后再让其进入到商业化阶段,这整个过程可能需要20年甚至更多。

正如爱迪生的故事那样,在19世纪70年代,他测试了3000多种不同的材料,试图为第一个价格合理的白炽灯泡找到合适的灯丝。结果,下个世纪的灯丝是由钨制成的,是爱迪生从未尝试过的一种材料。

同样地,多伦多/卡内基梅隆大学的团队可能也没有找到那个“制胜关键”。他们的配方需要大量的电力来制造,这意味着现在用二氧化碳生产乙烯是无利可图的。

Sargent和他的同事正在努力设计更经济可行的食谱。上周《自然》杂志刊登的最新研究中,他们报道了多种新材料的发现,也就是所谓的催化剂,这些新材料能够更快、更节能地将二氧化碳转化为乙烯。这些催化剂可能是最终使这项技术具有可扩展性的“秘密武器”。

“我们需要减少碳足迹,但我们也不想因此而牺牲世界各地的繁荣。”Sargent说。

有了计算机,材料配方不再严格局限于单个科学家的专业知识。为了找到他们的催化剂,Ulissi和Sargent的团队使用了一个名为Materials Project的公共数据库,该数据库旨在将材料科学家作为一个类似Google的搜索引擎来服务。

这个网站包含了超过12万种不同无机化合物的数据。任何人都可以登录,指定他们想研究的原子元素和化学性质,并迅速找到许多候选材料。

科学家们找到让二氧化碳变成塑料的办法

举个例子,Sargent和Ulissi从以前的经验中知道,含铜材料是很好的催化剂,因此他们专门针对由铜制成的非活性合金搜索材料项目,该网站建议从244种晶体开始着手研发。

从这个列表中,算法指出,含铝铜合金可能是最合适的。当这些算法预测出最佳铝铜比以及两种金属的混合均匀程度时,实验室的科学家根据这些预测合成了材料,并将结果反馈到算法中。

计算机和科学家们的“天作之合”,使得他们在实验室中发现并生产出17种高效催化剂。

现在更多的科学家依靠计算机工具来发明新材料。劳伦斯伯克利国家实验室的物理学家Kristin Persson说:“在过去的20年里,确实发生了一场范式的变化。”她表示,计算技术“已经从小众应用转向推动创新”。

2017年,波音公司下属的研究人员报告说,他们利用AI发明了一种用于3D打印飞机部件的粉末合金。同年,洛斯阿拉莫斯国家实验室的研究人员使用AI设计了一种合金,这种合金可以反复加热和冷却而不会减弱。

去年7月,杜拉塞尔公司推出了一款名为Optimum的新型电池,它所含有的新材料,是Persson在2004年首次通过计算机模拟发现的。

石油巨头BP最近也与初创公司Kebotix建立了合作伙伴关系,这家总部位于马萨诸塞州的公司开发了一种AI驱动的工具,以用于设计更环保的塑料配方。

但是,就算使用了AI和超级计算机,Ulissi和Sargent的团队还是花了大约三年的时间,来鉴定和测试这些新的催化剂。

Persson说,目前的瓶颈是在实验室中混合和测试化学物质——算法确实可以起到很大的作用,但你仍然需要在工作台上测试所有的想法。

“我们不能雇佣学校里的每一个研究生都站在流水线上,去尝试各种各样的可能性,而这些可能性正是计算结果向他们抛出的。”Persson认为,将机器人纳入工作流程将加快材料的发现,这是材料研究的必经之路。

事实上,Kebotix已经开始使用机器人来发现化学物质,首席执行官Jill Becker将其称为“自动驾驶实验室”(auto-driving laboratory):计算机模拟为新材料的配方提供建议,机器人则对这些配方进行测试。、

Kebotix的客户可以选择独立使用这些功能,最近就有一家国家卫生研究院实验室使用他们的AI软件,更有效地进行药物开发实验。

不过,有了机器人,材料的发现还是需要人类的监督。Sargent表示,算法不是非常精确,合成新材料仍然需要“相当数量的手工制作”。

“实验主义者不会让理论家感到惊讶。就算有立式搅拌机、Instapots和面包机,厨房仍然需要一名厨师。”Sargent说。

雷锋网编译,via WIRED:https://www.wired.com/story/this-lab-cooks-with-ai-to-make-new-materials/

雷锋网雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/LlLGX4HRUEoSyEQF.html#comments Fri, 22 May 2020 15:25:00 +0800
中国企业包揽主办权,奖金池 12 万美金, KDD Cup 2020 开赛 //m.drvow.com/category/aijuejinzhi/j8U5ZuSBuohAWzrG.html

全球疫情严峻,各类赛事、会议能取消则取消,不取消的也纷纷改为线上进行,但学术顶会的步伐却未因此受阻。近日,ACM SIGKDD 公布了 KDD Cup 2020( 国际知识发现和数据挖掘竞赛)的赛事安排。

KDD Cup 2020 将延续 2019 年的三个赛道:常规机器学习赛道、自动化机器学习赛道、强化学习赛道,阿里、Biendata 分别主办了常规机器学习赛道的赛道一和赛道二,第四范式、滴滴则分别主办了后两个赛道,而第四范式也是连续第二年主办自动化机器学习赛道。所有的比赛都将在 3 月-4 月进行,奖金池更是达到了 12 万美金。

本次 KDD Cup 主席团中也有着两张华人面孔:清华计算机系教授唐杰和滴滴技术副总裁叶杰平。唐杰曾任 KDD 2018 大会副主席,并获得当年的杰出贡献奖;叶杰平则从 2005 开始便成为 KDD 的常客,并在 2013 年获得 KDD 最佳论文奖,而其和学生在 KDD 中过的论文总数超过 60 篇。

同时,ACM SIGKDD 和 KDD 2020 组委会也表示,将以参会者和志愿者的健康、安全为首要考虑,在现行惯例之外,采取有效措施,根据疫情变化,探索可用方案,以保证赛事的有序进行。


KDD Cup 2020 赛项

• 常规机器学习赛道(ML 赛道 1) 「现代电子商务平台挑战赛」(于 2020 年 3 月 30 日开放)

• 常规机器学习赛道(ML 赛道 2) 「图片对抗性攻防」(于 2020 年 4 月 15 日开放)

• 自动化机器学习赛道(AutoML 赛道) 「用于图表示学习的 AutoML」(于 2020 年 3 月 30 日开放)

• 强化学习竞赛赛道(RL 赛道) 「学习按需移动平台上的调度和重定位」(2020 年 4 月 2 日开放)


常规机器学习赛道(ML 赛道 1)

赛道关键字:学习表示,迁移学习,图像、视频和文本处理

平台:天池

总奖金: 40,000 美元

报名时间:UTC 2020 年 3 月 30 日至 2020 年 4 月 27 日。UTC 2020 年 4 月 27 日晚上 11:59 将关闭报名入口,并禁止换队。

任务及评审标准:ML Track 1「现代电子商务平台挑战」赛项,要求参赛者通过考虑不同类型的复杂信息和模式之间的紧密联系,学习高质量的跨模式表达;然后,学习表示可用于计算表示之间的相似度得分,并选择与文本相关的图像/视频;最后,每一次提交都将在测试数据集上进行评估,该数据集评估检索到的产品与事实之间的对应关系。

此赛项有两个分任务,任务 1 主题为「召回多模式实体」。

参赛者需要设计一个模型框架,以促进对图像和视频的有效语义理解、搜索和检索,以便召回具有适当多模态内容的产品并对其进行排名,从而帮助消费者做出更好的决策。

召回多模式实体赛项详情:

https://tianchi.aliyun.com/competition/entrance/231786/introduction?spm=5176.12281949.1003.4.2926539dVvsnc8

任务 2 主题为「消除偏见」。

由于指定目标(例如 ctr,cvr 或 gmv)带来的算法偏见,将导致机器学习推荐系统产生严重的马太效应,用户将搜到曝光率更高的商品,从而导致推荐的不公平。因此,了解系统是否公平是至关重要的,也即「消除偏见」。

消除偏见赛项详情:

https://tianchi.aliyun.com/competition/entrance/231785/introduction?spm=5176.12281949.1003.5.2926539dVvsnc8


常规机器学习赛道(ML 赛道 2)

赛项关键词:生成对抗网络(GAN),图结构数据,图嵌入

总奖金: 19,000 美元

平台: Biendata

任务及评审标准:ML 赛道 2 「图片对抗性攻防」赛项分为两个阶段。 

在第一阶段,将为所有团队提供一个图形数据集,然后要求参赛者以作为一种攻击形式,提交该数据集的修改版本,修改后的数据看起来应与原始图「相似」,但在竞赛系统后端准备并保存的基准模型下分类精度较低。


在第二阶段中,所有团队都必须提交攻击模型和防御模型,塞方将发布相似但不相同的图形数据集。攻击模型是一种算法,可以读取图形和防御模型,并根据这两个输入来修改图形。防御模型是对图进行稳健分类的模型。

评审标准:然后赛方将匹配所有团队的所有进攻模型和防守模型。在每次比赛中,攻击模型将首先修改图,而防御模型则将修改后的图分类,比赛系统将记录每次比赛的准确性。最后,每支球队都会获得两个模型的准确性报告,然后以此作为排名依据。

ML 赛项 2 详情地址:

https://biendata.com/competition/kddcup_2020/

自动化机器学习赛道(AutoML 赛道)

赛项关键字:图表示学习,图结构化数据,图嵌入,AutoML

总奖金: 33,500 美元

平台: CodaLab

任务及评审标准:AutoML 轨道「用于图表示学习的 AutoML」是有史以来第一个应用于图结构数据的 AutoML 挑战。

在这一挑战中,参赛者被要求搭建用于图表示学习的 AutoML 解决方案,以自主地绘制图形表示学习问题(无需任何人工干预),其中节点选择分类作为评估学习表示质量的任务。

每个团队都有三个公共数据集来开发 AutoML 解决方案,并提供六个反馈数据集,以使参与者能够评估他们的解决方案。这些解决方案将在没有人工干预的情况下使用六个看不见的数据集进行评估,优胜者将根据数据集的最终排名进行选择。

AutoML 赛项详情地址:

https://www.automl.ai/competitions/3


强化学习比赛赛道(RL 赛道)

赛道关键字:强化学习,按需机动性,车辆重定位

总奖金: 30,000 美元

平台: CodaLab

任务及评审标准:RL 轨道「学习按需移动平台上的调度和重定位」赛项要求:参与者应用机器学习工具来确定新颖的解决方案,重点考察点为如何应用机器学习解决方案来提高 MoD 平台的效率。

其中包含了 2 个任务,即按需移动(MoD)平台上的订单分派(订单匹配)和车辆重定位(车队管理)。

任务 1 订单分派要求团队开发一种算法,实现在两秒钟的调度窗口内确定订单驱动程序分配。其中,未完成的订单(行程请求)和可用的驱动程序需要在窗口中进行批处理,它们的状态信息将传递到订单调度算法中。

在整个模拟中,将为每个调度窗口重复调用此模块。评估模拟将运行多天,从中计算出平均驾驶员总收入,以此作为算法的得分。

任务 2 车辆重新定位要求团队为预选的小型车辆开发一种重新定位算法。对于这些车辆中的任何一个,如果连续怠速时间超过 L = 5 分钟的阈值,则该车辆可以重新定位。

环境会定期将所选组中所有合格车辆的状态信息发送到重新定位算法,该算法指示驾驶员驶向特定目的地。模拟期间,参赛算法的平均个人收入率,被计算为该算法的分数。

这些算法将在团队无法访问的模拟环境中进行评估,除了环境所产生的分数之外。参与团队可以选择开发一种或两种算法。

RL 赛道详情地址:

https://outreach.didichuxing.com/competition/kddcup2020/ 

KDD Cup:数据挖掘的世界杯

KDD Cup 由美国计算机协会知识发现与数据挖掘专委会(ACM SIGKDD)发起,被称为数据挖掘的世界杯,是该领域水平最高、影响力最大的顶级赛事。该比赛同时面向企业界和学术界,从 1997 年开始,每年举办一次,吸引了世界数据挖掘界的顶尖专家、学者、工程师前来参赛。

此外,KDD Cup 可以说是华人的主场。

2005 年杨强(右二) KDD Cup 夺冠照片

最早,2004、2005年,香港科技大学教授、IEEE Fellow 杨强曾带领其团队连续两年拿下 KDD Cup 比赛冠军。到了 2017 年,中国队伍几乎包揽了 KDD Cup 的所有奖项。

KDD Cup 强调应用,前期的承办者多为高校,近十年则越来越多由企业赞助。与此同时,中国企业的出镜率也越来越高。KDD Cup 2017 便曾由阿里云承办,百度、第四范式也赢得过 KDD Cup 2019 的主办权。

2019 年,KDD Cup 有了独立的议程,并首次设立 3 个赛道:Regular ML(常规机器学习)、Auto-ML(自动化机器学习)、Humanity RL(强化学习),其中强化学习的赛道为首次设立。三个赛道的冠军分别被蚂蚁金服和日本的 NTT DOCOMO 公司、深兰科技和北京大学团队、国立成功大学拿下。

雷锋网.雷锋网.雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/j8U5ZuSBuohAWzrG.html#comments Sun, 05 Apr 2020 10:47:00 +0800
复杂场景下的多目标定位——深度学习算法综述 //m.drvow.com/category/aijuejinzhi/Bla5Fz65bDe61PLP.html 雷锋网按:本文为矩视智能创始人弭宝瞳投稿。矩视智能成立于 2017 年 10 月,专注于机器视觉,主要通过 SaaS 云平台帮助提升工厂机器视觉开发、升级效率。弭宝瞳为中国人民大学计算机博士,曾在奇虎 360 任产品经理、研发工程师。

一、背景知识

目标定位是计算机视觉的重要应用场景之一。在工业生产、航空航海、农产品包装等众多领域内均已得到广泛应用。在工业生产中,通过目标定位可以实现精准地完成自动抓取、自动上料等操作;在航空航海中,利用目标定位可以为海上打捞等工作提供可靠的位置服务;在交通运输中,借助目标定位可以准确获取车辆的位置信息。

由于上述领域相关的图片信息都具有十分复杂的背景,对待识别目标干扰性强,且通常存在目标重叠、相似度高、部分遮挡等问题,进行目标定位具有相当大的难度。

二、传统算法

传统的目标定位算法通常使用滑动窗的方法,主要可分为以下三个步骤:

(1) 候选框:利用不同尺寸的滑动窗,在图片中标记一块区域作为候选区;

(2) 特征提取:针对输入图片的候选区域,提取视觉特征(例如人脸检测常用的Harr特征、行人检测和普通目标检测常用的HOG特征等);

(3) 分类器识别:利用分类器进行目标和背景的判定,比如常用的SVM模型等。

上述传统算法在一些特定的应用方面已经取得了不错的成绩,但仍有不少缺点。首先,其需要手动提取图像特征,提取方法需要不断尝试比较才能得到好的特征;其次,提取的特征与模型性能的优劣直接相关,导致模型针对性强,不能灵活应用于其他情景;此外,有些算法中还涉及到复杂的边缘检测过程,包括阈值分割、分水岭算法等。繁杂的处理过程导致模型检测效率较低,无法满足在工业生产中的广泛应用。

三、深度学习

在2012年的ImageNet竞赛中,AlexNet神经网络一举成名,也使CNN成为了计算机视觉研究的中心,同时再一次掀起了深度学习的研究热潮。

3.1R-CNN[1]

R-CNN是先进的视觉对象检测系统,它将自下而上的候选区域提取与卷积神经网络的丰富功能结合在一起。R-CNN在不使用上下文记录或要素类型集成的情况下实现了检测精度的大幅提升。

R-CNN算法的具体实现方法如下:

输入图片,基于区域候选方法(如selective search方法)生成约2000个候选区域;

对每个候选区域进行Resize,固定大小后送入CNN模型中并得到特征向量;

将特征向量送入一个多类别的分类器中,判断候选区域中所含物体属于每个类别的概率大小;

在R-CNN最后训练一个边界框回归模型,以提升目标定位的准确性。

本方法使用CNN网络自动提取特征,避免了手动提取特征的复杂操作,提升了工作效率。但由于每个候选区域都需要送入CNN模型计算特征向量,会耗费一定的时间。

3.2FasterR-CNN[2]

Faster R-CNN是目标检测领域最经典的算法之一。它主要由用于生成候选区域框的深度全卷积网络和Fast R-CNN 检测模型两部分构成。

Faster R-CNN的网络结构如上图所示,由图中可以看出其由四部分组成:

Conv layers:对输入的整张图片,提取其特征图;

Region Proposal Networks:用于推荐候选区域(通过softmax判断anchors属于前景还是后景,并借助box regression修正anchors,输出多个候选区域);

ROI Pooling:将不同大小的输入转换为固定长度的输出,送入后续的全连接层判定目标类别;

Classification:输出候选区域所属的类别及其精确的位置。

RPN层是Faster R-CNN网络最大的亮点,使用RPN代替启发式候选区域的方法,极大的加快了训练的速度和精度。

3.3 Yolov3[3,4]

前面介绍的两种算法均为Two-stage,而Yolo属于One-stage,它不需要提取候选区域,可以直接产生物体的类别概率和位置坐标值,这里将针对目前更受欢迎的Yolo v3展开介绍。

Yolo v3的具体实现可以分为三步,分别为:

多尺度预测:借助残差网络结构形成了更深的网络层次,可以在三种不同的尺度上进行检测;

基础网络:使用Darknet的变体Darknet-53,在Imagenet上训练了53层网络,并在检测任务时再次堆叠53层,形成了106层完全卷积的底层架构;

分类器:使用多个logistic分类器,以进行多标签对象的分类。

作为Yolo算法多次优化后的产物,Yolo v3是当前目标检测最优的算法之一,其具有结构清晰,实时性好,可以通过改变模型结构的大小平衡速度与精度等优点。此外,Yolo v3还提升了小尺寸物体的检测效果,解决了前两个版本存在的问题。

3.4 SSD[5]

SSD算法(全称Single Shot MultiBox Detector)同Yolo一样属于One-stage,且整体稳定性比Yolo好很多,其网络结构如下图所示。

SSD的基本实现流程较Yolo复杂,可概括如下:

输入图片,使用卷积神经网络CNN提取特征,并生成特征图;

抽取其中6层的特征图,并在特征图的每个点上生成default box;

将所得的default box全部集合起来,并输入极大值抑制NMS中,筛选并输出最后的default box。

同样作为One-stage方法,SSD采用CNN直接检测的方法替代Yolo在全连接层之后做检测的方法提升了训练速度。此外,SSD提取不同尺寸的特征图,分别用来检测大小不同的物体;还使用不同尺度和长宽比的Anchors提升了定位准确度,实现了在高速运行的同时保持高精度的重大突破。

四、总结

本文参考前沿文献,总结了部分目前应用较为广泛的部分目标定位算法框架及具体思路。总的来说,目标定位检测可分为Two-stage(产生候选区+确定位置)和One-stage(直接产生物体的位置坐标值)两大类,均可以实现快速准确且鲁棒性好的目标定位,且可以灵活的应用于建筑业、航天工程以及工业生产等众多行业。

参考文献:

[1] Girshick R, Donahue J, Darrell T, et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2015.

[2] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015.

[3] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

[4] https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b.

[5] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016.

雷锋网,雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/Bla5Fz65bDe61PLP.html#comments Sun, 05 Apr 2020 10:43:00 +0800
复杂场景下的复杂缺陷检测方法——深度学习算法综述 //m.drvow.com/category/aijuejinzhi/bTtNr40t4SEupLlD.html 雷锋网按:本文为矩视智能创始人弭宝瞳投稿。矩视智能成立于 2017 年 10 月,专注于机器视觉,主要通过 SaaS 云平台帮助提升工厂机器视觉开发、升级效率。弭宝瞳为中国人民大学计算机博士,曾在奇虎 360 任产品经理、研发工程师。

一、背景知识

随着自动化技术的快速发展,在工业生产中很多需要人工操作的环节逐渐转由机器完成,工业生产自动化也将越来越多的工人们从枯燥乏味的工作中解放出来,让他们去发挥更大的价值。

产品表面缺陷检测是工业生产中的重要环节,是产品质量把控的关键步骤,借助缺陷检测技术可以有效的提高生产质量和效率。但是由于设备及工艺等因素的影响,产品表面的缺陷类型往往五花八门,比如织物生产中方出现的污点、破损,金属产品上的划痕、裂纹、凹凸不平等各种不同类型的缺陷,如下图所示。

单张图片中的缺陷多样且不同缺陷表现形式的也不相同,给缺陷的自动化检测带来了困难。

二、传统算法

传统的表面缺陷检测算法结构通过图像预处理得到便于检测的图像,随后借助统计机器学习方法来提取图像特征,进而实现缺陷检测的目标。

图像预处理通常包括直方图均衡化、滤波去噪、灰度二值化、再次滤波几部分,以得到前后景分离的简单化图像信息;随后利用数学形态学、傅里叶变换、Gabor 变换等算法以及机器学习模型完成缺陷的标记与检测。

上述传统算法在某些特定的应用中已经取得了较好的效果,但仍然存在许多不足。例如:图像预处理步骤繁多且具有强烈的针对性,鲁棒性差;多种算法计算量惊人且无法精确的检测缺陷的大小和形状。而深度学习可以直接通过学习数据更新参数,避免了人工设计复杂的算法流程,并且有着极高的鲁棒性和精度。

三、深度学习

目前,基于深度学习的缺陷检测已经应用于金属固件、布匹丝织物、建筑裂纹、钢筋裂纹等多个领域,并取得了不错的成果。下面将结合具体案例介绍其实现方法。

3.1裂纹缺陷检测[1]

建筑材料(如磁瓦等)的外观变化(如裂纹或腐蚀等)与其建筑结构的安全性密不可分,而依靠检察员视觉检查的效果局限性大,相比之下,基于计算机视觉的结构损伤检测更为可靠便捷。

本文使用Faster RCNN实现对图像的准实时处理,其整体架构包括RPN和Fast RCNN两部分,如上图所示,RPN和Fast RCNN使用相同的CNN网络从图像中提取特征,CNN的主要结构如下图所示。

RPN的作用为提出候选目标,结构示意如图所示,其实现流程包括:

输入图像后,利用CNN网络得到特征图;

将特征图上每一个CONV滑动窗的特征映射为向量并输入Softmax和Regressor层中;

预测缺陷边界框的坐标。

Fast RCNN的作用为对图像中的缺陷位置进行定位和分类,其结构流程如上图所示。

从输入图像中提取特征图并获得感兴趣区域(ROI);

在ROI池中,预先计算的兴趣区域覆盖在特征图上,提取固定大小的特征向量;

将所得向量输入全连接层,计算边界框的位置并对框内对象进行分类。

3.2破损缺陷检测[2]

在电气化铁路等工业中,有许多关系着安全的重要固件,这些固件的缺陷检测十分重要。

本文作者利用深度卷积神经网络(DCNNs)结合SSD,Yolo等网络方法构建了一个从粗到细的级联检测网络,包括固件的定位、缺陷检测与分类,其实现流程如下图所示。

(1) 紧固件提取

借助在速度和精度方面都表现良好的SSD框架,对图像中的悬臂节点进行定位;

基于Yolo框架的快速本地化架构,对紧固件进行定位。

(2) 固件缺陷检测与分类

根据第二阶段对紧固件的检测来判断缺陷;

再次借助DCNN,通过4个卷积层对缺陷进行分类(分类网络结构如下图)。

DCNNs具有良好的鲁棒性和自适应性,有利于检测的快速进行,因此本方法在紧固件的缺陷检测和分类中具有良好的应用前景。

3.3斑点缺陷检测[3,4]

斑点缺陷检测在纺织、木材、瓷砖等许多行业中都很常见,通常利用其纹理的一致性实现检测的目的。近年来,利用深度学习视觉检测技术对相关产业的表面缺陷检测引起了广泛关注。

作者采用结合图像金字塔层次结构思想和卷积去噪自编码器网络(CDAE)实现对布匹纹理图像的缺陷检测,其总体结构如下图所示。

(1) 训练阶段

图像预处理:光照归一化、高斯金字塔下采样和噪声降噪等操作,避免光照等因素的影响;

Patch提取:提取Patch对每个金字塔层的CDAE网络进行训练;

模型训练:利用训练Patch的重构残差作为像素级缺陷预测的指标;

阈值确定:区分缺陷点与无缺陷点的重要参数。

(2) 模型测试阶段:

图像预处理:只需进行光照归一化和高斯金字塔下采样操作即可;

Patch提取:提取Patch用于纹理检测;

残差贴图构造:提取局部接受域在训练后的模型中滑动,以对每一个像素进行预测;

缺陷分割:对每个金字塔层的残差图进行分割;

合成:将多个金字塔级别的信息合成,以提高缺陷检测的鲁棒性和准确性。

文章通过分析和实验已经证明,充分利用无监督学习和多模态结果融合策略,可以提高缺陷检测的鲁棒性和准确性。

3.4划痕缺陷检测[5]

划痕缺陷检测通常用于金属类产品的表面缺陷检测中,随着生活质量的提高,人们对产品的外观完整性与美观程度的要求也越来越高,因此精准地检测到产品外观的划痕等缺陷在生产环节十分重要。

使用上图所示的缺陷检测体系结构,下面将针对检测模块展开介绍。

(1) CASAE架构

将两个自动编码器(AE)级联在一起,这里的AE结构是FCN框架的迁移使用,有一层层的卷积、反卷积和跳跃链接组成,其结构如下图所示。

(1) 阈值模块

连接到CASAE网络末端的独立模块,用于进一步细化预测掩码的结果。

(2) 缺陷区域检测

通过语义分割获得所有可能缺陷的区域,进一步使用blob分析以寻找准确的缺陷轮廓,最终从图像中提取最小的外接矩形区域。

四、总结

本文参考前沿文献,总结了部分当前主流的缺陷检测实现思路。总的来说,使用基于深度学习的算法可快速准确地实现的缺陷检测,且适用范围广能够灵活地应用于建筑、金属固件以及布匹丝织物等众多行业的生产过程中。

雷锋网

参考文献:

[1] Cha Y J et al. Autonomous structural visual inspection using region‐based deep learning for detecting multiple damage types[J]. Computer‐Aided Civil and Infrastructure Engineering, 2018.

[2] Chen J et al. Automatic defect detection of fasteners on the catenary support device using deep convolutional neural network[J]. IEEE Transactions on Instrumentation and Measurement, 2017.

[3] Mei S et al. An unsupervised-learning-based approach for automated defect inspection on textured surfaces[J]. IEEE Transactions on Instrumentation and Measurement, 2018.

[4] Mei S el al. Automatic fabric defect detection with a multi-scale convolutional denoising autoencoder network model[J]. Sensors, 2018.

[5] Tao X et al. Automatic metallic surface defect detection and recognition with convolutional neural networks[J]. Applied Sciences, 2018.

雷锋网.雷锋网.

]]>
AI+ //m.drvow.com/category/aijuejinzhi/bTtNr40t4SEupLlD.html#comments Sat, 28 Mar 2020 17:07:00 +0800
从算法爬坡到 AI 基建,旷视“天元”开源背后的 AI 生产力破局 //m.drvow.com/category/aijuejinzhi/eSo6vwD0omFsysQ1.html 更大的数据,更大的模型,更好的算法,深度学习兴起之后,这些因素就成了 AI 公司最重要的考量。尤其对于语音、NLP、计算机视觉等应用,海量数据与精确算法支撑下不断提升的应用,是 AI 企业建立外部认知的最重要载体。

在技术爬坡、订单获取上,算法是基础。但当企业经历几年的跑马圈地,单纯的算法之外,一家 AI 公司还需要什么?巨头与行业独角兽们正在试图回答这个问题。

近日,计算机视觉领头公司旷视正式宣布开源其深度学习框架 MegEngine,中文名“天元”(传送门:MegEngine.org.cn)。 

从算法到 AI 基础设施

印奇说,旷视要成为中国最强的 AI 公司,这其中是对算法能力、产品能力、解决方案能力、业务运营能力的多重要求,而算法是旷视的核心基因。

旷视业务以机器视觉为核心,对算法精度要求更高。早几年,和很多企业一样,团队主要精力都聚焦在如何精进算法上。在算法精度上,如何在“小数点”后的数字上做提高,再把算法放入相应的场景,为客户提供视觉解决方案,是团队的工作重点。

但如 CTO 唐文斌所言,AI 应用是一个无限游戏——算法无限,场景无限,对应所需要的产品也是无限的,要达成企业用 AI 惠及世界的最初愿景,一个更高效的做法是解决 AI 基础设施的问题。 

何为 AI 基础设施?唐文斌给出了两大核心要素:承载 AI 计算的芯片平台是其一,一个可以协同优化算法、数据、算力的平台,即 AI 生产力平台是其二。因此旷视打造了自己的AI 基础设施 Brain++。

生产好的AI 算法是一个系统工程,要求同时具备标准化的数据管理、高效的深度学习框架和强大的算力。为此,Brain++  作为AI 生产力平台主要涵盖了数据解决方案 MegData、深度学习框架 MegEngine、算力解决方案 MegCompute,是为三位一体。天元( MegEngine)的开源只是开始, Brain++ 的更多数据管理、计算能力之后也将向企业级用户陆续开放。

发布会上,旷视云服务业务资深副总裁赵立威表示,旷视可以为企业级用户打造专属的Brain++ 平台,为合作伙伴提供AI生产全流程的服务,从专业咨询、到数据生产、模型优化,再到私有化AI平台的建设运维,满足各行业在”AI+“的过程中降本增效、自主安全和商业创新的诉求。

“单一算法壁垒很低,但是能够系统化地产生大量算法,并且结合场景不断迭代、优化,最终还能打造算法相关的产品和方案,这个壁垒非常高。”一年前印奇面对量子位的回答,已经宣示了旷视在此的雄心。

而从旷视近两年的一系列动作中,也可看出一个从底层算法到 AI 基础设施的上升轨迹。

2019 年 1 月,旷视发布  AIoT 操作系统“河图”,后者将作为智能机器人的网络协同大脑,接入物流场景下的多种硬件,在发布会上,“回归产业”、“赋能产业”几乎是印奇演讲的主题。

2019 年 10月,旷视推出城市物联网操作系统 CityIoT OS ,将公共安全、智慧交管、城市管理和智慧园区全局管理能力整合为一体。

AI 需要聚拢更多人的力量,才能创造更多价值。天元(MegEngine) 乃至 Brain++ 的开源和开放,意在联合中小企业和更多开发者,接入更多设备,从而把 AI 这张网抻大。

深度学习,简单开发

天元是围棋棋盘最中心的点,MegEngine 中文名借此命名,一来致敬 AlphaGo;二来,天元是万物的基础,这个名字也是旷视对 天元(MegEngine) 成为中国人工智能发展的一块基石的寄望。

旷视副总裁谢忆楠做了一个朴素的举例:智能化是往硬件里植入算法。往越多的硬件里塞入算法,社会的协同网络便越大、越智能。这张协作网络便是物联网。天元的开源,则是赋予其它中小企业往硬件里内置算法的能力,并进一步迎合其在特殊场景的定制化需求,以帮助其达到真正的“深度学习,简单开发”。

除了最新开源的天元(MegEngine),目前国际主流的几种深度学习框架主要包含谷歌大脑2015年开源TensorFlow、谷歌的人工智能研究员François Chollet 2015年推出的Keras、Amazon 2015年底开源的MXNet、Facebook 2016年开源的PyTorch、微软2016年开源的CNTK、百度2016年开源的飞桨等。天元(MegEngine)则从实际开发经验中的几个痛点入手,在性能上表现不俗:

1. 训练推理一体化

旷视天元既可支持研究员进行算法训练,同时训练得到的模型和产物是可以直接进行用于产品的推理、封装。省去模型转换不仅极大简化算法开发流程,更实现了速度和精度的无损迁移,即使是模型的跨设备部署,天元依然能够做到精度的对齐。在部署时,天元还可以帮助开发者自动删除冗余代码,实现模型自动优化。

2. 动静合一

静态图性能高、占用资源少且易于部署;动态图简单灵活、方便调试且易于上手。旷视天元整合了动态图与静态图各自的优势,在充分利用动态图模型训练优势时,通过动静态一键转换功能,以静态图的形式完成生产和部署;此外,天元还支持动静态的混合编程,灵活性更强。 

3. 兼容并包

旷视天元具备Pythonic的API,这对习惯用Python进行传统机器学习的开发者来说非常友好,学习成本更低、易于上手,同时天元还支持PyTorch Module功能,可以直接导入模型,迁移成本低且极大方便模型复现;天元内置高性能计算机视觉算子和算法,可为计算机视觉相关模型训练和应用实现深度优化。

 

4. 灵活高效

旷视天元具备很强的多平台多设备适应能力,可通过类似汇编和指令重排等技术,使得天元内置算子能够在推理或生产环境中充分利用多核优势,灵活调用设备的计算力,尤其适用于大模型算法训练。

 

总的来说,MegEngine 在协同设计、高效训练、大规模训练能力上,做到了更完整的统一与升级。

相比平台级公司的科技巨头,旷视成立之初便是一家以 AI 为驱动的企业,天元深度学习框架的开发以其核心业务为土壤,在应用场景和落地案例中经过不断的反馈、调试,尤其在视觉任务的处理上,更加适合开发者。

基于与TensorFlow、PyTorch 等框架的不同优势,开发者也可以同时使用不同框架,解决自身问题。

生态共建者

过去几年,中国企业纷纷拥抱开源,但多数是被形势驱动,勉力上赶,早期便做下铺垫并持续技术积累的不多,从这个角度看,旷视算是个异类。

2014 年,深度学习刚刚兴起不久,当时公司使用的还是 Theano 框架,效率低下。旷视研究院的 3 名实习生,在其自动化算法研发系统 Cycle++ 的基础上,不到半年的时间里,写出了一个初版的深度学习框架,便是 MegEngine 的雏形。

MegEngine 诞生的第二年,谷歌开源了 TensorFlow。 在深度学习框架的选择上,买巨头的船票,还是自己造船,团队内部经历了长久的争论。

高投入的自研意味着对团队的极大考验,此时,成立不到 4 年的旷视,技术团队尚不足20人,再配合业务的落地推进,难度指数级增长。但刚刚开源的 TensorFlow 尚有不少缺憾有待完善,对团队来说,远不如自研的 天元(MegEngine )称手。并且,对于一个以 AI 为绝对主业务的企业来说,长期来讲,自研深度学习框架更易于面向自身需求调整、迭代算法。

如今来看,当年的争论结果已经非常明显, 旷视选了那条难走但是正确的路。

2015 年,天元便在旷视内部全员使用,其所有算法都是基于该框架进行训练、推理。目前,天元已经迭代到第 8 版,用在了上百个产品、几十种计算平台上。

再问:有大哥坐镇,天元有自身优势虽不假,但又如何与先来者抗衡?

这家 AI 企业似乎并没有在这个问题上花费太多时间。

“我们不觉得天元和其他的(框架)是竞争关系,而是共同借助开源生态的培育与建设,形成良性有机的局面。我们期望能够营造一个开放的社区,一个能够接纳大家新想法、共同创造的社区。不论是一个技术产品,还是一个开源框架,都需要以是否好用、是否成熟、是否能够做得更好来作为最终的评判标准。”旷视研究院高级技术总监田忠博总结道。

欢迎规则“打乱”者

天元现在开源的是Alpha版本,其开源生态最终将如何展开,还需要持续迭代,但一个在算法上有成绩的优秀选手,在算法工具上自然具备充分的底气。在不断推进的手机智能、智慧城市、供应链等落地案例之外,旷视研究院的参赛团队一直是近些年各大顶级比赛和会议的常驻冠军。

从目前的规划来看,天元将保持每 3 月一迭代的节奏:3 月发布 Alpha 版本,释放关键代码;6 月发布 Beta 版本,全面提供基于 ARM 系列的 CPU 支持能力,并引入更多加速设备;9 月的 1.0 版本将涵盖所有核心功能、部件,支持所有主流计算设备。之后,天元也将在 GitHub、Ihub 逐步开源。

“虽然在国外有两家非常大的深度学习引擎,有很大的体量,但里面依然有一些开放的和技术的难题没有解决。”旷视研究院院长孙剑解释道。

“我们希望开源这个框架,能够将很多年轻人提出的创造性的新解法注入进去,我们也希望,有更多优秀的开发者能够贡献出他们的创造力,把我们的规划打破、打乱。”

雷锋网 雷锋网 雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/eSo6vwD0omFsysQ1.html#comments Thu, 26 Mar 2020 16:23:00 +0800
mathor 大佬聊赛事:处理「微博立场检测」赛事,数据比模型重要 //m.drvow.com/category/aijuejinzhi/StyicAuhv4SNrm2K.html 坐镇大佬:

mathor:武汉某高校软件工程大四学生(数学家是我理想)

AI 研习社 ID:@mathor

(个人主页链接:https://www.yanxishe.com/center/myPage/5148812


「微博立场检测」赛事链接:https://god.yanxishe.com/44 

AI 研习社:简单介绍一下你的个人背景,让我们更了解你呗。

mathor:我现在就读于武汉一所普通高校,大四,今年 6 月份毕业,然后参加了 20 年的研究生入学考试。我的本科是软件工程专业。

AI 研习社:之前参加过类似的比赛吗?

mathor:这已经是我第二次参赛。第一次参赛是在 19 年暑假,那是一场高校大数据挑战赛,赛题是广告点击预测。那一场赛题比较简单,尤其数据字段较少,不需要运用很复杂的特征工程,非常适合当时的我。

AI 研习社:比起其他 NLP 赛事,你认为“微博立场检测”有何不同之处?它是怎么影响你的答题思路的?

mathor:首先,“微博立场检测”赛事的字段较少,意味着我们不需要做复杂的特征工程,对新手较友好。

其次,数据量少,所以只需要普通的 cpu 就能跑。

最后,正因为数据量较少,所以许多大佬惯用的深度学习方法,如 bert、lstm 等,使用后效果可能不是很好。反而是对模型了解较少,但是非常擅长处理数据的同学,会有更好的成绩。

AI 研习社:所以说你在上周五的 PPT 里着重强调了“数据清洗”的作用,这一块方便细谈一下吗?

mathor:这次比赛的数据都是中文的,相比英文而言,中文数据的清洗过程更复杂。

首先你得分词,这里就会面临很多问题,比如不同分词工具的效果不一致,而且不存在分词 100% 正确的工具。

其次,分完词后,你还将面临各种乱七八糟的字符,如网址、验证码、表情和中文标点符号,这些实际上没什么意义,如果可以过滤掉这些,肯定会对结果产生很大的影响。

假设现在有一个非常干净的数据样本,随便带入一个机器学习的模型,得出的结果不一定比非常乱的样本带入深度学习模型的效果差。

AI 研习社:所以你采取了“pkuseg分词+fasttext”的方案。

mathor:采取 fasttext 的原因是它非常简单,随便调一下就能用,这样我可以把更多精力集中在数据处理上。(mathor 大佬参赛baseline:https://god.yanxishe.com/codeplan/detail/72

AI 研习社:你的 PPT 里还提到一点,就是要善用分词工具的语料库,这一块又是基于什么考量呢?

mathor:像我前面说过的,不存在 100% 分词正确的分词工具,所以应该要想尽办法提高分词的准确度。

假设分词不正确,后面的过滤可能就会出现问题——比方说很多同学会过滤掉长度等于 1 的字符,但是如果一开始分词的时候就不准确,结果过滤的时候把一些重要的信息过滤掉了,对结果肯定有影响。

而各种语料库就是为了帮助提升分词的准确性。

AI 研习社:在数据处理这块,你比较推荐哪些学习材料?

mathor:我基本上很少保存资料,都是需要用到的时候才 Google ,查不到了再来问人。

以下这个表情包我个人觉得非常经典(笑)。

WechatIMG66.jpeg

AI 研习社:你的 AI 基础知识也是自学的吧?有没有什么较好的网站或课程推荐?

mathor:龙曲良老师的 pytorch 课程。

AI 研习社:据了解,你还拥有自己的个人博客,可以向我们介绍一下吗?

mathor:我的个人博客网址是 https://wmathor.com/ ,里头主要更新自然语言处理、算法等技术方面的内容,少量写一些个人感悟之类的。

AI 研习社:你觉得写个人博客对你最大的影响是什么?

mathor:学习完了,要是不及时做笔记,最后会忘记的(笑)。

AI 研习社:还有哪些关于“微博立场检测”的关键信息,是我的问题没问出来,你认为有必要跟大家强调的?

mathor:现在比较流行集成模型,有时间的大佬可以尝试建立多个模型,然后做个简单的投票,或者stacking之类的,或许有奇效。毕竟那么多比赛,那么多人都在用。

这是模型方面,数据处理方面我就不多说了,已经快要接触到我的方法的核心了 (笑)。

AI 研习社:最后一个问题,你认为什么是“打比赛的正确姿势”?

mathor:不要随便提交代码,因为每天提交的次数有限;

同时不要过分相信验证集的分数,很可能不准,所以一定要有自己预判分数的方法,什么方法都行;

然后就是,不会的就及时上网查,原理不懂不要紧,最重要的是要能快速使用。


「微博立场检测」赛事链接:https://god.yanxishe.com/44

5e6b49963ccf4.png

雷锋网 雷锋网 雷锋网 

]]>
AI+ //m.drvow.com/category/aijuejinzhi/StyicAuhv4SNrm2K.html#comments Wed, 25 Mar 2020 10:50:00 +0800
春招专场 | 阿里大牛直播第 3 讲:有文娱特色的 CV 算法和应用场景(附内推岗位) //m.drvow.com/category/aijuejinzhi/CC23X0jPbQiGaVr4.html

春招热季,AI研习社联合多家企业推出「工程师成长系列」,阿里文娱高手能人太多,为了让大家更全面、直观地感受下阿里文娱牛人的成长之路,我们推出专场,一共4讲,个个都是求职者关心的:

  • 阿里需要什么样的人?

  • 阿里算法工程师是如何成长的?

  • 阿里大牛解析计算机视觉和搜索推荐技术

  • 还有,阿里内推直梯!


本周二(3月24日)晚上19:00点,「职播间」第27讲邀请到了阿里文娱资深算法专家任海兵来分享,本场主题为「阿里文娱技术解析之计算机视觉」。本次职播是AI研习社与阿里文娱联合推出的系列课程的第三期。

社长小tip:登陆AI研习社网站完善个人资料,可以下载更多嘉宾课件and超级无敌多技术资料哦~


  背景  

受疫情影响,裁员、降薪、延迟返工等「负面新闻」不绝于耳,越来越多的开发者担心自己能否在「金三银四」的招聘旺季里找到合适的工作。

近期,AI 研习社对不少企业做了调研和沟通,发现很多企业对优质人才的需求丝毫没有减弱,甚至迎难而上,高薪聘请合适的人才。

在现在这样特殊的情况下,作为一个专为 AI 开发者和学术青年服务的求知求职社区,AI 研习社结合自身学术和求职资源以及雷锋网的媒体资源,联合阿里文娱推出了系列公开课,帮助更多的开发者们应该做足准备,在春招中取得心仪offer,进入到目标企业。


  分享大纲  

1.阿里文娱视觉方向的特点:文娱与支付宝人脸识别的区别

2.具有文娱特色的计算机视觉算法和应用场景

  • 视频超分和质量增强:老片修复

  • 视频指纹:视频版权追踪

  • 视频检索:场景分类、视频类目、人体动作识别

  • 跨镜头人物检测/跟踪/识别:只看他、视频剪辑

  • 图像和视频人物分割:智能内容生成

  • 3D场景重建:子弹时刻

  • 检测和图像修复:视频去水印


  嘉宾介绍  

阿里文娱资深算法专家任海兵,2003年清华大学计算机系计算机应用专业博士毕业。先在三星中国技术院工作11年,先后担任计算机视觉和医疗图像算法团队负责人。2014年加入英特尔中国研究院,从事机器人视觉感知研究工作。2018年底,任加入阿里文娱摩酷实验室,从事视频理解算法研究。在计算机视觉领域有20多年的研究经验,担任CVPR、ICCV、ECCV等国际顶级学术会议审稿人,发表30余篇论文,拥有30多项专利。


  直播时间  

2020年3月24日(本周二)晚上19点(北京时间)


  参与方式  

1.扫描下方二维码,添加小助手,备注“春招求职”;

2.直播前小助手会集中拉群,发布直播链接,第一时间获得直播动态;

3.解锁阿里最新实用入职干货,系列大牛将在群里最先预告。欢迎求职的小伙伴们奔走相告,我们也将抽送AI研习社周边礼品。

雷锋网雷锋网雷锋网

]]>
AI+ //m.drvow.com/category/aijuejinzhi/CC23X0jPbQiGaVr4.html#comments Tue, 24 Mar 2020 17:11:00 +0800