雷峰网 //m.drvow.com //m.drvow.com/resWeb/images/common/lp_logo.png 雷峰网 //m.drvow.com 2015 m.drvow.com All rights reserved. zh_cn Tue, 04 Feb 2025 09:41:41 +0800 实测豆包1.5后,看到了字节不走捷径的底气 //m.drvow.com/category/ai/xIl8pSi08y9M0D1G.html 2025 年 1 月,豆包大模型 1.5 全面上线火山方舟,其中豆包通用模型 pro 在多个权威测评集综合得分优于GPT4o、Claude 3.5 Sonnet 等业界一流模型,模型效果达到全球领先水平。

通用模型 pro 实现了性能与推理成本极致平衡,采用高效的 MoE 模型结构,性能杠杆提升至 7 倍,更有自研的高性能推理系统,可以达到 10 毫秒级低延迟。并且,豆包大模型 1.5 建了高度自主的数据生产体系,未使用任何其他模型生成的数据。

除此之外,豆包通用模型 pro、豆包·视觉理解模型均有大幅增强,并发布豆包·实时语音模型。但豆包大模型 1.5 全产品,加量不加价,仍继续保持原有模型价格不变。

本文实测了豆包大模型 1.5 产品家族后,看到了字节不走捷径的底气。

一、综合能力优于业界一流模型

Doubao-1.5-pro 模型综合能力显著增强,在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)权威测评基准上获得最佳成绩,综合得分优于GPT-4o、Claude 3.5 Sonnet 等业界一流模型。

话不多说,先通过和其他行业内领先大模型的对比来直观感受一下。针对推理能力,设置一个大约在初级和中级水平的代码问题:问题:使用 Flask 框架创建一个简单的 Web API,包含以下两个端点:

/: 返回一个欢迎消息,例如 {"message": "Welcome to the API!"}。/add: 接受两个整数参数 a 和 b(通过查询参数传递),返回它们的和,例如 {"sum": 5}。

要求:

提供可运行的完整代码。说明如何在本地运行此代码并进行测试。

这一测试题所传达的需求明确清晰且聚焦于核心功能,但并未说明如何处理错误逻辑或参数类型。先来看GPT-4o 将如何应对:

可以看到 GPT-4o 的答案相对中规中矩,并针对问题本身包含的漏洞,给出了一个错误处理示例。再来看看 Doubao-1.5-pro 给出的答案:

显而易见,豆包关于代码问题的输出格式设置,会更贴近原生的编码界面。相较于 GPT-4o ,能够进行必要且详细的代码说明,并且在这一部分对参数类型问题就给出了预设和解答,即如果参数并不有效,状态代码就为400,然后才给出了运行代码并进行测试的方法。总体而言,Doubao-1.5-pro  相较于 GPT-4o 输出的代码会更加精细一点。

针对“知识能力”一项,将 Doubao-1.5-pro 和同为主打中文语境的一个国产模型进行对比,提出的问题是:唐代有哪些古诗中包含“过年”这件事?国内某大模型产品给出的答案是:

给出的答案数量有十个之多,但每个答案的颗粒度不够,仅包括作者和50字左右的大概介绍,于用户而言可能无法对提出的问题有深入的了解。

Doubao-1.5-pro  则相对完美地规避掉了这一问题。先在逻辑上进行了清晰的划分,给出了体现过年氛围与习俗与抒发过年时情感思绪的两个大方向,并且针对所给出的每一个答案的颗粒度也相对细些,包括了原文和解析,内容明显更丰富。

针对复杂问题的推理能力,Doubao-1.5-pro  在现实的中文语境中展现出了明显的优势,所提出的问题是:2025年上半年,我有3万元想进行理财,是选择中国建设银行还是选择中国工商银行?收益各是多少? Gemini  1.5 Flash 给出的回答如下:

也许是由于数据库的问题,Gemini 推理出的结果会相对空泛,并没有给出实质性的建议,也没有给出题目中要求的大致收益。而 Doubao-1.5-pro  的回答则具有针对性,并能够条理清晰、分门别类的给出针对活期类、定期类、特色理财产品的的不同收益,能够满足问题提出者对这一问题的基本需求。

中文能力方面,设置的问题是:请以爱情和轻舟已过万重山为主题,写一首七言律诗。Doubao-1.5-pro 的遣词造句明显优于 GPT-4o 等其他的模型,并能够更进一步给出首联、颔联、颈联、尾联解析。

而 GPT-4o 的中文能力则稍逊一节,回答得相对简单,词藻也较为朴素。

除了 Doubao-1.5-pro  ,本次也发布了更加轻量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具备极致的响应速度,适用于对时延有更高要求的场景,模型配合精调使用可以获得更优质的效果,并且在轻量版语言模型中处于领先水平,在综合(MMLU_pro)、推理(BBH)、数学(MATH)、专业知识(GPQA)权威测评指标持平或超越GPT-4omini,Cluade 3.5 Haiku。先来感受一下极致的推理和响应速度,提问一个中等难度的推理问题:有三个人分别穿着红、蓝、绿三种颜色的衣服,他们分别来自 A、B、C 三个城市。已知:穿红衣服的人不是来自 A 城市;穿蓝衣服的人来自 C 城市;来自 A 城市的人没有穿绿衣服。请问,这三个人分别来自哪个城市,穿着什么颜色的衣服?

在不省略已知条件、推理过程的情况下, Doubao-1.5-lite 输出答案仅用了 1.55 秒,这个推理时间确实极致。再提出一个更复杂的专业问题:请简述股票估值的三种主要方法(市盈率法、现金流折现法、净资产法),并分析在不同市场环境下,哪种方法更适用?

这是一道金融行业的专业知识题目。Doubao-1.5-lite 的回答内容详实,能够 cover 住垂直领域的专业知识,并且在面对庞杂的、体量大的问题时,总输出时长只有 6.77 秒,同样在一个低时延的水平范围内。

值得一提的是,Doubao-1.5-lite 模型效果比肩去年 9 月份发布的主力模型 Doubao-pro-32k-0828,这意味着用户可以用 lite 模型的成本,获得过去 pro 模型的效果。

无论是 Doubao-1.5-pro 还是 Doubao-1.5-lite,都是字节在追求模型性能与推理性能的极致平衡,也是字节一路积累下来的基本功的体现。

从训练和推理效率的角度出发,Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。豆包团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能,等效 7 倍激活参数的Dense模型性能,远超业内 MoE 架构约 3 倍杠杆的常规效率。

基于 MoE 模型,豆包搭建了高性能推理系统,在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中,表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。

更重要的是,在 PostTraining 阶段,豆包团队构建了一套完全自主的数据生产体系,将标注团队与模型 self play 技术相结合,提升数据标注多样性和难度,确保数据来源的独立性和可靠性。在豆包大模型1.5的训练过程中,未使用任何其他模型生成的数据。这意味着,字节在踩踏实大模型训练的基本功、加大基础工程投入、放弃短期获利,这已经区别于世界范围内绝大多数不肯下“笨功夫”的大模型公司。

二、视觉推理、指令遵循达新高

本次发布中,豆包的视觉理解能力令人惊艳,具备市面上绝大多数 To C 的 AI Chatbot 并不具备精准的图像理解、识别、问答能力。Doubao-1.5-vision-pro 在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术升级,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力,也拥有了更细腻的视觉描述能力。Doubao-1.5-vision-pro 的视觉能力在多个权威测评基准上取得了全球领先表现:

基于原生动态分辨率的架构设计,Doubao-1.5-vision-pro 能够支持任意分辨率和极端长宽比图像识别。因此,无论是高清大图还是低分辨率的小图,亦或是极端长宽比例的图像,模型都能实现精准的特征提取和高效的计算性能。先来看一下针对复杂图表的理解能力。给出如下图表,并向 Doubao-1.5-vision-pro 提问:该图表反映了什么内容?

从上述的回答中可以见得, Doubao-1.5-vision-pro 对图表内数据内容的解读是准确无误的,并能针对某些数值给出基本的关于趋势、显著性的结论。

针对低清晰度问题,给出如下一张清晰度低、分辨率低的界面,进而考察模型对其中内容识别和理解的准确程度。

从上述的回答中可知,Doubao-1.5-vision-pro 同样能够准确识别模糊内容,并做出基础的推理判断:用户正在为视频应用创意外观预设并进行色彩调整。再上一个难度,针对字迹潦草的手写图片,Doubao-1.5-vision-pro 能否准确识别?

不得不说,这个图片如果不仔细看的话,人眼都不一定能看清,而豆包则能提取道其中 95% 的关键词和主题,且识别出了部分关键词用蓝色笔标注来突出重点内容,并进一步总结该笔记聚焦于媒体研究领域。除了精准的识别能力,Doubao-1.5-vision-pro 也具备强大的多类型图片内容提取能力。

上传四张同一时期拍摄的照片,模型能在处理多张图片时获取关键要点,并总结出是“新年庆祝”的主题。复杂指令遵循能力也是 Doubao-1.5-vision-pro 的亮点,通过系统性的原子能力拆解和多维度指令的逻辑组合,在后训练阶段引入了多样化的视觉指令数据,从而激发模型的指令遵循能力,从容应对需要遵循更复杂指令的场景。

不仅视觉大模型的能力得到提升,本次豆包大模型1.5家族中还新推出了实时语音模型。该模型提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,不仅拥有高理解力(高智商),还具备语音高表现力与高控制力,以及模型整体在回复内容和语音上的高情绪承接能力。

在语音多模态上,我们提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。

可以说是一个情绪价值价值拉满、表现能力生动,也不怕被打断的豆包了。

三、豆包 1.5 发布后,AI 更普惠

2024 年 5 月,豆包主力模型就将推理输入价格降至“厘时代”,12 月火山引擎又让视觉理解模型价格进入“厘时代”。当下豆包大模型 1.5 继续保持原有模型价格不变,加量不加价,也会给火山引擎进一步做大 B 端市场带来更多可能性。

在这场旷日持久的大模型落地竞赛中,字节给行业留下的印象是“从容”。支撑豆包大模型全产品价格普惠的原因,是推理成本持续优化、毛利率的逐渐增加。据了解,豆包大模型去年大幅降价后,毛利率依然为正。其中,字节跳动最新推出的豆包大模型 1.5,在推理成本优化上取得进一步突破,在火山引擎上售卖 API 的 Doubao-1.5-pro,毛利率仍能达到较为可观的 50%。

不能只看到火山引擎中 API 价格下调的从容,更需要看到的是,豆包大模型团队所打造的综合高效模型架构、高性能推理体系、自建数据标注工程等深厚的技术优势,以及对于大模型这条路不走捷径的长期主义战略。

更高性价比的服务也让火山引擎在商业化落地的过程中跑在前列。2024 年,火山引擎在汽车行业与梅赛德斯-奔驰、广汽集团、领克汽车等多家企业达成合作;在金融行业与招商银行、华泰证券、国信证券等企业进行智能体创新探索;在教育行业和浙江大学、南京大学打造了 AI 教育示范合作案例。

豆包大模型 1.5 的升级和火山引擎在 B 端市场的进一步拓展,二者生生相息、共同推进 AI 惠普。

雷峰网雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/xIl8pSi08y9M0D1G.html#comments Fri, 31 Jan 2025 23:16:00 +0800
硅谷巨头要学会接受:「DeepSeek 现象」只是开始 //m.drvow.com/category/ai/0ORBz8tMOfJeq3lG.html 2025 年的春节无疑已被 DeepSeek 霸屏。

过去三年每年的春节都有一次重磅的 AI 讨论:2023 年是 ChatGPT、2024 年是 Sora,这两股风潮都是由 OpenAI 掀起,而 2025 年则是 DeepSeek 的 V3 与 R1。

除夕当天 1 月 28 日,DeepSeek 更是趁热发布了文生图模型 Janus-Pro,但后者没有 V3 与 R1 吸引的关注大,原因在于其没有像前者一样动摇了过去基座大模型的「奇迹」来源:算力。

DeepSeek V3 的参数规模是 6710 亿,训练成本不到 560 万美元,训练时长在 280 万 GPU 小时。相比之下,GPT-4o 的训练成本约为 1 亿美元,Llama 3 405B 训练时长则为 3080 万 GPU 小时。

Meta 的 Llama 3 是用 16000 张 H00 训练,此前还计划在 2024 年囤卡 60 万张英伟达 GPU 去做模型升级;马斯克创立的 XAI 甚至囤卡 10 万张 H100 建数据中心。

根据媒体报道,DeepSeek V3 与 R1 发布后,Meta 在内的多家硅谷企业受到极大震撼,并开始质疑以往 OpenAI「大力出奇迹」的成功方法论,引起硅谷多家科技巨头的暴跌,比如英伟达一夜之间被干掉 4.3 万亿市值,相当于腾讯与美团两家中国互联网巨头加起来的市值。

对于 DeepSeek 带来的震撼,业界不难联想到「漂亮国将出台一系列制裁政策」等等往日常规反应。

值得注意的是,在 DeepSeek 给硅谷带来地震的不久前,1 月 15 日,美国才刚将中国最早的大模型创业公司「智谱 AI」列入实体清单。AI 1.0 时代,商汤、旷视等企业也被美国列入实体清单。被列入实体清单的一大掣肘就是难以购买海外英伟达生产制造的 GPU,其在短期内仍是基座大模型训练升级的一个重要条件。但 DeepSeek 的崛起证明了:

无论他们采取怎样的「卡脖子」措施,都无法阻止中国 AI 技术的持续创新。

他们将智谱列入实体清单,但没想到 DeepSeek 紧随其后,并且采用了更低的训练成本去做模型更新与开源。同样,哪怕他们再继续将 DeepSeek 列入清单,致力于开源的中国模型厂商还有面壁、智谱、阶跃等等团队不断推陈出新。

另一个值得注意的事实是:OpenAI 在 2024 年 9 月发布推理模型 o1,但 DeepSeek 在不到 4 个月后发布的 R1 就已经能媲美 o1。这意味着,中国在大模型上的 AI 能力已经与美国的时间差距越来越小,从 2023 年到 2024 年底,这个时间差从超过一年缩短为 4 个月。

加上多位 OpenAI 前员工作证 DeepSeek 的 R1 独立发现并实现了 o1 的一些独特思想,也意味着 2025 年中国大模型的创新会更加独立、超前,不再是跟随、而是独创。

AI 的星星之火已经开始燎原,难以再被扑灭。

燎原之势

DeepSeek 在硅谷引起的震荡,验证了海外对中国 AI 技术创新的「始料未及」,同时也验证了中国 AI 创新的可能性与巨大潜力。

此前在多数人包括国人的心中,中国的大模型没有独立创新能力,要跟随海外顶尖团队的步伐。也是因此,DeepSeek 带来的震撼才会如此之大。设想一下,如果是 OpenAI、Anthropic 或谷歌等美国公司发布了相似的成果,2025 年春节还会这么热闹吗?

正是因为竞争来自从前未曾意料到的对手,昔日的巨人才会被打得措手不及。

值得注意的是,在被忽视或吐槽的一年中,2024 年中国的大模型已经跋涉千里,且不像海外,国内多家创业公司的模型像 DeepSeek 一样都是开源的。2023 年被称为「百模大战」,主要集中在单一的文本模态,但 2024 年的模型更新实则更猛:不仅数量更多,模态、尺寸、性能覆盖也更多。

海外团队必须开始正视一个既定事实:昔日他们眼中的技术「矮子」已茁壮成长,并可能成为下一个「巨人」。

笔者粗略统计了一下,除去字节、阿里、百度等大厂,从 2024 年到 2025 年 1 月,单单是大模型创业公司就发布了超 50 个模型数量。

先看第一梯队中两个对标 OpenAI、角逐基座模型的厂商智谱与阶跃:

2024 年,智谱一共发布与升级了超 10 款基座模型,包括文本、图像、语音、视频、代码生成等多个领域,如基座语言大模型 GLM-4 与 GLM-4-Plus,垂类模型 CharacterGLM(6B 开源)、AutoWebGLM,视觉大模型 CogVLM2,文生图模型 CogView-3-Plus、图像/视频理解模型GLM-4V-Plus、视频生成模型 CogVideoX,端到端语音大模型 GLM-4-Voice,CogVideoX系列模型(2B、5B、5B-I2V)等等。

智谱还开源多款模型,包括 GLM-4-9B、CodeGeeX 第四代模型、Video版CogVLM2、CogVideoX-2B与5B、CogAgent-9B、CogVideoX v1.5-5B 与 CogVideo v1.5-5B-I2V 等等超 10 款模型。1 月被列入实体清单后,智谱更发布了端到端模型 GLM-Realtime,同步升级了 GLM-4-Air 和 GLM-4V-Plus 模型。

而阶跃星辰在 2024 年发布了超 8 款模型,包括多模态大模型 Step-1V 与 Step-1.5V、图像生成大模型 Step-1X、视频理解模型 Step-1.5v-turbo、视频生成模型 Step-Video、语音复刻和生成大模型 Step-tts-mini、语音识别大模型 Step-asr 与语音大模型 Step-1o Audio。2025 年 1 月,阶跃又更新发布升级了 6 款模型,包括多模态理解模型 Step-1o vision、语音模型 Steo-1o Audio 升级、视频生成模型 Step-Video 升级至 V2 版,发布了 Step 系列的首款推理模型 Step Reasoner mini,以及小模型 Step R-mini 和 Step-2 文学大师版。

即使是在外界看来专注 C 端产品应用的月之暗面与 MiniMax,也发布了多款产品:

月之暗面发布了 K0-math、Moonshot-v1 系列文本与多模态模型。MiniMax 发布了同是 MoE 架构的千亿参数模型 abab6 与万亿参数模型 abab6.5,2025 年 1 月又发布了基础语言大模型 MiniMax-Text-01、视觉多模态大模型 MiniMax-VL-01、视频模型 S2V-01、语音模型T2A-01,并首度开源。

专注医疗与行业应用的百川智能也发布了超千亿参数模型 Baichuan 3、Baichuan 4 等模型,但没有开源。

除智谱外,另一家一直与 DeepSeek 相提并论的是清华团队面壁智能。此前,面壁小钢炮模型被斯坦福团队抄袭,在圈内引起轰动,其与 DeepSeek 一样押注模型的高效训练,一样开拓了模型架构的稀疏化创新路线,并通过端侧小模型验证了其所提出的「Densing Law」(即模型的能力每 3.3 个月翻一番),2024 年以来发布了 8 款基座模型、多模态模型,陆续把 GPT-4V、GPT-4o 等巨无霸标杆进行极致智能压缩,放到了迷你尺寸的端侧模型上。在芯片禁令下,这两家因高效低成本技术探索,从去年就双双成为外媒重点关注对象。(想进一步了解的读者可以阅读《大模型隐藏玩家上桌:DeepSeek 向左,面壁向右》)

同样,面壁智能的模型也对外开源,与 DeepSeek、通义千问在海外被统称中国大模型的「开源三剑客」。DeepSeek 的崛起被认为不仅是中国大模型与美国大模型的对抗,也是开源模型与闭源模型的对抗——答案显而易见,开源模型更胜一筹。

以 50 款基座模型的更新速度来计算,2024 年中国大模型圈平均每个月发布或升级 4-5 个 AI 模型,其中 1/3 在 GitHub 与 Hugging Face 上开源。综合种种,不难推断,美国想要通过管制人才、芯片等方式来遏制中国 AI 技术发展的时代已经过去。

海外需要接受中国技术创新力量的崛起是既定事实,国人也要对国产创新有更大的信心。

黑马赛出,竞争生变

雷峰网创始人林军在书写中国科技史的过程中,通过观察中国互联网与移动互联网的崛起,总结出一个规律,其认为:每个时代角逐到最后,往往只有四类企业各凭本事胜出,一类是靠资本/资源,一类靠商业模式,一类靠技术/产品的创新,以及永远有一类是所有人都想不到的黑马。

这个规律可以对应 PC 互联网与移动互联网时代的所有终局者,AI 时代也大约不会有太大的变化。大模型的竞争还未尘埃落定,最终赢家还未确定,但 DeepSeek 无疑已经是业内公认的一匹黑马,其 V3 与 R1 带来的影响甚至远超 OpenAI 的 o1。

根据相关消息,DeepSeek 至今仍未计划对外融资,其主要依托幻方与梁文锋个人输血,但对中国其他大模型公司的融资与战略也将带来不小的震撼。据笔者观察,春节期间不仅硅谷动荡,国内其他几家主流的大模型公司也在加班拆解 DeepSeek 的模型秘籍。

DeepSeek 的崛起,肉眼可见将从以下几个角度影响中国大模型的竞争:

首先是技术创新的天花板被拉高。

DeepSeek 不是第一家提出「要在 OpenAI 以外创新」的大模型团队,此前其他国产大模型团队的创始人也提出过相似的观点,但 DeepSeek 是第一家通过发布新技术、身体力行践行了这一观点的团队。

V3 证明了训练千亿基座大模型的成本可以进一步将下降,R1 的独创(如完全用强化学习替代 SFT)证明了 OpenAI 并不是唯一能够提出 AGI 解法的公司。尽管 GPT-5 迟迟未发布、大模型一度被认为已停滞不前,但 DeepSeek 在近两个月的研究突破表明:大模型的潜在技术空间仍然是非常大的。

放弃预训练的团队,或许是资源不足,也或许是技术创新力不够。这也验证了大模型的技术创新在短期内存在高壁垒,应心存敬畏。

其次是「高效训练」的概念将得到重视。

在当前的第一梯队大模型公司中,「高效训练」并不占主流观点。例如,MiniMax 的大模型虽然也是采用 MoE 架构,但在其他高效训练的方法创新上不见明显发力。反而是第二梯队的面壁智能一度通过端侧模型引起业内关注。但在 DeepSeek 受追捧前,即使面壁智能、乃至一切企图颠覆 Transformer 架构的基座模型研究都不受重视。

此前大算力训练是基座模型厂商融资与构建壁垒的竞争砝码,但 DeepSeek V3 的参数规模为 6710 亿、训练成本却不足 560 万美金,过去大算力出奇迹的粗放方式也受到了质疑。接下来,高效模型不仅是 DeepSeek、面壁与通义等开源拥趸的追求,在其他模型团队的优先级上也会更加靠前。

高效训练的目标在于用更小的参数规模、更小的训练成本来实现更高的性能。以面壁小钢炮系列为例:MiniCPM 3.0 只有 4B 参数就能带来超越 GPT-3.5 的性能,量化后的内存仅 2GB;MiniCPM-o 2.6 的参数规模仅 8B 就逼近了 GPT-4o,而且实现了实时流式的全模态看听说,在“真视频”等很多功能上达到了以端胜云的效果。

DeepSeek 有训练条件,此前传出有一万张卡,其做法是先做大再做小,而面壁智能由于融资与算力所限,并没有采取先做大再做小的方法,而是直接做端侧小模型。蒸馏后的小模型更擅长特定任务,在部分任务上的表现或不如通用模型,但在个人移动设备的部署上已绰绰有余。未来或许可以结合定制化芯片开拓出新的市场。

此外,大模型技术与产品创新的分野会更明显。

事实上,在 DeepSeek 火爆之前,大模型的应用与技术竞争就已出现分流;DeepSeek 火爆后,分野会更加明显,且由于 DeepSeek 的模型均是开源,交付模型的商业模式或将产生新的变动。

在 2023 年到 2024 年上半年,由于基座模型的进展较慢,交付基座模型与行业模型的商业模式尚有利润空间。虽然这一模式没有打破 AI 1.0 的范式,但其对创业公司的迅速增收是十分有利的。但随着 Llama 等开源模型的兴起,加上 DeepSeek 的开源,模型中文任务能力的信息差也被打破,模型的商业价格在开源的免费价格前失去优势,商业模式也或不复存在。

如前所述,DeepSeek 的技术创新仍具有高壁垒,而技术的创新根源还是在人才。国内最顶尖的计算机人才在清华,传闻 DeepSeek 的研究团队也主要以清北竞赛人才为主,这意味着能够继续参与基座大模型竞争的团队也将越来越精、同时越来越少。

国内除了 DeepSeek,另外集结了较多清北毕业生的团队只有智谱、面壁、月之暗面与阶跃。这也意味着,2025 年,大模型创业公司的格局或许还会进一步生变。此外,2024 年字节跳动也重金挖了很多牛人,但字节本就财大气粗,不作更多讨论。

除了技术创新,产品想象力将成为 2025 年与之后参与大模型市场的主要条件。除了技术创新,通过拢资源、商业模式与产品创新来取胜,也是更多创业团队的形势所驱。

举例来说,MiniMax 虽然没有在技术上取得头筹、但其仍受到业界追捧的一个重要原因,就是在于产品与商业模式的创新,在 C 端与出海上都领先其他团队。如外媒报道属实,MiniMax 在 2024 年的营收超过 7000 万美金,将是国内营收最高的大模型创业公司。

加上 DeepSeek 强大基座模型的开源,AI 产品的创新动力也会更大。卷不起基座模型的创业团队将更多的精力放在卷产品与应用上,也不失为市场的幸运。

当前业内心照不宣的观点是:靠产品与商业模式取胜的前景远比技术创新取胜更大。

以 AI 1.0 时代的一家独角兽为例,其上市前估值 2000 亿港币、开盘后 800 多亿,最低跌到 200 多亿,如今只有 500 多亿。如果单靠技术创新与传统的商业模式来盈利,多位 VC 认为技术驱动的大模型公司也无法打破上一代独角兽的天花板。雷峰网

对于大模型企业来说,可参考的发展对象是上一代 AI 独角兽。因此,当前哪怕是智谱、阶跃等被视为技术主导的大模型公司在商业模式上也不断求新,并谋求突破 C 端的应用与收入。

最后,是中美 AI 的较量会得到重新思考。

随着 DeepSeek 与面壁等团队在高效训练上的成功实践,被 GPU 卡脖子的危机也将降低,国产模型与应用的更新自主性也会加大。

如前所述,此前国产大模型在训练上受到 GPU 数量与规模的限制,大家在思考破局之路时也是首先从芯片端入手,但无奈国产芯片的进展迟迟无法替代英伟达。但 DeepSeek 的 V3 发布后,大家开始注意到:算法架构的创新同样可以实现大模型训练与部署的成本下降。雷峰网

例如,DeepSeek 的 R1 采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式推理(CoT)、DualPipe 算法等设计,并进行了只采用 RL 而不作 SFT 的训练尝试,但在数学、代码、自然语言推理等任务上性能比肩 OpenAI o1 正式版。

R1 的训练成本暂未披露,但不难推测其远远低于 o1 的训练成本。此前爆料 DeepSeek 的 GPU 卡规模是一万,这个数字比国内的许多大模型公司都多,可跟硅谷的多家巨头比是「小巫见大巫」,但也未见 Meta 等团队率先发布能够媲美 o1 的模型。

同样,先不论 DeepSeek,此前面壁也曾用一个 2.4B 的小模型 MiniCPM 实现了对标 Llama 2 13B 的性能,而前者具体数据的配比、参数配置是用十分之一甚至更小的模型训练、预测出的。这种以小见大的路径证明了:当参数潜力被激发,小模型完全能使用更高效的训练方式实现更好的性能。

届时,无论是 OpenAI、Anthropic 是否坚持闭源,或漂亮国坚持芯片出口的管制,在 DeepSeek、面壁这类团队的研发创新下,用更小的算力成本来独立开拓更强的 AI 模型都不再是天方夜谭,反而潜力与日俱增。

再加上国内 AI 人才培养较之十年前已是另一番模样,且 AI 应用爆发后,擅长推理的国产芯片呼之欲出,国产 AI 的独立创新、快速落地实则早已孕育胎中。身处局中的我们,要学会的第一件事,或许就是:AI 技术的民族自豪感。雷峰网


]]>
人工智能 //m.drvow.com/category/ai/0ORBz8tMOfJeq3lG.html#comments Fri, 31 Jan 2025 20:57:00 +0800
实测丨年底了,我用 AI 做了一份年终总结。 //m.drvow.com/category/ai/RKvyqRskCAAFeKSQ.html 去年11月,自由画布在百度世界大会上首次亮相,各种 AI 新招式也是吊足了人们的胃口。经过了一段时间的等待,我终于拿到了它的内测资格,成为了首批探索者。激动之余,我和自由画布的相关负责人讨教了一下用法,听完之后第一感觉就是:好厉害、好复杂,需要好好摸索研究。

但秉承着“用惯了就好”的心态,我开始了对它的摸索。

经过一段时间的熟悉,我发现它的整体操作流程其实没有听起来那么复杂,但是上手操作了一下,操作流程其实还挺符合实际工作流的,甚至有些细节的点还挺戳人的,尤其是在支持不同格式的输出和输入上。换句话讲,它可以把你工作中一切需要的 PDF、Word、音频、视频等资料,全都无视格式的归纳总结起来,然后一键生成一个自带滑动特效的 PPT。

我们平时创作的时候,经常有很多好的想法,但因为要打开不同的界面、软件,经常被打断,灵感和思路就堵在半路上,但自由画布这种打通感的设计,让人想到哪,写到哪,缺哪补哪,哪里重要划一下,特别适合将碎片化的想法转化为清晰、完整的成果。

而在当下快节奏的工作环境中,我们急需一个能够高效促进思想碰撞、提升工作效率的工具。自由画布的出现,恰如其分地填补了这一空白。在我看来它正是我们真正需要的、能够为创作和工作赋能的 AI 工具,同时也非常符合我对有用、好用 AI 的认知。

光听我这么说,你可能会觉得不切实际。

但看完下面的实测内容后,你可能会打开自由画布的官网默默地点一下“申请内测”。

一键整合素材,无视文件格式

打开自由画布,一块没有任何预设功能的“电子白布”,你可以根据自己的工作需求上传需要的材料,它支持上传市面上常见的几十种文件格式,主打一个“自由”。既然它对文件格式没什么要求,我就放心的把需要用到的所有文件都找了出来。整理完后才发现,这貌似是个大工程。按照对以往 AI 产品的认知,这么多文件光是让 AI 阅读完都得有一会,更别说跨格式提炼内容要点了。但来都来了,秉承着“开盲盒”的心态,我把这些文件一股脑的都扔给了自由画布。文件传上去之后,我先是选中了几个文档进行智能分析,不到 10 秒钟的时间,它就自动提取了每篇文档的核心要点,生成了一份清晰可用的内容摘要。不得不说这真的是一个让打工人狂喜的功能,节省了整理资料的时间,还免去了手动筛选的麻烦,完美解决了资料整理的痛点。让我梦回第一次用智能手机时的惊奇和震撼。怕它总结的不够全面,我还二次检查确认了一遍,虽然核心内容确实都总结到位了,但我依旧发现了一些小 Bug ,正当我还沉浸在“人类战胜了 AI ”的喜悦中时,我猛然发现这些 Bug 貌似其实在我上传的那些基础文件就已经存在,摘要的内容只不过是继承了原文档中的内容。但好在系统支持在线编辑,我可以任意修改和调整生成自由画布生成的摘要内容。十分钟不到,我就整理好了年终总结 PPT 需要的所有内容,本以为自由画布只能帮我做到这一步‍,但当我发现它还能生成 PPT 大纲的时候,我就知道我对它的探索还远远不够。

一键导入素材,自动契合模板

资料整理好,就可以开始制作 PPT 了。框选整理归纳好的资料,输入“生成 PPT”的指令,右侧马上就弹出了 PPT 大纲的内容,大致看了一下,生成的效果还不错,信息点的分级也处理的很好。当然你可以自行判断大纲内容的可行性,如果感觉效果不佳的话还可以选择再生成一个,一直换到你满意为止。这一步让人有了点“甲方感”。值得一提的是,在生成的整个过程中,你可以随时继续框选并添加新的素材,无需中断当前的操作。整个交互过程可以说是非常流畅自然,几乎感觉不到什么延迟。PPT 模板的选择也突出一个“自由”,从系统预设的各式模板,到支持自定义设计的模板,再到可以上传本地模板的选项,几乎涵盖了所有可能的需求。其实之前我有试着用过其他的一些用AI 来生成 PPT 的工具,每次都被它们所谓“解放生产力”的噱头所吸引,但试用下来就发现它们更多的是“货不对板”,除了生成的图片极为不匹配外,文字部分也被横竖不一的随便安在了页面上,整体就是突出一个“乱”字,紧接着就是长时间的手动修改和调整。

或许是之前被“骗”过太多次,我已经对于让 AI 帮我做 PPT 这件事丧失了信心,以至于在体验过自由画布让人眼前一亮的资料整合能力后,我还是对它生成 PPT 的能力持质疑态度。

它真的能行吗?

半信半疑的导入了本地模板,大概过了 30 秒的时间,一篇生成好的 PPT 从屏幕右侧弹了出来,简单浏览了一下,配图还挺契合内容主题的,整体排版上也没有文字横七竖八的问题,字号格式更是自动把各级标题和内容划分得十分清楚。

外观是没问题了,那内容产出上会不会漏掉关键点?

经过仔细检查,我发现所有的关键点还真都被它清晰的罗列出来了,竟然挑不出来一点毛病。或许,在做 PPT 这方面,自由画布真的能行。但这远不是它的极限。除了可以在线生成 PPT ,自由画布还支持在线编辑 PPT。在编辑页面,你可以一键续写、一键 AI 换插图,一键一键总结文本大意,甚至是一键修改全部的模板样式。除此之外,我还用到了一个非常实用的功能 —— PPT 生成演讲稿。这个功能对于打工人来说真的十分友好,尤其是对于一些需要拿着年度总结 PPT 进行汇报的人,自由画布的这个 AI 功能直接省去了他们把零散关键信息再整理拼接重新梳理的时间。总的来说,用自由画布做年度总结 PPT 的整个流程给我最直观的感觉就是:多、快、好、省。即模板多,生成快,适配好,时间省。制作 PPT 的过程也不再是“填鸭式”的机械操作,反而变成了充满创意和流畅感的新奇体验。而与其他市面上一句话生成 PPT 的产品相比,自由画布又因其对所输入素材的超强理解力和融合力,使它所生成的内容更加满足人们的真实场景,是不可多得的符合人们真实需求的 AI 工具。所以看完实测的全过程后,你还会觉得用自由画布生成一份年终总结 PPT 是一件不切实际的事情吗?

AI 新解法,释放生产力

由百度文库和百度网盘联合推出的自由画布,将公域素材和经用户授权的网盘私域资料相互融合、打通,在实际使用中体现出的诸多精妙的能力。

其中,我看到了这个产品让人眼前一亮的地方:具有前瞻性的产品设计能力。它抓住了人们在融合创造多媒体内容素材时的痛点,其实这种能力在很多时候我们都能用到,比如学生群体在完成作业任务时需要理解不同格式的资料,上班群体日常整理总结繁多复杂的文件内容。

如果你说这两种能力都与你的工作不挂钩,那年底帮你做 PPT 的能力还是很有必要的吧。换句话说,自由画布的某项能力总能对应上你的某个需求。而随着AI产品的不断迭代更新,现在大家比拼的更多是谁能找到用户的痛点以及谁能在最有需要的场景中真正去帮人们提升生产力,真正做到从“创作工具”变为“生产力工具”。

毋庸置疑,自由画布确实是一个能帮助人们提高生产力的工具,而百度文库这波释放生产力的 AI 新解法,也为内容创作领域带来了全新的变革,让百度文库在一众办公工具中成为了走在思想碰撞与灵感激发最前端的 AI 产品。

雷峰网大胆展望一下,在未来,百度文库或许会给人带来更的惊喜。它不再只是一个简单的办公工具,而是一个充满活力的创意空间,能激发灵感、碰撞思想。

它也不会再局限于传统的办公场景,而是延伸到更多创意领域。无论是学生、职场人士,还是创作者,都能在这里找到属于自己的价值。同时它也会更加懂你,会用AI的力量帮你找到那些隐藏在海量信息中的闪光点,让每一次创作都充满可能,让每一个想法都能被点亮。

]]>
人工智能 //m.drvow.com/category/ai/RKvyqRskCAAFeKSQ.html#comments Thu, 23 Jan 2025 18:00:00 +0800
“自由画布”开启公测!百度文库AI功能MAU超9000万 //m.drvow.com/category/ai/XpUkIE5ZnjdzrlL5.html 1月21日,在百度AI DAY活动上,百度副总裁,文库事业部、网盘事业部负责人王颖透露,百度文库AI功能MAU已突破9000万,同时,由百度文库和百度网盘联合打造的AI创作新物种“自由画布”开启公测。

 

过去一年,百度文库用户数据呈高速增长,其AI功能MAU已突破9000万,AI DAU年同比增长230%;付费用户超4000万,位居全球第二、中国第一。自依托文心大模型进行全面AI重构以来,百度文库推出智能PPT、智能写作、AI全网搜、智能有声画本、智能漫画等上百项AI能力,覆盖学习办公、家庭教育、兼职赚钱场景。

 

作为行业首创的内容操作系统,“自由画布”已开启公测,用户在百度文库官网即可预约体验。自由画布打通百度网盘、本地存储及公域素材,可兼容文档、PPT、PDF、图片、音视频、URL链接等多种格式,通过“一拖一圈”的极简操作,实现对多格式、全模态文件的混合理解、生成与创作。

AI Day现场,百度网盘介绍了“简单扫描”和“简单听记”两款简单系列产品。简单扫描支持纸质文件的拍照扫描电子化,还推出了“画作扫描”功能,只需上传随手画作或线稿就可生成独特的涂鸦画作;简单听记可对会议、访谈、录音等音频进行逐字稿转写与AI纪要。

王颖向雷峰网介绍,AI重构后的百度文库和百度网盘,能让AI和用户共同创作、用AI辅助用户进行全模态的消费,成为内容生产的起点和内容消费的终点。

]]>
人工智能 //m.drvow.com/category/ai/XpUkIE5ZnjdzrlL5.html#comments Thu, 23 Jan 2025 17:52:00 +0800
阶跃星辰再拿多模态榜首,全方位升级发布六款模型 //m.drvow.com/category/ai/qK43IEMdAs5Casxh.html 作者|朱可轩

编辑|陈彩娴

春节将近,各家厂商似乎都在争取休假前的最后一博,此时步入 2025 年也才半月有余,大模型玩家们已然卷上了新高度。

先是 OpenAI 打响了开年第一“枪”,ChatGPT 上线了新功能“Tasks”,主打提升了任务执行能力,之后国内一众厂商也先后发布了自家成果——

月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview;MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01;生数科技上新了视频大模型 Vidu 2.0;

接着,智谱 AI 推出了端到端多模态大模型 GLM-Realtime;面壁智能带来了端侧多模态模型 MiniCPM-o 2.6;DeepSeek 开源了 DeepSeek-R1 推理模型......

刚开年,模型更新便多到让人眼花缭乱,当中也不难发现,多模态、推理和端侧依旧是今年各家寻求突破的重点方向。

不得不提的是,在这一各厂商密集上新的“黄金节点”,AI 科技评论关注到,阶跃星辰一周内竟一口气批量更新了 6 款模型,全方位涵盖语言、语音、推理、图片理解、视频生成等多类别。

阶跃的更新速度在国内大模型厂商中可以说是非常少见,自 1 月 16 日开始,撇开周末双休,阶跃这波几乎一天一更,主打保质超量完成任务。

最为值得一提的是,多模态领域其实一直都是阶跃的舒适区,其去年就已经发布了 8 款相关模型,且在多个业内权威榜单中拿下国内第一。

在此次模型上新中,阶跃也继续带来了多模态基座模型的新成果——多模态 Step-1o 系列推出多模态理解模型 Step-1o vision、语音模型 Steo-1o Audio 升级,视频生成模型 Step-Video 升级至 V2 版。

值得关注的是,阶跃在多模态推理也已开始崭露头角,其正式发布了Step 系列的首款推理模型 Step Reasoner mini (简称“Step R-mini”),同时,正在推进视觉推理模型的研发,尝试将推理能力融入更多交互形态的大模型中。

除多模态外,阶跃的语言模型能力也不可小觑,文字创作一直是阶跃旗下模型的一大优势所在,此次阶跃也同期发布了小模型 Step R-mini 和 Step-2 文学大师版,继续强化 Step-2 模型的创作能力。

2025 年的模型之战已然打响,而阶跃在开年便已火力全开,在多模态方面更是呈现出“卷王”之姿,迅速与其他厂商拉开了差距。


多模态「卷」王之王

多模态是阶跃一直以来在持续发力的重点方向,也是阶跃的优势所在,去年成立以来,阶跃便已在多模态领域推出了 8 款大模型:

包括 Step-1V、Step-1.5V 两款多模态大模型;Step-1X 图像生成大模型;Step-1.5v-turbo 视频理解模型和 Step-Video 视频生成模型;三款语音大模型——Step-tts-mini 语音复刻和生成大模型、Step-asr 语音识别大模型和 Step-1o Audio 语音大模型。

近日,阶跃更新了多模态 Step-1o 系列成果,值得一提的是,Step-1o 也在国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中拿下了第一:

说回新成果,首先,阶跃在 Step-1o Audio 的基础上带来了升级,这款国内首个千亿参数端到端语音大模型距离首发刚过去一个多月,阶跃便又迅速迭代了新版本,较之上一版实现了更低延迟,声音也更为自然。

在通话过程中,Step-1o Audio 升级版不仅能感知理解情绪,还能结合语境,深度理解情感需求,提供最佳回应:

在向其吐槽生活中琐碎的事情如“开了一天车感觉很累”,她能在夸奖我们“真能干”的同时给出诸如“喝口水、吃点东西补充能量”的建议,再如围绕“最近接单很多,感觉腰很酸痛”这一问题,她也能一边感叹生意红火,一边建议我们要注意身体,记得去医院看看,人情味满满。

此外,升级版也已支持多语种和多方言的对话,并能在中英交流中达到“同传”。

不止是语音,视觉方向也一并实现了焕新升级。

阶跃同期推出了 Step-1o Vision 多模态模型,作为 Step-1o 的视觉版本,与 Step-1V 和 Step-1.5V 两款更早版本的视觉理解模型相比,实现了模型架构升级,并在在视觉识别、感知、指令跟随、推理等任务上实现大幅提升,拥有了更强的视觉性能。

此前,在 LMSYS Org 发布的大模型竞技场 Chatbot Arena 榜单中,Step-1V 便已位列视觉领域国内大模型第一,总分同 Gemini-1.5-Flash-8B-Exp-0827 持平。

这次升级版的 Step-1o Vision 又一战成名,刚刚发布便在 1 月 20 日 LMSYS Org 最新榜单中,拿下了国内视觉领域大模型第一,超过所有国内大模型厂商,保持住了在多模态领域的领先地位。

LMSYS Org 网址:https://lmarena.ai/

据阶跃官方介绍,Step-1o Vision 能够更准确地识别图像内容,不管是复杂场景还是相似图片都能轻松识别,甚至能精确识别图中的多种语言。

此外,Step-1o Vision 不仅能看懂图片,还能根据图片内容进行推理、辅助答题、激发灵感:

同 Step-1.5v 相比,Step-1o Vision 所关注到的细节也更多:

图源阶跃星辰

值得一提的是,在推理模型的研发上,阶跃也正在融入其所擅长的多模态,多模态推理在此次上新中崭露头角,其重磅推出了 Step 系列首款推理模型 Step R-mini,这同时也意味着阶跃成为目前基座模型最全的公司之一。

根据阶跃方面数据显示,Step R-mini 不仅在 AIME 和 Math 等数学基准测试上,成绩超过了 o1-preview,比肩 OpenAI o1-mini,在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。

从具体效果上来看,Step R-mini 既擅长主动进行规划、尝试和反思,又能通过慢思考和反复验证的逻辑机制提供准确可靠的回复。

同时,其最鲜明的亮点在于,已经通过大规模强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”,既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。

在实际应用中,只会做数理题的模型其实是很难实现推广落地的,而只有做到“文理双修”,模型才能在具备较强推理逻辑能力和数理能力的同时,拥有更通用任务的解决能力,如此进一步提升可用性。

语言推理模型外,阶跃也在推进视觉推理模型的研发。

其试图将推理能力融入更多交互形态的大模型中,针对复杂视觉场景下的 Reasoning 问题,引入慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。据 AI 科技评论了解,这一模型的正式版本将在今年上线。

除了前所述三款模型,阶跃此番针对 Step-Video 视频生成模型也进行了升级,推出 Step-Video V2 版本。

Step-Video 是阶跃在去年 11 月上新的模型,此次发布的V2版本在复杂运动、美感、简单文字生成、中英双语输入和镜头语言方面具备更强的生成能力。

AI 科技评论也对此进行了一波实测——

我们发现,在输入“小男孩变身毒液”后,Step-Video V2 能自动一键润色出细节更丰富的内容,并补充暗色调、模糊背景等环境描写,自然将这部分融入视频场景中:

同时,对于镜头语言也进行了增添,自动帮我们决定了以“特写镜头”展现,有效提升了视频的叙事能力。此外,画面中的小男孩形象逼真,一整套变身过程也非常流畅、自然。

此外,Step-Video V2 也支持中英双语输入,在进行复杂运动展现这方面也能轻松驾驭。

值得一提的是,生成内容的美感也是阶跃一直在聚焦突破的方向,这一点从其前面推出的 Step-2 文学大师版也同样能窥见,而 AI 生成视频的美学素养也是很多现有模型还无法兼具的,对此,我们也在跃问视频中进行测试:

以中华传统文化的展现为例,我们向跃问输入了“身着传统服饰、打着伞的女子”“灯笼背景”的提示词,其能自动润色出“穿着一袭红色的旗袍,上面绣着精致的花纹,手持一把纸伞,伞面是白色的,上面绘有水墨画,与她的服饰相得益彰。”这些带有中国风特色元素的内容。

所生成的视频整个画面色彩很协调,当中融入了中国红作为主色调,背景的灯笼也并非死板的单一色彩,并能隐约看到布景中的水墨画,此外,对于提示词中提到的“带有精致花纹的红旗袍”“印有水墨画的伞”这些细节也能够覆盖还原到。(前述完整测试视频见:https://mp.weixin.qq.com/s/UWHM38XoXM13IK-Sf9wY6A)


「文学素养」领先行业

多模态模型俨然成为阶跃的拿手好戏,但其自研的语言模型实力也同样不容忽视。

去年 3 月,成立之初的阶跃发布万亿参数语言大模型 Step-2 一鸣惊人。而 Step-2 作为国内首个由创业公司发布的万亿参数大模型,直观体现了 Scaling Law 定律的红利。

在阶跃看来,对于语言模型而言,Scaling Law 是重中之重,而模型容量、训练数据量是模型语言、文字功底的基石,模型小、预训练数据量小无法实现智能涌现,亦无法把握文字。

Step-2 也曾多次在 LiveBench 等国际权威榜单上位列国产大模型第一。

去年11月,在 LiveBench 的多项测评标准中,Step-2 在 IF Average(指令跟随)的表现上以 86.57 的分数排在第一,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

这一指标主要衡量模型对语言生成细节的控制力,而这点在文字创作上的表现尤为显著。在生成高质量、有创意的文字内容的同时,Step-2 模型是能够根据用户的指令对文本进行精确调整和优化的。

此次,在 Step-2 的基础上,阶跃又带来了性价比和商用性更高的 Step-2mini 语言模型和精于创作的 Step-2 文学大师版。

据阶跃官方介绍,和万亿参数大模型 Step-2 相比较,Step-2mini 以 3% 左右的参数量保有了其 80% 以上的模型性能。

同时,Step-2mini 还拥有更快的生成速度和极高的性价比——在输入4000tokens的情况下,Step-2mini 的平均首字时延仅 0.17 秒,输入 1 元/百万 token;输出 2 元/百万 token。

从底层技术上来看,Step-2mini 采用了阶跃和清华团队在《Multi-matrix Factorization Attention》中提出,其自主研发的新型注意力机制架构——MFA(Multi-matrixFactorizationAttention,多矩阵分解注意力)及其变体 MFA-Key-Reuse。

论文链接:https://arxiv.org/abs/2412.19255

此前在 LLM 推理阶段,传统注意力机制存在着 KV 缓存随着批处理大小和序列长度线性增长的情况,这不仅使得内存占用大,推理效率也并不高,常用的 MHA(Multi-HeadAttention,多头注意力)也一直在尝试解决这一问题,但其存在性能和资源消耗间的平衡难题。

MFA 则针对前述问题给出了解法,相比于 MHA 架构,MFA 节省了近 94% 的 KV 缓存开销,拥有更快的推理速度,并大幅降低了推理成本。换言之,MFA 在不增加额外工程复杂度的前提下,解决了大语言模型高效推理的显存瓶颈问题。

Step-2 文学大师版则是阶跃专为创作场景研发的语言模型,沿袭了 Step-2 广袤的知识储备以及对文字强大的细节把控能力,同时也有着更为强大的内容创作能力。

此前,用大模型辅助创作的内容就经常会被吐槽一眼 AI,创作出来的内容往往缺乏锐度和新意,没有真情实感和对社会事件的描绘与思考,这本质上是模型过度对齐社会共识所致。

而好的内容创作模型则是需要充分理解用户创作需求的,逻辑严密、语言凝练、言之有物、节奏紧凑,并且拥有深刻思想和和独特风格,才是这类模型要达成的目标,Step-2 文学大师版的测试结果恰恰印证了这点:

例如,让跃问以明朝为背景创作第一人称悬疑小说,并融入《明书·太祖载记》的内容,带有天灾、地裂、克苏鲁等元素。其所创作出的内容确实有模有样,所有关键词无一遗漏,甚至对于天灾、地裂的描述衔接也十分流畅,在克苏鲁这一怪物形象的塑造上也很生动。科幻小说其也同样不在话下:


基模领域「六边形战士」

现如今,随着基座大模型玩家洗牌,竞争已进入更加白热化的下半场,一边是对 AGI 理想的坚持,一边是面对现实的妥协,部分厂商仍在摸索基座大模型的未来,另外一部分则在技术和产品间反复横跳,亦或是直接改变了方向。

阶跃则一直属于前者,从基座模型来看,阶跃其实也是国内为数不多已形成从理解到生成、从文本、多模态到推理全系列模型矩阵,并坚持预训练,继续冲击 AGI 的大模型创业公司之一。

自成立初起,阶跃便一直坚持认为——多模理解和生成的统一是通往 AGI 的必经之路,而模型的演化必然会经历单模->多模->世界模型三个阶段。

其技术发展也是沿着“单模态—多模态—多模理解和生成的统一—世界模型—AGI(通用人工智能)”这条路径一步步走来的。

当前,阶跃的多模态应用已经愈发广泛,并被业内多数开发者所认可,持续领跑行业:

例如,网红 AI 应用胃之书的开发者赵纯想就曾表示,通过 AB 测试发现,阶跃星辰的模型付费率最高,而 AI 心理疗愈应用林间疗愈室 CEO 李神龙也在接入阶跃的多模态理解大模型后,实现了用户付费率的提升。

而从整体上来看,无论是去年一月一更的 11 款基座大模型,还是今年一开年便加大攻势推出的 6 款模型,在如此厚积薄发下,阶跃的技术发展无疑已驶入快车道,而其低调务实的做派下也尽显追逐 AGI 的野心。

如今的阶跃星辰,无疑已经成为了基座模型领域的“六边形战士”。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/qK43IEMdAs5Casxh.html#comments Wed, 22 Jan 2025 17:02:00 +0800
几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的 //m.drvow.com/category/ai/rhOFNkMtBADgpcD6.html

试想一个场景,职场中接到一个香港客户的单子,但是在交付的过程中耽搁了时间,现在要进行线上沟通解释,那么你面对的情况大致是这样的:

如果不对这段音频进行标注,可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。但其实,这是由 AI 完成的配音,背后所使用的工具是海螺语音。

今年 1 月,继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后,再次推出了升级的语音大模型 T2A-01 系列,搭载于海螺 AI 之上,开辟海螺语音板块。相较于旧版本, T2A-01 系列语音模型能够提供更快、更稳的语音生成能力,不仅具有音质稳定清晰、韵律自然、情绪精准表达、高准确度等特点,还能支持包括中文、粤语、英语在内的 17 种语言及上百种预置音色可选。

从以上的音频中可以听出,海螺语音能够准确理解并无缝处理不同的语种,并饱含语气、以接近人声的自然度讲出来,这就是目前海螺语音无需抽卡就可以达到的稳定水平。接下来,我们通过海螺语音和其他语音生成产品的对比来来感受一下,无需抽卡即可以达到高水平的稳定输出是什么样的概念。

测试问题为一个终极难度的绕口令“施氏食狮史”,主要考验的是语音大模型在面对大量同声词时的处理能力。(原文:石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。)

先来听由 ChatTTS 生成的内容:整个过程中字与字的区别并不大,产生很强的粘连感,听起来像石狮石狮石狮石狮......可以说听不出来在读什么。

再来听 ElevenLabs:可能是模型幻觉的原因, ElevenLabs 在读的时候很喜欢“呱呱叫”,就算去调整语速也不会好转。但相较于ChatTTS,已经有一个明显的质量上的提升,字与字之间能够区分开,并且语音中有语调和情绪在。

再来听 MiniMax 的海螺语音输出的内容:首先,整段声音听起来偏向自然,没有像 ChatTTS 一样从头到尾一个音,也没有ElevenLabs 表现出的“呱”的声音的明显瑕疵。虽然并不是完美无瑕,部分词语上也有断句的问题,但在 80% 的短句中已经有显著惊艳的表现,对音调、分词错落、节奏和断句能听出表意,这反映的是语音模型背后的理解能力。在一众生产力工具向的 AI ChatBot 中,海螺 AI 是唯一一个能提供独立的语音模型板块给用户、让用户自定义生成音频的产品。


一、能与 ElevenLabs 掰手腕的多语言合成能力


国内无论是大厂还是创业公司,在语音模型能力上都会对标 ElevenLabs。ElevenLabs 凭借其高质量语音合成、多语种能力、个性化语音生成和强大的API支持,成为了当前语音合成领域的领先产品之一。在 T2A-01 模型的能力支持下,海螺 AI 所生成的语音在相似度、错误率和听感评测上均领先于同类产品,能与 ElevenLabs 掰手腕。MiniMax 团队采用和 Seed-TTS 论文相同的评测集和评测工具来计算海螺语音的字错率和相似度。结果显示,海螺语音在中文的字错率和相似度最好,英文的字错率、相似度和真实录音「Human」接近。

根据用户真实场景,MiniMax 建立了多语种评测集,并对17个语种进行客观评测。其中,每种语言选取2-10个音色,生成50条以上音频进行评估。结果显示,海螺语音相似度整体占优,综合能力媲美 ElevenLabs。在中文、粤语、英语、日语、韩语和阿拉伯语等多个语种上,海螺语音的相似度、正确率方面大幅领先。

那么 T2A-01 的多语种能力究竟如何?先来让它用嚣张小姐的语气,带着开心的情绪,以正常速度,用九种语言说出杨幂的经典广告语:你没事吧?(1、中文:你没事儿吧 2、英语:Are you okay? 3、日语:大丈夫ですか?(Daijōbu desu ka?)4、法语:Ça va? 5、德语:Geht es dir gut? 6、西班牙语:¿Estás bien? 7、俄语:Ты в порядке?(Ty v poriadke?)8、韩语:괜찮아요?(Gwaenchanayo?)9、意大利语:Stai bene?)

你还真别说,第一声出来的时候还真有点像杨幂的声音。之后的小语种发音清晰,也能从语流语调间感受到开心的情绪。再来看这个视频,其中的配音语言采用德语,在音色调节效果中选择了空旷回声音效,出来的效果完全没有 AI 味儿,仿佛女政客在国会现场的慷慨陈词。


二、精准情绪+音色控制的王炸组合

于机器而言,准确地进行情绪表达一直是难点所在。语音模型情感表达的训练依赖于大量标注数据,但这些数据往往存在偏差,某些情感可能被过度强调,而另一些则被忽视,导致模型在处理这些情感时不够准确。于 TTS 行业而言,即使模型能够理解情感,生成的情感表达也可能显得生硬或不自然,模型可能难以在语音中保持情感的一致性,或者无法模拟真实人类情感的细微变化。

为了让声音更加鲜活,情绪表达更加精准,MiniMax 对长达超千万小时的高质量音频数据进行加工、训练,最终实现高音质、情感丰富的声音效果。先来通过朗读古诗简单感受下,所选取内容为:“惟觉时之枕席,失向来之烟霞。世间行乐亦如此,古来万事东流水。”由于粤语接近古汉语的方言,所以用粤语念诗会更贴近古人念诗时的表现,对情感的考验也相较于白话文稍上了一个高度,因此输入的 prompt 为:“惟覺時之枕席,失向來之煙霞。世間行樂亦如此,古來萬事東流水。”

市面上的大部分语音模型可以对这一题稳定输出,但MiniMax不止于此。最新发布的海螺语音具备情感理解能力,能够智能地识别并重现语音中细微的情感差别,用户既可以让系统自动检测情绪,也可以明确指定情绪,从而生成能够精准捕捉人类深层情感的语音输出。在指定情绪中,除了中性外,有开心、难过、生气、害怕、厌恶、惊讶效果可选,自然而逼真。雷峰网雷峰网雷峰网

日常的对话表达,或商业化场景中,情绪往往是多变且富有层次的,这个是过去的语音大模型较难攻克的痛点。但海螺语音实现了这一突破,可以分段控制不同的情绪。例如,同样是表达老人害怕的情绪,想进一步从声音中感受到从害怕到难过再到开心的完整情绪变化,海螺AI给出了如下的答案:

从妇人发现怪老头冲自己喊叫时的紧张、惊慌、害怕,到发现是自己年轻时的堂哥走散落魄至此,此时声音变低落展现难过,再到重逢时的开心有明显的音调上扬,海螺 AI 对输入的文字有精准理解,对输出的声音也可以做到层次分明,精细地控制。除了情绪的精准控制外,海螺语音的另一个明显优势时预置不同语种共计300+音色供用户选择,用户可按语言、口音、性别和年龄分类筛选。音色多变,不羁、诙谐、慈祥等风格丰富多样,有声书、ASMR耳语、新闻播报等场景均可适用。

在平台给定的音色基础上,用户也可以根据偏好对低沉/明亮、力量感/柔和、磁性/清脆等细节进行自定义,同时也可以增加类似于空旷回声、礼堂广播、电话失真等场景感。

选择“花甲”奶奶这一音色,也可以通过调试台对语速、声调、音量进行调节。

将花甲奶奶的声音设置为语速和声调降低,情绪输出为害怕,就能获得讲恐怖故事很有氛围感的说书声音。

在87版《红楼梦》中,林黛玉的角色被成功塑造,这一文学佳作在香港也曾拍过多版。如果在香港引进87版的黛玉,“花谢花飞花满天,红消香断有谁怜”该如何用粤语配音呢?一起来感受一下:该片段中的配音由海螺语音完成,可以切实感受到,海螺语音在情绪和音色控制方面的实力所在,如果将两者进行结合,可以说,几乎能随心所欲地生成想要的语音效果,满足更多为影视作品引进和配音的潜在需求。


三、面向AGI,坚定多模态

在 AI 公司的多模态模型能力开发顺序上,音频似乎很难排在文字、图片、视频能力之前,给行业造成一种“音频模型相对滞后”印象。但实际上,语音大模型的开发难度和技术门槛都非常高,数据的稀缺性是制约模型能力的关键难点,从海量数据中剥离出语音到对多语言、多口音、多情绪的语音进行标注,都需要高昂的成本。因此在多模态公司的布局中,对其开发往往需要在具备一定的技术积累和资源支持后才逐步推进。

近半年的时间以来,国内多家大厂发布了语音模型。去年7月,阿里开源了一个语音大模型项目 FunAudioLLM,包含了 SenseVoice(语音识别) 和 CosyVoice(语音生成)两个模型;今年1月,字节跳动上线了实时语音大模型,并将基于此模型全量上线豆包。App 实时语音通话功能。半年之内,诸多大厂的跟进和成绩意味着语音大模型的发展潜力不小。

而在 AI 创业公司中,鲜少有哪家语音能力突出, MiniMax 是一个,甚至其对语音大模型的开发投入时间早于大厂。2023年11月,MiniMax 就发布了初代语音大模型 abab-speech系列,支持多角色音频生成、文本角色分类等功能。发布至今,MiniMax语音模型已经服务阅文起点有声书、高途教育等近万家企业用户与个人开发者。

2024年10月,MiniMax Realtime API 亮相 RTE 2024实时互联网大会,系国内首个Realtime API。2025开年,MiniMax保持高昂的状态。在此次发布语音模型之前,就已经接连发布了视频模型S2V-01,并在Github开源了新一代MiniMax-01模型,与DeepSeek共同对传统Transformer架构与高训练成本发起挑战。MiniMax创始人透露,“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进AI Agent时代的到来。开源了一方面可以逼着我们提高算法创新效率,另一方面也能打造全球技术品牌。”

从文本、视频,到语音能力的全面更新,只能说,MiniMax和海螺 AI 是会给人带来惊喜的——这也是对多模态模型的长期投入和持续发力的结果。MiniMax 的主心骨一直都是面向 AGI 投入,而多模态能力就是现阶段最明晰的路径。



]]>
人工智能 //m.drvow.com/category/ai/rhOFNkMtBADgpcD6.html#comments Wed, 22 Jan 2025 14:07:00 +0800
DeepSeek-R1 最新发布,剑指 OpenAI o1 //m.drvow.com/category/ai/hTgQEjBoyoRs4cgR.html 昨日 1 月20 号,DeepSeek 团队推出了全新开源模型 DeepSeek-R1,一夜之间模型就在 Github 上收获了 4k+star,引爆大模型领域。

而这次的 R1 模型一出,不仅反驳了之前蒸馏 OpenAI o1 的说法,官方更是直接下场表示:“我们可以和开源版的 o1 打成平手”。

值得一提的是, R1 突破了以往的模型训练形式,完全没有使用任何 SFT 数据,仅通过纯粹的 RL 来训练模型,这一点说明 R1 已经学会了自己思考问题——这实则更符合人类的思维规则。

更有网友称其为“开源的 LLM 界 AlphaGo”。

OpenAI,你的“强”来了

叫板 o1,Deepseek 的自信并不是空穴来风。

先是在在后训练阶段凭借凭借有限的数据直接在模型推理能力方面把 o1 甩了几条街。

并且在数学、代码、自然语言推理上更是和 o1 正式版不相上下,在多个基准测试中展现了卓越的性能。

例如 DeepSeek - R1 在 AIME 2024 数学竞赛中,取得了79.8%的成绩,略高于 OpenAI 的 o1-1217。在 MATH-500 测试中,DeepSeek-R1 更是达到了 97.3% 的高分,与 OpenAI-o1-1217 相当,同时显著优于其他模型。

在编程竞赛方面,DeepSeek-R1 表现出了专家级水平,其在 Codeforces 上的 Elo 评级达到了 2029,超过了 96.3% 的人类参赛者。此外,在工程相关任务中,DeepSeek-R1 的表现也略胜 OpenAI-o1-1217 一筹。

除此之外,团队还 R1 蒸馏出了 6 个小模型开源给社区,参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B。其中蒸馏过的 R1 32B 和 70B 模型在性能方面不仅超过了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B,甚至比肩 o1-mini 的效果。

如果你仍未真切领略到它的强大,那么请注意:它只需付出 o1 五十分之一的成本,却能收获 o1 百分之百的效能。

典型的花小钱,办大事。

除了 R1 在几乎所有的基准测试中性能都优于 o1 的硬实力,再其发布即开源的训练数据集和优化工具,让不少网友直呼:这才是真正的 Open AI。

三点核心技术,剑指 o1

R1 发布后,国内外大模型从业者纷纷围观、并交流点评。

深度赋智 CEO 吴承霖向 雷峰网AI 科技评论评价: DeepSeek R1 确实厉害,但方法非常简单,核心其实就三点。

Self play、Grpo 以及 Cold start。

DeepSeek 团队这次开源的 R1 模型共有两个版本,分别是 DeepSeek-R1-Zero 和 DeepSeek-R1,参数都是 660B 且功能各有千秋。

先说 DeepSeek-R1-Zero,这个模型完全没有使用任何 SFT 数据,仅通过纯粹的 RL 来训练模型,突破了以往模型在提升推理能力时常依赖于 SFT 作为预训练步骤的形式。这是大模型训练中首次跳过监督微调,是此次DeepSeek的核心创新。

通俗一点讲,就是我们不直接告诉模型“应该如何解题”,而是让它通过自主试错并从中学习正确的方法,即 Self play。这就像不让孩子死记硬背公式,而是直接提供题目和评分标准,让他们在实践中自行摸索解法。这样的方式不仅能激发模型的自主学习能力,还可能在探索过程中发现更具创新性的思路。

但是DeepSeek-R1-Zero这个孩子一直做试错练习的话,就会有可读性差和语言混合问题。于是团队研发推出了 DeepSeek-R1,这个模型在训练过程中引入了少量的冷启动数据,即cold-start data,并通过多阶段 RL 优化模型,在仅有极少标注数据的情况下,极大提升了模型的推理能力。

具体来说,冷启动数据包含数千条高质量的长思维链(CoT)示例,通过人工标注和格式过滤(如使用<reasoning>和<summary>标签),强制模型生成结构清晰、语言一致的内容。其核心优势在于:

1、稳定性:为强化学习(RL)训练提供高质量的初始策略,有效避免早期探索阶段输出的混乱无序,确保训练过程平稳起步。

2、可读性:借助模板化输出(如总结模块),显著提升生成内容的用户友好性,使用户能够更直观地理解和接受输出结果。

3、加速收敛:有效减少强化学习训练所需的步数,显著提升训练效率,加快模型收敛速度。

这么说吧,虽然孩子做错题集可以有效提高分数,但是他的答案可能写得乱七八糟。通过先教模型如何规范地写步骤和总结,再让它自由发挥,最终答案既正确又容易看懂。

除此之外,DeepSeek-R1 Zero还创新了一种很厉害的算法 GRPO,通过采样一组输出并计算奖励的均值和标准差来生成优势函数,从而优化策略。这种方法避免了传统 PPO 中需要额外训练价值模型的高成本,让模型能够自主探索复杂的推理行为,比如长思维链、自我验证和反思。

这种纯强化学习训练方式在数学(AIME 2024 的 Pass@1 从 15.6% 提升至 71.0%)和代码任务中取得了显著提升。简单来说,就像让机器人通过“试错”学习解题,而不是依赖例题,最终让它学会了复杂的解题步骤,表现非常出色。

最后,团队还分享了他们在实验中遇到的很多失败尝试,并表示虽然在过程奖励模型以及蒙特卡洛树搜索算法上团队都没有取得研究进展,但这并不意味着这些方法无法开发出有效的推理模型。

One more thing

值得一提的是, R1 在训练时甚至还出现了“顿悟时刻”,就像我们在解难题时突然“灵光一闪”,模型在训练过程中也自发地学会了“回头检查步骤”。这种能力并非程序员直接教授,而是在算法通过奖励正确答案的机制下,自然涌现的。


]]>
人工智能 //m.drvow.com/category/ai/hTgQEjBoyoRs4cgR.html#comments Wed, 22 Jan 2025 10:48:00 +0800
复盘旷视十三年:高光、谷底与重生 //m.drvow.com/category/ai/8YzWIm7hsRquJMCJ.html 01 年轻人的时代


印奇对人工智能的执著,比旷视成立要早几年。

2006 年,这个 88 年出生的安徽小伙在清华自主招生考试与全国高考中均取得十分优秀的成绩。报考专业时,他特地询问招生办的老师:“我想研究人工智能,应该选什么系?”对方回复他,自动化系与人工智能最相关。于是他就报了清华自动化系,戴琼海是他的班主任。

在印奇入学的前一年,清华的人工智能刚刚迎来一个标志性的转折:图灵奖得主姚期智开创姚班,通过考试选拔优秀学生接受更高难度的计算机教育。

姚班的存在就如同一支特种兵,加上姚先生名扬中外,大批敢于挑战的学子报名考试,最终只有少数的人通过考试。成为姚班学子,几乎等同于从一开始就被贴上了“超级学霸”的标签。

当时姚班还挂在计算机系下面(2009 年才分拆独立),虽然不是计算机系的学生,但印奇对姚班也十分神往,所以大二报名参加了姚班的考试,并通过了选拔。

那一年姚班只选拔四十个学生。因为考试的内容主要是数学与算法,所以参加考试的学生主要来自计算机系、自动化系、电子系与数理基科班。最终通过考试的学生以计算机系为主,印奇是少数几个从外系考入姚班的学生之一。

但这份荣誉感并没有持续多久。进入姚班后,印奇发现姚班教的内容非常理论,与他想象中的实用计算机有很大不同。姚班云集了非常聪明的学生,这些最牛的学生早期基本都是清华计算机系的第一名,他们大多有学术理想,学术规划是大三、大四去 MIT 等顶尖名校实习,接着申请博士,毕业后进入学术界当科学家。

此外,姚班的学生大多是原来计算机系的学生。计算机系有自己的一套酒井文化:每个计算机系的学生从大一开始就有自己的“酒井ID”,有历年的酒井真题;如果都是打信息学竞赛保送,同学之间的关系就更紧密,因为从高中就开始相识。这些都是外系学生所无法获得的社交密码。

因此,为了从学术理论更快走向实用价值,印奇希望与工业界更近一步,从大二开始找实习,2008 年就去了微软亚洲研究院(MSRA),导师是孙剑。

大学最后三年(08-10),印奇都在 MSRA。那是 MSRA 视觉计算组的黄金时代,云集了孙剑、何恺明、汤晓鸥、危夷晨、田奇、王井东……后来中国计算机视觉(CV)的半壁江山几乎都由他们构成。当时深度学习还没起来,大家都还在传统方法的范式里研究 CV。

本科毕业后,印奇继续留在 MSRA 全职工作了一年,2011 年才去哥伦比亚大学读博。

当时人工智能还不是一门显学,但从那时起他就坚信人工智能的发展要软硬结合,所以去哥大读的也是视觉传感器设计方向的博士,师从硬件传感器巨头 Shree Nayar。

也是在 2011 年,印奇与唐文斌、杨沐开始创业,在北京成立了旷视科技。

旷视最初成立的背景是:2011 年 iPhone 4 刚出来,印奇、唐文斌和杨沐开发了一款游戏叫“乌鸦来了”,用人脸控制游戏人物左右摇动,很快排到 iPhone 应用商店免费版的第三名。基于这款游戏,他们拿了来自联想投资的第一笔融资,于是就顺势成立了公司。

公司注册完后,印奇就飞去了美国读书,唐文斌与杨沐留在国内全职,带着几个员工继续开发游戏。他们开发了两款游戏,但都没有第一款火爆。2013 年,意识到公司可能出现了危机,印奇果断放弃学业,博士没毕业就从美国飞回了北京。

回国后,印奇将游戏业务砍掉,将公司的重心转向了视觉服务平台 Face++。Face++ 在 2013 年计算机视觉顶会 ICCV 首次亮相就吸引了业内的广泛关注,并很快拿下第一个付费客户:美图秀秀。

美图是国内最早一批应用人脸识别技术的公司,通过人脸算法对人脸的关键点进行编辑,如眉毛修饰、眼睛放大、瘦脸等。Face++ 起初虽然没有结合深度学习方法,但刚推出时在国内几乎没有竞品,是第一批将 AI 技术应用于美颜场景的公司。

一开始旷视内部对深度学习方法也有怀疑,前两年的 CV 研究都是采用非常传统的人脸算法。2012 年 AlexNet 在 ImageNet 挑战赛上夺冠后,深度学习在学术界大火,当时在旷视实习的高中生范浩强跃跃欲试,提出自己先研究,结果十分惊艳,旷视也由此转向深度学习。

范浩强是被唐文斌拉到旷视的。唐文斌与印奇是姚班的同班同学,大学时期在清华校园是一号风云人物:信息学竞赛总教练、清华科协主席、年级第一名。唐文斌也是旷视早期最大的 HR,许多非常厉害的实习生都是他拉进来的,包括范浩强、贾开(MegBrain 的主要贡献者之一)。与印奇一样,唐文斌、杨沐也是没有读完博士就创业。雷峰网

年轻人创业有很多优势,比如:大胆热情,敢于创新。不仅是美颜,旷视还做了很多从 0 到 1 的事情,包括刷脸、安防,首创了人脸识别算法在业界的多项应用。只有年轻人愿意相信一个从未发生的世界,并渴望参与其中进行创造,所以早期大家评价“旷视是一家学生的公司”时,更多是欣赏而非质疑。

要到十年之后,旷视的创始成员与这家公司打了太多场恶战、经历了太多变故后,他们才发现,或许不应该一毕业就创业。雷峰网

“学生创业是很艰难的。”除了技术实力外,创业还要求更多维度的能力;技术能决定起点,却不能决定终点。而创业中所缺失的能力,要在切身的阵痛中感知、学习。雷峰网

02 鼎盛时期

旷视的鼎盛期是什么时候?

有人说是 2016 年。2015 年春节前后旷视做出国内第一套动态人脸识别系统,2016 年夏天开始推广,进军安防领域,凭借这个故事很快完成 C 轮 4700 万美金,并将团队规模从原来的 300 人迅速扩大到 1000 人。此前旷视从 50 人以内到 300 人用了至少 5 年。“2017 年开始走下坡路,因为出现大面积的竞争,依图、商汤都进来了。”

也有人说是 2017 至 2019。2016 年孙剑带着张祥雨、任少卿等技术骨干加入旷视,成立了旷视研究院,清华学生(包含实习生)超过七成。2017、2018 年,旷视的人脸识别算法在国际顶级视觉赛事如 MS COCO 上多次夺冠,深度学习框架 MegBrain 也能与同时代的 TensorFlow 掰手腕。直到 2019 年,旷视一共完成了近 90 亿人民币的融资。可以说,那三年旷视的人才、技术、资金都齐备。

孙剑加入旷视之前,印奇、唐文斌与杨沐三个创始人的年龄与资历都不深,许多老江湖觉得“给他们打工有点难为情”。孙剑加入后,此前孙剑在微软工作十三年、又有 ResNet 这样的国际影响力工作,一些有学术地位的技术人才入职旷视的意愿大幅提升。

巅峰时期,旷视在北京的研究院扩大超过 400 人,此外还有西雅图办公室、挖来原 Adobe 视觉科学家王珏领导,上海研究院、危夷晨带头。“那段时间旷视的人才密度绝对不亚于 OpenAI。”多位前旷视员工向雷峰网感叹。向孙剑汇报的四个总监(周而进、范浩强、张驰、周舒畅)都是清华背景,旷视“含清率”极高,同时还有大量海外博士人才和前大厂高 P。

最意气风发的时候,2018 年印奇在内部开会,提出要在一年内完成 20 亿人民币的营收目标。相当于平均每天要交付大约 550 万人民币的项目。

Face++ 的第一个付费客户是美图秀秀,紧接着是 FaceID 业务在金融、出行、手机、安防等行业的水平应用。FaceID 逐渐发展成熟后,旷视又结合其他人工智能技术在特定领域进行垂直整合发展,如手机里的影像算法与指纹识别。

在金融、出行、手机与安防这四个行业,旷视都有先发优势。

2014 年签下美图后不久,旷视就拿下了蚂蚁这个大客户。2015 年,旷视与蚂蚁首先在支付宝里合作开发了第一个 FaceID 业务,基于人脸识别进行线上身份验证,上线了人脸登录、人脸转账、人脸安全管理等等功能,建立了完整的产品、研发与市场体系。这是旷视在金融场景的第一桶金,大获成功后旷视又陆续在招商、平安、中信等银行的招标竞争中胜出,旷视的业务开始走向 BU 化。

接着是出行之战。2016 年,旷视的 FaceID 遇上网约车大战,Uber、滴滴等在线出行平台在竞争时首先要解决司机端的真人资料验证与乘客端的支付问题,而人脸算法恰好切中痛点。Uber 在创新技术的尝试上很激进,同时接触商汤与旷视,2016 年 4 月率先与旷视签下合作,尔后滴滴也很快跟上。事实证明,人脸算法在出行领域大有可为,后来航空飞行安检、值机等都采用 FaceID。

早期旷视 FaceID 在业务上的成功有几大因素:市场红利(线下到线上)、技术红利与大客户支持。到 2018 年,旷视在金融安全领域的市场份额大约占了 80%,每年有 2 个亿的利润。

2014 年到 2018 年,旷视与商汤是资本市场“最靓的仔”,双方从人才、融资到金融、手机、安防都展开了激烈的竞争。金融领域,由于旷视背靠蚂蚁大股东兼大客户、又有先发优势,双方很快分出胜负,但在其他方面如手机、安防的战况则十分胶着,故事也相当精彩(对更多细节感兴趣的读者可以添加作者微信 Fiona190913 细聊)。

手机业务是商汤先进去、旷视紧跟其后。

商汤从 2015 年 10 月开始积极接触奇酷手机,投入大半年时间给产品做贴身优化,还用收费版双摄虚化算法模块替换了台湾华晶电子 Altej 供应 DAP 芯片附送的免费版双摄虚化算法,2016 年 6 月正式签约,一次性上了两款手机、不同 CPU 平台(分别是高通和 MTK),给商汤带来百万级收入。

印奇从一开始就坚信 AI 的软硬件结合,所以旷视不可能放过手机赛道。但旷视打手机战一开始非常痛苦,因为商汤的产品领先旷视一年、旷视毫无优势,从 2017 年春节打到当年的 9 月份、一个客户都没有。

直到 2017 年 9 月、iPhone X 发布前两周,旷视才拿下手机业务第一单,是 vivo 在印度发布的手机单。商汤比旷视更早接触 vivo,但旷视团队大半年的坚持不懈打动了 vivo,最终 vivo 将国内的大单给了商汤、印度不到一百万的小单给了旷视。接着第二单是小米,打的是价格战逻辑,“0 元购”甩货,以调用量收费,上限 30 万。

连续拿下 vivo、小米两个大客户后,旷视的团队经过磨练,在手机端的技术与商务能力都有了长进。相反,那时商汤在手机业务上的战略一直摇摆。2017 年年底争夺华为、旷视胜出,2018 年 OPPO 决战、旷视又成功拿下 OPPO。最终,旷视拿下华为、vivo、OPPO 三个大本营,这三家是旷视在手机业务上最大的客户。

旷视手机业务的负责人是吴文昊。吴文昊是清华本科,2015 年加入旷视,此前在美国微软等大厂工作了十余年,后来从旷视离开创立了驿心科技。

旷视与商汤争夺手机厂商的背后,不是争夺利润,而是争夺江湖地位。旷视入局后,手机厂商很快反应过来,转被动为主动、让两家公司打价格战,所以手机业务的利润不算高。但手机是视觉算法(包含人脸与影像)与大众最直接的桥梁,手机厂商采用哪家的算法将直接影响大众对于旷视或商汤视觉技术实力的感知。相比论文,手机具备更大的技术品牌传播价值,所以旷视与商汤打得如火如荼。

手机战对整个 AI 行业的影响十分深远,一是将行业的门槛提高了,其他公司无法进来;二是看到了 AI 软硬件结合的落地要有硬件载体、要与芯片结合,手机、汽车是当时最大、最好的市场。后来疫情三年,手机厂商纷纷建立自己的 AI 团队,商汤与旷视也转型。商汤转向汽车,旷视则继续挖掘手机并开拓了物流机器人等新业务。

“回想当年,我最大的感触就是要感谢时代,时代对 CV 这帮人是很好的。他们改变了手机行业,某种程度上也改变了车。”亲身经历过旷视手机业务的吴文昊后来对雷峰网感叹。他坚信 AI 在中国是有巨大机会的,“做软件算法的公司能够改变行业,这在美国是闻所未闻的,但中国敞开了这个机会。”

2016 到 2019 年,旷视最大的业务是安防。Face++ 是国内最早的人脸识别平台,2015 年推出第一套动态人脸识别系统,2016 年在公安行业被首次推广,只用不到 3 个月就拿下了多个省份市级公安局的订单,2016 年在公安行业占了超过 80% 的市场份额,没有竞争对手。

在旷视入局前,海康也做过动态的人脸识别系统,但效果不好,这给了旷视在公安行业发展的时间差。2016 年下半年,旷视没有对手。6 个月后旷视的第一个竞争对手依图才入场,2017 年下半年安防才开始出现大面积的竞争。

此外,旷视的 Face++ 云平台一直遥遥领先,有很多用户通过 API 付费使用。一直到 2019 年,旷视的 Face++ 云平台每年都保持 1-2 亿的稳定营收。从 Face++、金融、手机到安防,2016 到 2019 年旷视的几个核心板块营收都在亿级规模。根据旷视后来的招股书显示,2018 年到 2019 年,旷视的营收分别是 8.54 亿元与 12.6 亿元。

由此可看,2018 年印奇提出 20 亿营收并非口出狂言,旷视只用 2 年时间就达到了这个目标。2019 年旷视在港股递交招股书,是最早冲刺 IPO 上市的 AI 公司。

03 上市的双刃剑

据接近旷视的知情人士称,旷视从 2016 年拿到 2200 万美元的 B 轮融资后第一次开始思考上市。更多的访谈则指明,旷视从 2018 年下半年开始进行人员组织、业务架构的调整,人员上进行小范围裁员、优化研究院架构使其与业务更贴合,业务上放弃汽车、选择安防。

自动驾驶算法公司在 2017 年开始红火,此前旷视在手机业务上的实践已验证 AI 软硬件结合的关键在于载体,所以 2018 年年底手机业务负责人吴文昊也尝试开始搞车,建立了一个 30 多人的团队。但由于在技术角度判断传统的RV算法,无法解决高阶智驾的问题,旷视最终决定将汽车团队裁掉。直到后来特斯拉的BEV路线得到验证之后,旷视才决定从2021 年恢复汽车业务,起步太晚、比市场落后了几年时间。

另一种说法是,旷视选择鏖战安防也是为了上市:“安防是旷视的数字而不是钱”,因为“上市需要更大的合同数字撑场面”。

多位旷视前员工告诉雷峰网,原先旷视内部就有许多人不看好安防,觉得这是一门靠政府吃饭的生意,上限太低、回款周期太长。

在 2016 年到 2019 年,安防被视为千亿级的市场,所以后来旷视将业务重点从手机转向安防。旷视的手机业务每年能带来数亿营收,但相比安防来说盘子太小。

据雷峰网了解,旷视人员规模最大时是 3000 人,研发人才占大头,人力成本非常高。尽管营收数十亿,但据上市招股书披露,旷视从 2018 年开始每年的亏损都超过 20 亿。到 2019 年,旷视创业八年,无论是出于企业续命、股东回报还是团队士气的考虑,上市都是箭在弦上。

但旷视的运气实在不好:2019 年赴港股,原计划 10 月 20 日发售,结果 10 月 7 日美国宣布对其制裁。加上当时香港在闹动乱,港交所的部分西方职员拥护的是西方价值体系,要求旷视答辩。几番周折后,旷视在已通过港交所聆讯的情况下,决定放弃上市,最终 2021 年转战科创板。

原先大家的心情都是乐观的,觉得“回到科创板应该瞬间就上市了”。2021 年他们准备科创板上市申请,只用了不到 6 个月的时间就过会了,但快注册的时候蚂蚁监管事件爆发。蚂蚁是旷视的大股东,旷视也无可奈何地受到波及。他们不断地争取过、努力过,但最终都无法扭转乾坤。

这是旷视第一次遭受来自外界的、不受控的巨大压力。上市成了旷视发展道路上的“双刃剑”:一方面,上市一旦成功,则是众望所归,引来业务继续发展的活水;但另一方面,上市势必经历漫长的等待,难免会瞻前顾后,处处掣肘。

从 2021 年开始,旷视的士气明显下滑。多位在 2021 年离开的旷视前员工告诉雷峰网,他们之所以离开是因为“觉得在旷视有力使不出,没有什么发挥能力的空间了”。

旷视的员工氛围十分融洽,公司年轻没有 PUA 文化,但上市的无望加上裁员,无法阻挡地向内部传递了一种不安感——2021 年之前旷视一直站在行业高位,突然变成中高位、甚至中下位的时候,团队的落差感自然很大。

对于旷视上市,不同人在向雷峰网复盘时有不同的评价,但一致性都感叹:“如果旷视在 2021 年没有从港股撤回科创板,一切可能都会不一样。”就在旷视撤回科创板的同年商汤在港股上市、2023 年第四范式也在港股成功上市。

旷视的两次上市筹备中间隔了两年多,科创板受挫后又等待了两年多,前后加起来五年时间。从 2019 年冲刺港股开始,旷视在 D 轮之后就再也没有进行过融资,因为这会耽误上市材料与报表的筹备。2019 年至今,旷视的生存主要靠自身业务与银行贷款。

原先旷视的市值高、资本利好,只需解决产品与技术的匹配问题,可以先完成上市、再继续内部的公司治理。但 2019 年被美国制裁后,从原先距离成功一步之遥到凭空多出 2、3 年的时间,旷视就被迫去面对除上市之外的其他内部管理与外部竞争问题。

失去上市的托举后,旷视的业务发展状况逐渐成为其生存的唯一决定因素。旷视自身的团队短板与其要实现的目标、要应对的巨大外界竞争之间的错位,也在 2019 年之后开始显现出来。

04 一切回归业务

总的来说,旷视的发展注定面临一场又一场的恶战,而决定其困境的原因主要有四个:目标太大、对手太强、团队太年轻、运气太差。

所谓运气太差,即指两次上市的失利。但纵观 AI 1.0 时代云从、第四范式、格灵深瞳、云天励飞等等已上市公司的发展走向(感兴趣的读者欢迎添加作者微信 Fiona190913 交流),即使当年成功上市,旷视的其余三个问题也仍然存在。

首先,旷视从一开始就选择了一条非常艰难的路:软硬一体化。

除了起家的美颜与金融安全产品,旷视在 2017 年开始就一直探索软硬件结合的产品模式。在这个范式下,创业 13 年旷视一共探索过手机、安防、AIoT、无人零售、物流机器人、自动驾驶等多个方向。

软硬结合的业务往往有几个共通之处:一要同时拉通芯片与大客户,二要擅长渠道与供应链管理,三是技术与产品的适配周期长、壁垒高。尤其是安防,更是一个 To G 的长闭环业务,需要搭建一套大的细碎的区域营销体系,下沉到区、县一级。

旷视早期的核心人才以算法为主,硬件、营销与产品方面的积累不足。越大的目标、越难的任务,对将领的要求就越高,需要有极强的资源协调能力,能完成从技术到产品到业务的全流程对接。但旷视从管理层到执行层,都太年轻,以单边形或双边形战士为主,六边形人才很少。

团队能力与目标错位的问题一开始对旷视的影响不大,因为原先旷视无论在美颜、金融还是手机领域,都是服务少数几个行业大客户,硬件场景明确、且由客户主导解决,业务相对简单,需要投入的算法与营销人员也相对较少。但在安防这样一个 G 端主导、需要强硬件与渠道营销资源的领域,旷视团队的短板就逐渐显现。

最形象的一个例子是:旷视在海大宇的主战场杭州开拓安防市场,光是搭建安防的硬件团队就换了三批人,前后耗时大约一年,最后好不容易挤进去,但也只占了很小的市场比例。——这几乎是旷视在整个安防战役中的缩影,以一个极大但能力上有短板的团队去跟有十多年硬件、营销磨练的对手短兵相接,最终注定吃力不讨好。这在运气好时不足挂齿,但若不走运则可能一招致命。

2016 年、2017 年,旷视凭借出色的算法与先发优势在安防领域所向披靡、势不可挡。2017 年之前,旷视与依图在安防里是四小龙中最强的,且自己掌握算法、产品与客户资源,坚决不卖算法给海康,所以 2016、2017 年海康是非常焦虑的。但 2018 年商汤将算法卖给海康后,格局一下子发生巨变:原先海康在硬件上是 90 分、算法上是 30 分,旷视与依图是硬件 60 分、算法 90 分,但海康+商汤后硬件 90 分、算法 80 分,旷视一下被海康摁倒,局面发生极大扭转。

算法壁垒从不决定长期商业格局,产品与资源才是核心变量。旷视与海康打,武器只有算法;商汤入局后,算法不再占优势,海康与旷视打,武器不仅有硬件,还有价格、营销、渠道、过往积累的客户资源。海大宇打 AI 独角兽都是从降成本开始:AI 公司需要额外采买摄像头,成本自然高;但海大宇本身就有摄像头,算法不收费,所以成本能降到很低。

连旷视内部后来都不得不承认,在安防这个赛道中,从供应链、产研、市场到政策引导,「海康都是教科书式的大运维」。2017 年原旷视安防业务一号位马原离职后,陈雪松接班,在资源上也是高举高打,虽有战绩,但相比海康依然不在一个纬度。

在安防的战役中,旷视投入上千人、持续超六年,最终海大宇占去约 90% 的市场、旷视与依图等 AI 视觉公司只占有 10% 左右的份额。安防对整个公司的组织能力产生了巨大的影响,因为旷视近一半的业务架构是围绕安防展开的。打完安防后,旷视整个团队的士气受挫。

许多人向雷峰网感慨过:旷视招了很多强人,单拎出来大多都是能够一以当十的人才,但由于技术基因太盛,算法的话语权远超业务,最终反而没有很好地将这些牛人组织起来,到技术落地时得到的是「投入 10 亿只作出 2 亿事情」的观感。

而造成这一现象的一大原因,是旷视的团队以算法人才为主,缺少产品规范化与体系化的意识。

一个直观的例子是:做无人零售时,旷视曾接过一个项目,是将人脸识别落到商场中。这个项目做了很久,但识别准确率总是维持在 70% 左右,收到很多客户的抱怨。没人能说清问题在哪,也没人知道该如何部署与调试,开除了一帮人后新的业务负责人上位,带人去实地检查、拆摄像头后才发现是相机焦距设置错误,焦距设置地太远、导致识别出来的人脸很模糊,但此前在做产品规划时大家并没有说明参数的意识。

没有人在面对前所未有的技术浪潮和商业机会前不是迷茫前行的。旷视要做软硬件一体化,本身模型就比一般的 B 端或 G 端公司复杂、中间多了一层算法或硬件,复杂的事情没有简单化、规范化,必然就会加大算法、工程与产品部门的磨合与消耗,时间与人力成本都会变大。

旷视选择的几大块业务,竞争到最后都是与传统行业竞争:安防是海大宇、手机是虹软。这些对手都有一个特点,除了算法弱、其他能力经过数十年积累都很强。但算法不是只有旷视一家,除了旷视,依图、商汤等其他 AI 视觉公司都是虎视眈眈。算法公司不可能联盟,商汤与海康联手是意料之中。

2017 年,商汤与旷视咬得很紧,商汤融了大约 4.1 亿美金、旷视年会宣布融了 4.6 亿美金。2018 年商汤拿了软银的 10 亿美金,旷视没跟上,之后两家公司就从单单融资的差异慢慢转换为业务上的差异。

商汤从 2018 年开始转自动驾驶。2018 年,旷视收购了艾瑞思机器人转做「河图」(机器人网络协作大脑),2019 年转物流机器人(AGV),2021 年才转自动驾驶。印奇一直认为,过去只有两家 AI 技术驱动的公司取得了成功,一家是字节跳动,一家是特斯拉,所以 2021 年特斯拉跑通闭环后旷视才开始转向自动驾驶。

疫情前,印奇曾制定了两大转型策略:一是压缩政府业务的比例,专注 To B 而非 To G;二是放弃项目型收入、转向产品型收入。但战略的落地,有赖于强大的组织能力与执行能力,才有可能在已然竞争激烈的市场红海中杀出一条血路。

软硬一体长闭环、业务不确定、人员流失,几件事叠在一起,对旷视而言已经是不可承受的重量。再加上五年不融资、政策经济大环境的变化,旷视就像被摁在了原地。因此,2024 年 11 月旷视撤回科创板上市申请,也是意料之中。


05 新时代

旷视十三年的沉浮,是中国第一批人工智能技术型创业者不断摸索、不断找路的缩影。

学生创业,一路摸爬滚打,旷视交了昂贵的学费。但也正是与海康、商汤等强敌的正面对抗,让旷视意识到软硬一体对于 AI 技术落地的重要性。因此,2021 年后旷视开始重视从算法到硬件的长链条能力,补齐其在硬件制造、供应链与销售等方面的短板。

各种迹象表明, 在 IPO 松绑之后,旷视正在将新业务重点转向汽车、机器人的领域。对于一贯强调“软硬一体”打法的旷视而言,这是一个合乎逻辑的选择。

人工智能经过多年摸索,最大的困境就在于始终未能找到一个爆发式的应用场景,无论是手机、安防,还是金融、零售,似乎都难以独自承载这样的使命。

近年来,人工智能在汽车、机器人的领域广受追捧。不仅仅是特斯拉,还有一众造车新势力甚至传统车企,近期都纷纷宣称要将人工智能视为未来战略至关重要的一环。汽车和机器人,也被认为是人工智能最有可能大规模落地的终端场景。而这恰恰是旷视走过漫漫长征路,保留下来的希望“火种”。

2017 年,旷视开始进入物流机器人领域。这是旷视现在增速最快的业务,第一个客户是菜鸟,后来也不乏像国药、赣锋锂业、宁德时代这样的行业龙头,以及世界五百强跨国企业。

2021年,旷视开始布局车的业务,从最擅长的视觉感知领域切入,采用特斯拉以视觉为主的技术路线,很快发布了智驾方案并拿到主机厂的定点。2024 年以来,旷视的智驾方案已在多款主流车型上量产。

同时,旷视还在研发下一代的涵盖感知、决策和规控的一段式端到端系统,类似于特斯拉的 FSD 技术路线。目前,旷视的智驾业务已经独立发展,并在寻求新的融资。

作为中国曾经最年轻的科技创业者之一,创业十多年后,印奇不再是曾经的少年。接近他的人告诉雷峰网,印奇跟身边的人反思过,过去旷视的打法太理想主义,软硬件结合是一条长闭环道路、如若中间运气不好是很危险的。

十三年的创业过程,旷视虽然也实现了不少的技术创新,但在商业化、规模化上并没有取得实质性突破。过去的视觉 AI 在落地过程中由于技术新颖、产品空白,走过很多弯路。这让旷视深刻地体会到业务闭环的重要性。作为一家人工智能公司,绝不仅仅只是做技术创新,还要做出好的产品,有客户买单,最终在商业上完成闭环、形成规模效应。只有这样,才能获得利润和健康的现金流,维持企业的正常经营和持续发展。

盈利是现在摆在旷视眼前的头等大事。在旷视近期的一次内部会上,唐文斌强调:“The best AI Model is Business Model(最好的 AI 模型是能够商业化的模型)”,不管人工智能未来如何发展,都会遵循同样的周期曲线:先经历去泡沫的过程,再走向平稳的发展。

所有事物最终都必须回归真实,回归商业实质。因此,旷视的业务打法也在变得更加务实。围绕盈利的目标,旷视在几个主要的业务板块形成了基本盘,各条线的客户群更加清晰和聚焦,诸如手机、Face++云平台等业务已经实现了盈利。

旷视暂别 IPO,一个时代已然过去,但如何让中国的人工智能走一条可持续的发展道路,仍是一个值得大家共同思考的行业命题。旷视的故事未完待续。若经验教训能带来成功的启示,艰难的路才算没有白走。

塞翁失马,焉知非福。

(雷峰网前编辑郭思、路遥、张进对本文皆有贡献)


]]>
人工智能 //m.drvow.com/category/ai/8YzWIm7hsRquJMCJ.html#comments Sat, 18 Jan 2025 16:54:00 +0800
CMU 周衔:聊聊物理引擎 Genesis 的源启与未来 | 具身先锋十人谈 //m.drvow.com/category/ai/XATHFzvj3TRBSxWY.html 作者 | 赖文昕

编辑 | 陈彩娴


不久前,我们发布《CMU 具身智能风云榜:从传统到全面》一文,介绍了来自 CMU 的一众具身智能华人人才。

就在上个月,CMU 联合18个研究机构开源发布了一个生成式物理引擎——Genesis,引起了具身智能领域的广泛讨论与关注,在国内与海外呈现出霸榜的热度。Genesis 的核心团队为 12 位青年华人学者,其项目领导者为 CMU 机器人研究所刚毕业的博士生周衔。

凭借从底层开始重新设计和构建的通用物理引擎,Genesis 将各种物理求解器及其耦合集成到一个统一的框架中,通过在更高层次上运行的生成式智能体框架得到进一步增强,旨在为机器人技术及其他领域实现全自动数据生成。

据项目页面介绍,与先前的模拟平台相比,Genesis 具备多个关键特点:

  • 原生 Python,包括前端界面和后端物理引擎,全部用 Python 语法开发。底层由嵌套在 Python 内的 GPU 加速的 DSL taichi支持。

  • 轻松安装,API 设计极其简单且用户友好。

  • 并行模拟,速度空前:Genesis 是世界上最快的物理引擎,其模拟速度比现有的 GPU 加速机器人模拟器(Isaac Gym/Sim/Lab、Mujoco MJX 等)快一个多数量级,且并没有在模拟精度和保真度上为了优化速度做妥协。

  • 一个支持各种最先进物理求解器的统一框架,可对大量材料和物理现象进行建模。

  • 具有优化性能的逼真光线追踪渲染。

  • 可微性:Genesis 旨在与可微模拟完全兼容。目前,我们的物质点法(MPM)求解器和工具求解器是可微的,其他求解器的可微性也将很快添加(从刚体模拟开始)。

  • 物理精确且可微的触觉传感器。

  • 原生支持生成式模拟,允许通过语言提示生成各种模态的数据:交互式场景、任务提议、奖励、资产、角色动作、策略、轨迹、相机运动、(物理精确的)视频等等(这个框架会内部的各模块会慢慢放出)。

项目页面:https://genesis-embodied-ai.github.io/

从速度来看,Genesis 在单台 RTX4090 设备上的数据量可以达到实时的 430000 倍,26 秒就能训练出可迁移至现实世界的机器人运动策略;从效果来看, Genesis 能生成 4D 物理世界,如机器人操作和运动策略、开放世界铰接式物体、角色运动、3D 和完全交互式场景等等。

不过,在 Genesis 纷纷被认可其实现大模型“创世纪”的可能性之际,也有一些质疑的声音对其精确度和速度表示怀疑。本周三,Genesis 团队更新了一份详细技术报告,测评了各种场景下和主流并行仿真器的速度对比,并且开源了所有测试代码。

主导项目的周衔本科就读于新加坡南洋理工大学的机械工程系,以最高荣誉毕业后在 2017 年来到 CMU 读博,成为导师 Katerina Fragkiadaki 组里首位研究机器人学习(Robot Learning)的PhD。

2022 年 5 月,周衔在师姐的牵线下来到 MIT-IBM Watson AI Lab 实习,与淦创展开合作。也是从这时起,周衔的研究重点确认为建立统一的神经策略和数据引擎。

从“天马行空”地尝试复杂的流体操作任务开始,周衔逐渐与更多志同道合的华人学者相识,就此开启了 Genesis 的故事。

对于 Genesis 正在面临的讨论,周衔十分自信且坦诚,“我们肯定会长期维护,要把它做成一个具身智能和物理AI最好用的仿真和数据平台,同时通过借助开源社区的力量把这个底层的平台维护好。”

以下是 AI 科技评论与周衔的对话。


从仿真器到数据引擎

AI科技评论:22年您到 MIT-IBM Watson AI Lab 实习,Genesis 的 idea 是怎么诞生的?

周衔:以前机器人做偏向于刚体的操作任务,22 年到 MIT 时我想做与流体相关的复杂操作任务,如咖啡拉花、与烟雾交互。但这些任务在现实中采集数据困难,因机器人置于水中易损坏,环境也杂乱,用强化学习或优化轨迹时,有水等液体的环境重置不易,所以自然就想到从仿真环境入手。

这也是我首次接触仿真。此前仿真器多是计算机图形学的学者在研究,当时想用仿真器,却发现没有特别合适的,像英伟达的 Flex 及基于它的 SoftGym,虽有基本的水和衣服模拟,但无法实现不同性质流体的交互,存在诸多问题。此外,我们希望仿真器可用,能借助其梯度信息搜寻策略。

正巧淦创老师组里之前有相关工作,还与发表“太极”编译器的胡渊鸣合作过,于是我们设计了许多与各类流体交互的任务,自己写了一个流体仿真的环境和测评基准“FluidLab”。

当时我结识了宋舒然老师的学生许臻佳和在 MIT 的王尊玄(Johnson),然后我们大家一起合作做了几个在不同领域但底层框架类似的项目,比如 Johnson 做软体机器人模拟,许振佳做切水果、切牛排等任务,然后我们分别为这些项目实现了底层的物理仿真,不过当时更多聚焦于软体、流体以及软体机器人本身,且都是项目特定的,无法让研究社区的使用者很容易的就安装体验。

我们觉得一个统一的物理仿真平台会对整个机器人领域有帮助,23 年初便决定将这些成果整合起来,打造一个对有软体仿真需求的人而言好用、易配置环境并训练策略的框架——这就是 Genesis 的前身,我们致力于打造一个大一统的仿真平台,重点在软体方面。后来我们觉得刚体很重要,但当时这个超出了我们的知识范围,于是就又找了马里兰大学的 PhD 乔怿凌,他做过一系列可微仿真的工作,加入后负责帮助我们实现整套刚体的仿真框架。

AI科技评论:那 Genesis 是如何从一个仿真器演进为数据引擎的?

周衔:起初,我们本只想做一个仿真器。但到了 2022 年末,ChatGPT 问世且效果出色。

在此之前,即便我们能做出比英伟达 Omniverse 更好的仿真环境,在仿真环境里收集数据仍需耗费大量人力。

具体来说,在现实中收集机器人的视觉校准数据,即给定任务描述后,机器人依据所见规划电机动作与周围环境交互来完成任务,一般采用人力采集的范式,不管是用 VR、AR 设备还是其他操控装置,本质上数据量与人力呈线性关系,要采集上百亿条数据极为困难。

在仿真环境中也不轻松,虽像人狗跑跳的演示是用强化学习在仿真中训练出来的,但在训练策略前,确定机器人学习的任务、学习环境、环境布置、物体交互方式以及奖励函数等环节都依赖人力。所以即便有了仿真环境,若要真正实现数据收集的规模化扩展,依旧艰难。

GPT 出现后,推理能力质的飞跃使其足以担当推理引擎。在机器人领域,很多人试图直接让 GPT 输出动作指令,但我们意识到此路不通。尽管 GPT 有推理能力和常识,可它缺乏对物理动力学、动作等模态信息的理解。比如让它关笔记本,它虽知道语言层面的操作步骤,却不懂实际手部动作的反馈、力度控制等物理细节。

经过反复讨论,我们在23年上半年有了新的思路:利用 GPT 等语言或视觉模型的正确方式,是提取其擅长的部分,比如确定机器人有意义的任务(如拿外卖、擦桌子等),以及每个任务适合的训练环境(如拿外卖对应客厅的布局、物体设置等),还有任务完成与否的判定标准,通过编写代码的方式生成奖励函数。

半年后,谷歌的“Language to Rewards for Robotic Skill Synthesis”和英伟达的“Eureka”接连发布,其思路与我们一致,即借助在代码里设置奖励函数的手段,构建起大语言模型在语言范畴对世界的认知以及在物理领域同世界的交互联系,待语义层面的静态信息完整生成后,就可以把它们交给强化学习,使其在物理引擎中对策略展开训练。

AI科技评论:团队很快就确认 Genesis 是一条行得通的路。

周衔:没错,想通这个 pipeline 那晚的我们特别激动,因为突然意识到可以打通整个流程,从提出任务到获取解决任务的行动数据,理论上完全无需人力,能靠算力自动化生成机器人数据。这也是从大语言和视觉模型中提取其掌握范围内的信息,再通过物理仿真让机器人试错、迭代,最终掌握演示方法。

23 年初到年中,我们试验中发现这个全新框架虽各环节尚不成熟,但切实可行,从现有技术到最终实现,每个环节都有清晰的提升路径,不存在有一个环节在技术上还存在巨大鸿沟的情况,只需将各环节从四五十分提升到七八十分,就能打通流程获取数据。从数据驱动来看,若要使机器人策略模型达到 GPT、Sora 的水平,也需要海量数据,那么这条路便是更具扩展性的方法。


Genesis 的核心:易、快、准、开

AI科技评论:Genesis 最大的亮点是什么?它和其他仿真引擎相比,有何异同?

周衔:我认为有三大亮点,分别是易用性、速度与功能。

易用性方面,虽不和技术强相关,但是我个人最喜欢的部分。尽管还有很多满足各种需求的 API 还没有完全暴露给用户,但已完成的部分 API 设计简洁,学习和理解成本非常低,我还精心设计了整套可视化方式,从机器人状态呈现到颜色、缩进、emoji 运用等都花费很多没有意义但是我很enjoy的时间,希望可以优化特别是刚进入具身智能和机器人领域研究者的用户体验。

速度上,英伟达用 GPU 加速让仿真的速度大幅提高,而我们在此基础上又将速度提升一个数量级。不过,目前我们还需研究如何更好利用此速度优势,开发新的强化学习训练方案。

功能上,多数成熟仿真环境只能做刚体仿真,像 Omniverse 对软体和流体的仿真物理不准。我们在统一框架里集成各类物理求解器,如 MPM 等,支持多种物理性质物体求解,也实现了不同求解器间交互,虽处于早期但会持续迭代,且前端用户界面好用,后端用太极和 Python,语法透明,便于开发者贡献和维护。

AI科技评论:感觉您对开源很有热情。

周衔:这和我一个强烈的个人动机相关。以往仿真环境多由计算机图形学领域的人开发,该领域人才厉害但壁垒高,也很少开源工作,虽现在逐渐开源但祖传C++ 代码依旧难懂,其成果应用也比较难。

在机器人和具身智能领域,对仿真能力有依赖,但以往计算机图形学研究者不懂机器人研究需求,机器人研究者不懂仿真物理原理,并且双方都受英伟达闭源的 CUDA 生态制约。比如在仿真环境中制定策略部署到真机上,发现差异想回仿真环境调参却因不了解原理而无法操作,导致两个领域虽相互依赖却存在巨大割裂。

所以我认为当下亟需让计算机图形学领域的优秀人才和算法重焕光彩,让其为机器人领域所用。具身智能领域能够充分发挥计算机图形学从渲染到仿真的技术和人才价值。因此,我有很强的动力去打造一个完全透明、底层全开源、易于访问、理解和贡献的平台,无论是机器人领域人才还是其他相关人员都能轻松参与,这便是我愿意为此事投入大量时间的原因。

AI科技评论:可微分性的实现难度大、也容易和优化策略产生冲突,现有的大多数物理引擎都不支持,为什么 Genisis 会采取这个路径呢?

周衔:这里其实有个误区,大家以为我们的目标是做可微仿真,实则不然,这只是我们提供的一个会帮助这个领域发展的重要feature。

最初在做流体等精细操作任务时,我们意识到,单纯依靠纯强化学习通过大量采样轨迹来寻找最优路径,而若有梯度信息,就能引导策略朝着正确方向发展,这在当时极大地加速了训练过程。不过,利用可微仿真和梯度信息来加速强化学习的策略搜索,在学界至今仍处于研究阶段,尚未达成共识。

目前的框架不成熟也不好用,属于小众探索领域。此前的工具如 Google 的物理模拟引擎 Brax,学习曲线很高,功能也不完善物,而之前我们做的 FluidLab 这些工作,因为和底层的 taichi 绑定比较深,对于外部用户来说想要获取梯度也存在困难。

所以,为了加速这一领域的研究,我们认为有必要打造一个如同 Pytorch 般好用的工具,方便获取梯度并与策略网络连接。这并非我们主要的优化方向,而是我们额外提供的工具和功能,旨在推动可微仿真研究的加速发展,以便让我们了解其对学习策略的提升作用。


“为爱发电”

AI科技评论:Genesis 历时两年,您觉得其中最大的困难是什么?又是如何克服的呢?

周衔:Genesis 如此庞大的系统,涉及诸多方面的开发,而个人的专业知识无法覆盖全面。一方面,我们要寻觅各领域的专业人士,比如做生成式模块时,得拓展人脉,拉更多合作者加入。就像我自己,两年前对仿真一窍不通,也是在这个过程中学习的。

我深感推进这样的大项目在学界极为困难,因为我们采用的是自下而上的合作方式。淦创老师虽为项目顾问,却并非传统意义上的导师,大家是平等的合作者,他帮忙联系一些人参与进来。

一般的学术合作,导师手握经费,学生为其工作,但这个项目由我来主导推进统筹规划,但却无法给予任何人经费上的激励,全靠大家“为爱发电”。这就导致合作形式松散,每个人都有各自的学业得完成,时常忙得不可开交。

我其实有点完美主义,常常想花很多的功夫想把事情打磨到极致,然而在这种模式下,当其他合作者不认同我提出的需求时,因为我们这种自下而上的合作方式,我很难以像PhD老板那样要求他们。比如另一位核心贡献者、马里兰大学博士乔怿凌负责刚体仿真框架的实现,最初的版本因为我们想统一各种材料的表示和全局的碰撞检测和求解,速度很慢,当时我希望可以在速度上至少可以达到 Isaac 和 MJX 的水平,但当时的团队认为可能很难实现。

于是我当时唯一的选择是自己把整套框架拿过来逐行拆解优化,尝试对每个 GPU Kernel 内的数据结构和循环层级进行优化。当时我连睡觉都想着如何给它提速,经过多轮不懈努力后,最终我们成功实现比 Issac Gym 快了很多。类似情况还有很多,当合作者缺乏达成目标的动力时,我有时需要自己接手重新优化和设计,并证明一个更好的状态是可行的。我们之间的信任就是在这样的过程中建立起来。

无论如何,我们还是坚持下来并完成了项目。若有一个高效的七八人工程师团队,或许七八个月就能完成,而我们作为缺乏工程经验的博士生,很多东西都是边摸索边做,把自己当工程师使,在探索中学习如何设计、搭建和整合各个模块。

AI科技评论:自学成为工程师是一种什么体验?

周衔:我觉得最有趣的是,过去大家常用的仿真环境代码极为复杂,作为初学者,会被其复杂程度吓到,还会揣测其背后是否真有不得不如此复杂的缘由,只是自己尚未理解。

但我个人倾向于精心打磨用户体验,期望每个功能都能通过一行代码调用,简单易用。而随着自己的钻研,我意识到大多代码能大幅简化。如今我简化后的成果,收到很多用户反馈,都说非常好用,对新手很友好。

这让我有了另一个感悟:很多时候,我们以为一些事情复杂背后定有隐情,但当自己亲自上手去做,就会发现完全可以将其做得更好。

AI科技评论:当时您有想过 Genesis 会耗时这么久吗?

周衔:2023年初我开始做 Genesis 时以为大半年就能写完,到2023年底时,感觉已经写得差不多了。但后来发现距离成熟框架还差很远,于是不断迭代、修改。

要是最初有人跟我说这得做两年,我可能都不会开始。我们有几套成熟软件框架,能直接在上面改,但大家都在抱怨现在的物理引擎难用,却没人去解决这个问题,我们就想着自己来试试。

从23年一月开始,最初我们只是想写个仿真框架,到了三月有了新想法,可以真正实现自动化,不仅有底层物理引擎,还能通过它自动生成数据,是能原生生成数据的引擎。这意味着这个工作上升到了一个新维度,特别令人兴奋,所以我们就一直做下去了。


回应质疑

AI科技评论:Genesis发布之后热度颇高,在收获赞扬的同时也有些对测试速度、精确度等方面的challenge,您怎么看待这些质疑的声音?

周衔:网传的一份质疑我们速度的报告赚足了很多眼球,一开始我们担心确实是我们的疏漏导致早期的测试结果与实际不符,所以最初的两天压力非常大,于是这几天一直在做各种测试,测试的结果是 Genesis 确实在速度上有很大的优势。

那份质疑里有很多存在的问题,有些我们觉得不是作者的主观意图,比如没有用相同的机器人模型,同时因为我们内部一个碰撞检测的环节对于方块的支撑函数实现中有个bug,导致那份测试报告的某个场景在打开自碰撞之后掉速严重,这个我们已经修复了。其他地方我们发现有很多是事实性的错误和有误导性的设置,比如因为不知名原因改掉了官方使用的求解器选择,对于一些基本概念的错误理解等等,这些我们在和作者的沟通过程中对面也承认了,并且承诺会更改这些错误。

另外有关对 Genesis 精确度方面的质疑,认为我们的物理引擎不如 PhysX,需要更多计算资源才能达到其精确度,但事实却相反。学界公认 Mujoco 的物理引擎和英伟达的 PhysX 相比是更加符合解析解的 formulation,后者是比较接近 PBD(基于位置的动力学)的相对简化的物理模型。我们构造约束系统时遵循了 Mujoco 的约束,然后额外实现了 GPU 加速的碰撞检测,在控制变量的情况下行为能和 Mujoco 完全保持一致的,像方块掉落旋转再回转,行为和时间点都能精准匹配。

另外可能需要注意的是,抓取的稳定性有时候和物理的准确性并不完全对应,因为在现实世界中很多时候的抓取也会存在不稳定性,我们现在的这个模块可以完全匹配Mujoco的求解结果。而我们下一个大版本的更新会支持 GPU 加速的 ABD(Affine Body Dynamics,仿射体动力学)和 IPC(Incremental Potential Contact,增量式潜在接触),可以更加精确的建模现实世界的接触模型,这也是其他主流刚体仿真器不支持的。

AI科技评论:目前的机器人操作领域,大家的共识集中在真机而非仿真,为什么您会选择非共识?您怎么看待仿真与真机数据呢?

周衔:我并非认为只有仿真才能行得通而真机不行,我们更多的是觉得,所有有价值的路线都值得探索,而且需要推动到极致。

仿真陷入瓶颈,一方面是生态不透明,无法在其基础上迭代和贡献;另一方面,当下众多优秀模型如 GPT 等的发展,离不开算力提升。

但完全依赖真机采集数据无法利用这一点,难以指数级扩展数据规模,人力成本又高。而仿真有很大优势,虽真机在缩小与真实世界的差距以及处理复杂物理现象上有优势,但仿真能提供大量数据,让机器人建立与物理世界交互的基本认知,即便不精准,也可通过真机的精准数据提升其局限性。

我认为两者应结合,仿真占比绝大多数,因为其可通过算力无限扩展,虽质量有欠缺,但能提供广泛数据。

真机存在的问题是,如人形机器人通过强化学习行走等炫酷演示,只是数据驱动的结果,并非真机有本质科学突破,只是大家意识到数据重要性而暴力采集真机数据,这就像“吸鸦片”,一旦真机数据带来的 demo 效果达到饱和,便难以为继。

总之,我认为仿真和真机两条路都要走,真机也有价值,做仿真不是认定只有它行,而是其存在很多遗留的问题需要解决,所以我们希望可以把这条路继续向前推进。

AI科技评论:那接下来 Genesis 还会有更新吗?后续会有更多对 manipulation 的支持吗?

周衔:我们肯定会持续更新,目标是将其打造成对机器人最友好的平台,让大家共同维护好这个开源社区。之后会组建一个成熟的工程师团队长期运维,今年年初开始做整体的路线规划及团队搭建。

关于 manipulation 方面,之前有一些声音称 Genesis 更支持移动(locomotion),操作精度有仿真精度的问题,但实际上并非如此,我们不存在不支持操作的情况。而对于机器人领域有意义的功能、特性以及需要修复的漏洞等,我们都会以高效方式及时添加和解决。我们做这个平台的初心就是可以有一个完全透明,所有人都可以贡献,而且功能强大的框架,作为一个平台把计算机图形学,物理仿真,渲染,以及具身智能的学者可以团结起来,一起来创造物理 AI。


关于具身智能领域的更多精彩故事,欢迎添加雷峰网作者微信 anna042023 交流。雷峰网


]]>
人工智能 //m.drvow.com/category/ai/XATHFzvj3TRBSxWY.html#comments Wed, 15 Jan 2025 15:06:00 +0800
CMU 具身智能风云榜:从传统到全面 //m.drvow.com/category/ai/0ampeSPNdNrhEz5x.html 作者 | 赖文昕

编辑 | 陈彩娴


与位于宇宙中心硅谷湾区的伯克利、斯坦福不同,被视为锈带区复兴唯一希望的卡内基梅隆大学(以下简称“CMU”)坐落在上世纪的工业重镇匹兹堡。

计算机科学学院的机器人研究所(以下简称“RI”)成立于1979年,是世界上第一个致力于机器人研究的大学级研究所。

这座机器人摇篮在 45 年间诞生了无数耀眼成就,但在如今技术更迭到由 AI 方向领衔、以仿真与强化学习算法方为“技术先进”之际,以传统机器人学见长的 CMU 能否跟上具身智能的热潮?

答案毋庸置疑:有人加入了最前沿热门的企业,或在OpenAI研究机器人基础模型,或到特斯拉参与人形机器人Optimus 的研发;有人选择了创业,宾通智能、星猿哲、木牛、雅可比,涵盖工厂、物流、商超场景;有人走进了高校,在北大、中大、USCD 等大学继续具身智能的研究。

回到纽维尔·西蒙楼,一切才刚刚开始。


坚守「传统」Robotics

人形机器人控制算法的演进分为三个阶段:一是经典模型控制,如 LIPM+ZMP,以 ASIMO 为代表;二是高级模型控制,即如 MPC+WBC 的动态模型和最优控制算法,以 Atalas 为代表;三是仿真和强化学习的结合。前两者均基于模型(Model-Based),第三代则转为基于学习(Learning-Based)。

一般而言,“技术先进”指技术出现得更晚、更年轻。在这个概念上,由 CS、AI 人才主导的第三代算法可以说最为先进,基于模型的方法也逐渐被称为“传统机器人学”。但同时也有很多人认为,在现实的应用中,世界上只有一种先进的技术,那就是行得通的技术。

2017年正值学习萌芽之际,机器人顶会ICRA中约40%的论文都与之相关,对于是否转向,侯一凡与导师Matthew T. Mason有过一番对话:

Mason问他是否考虑转向,侯一凡深思好久后回答,目前对机器人学习(Robot Learning)兴趣不大,自己关注的重点在解决操作,而非用学习解决操作——他不在乎方法或流派,只关注效果,哪种方法对解决问题最有效,就会尝试——当时学习的成本及效果上限都远不及基于模型。

回到2015年,侯一凡从清华自动化系毕业,来到CMU成为了刚卸任RI所长、机器人操作(Manipulation)先驱Matthew T. Mason的学生。

二人的互选缘于12年进组的周佳骥:计划读博的侯一凡看到师兄周佳骥在知乎回答了不少CMU与机器人的问题,便主动私信探讨课题,就此结为好友。侯一凡觉得周佳骥做的研究很有意思,来到CMU后在周的介绍下和Mason见面也相谈甚欢,就进组开工了。

曾为清华火神队队长的侯一凡,2014年曾带队参加RoboCup,拿到了人形组AdultSize第三名,擅长运动控制和步态规划。在CMU深入探索机器人系统后,他逐渐领悟到,要让机器人变得实用,最大的瓶颈在于手部的操作能力,而非腿部的移动,便改变了研究重点。

侯一凡

操作和移动在理论知识上有许多共通之处,尤其是在运动规划和轨迹优化方面,因此侯一凡起初打算将移动的思路应用于操作上。

在第一个手内操作(In-hand Manipulation)的项目中,他试图将模型做得尽可能精确,花了半年时间研究摩擦力模型,以深入理解操作中的摩擦力。

然而,两者在实际应用上差异显著。对人类来说简单的动作,想要精确建模却异常困难。严格来说,摩擦力并没有完美的模型,许多操作的模型也是如此。过分追求模型的精确性,往往导致模型过于复杂,限制了分析和控制规划方法的应用,反而效果不佳。

渐渐地,侯一凡形成了对操作的清晰思路:若需建模,应选择简单模型,并以此设计出鲁棒的控制和规划方法。模型简单则可利用强大的方法获得鲁棒的解决方案,再利用这些解决方案的鲁棒性去应对实际环境中的不确定性和复杂性,而非试图将所有复杂性和不确定性精确描述出来——这种偏向工程的思维,实际上非常有效。

受Mason的影响,侯一凡对操作的取舍也很明确。灵巧手多年来未广泛应用并非因为技术难以实现,而是因为难以找到成本效益高的应用方法。传统上,机器人主要用于工业,一旦确定了具体应用,通常能找到比灵巧手更适用的系统。

因此在研究手内操作时,侯一凡决定简化手指的自由度,采用基本的两指结构,微调硬件以便于在各种姿态下进行操作。他广泛使用了“外部灵巧度”概念,即机器人通过与环境互动来弥补手部自由度的不足,如二指夹爪也能通过与地面的接触来竖立一本书。

接着,侯一凡转向了更具通用性的3D物品重定向问题,专注于规划。但很快,他发现控制才是瓶颈——即使提供了精确的轨迹,当时的算法也很难执行动作,尤其是在多接触点操作中。

操作通过接触传递力,每个接触都有其模式(Contact Mode),如粘着、滑动或脱离。即使是粘着接触,也分为点到面、边到面或边到边等多种类型,这些离散状态与运动的连续性形成鲜明对比。

在操作中,接触模式的任何变化都可能导致环境约束和物体动力学的突变。如果控制器不能迅速适应这些变化,操作就会失败。尽管一些机器人具有柔性控制,但往往只保证一般安全性,缺乏精细操作任务对机器人柔性的具体要求,难以在多接触任务中有效应对不确定性。

简而言之,如果能稳健地执行接触模式,就能显著提高操控控制的稳定性。

因此,侯一凡的博士研究分为三个步骤:首先,提出了量化接触模式鲁棒性的方法,通过精确计算接触点位置和姿态来评估系统在不同控制下的稳定性;其次,基于这种鲁棒性评估,优化柔性控制策略以增强操作的抗干扰性;最后,在量化鲁棒性并优化底层控制后,将控制度量纳入高级机器人规划中,寻找一条从始至终都极为鲁棒的轨迹。

侯一凡发表的论文让机器人能够规划并稳定执行一系列接触模式变化复杂的动作,而非简单的抓取pick and place,这些动作能够在模型并不准确的情况下做到稳定多次重复,而以往这些动作即使完成一次都很困难。同行也传来了积极反馈,称这套方法不仅算法简单,而且效果显著。

彼时,在CMU同样选择传统robotics的还有刚完成RoboMaster 2018总决赛的前大疆技术总监杨硕。

早在2016年底,一直想读博但工作繁忙的杨硕就申请过不需提交托福和GRE成绩的伯克利,并在次年初收到秋季入学的录取通知。因想先完成好手头的事,杨硕又推迟到2018年再入学。

2017年,杨硕在大疆深入研究了深度神经网络和强化学习,既为了探索新领域的知识,也为了筹备2018年的RoboMaster AI挑战赛。

在研究深度强化学习(DRL)时,杨硕常感到一种难以名状的挫败:算法难以稳定收敛,结果波动大,对参数极为敏感,稍有调整就可能导致截然不同的输出,且调整缺乏理论支持。

尤其让杨硕不适的是,DRL忽视了机器人学的核心——能量转换和系统建模。在机器人领域,电能和磁能转化为动能、力的传递产生运动,是一个复杂但可预测的系统。然而,在DRL中,这些原理被边缘化,调整参数或神经网络结构时,依据的竟并非牛顿运动定律。

杨硕

3月,杨硕受邀到CMU RI介绍大疆的无人机技术和RoboMaster,然后又去伯克利参加了给博士生组织的校园开放日。

两地的探访经历让杨硕意识到,自己在工业界的经验和编程技能,更适合以产学合作和大型项目执行能力强著称的CMU。而且,匹兹堡作为美国传统工业重镇,总让杨硕想起自己的家乡太原——两者都曾因煤炭和钢铁而繁荣,也都在国家发展新阶段中面临挑战。

种种因素影响下,杨硕在2018年来到了CMU,成为了Howie Choset的学生,研究主线是足式机器人的长距离定位,应用在四足和人形机器人上。

读博的头两年里,杨硕机器人做得很好,却一直未能发论文:他先是在六足机器人Daisy上面做状态估计,优化了卡尔曼滤波器以更准确地估算机器人在空间中的行进距离;接着做了个两自由度的猴子机器人,并利用iLQR算法快速验证了不同构型机器人的性能,辅助进行了机器人参数的选择。

“花了两年时间让六足机器人上楼梯,但做出楼梯上得好的机器人不是一个科学问题,解释清楚为什么能上楼梯才是。”杨硕意识到,自己是重新解决了一遍已被人解决过的问题,再用较强的工程能力提升机器人性能,呈现的结果虽好,却没有解决某个新的科学问题。

茅塞顿开后,杨硕的第一篇论文推进的很顺利,和过去重工程的工作不同,这是个非常数学且具理论性的工作,从有了想法到完成,只用了短短两三个月。

2020年8月,杨硕复现了几种带约束的LQR算法,意识到这类问题是领域内的挑战,并萌生了将约束LQR与SLAM中的图优化技术相结合的创新想法。他和SLAM图优化先驱 Frank Dellaert 及其学生合作,用因子图求解有约束的最优控制问题,并成功发表在ICRA 2021上。

2021年初,杨硕邀请RI新来的年轻教授Zachary Manchester做他的另一位导师。Zach最初从事航天研究,其博导曾任NASA首席科学家,后来Zach将航天和卫星控制中的数学和优化理论应用于机器人问题,取得了显著成效。

在Zach的指导下,杨硕深入掌握了航天及机器人领域几十年基于模型的控制方法,还花了半年系统性地学习了机器人轨迹规划的各种知识,特别加深了对非线性优化、LQR和DDP的理解。至此,他把足式机器人的建模、状态估计、底层控制、轨迹规划每个环节都摸了一遍。

“所谓的传统方法并不等同于过时,二者是平行的,只是侧重点不同,并无先进与否之分。”同样是从大疆到CMU的邱迪聪告诉雷峰网,“CS的人更倾向于基于学习的方法,认为它能解决所有问题,但实际上并非如此。”

回到2013年,在中山大学软件工程系读大三的邱迪聪就开始探索强化学习,并认为这是机器人技术中不可或缺的一环。

作为非传统机器人领域出身且十分推崇强化学习的一员,邱迪聪却觉得,自己真正深入研究机器人始于CMU。2017年,他来到CMU读研,由“大白之父”Christopher Atkeson和场地机器人之父、自动驾驶先驱William(Red)Whittaker指导,研究多步优化决策和人形机器人的双臂灵巧操作。

在实践中,邱迪聪发现RL存在时代的局限性,并不能立即广泛应用,应将强化学习与优化或基于模型的方法结合起来,以适应更复杂的决策和技能学习, “毕竟目前纯基于学习方法的机器人还没实现任何落地,而无论黑猫白猫,能抓到老鼠的就是好猫。”

邱迪聪


进军 Learning

在学术研究是否转向数据驱动的学习方法的十字路口,CMU机器人研究所(RI)中也有学者选择了不同的道路。

2017年夏,林星宇从北京大学信息科学系毕业,进入 CMU 读博士学位。本科阶段,他主要研究三维视觉。然而,在实时观看AlphaGo战胜李世石的比赛后,他深受启发:基于搜索的机器学习算法不仅能够创造自己的策略,还可能推动通用人工智能(AGI)的实现。

林星宇意识到,这种算法的潜力不应仅限于棋赛或游戏,而应应用于更实用的领域——机器人。

此时,机器人学与强化学习的交叉领域尚处于起步阶段。伯克利人工智能实验室(BAIR)刚成立,全球从事此方向的研究者尖指可敲。恰逢此时,CMU机器人研究所进入了一位新加入的助理教授——刚从伯克利Pieter Abbeel组完成博士后的David Held。

林星宇被David的研究吸引,主动联系了进一步面谈。两人在第一次见面时一拍即合,就样本效率、从图像中学习奖励函数等关键问题展开了深入讨论。几天后,林星宇正式加入研究团队,成为了David的大弟子。

初入实验室时,林星宇开发了一种新算法,通过增加探索奖励,使强化学习智能体能够快速适应新环境,无需人工干预。

2017年圣诞前夜,在空荡荡的校园里,他独自进行实验。当实验首次取得成功时,他激动得从凳子上跳了起来。这部分科研成果的发表之路却比较坎坷,几次被会议拒稿后才发表在ICRA上。

在这个过程中,林星宇感到了些许挫折,但逐渐意识到了在机器人领域,有影响力的工作最终需要体现在学习新的机器人技能上。

林星宇

到2020年博士三年时,林星宇开始研究机器人对柔性物体的操作。

机器人操作领域对学习算法的态度仍存在疑虑:传统方法在处理复杂任务时表现出艰艳,研究者不理解为何要转向数据驱动的强化学习算法。

面对这种疑问,林星宇决定创建一个针对柔性物体的Benchmark,这也是该领域的首个此类基准测试。

“柔性物体的研究使机器人学更加完整。传统机器人学假设操作对象是刚性物体,并在此基础上做出了对物体状态估计和动态估计的各种假设。柔性物体的操作挑战几乎打破了所有这种假设,是构建通用机器人的必经之路。” 林星宇解释他聚焦柔性物体的原因,“假如这能解决,就相当于解决了最难的方向,能以相同的算法或系统解决其他机器人任务,把成果迁移过去。

通过多种算法试验,林星宇发现一种简单的搜索算法——Cross-Entropy效果卓越。该算法基于试错优化动作,其关键假设是:如果有仿真器能够预测动作结果,就可以通过简单的优化方式选择最佳动作,无需依赖对复杂动力学的强化学习。这一发现使他认识到,学习世界模型或动力学是机器人学中最基础也是最困难的任务。

此后,他将研究重点转向数据驱动的方法,通过将柔性物体视为粒子集合,借助图神经网络模拟粒子间的相互作用和动态,为机器人完成复杂任务(如平整痕褶衣物)提供了可能性。

林星宇的博士研究逐渐聚焦于构建柔性物体的世界模型。

他认识到,领域内真正缺乏的是具有挑战性的任务,而非传统方法也能解决的简单问题。通过建立Benchmark,他进一步意识到数据驱动的核心在于预测和动力学建模,一旦掌握了动力学建模,优化就相对简单,可以通过搜索不断提升模型的能力。

“从这个角度,机器人领域走在了自然语言前面,因为语言模型是从预训练ma慢慢走向测试时计算(Test Time Computing),而机器人作为一个决策任务,从一开始就必须要做搜索。”林星宇认为,在处理复杂任务和实时决策方面,机器人可能比语言模型更早地面临和着手了类似的挑战。

除了林星宇的博导David Held外,CMU RI中的两位印度教授、Skild AI创始人Abhinav Gupta和Deepak Pathak在AI+Robotics领域也十分活跃,但后者比较年轻,2020年9月才入职,所带的博士生们都尚未毕业。

资深的Abhinav Gupta涉猎领域广泛,多做视觉,也涉及机器人学与语言,是现UCSD助理教授王小龙的博导。

2014年,王小龙从中山大学来到CMU读博,延续硕士时师从林倞的研究,继续做计算机视觉,利用视觉数据的冗余性进行深度学习的无监督学习和视频识别。

读博期间,王小龙曾在FAIR实习,由何恺明和Ross Girshick指导,在CVPR 2018发表了了非局部神经网络(Non-local Network)的工作,通过其创新的全局上下文聚合和自注意力机制,在视频分类、语义分割、目标检测等多个领域内提升了模型的性能,并且由于其计算效率高和易于集成的特点备受关注,至今引用量已近1.2万。

2018年,随着导师Abhinav创立了Facebook的匹兹堡实验室与机器人组,王小龙也开始接触机器人导航、操作等相关研究,并在ICLR 2019发表了自己的首个RL+Robotics的工作。

这是关于将语义先验知识融入语义导航任务的研究。人类能利用多年来建立的语义或先验知识来高效搜索和导航,比如找杯子时会搜索咖啡机附近的橱柜,找水果时则会查看冰箱。为了让机器人具备相似的导航能力,王小龙通过融合语义先验知识到深度强化学习框架中,利用图卷积网络提升智能体在新场景中导航至目标物体的性能和泛化能力。

2019年9月,博士毕业的王小龙在BAIR做了一年博士后,受Alexei Efros和Trevor Darrell指导,期间也和彼时在OpenAI的吴翼一起指导过多智能体强化学习的论文。

次年7月,王小龙加入UCSD视觉计算中心任教,带领实验室研究视觉与机器人技术,后者侧重于研究机器人手部操作、腿部移动的学习和低层控制(Low-level Control)。

王小龙

除了王小龙外,在CMU从视觉切入具身智能的研究者还有梁小丹与仉尚航。

梁小丹2013年起在中山大学读博,是林倞的首位博士生,和王小龙是同门。

博士期间,梁小丹主要研究人物解析,提出的库在当时是人物解析领域最大的,连续五年举办的workshop和比赛也吸引了众多参与者,许多人像分割、解析和编辑的研究也都基于其方法和数据。在分割算法后,因导师对复杂推理特别感兴趣,梁小丹就转向推理相关的研究。

视觉研究更侧重于解决具体问题,如架构和图像模型的构建及因果关系的分析,她在申请博士后时希望体验不同技术方向,特意选择了与之前导师关联甚少的邢波(Eric Xing),想在CMU的机器学习系(MLD)开阔视野,探索底层和基础问题。

邢波也希望有些偏视觉的工作,梁小丹便在2016年7月来到CMU,成为当时组里唯一一个视觉方向的博士后,延续图像分割的工作。

在CMU,梁小丹主要做机器人视觉语言导航。从软到硬的转变十分丝滑,让机器人到达某位置最关键的是视觉导航,而视觉导航再往下就是对场景的分割理解、物体检测问题,就是自己的老本行。

“很多分割算法都被用在搜索或编辑中,但跟机器人交互其实是非常自然的过渡,所以就是从 2D 走到 3D 世界和机器人交互。”

在梁小丹看来,具身智能并非从天而降,“30年前SLAM也可以理解为具身智能,而现在的具身智能考虑落地应用,普遍认为抓取很难,SLAM等导航算法非常成熟,其实是上一代的技术已被应用,现在开始想下一代的应用场景,探索下一代的技术。”

梁小丹

2018年底,在婉拒OpenAI、CMU与腾讯AI Lab等多个offer后,梁小丹回到母校中山大学任教。回国后,梁小丹也开始接触真机,并与智能工程学院里的同僚们合作交流,特别是擅长硬件与控制的同事。

目前,梁小丹正带领团队做具身大模型,希望把多模态大模型加上3D感知能力,做具身智能领域的GPT-4o。

此外,为了改善之前仿真环境缺乏真实感和细节的问题,梁小丹团队还发布了仿真平台InfiniteWorld,能通过简单拍照将现实场景如咖啡厅等精确复制到虚拟环境中,实现物品的交互功能,以促进机器人在复杂环境中的泛化能力。

“以前的仿真平台场景不太真实,也缺少纹理,因为在真机上训练测试性能不佳,很少能被机器人厂商使用,所以首先得把虚拟环境的真实感提升上去。”

仉尚航也是在2013年开始读博,她从北京大学读完研到CMU,收到了博导José Moura教授(美国工程院院士、美国发明院院士、IEEE/AAAS Fellow、前IEEE主席)给的难题:对整个纽约市各路口监控视频中的车辆进行检测计数与流量分析。

面对缺乏具体数据集和思路的挑战,仉尚航自己定义研究问题,开启了领域自适应(Domain Adaptation)的研究。此时正值深度学习初兴之际,经过调研后,她提出了基于深度学习的解决方案。刚开始时,José不太信任此方法,在她汇报时经常一句接一句地提出质疑,让她不停在白板上推公式。

因导师坚持采用非深度学习方法低秩回归(Low Rank Regression),仉尚航便采取了一个工作量倍增但“两全其美”的解决方案:对同一个问题和同样的数据,同时设计深度学习和非深度学习两种方法进行研究,一年后均取得成功并发表在CVPR上。经历了该工作从问题定义到数据收集与标注,从传统机器学习方法到深度学习方法的完整过程,仉尚航的科研能力得到了很大提升。

此后,José就对她特别信任和赞赏,无论她提出什么想法,总会频频点头认可、大力称赞,在此鼓励下,她愈发敢于探索新方法、尝试新研究,后来做科研也越来越顺利,产出也越来越多,沿着模型泛化、领域自适应、有限样本学习的方向继续推进。

此时正是自动驾驶的火热时期,仉尚航也通过高通创新竞赛将研究场景从车辆检测计数过渡到自动驾驶,并使用深度学习方法研究自动驾驶的泛化视觉感知,关注领域自适应和有限样本学习的难题。

因其一直对机器人方向很感兴趣,来CMU的最大动力也是因为其RI久负盛名,读博期间,她经常跑到RI与在Matthew T. Mason组做博士后的北大师兄万伟伟(现大阪大学副教授)和在John Dolan组读博的董驰宇、许闻达探讨,也发表了一篇关于机器人操作的工作。

仉尚航

2018年博士毕业后,仉尚航来到了“梦寐以求”的湾区,在Eric Xing的创企Petuum做了一年科研后,更加坚定了做教职的决心,就来到伯克利的 Berkeley AI Research Lab(BAIR)做了两年博士后,在Trevor Darrell和Kurt Keutzer的指导下进行开放世界泛化学习的研究,包括领域自适应、零样本学习等,主要应用场景是自动驾驶。

Trevor是BAIR的Director,同时和Kurt一起带领Berkeley Deep Drive,在伯克利期间,仉尚航参与了DARPA、BDD等多个项目并和多位教授展开合作,此经历成为她日后担任教职的重要基石。

一直以来都有教职梦的仉尚航,经历了湾区的工作和伯克利的博士后研究后,更加坚定了回国任教的决心。而且她惊喜地发现教课、做报告和登台主持有异曲同工之妙,能满足自己曾经有过的媒体梦(她很喜欢主持,曾在CMU多次担任过华人春晚主持人)。

博士导师José十分支持她的决定,其妻子Manuela Veloso是CMU RI教授与RoboCup创始人之一,IEEE/AAAS/ACM/AAAI Fellow,曾任CMU Machine Learning Department Head,也很关注她的研究,专门参加她在CMU的博士答辩,对其很欣赏,夫妻二人在给她的教职推荐时赞扬“尚航能去世界上任何一所TOP10大学”。

现在想起José、Kurt和Trevor三位老师的指导和鼓励,以及Manuela的支持,仉尚航还很感动,正是这些优秀的学者给她树立了榜样,让她坚定了踏实科研、勇于探索、教书育人的决心。

2022年初,仉尚航回到北京大学任教,加入了硕士曾就读的计算机学院视频与视觉技术国家工程研究中心,办公室就在当年读研的工位旁,让她更有“勿忘初心,方得始终”的归属感。加入北大后,她开始专注于具身智能领域的研究,将之前在自动驾驶、泛化学习、多模态大模型方向积累的经验转化到具身智能研究中,在此方向迅速成长。

今年夏天,仉尚航还成为北京智源人工智能研究院的智源学者,带领具身多模态大模型研究中心专注于面向具身智能的多模态大模型与大数据构建,目前正在研究4D世界模型。她于近期发布了大规模多构型智能机器人数据集RoboMind,是世界上集中采集的最大规模数据集,捕捉机器人面对复杂环境、长程任务时的各种交互和经验,从而促进能够掌握不同操作策略的通用模型的训练。RoboMIND包含5万5千条机器人轨迹数据,涉及279项不同的任务,涵盖了高达61种不同的物体,覆盖了家居、厨房、工厂、办公、零售等大部分生活服务场景,将打造具身智能领域的ImageNet时刻。


系统见长

2014年秋,走进地下负一层没有窗户的生物机器人实验室,龚超慧得知了自己的蛇形机器人工作登上《Science》杂志的好消息。

四年前,2010年,龚超慧从哈工大毕业来到CMU RI读博。下属计算机学院的 RI 做机器人较偏算法化,在机器人算法三要素感知规划决策的闭环系统颇有建树。

在各实验室轮转上课时,龚超慧意识到,机器人自动化远比自己的机械式理解更广泛,除了预设程序与硬件外,不仅包括通过传感器进行感知和数据采集,还涉及到基于数据的智能化控制和复杂规划。

对规划着迷的龚超慧决定加入此领域顶尖学者Howie Choset的小组。Howie除了在RI任教外,也是生物医学工程、电气与计算机工程的教授,研究蛇形机器人、工业机器人与医疗机器人。

第一次正式见面时,龚超慧在Howie的办公室磕磕绊绊地分享了自己对规划的一些基础研究和文献调研工作,感受到他的热情后,Howie建议龚超慧尝试参与组内课题。在蛇形机器人平台上进行软件开发并迅速取得研究成果后,龚超慧顺利开启了PhD阶段,成为了Howie的首位华人学生。

龚超慧

进组后,龚超慧有两个并行项目:一是研究蛇形机器人的运动,如控制转弯、行进方向;二是定位和建图的 SLAM 项目, 基于拓扑学的数学理论,研究如何通过机器人之间的信息交互,包括不断设计新的行进方向,快速地把未知环境的拓扑结构描述出来。

龚超慧从本科就开始“手搓”机器人,跟周谷越(清华AIR副教授、前大疆CV总监)同为哈工大机器人队的主力成员。此前龚超慧的做事方式偏工程化,喜欢去实现机器人的某个功能,Howie却告诉他,如果要成为一个PhD,必须对能认知、改变世界的方法论上形成新的观点和突破,否则只是位工程师。

因此,龚超慧的研究核心放在了高维度数学空间的规划问题,即如何找到最优解。

假设机器人有无穷个关节,那面对无穷个自由度,该如何控制变量才能让它形成有效运动的最低能量,且运动速度最快?

这其实是一个非常抽象的数学问题,所以在做研究时,龚超慧接近数学方法论,专注于在高维空间中寻找高效的低维子流形(Submanifold)。通过降低机器人的维度,在更低维的空间中快速进行计算,并利用这一理论框架,研究生物和机器人的运动,从高维统计数据中提取低维特征和模式。

导师Howie对学术有着近乎变态的苛刻,对于任何一个公式的推导,每个上下角标是否准确,每项异常数据如何解读归因,都要求严谨准确。在他的指导下,龚超慧陆续在机器人顶会ICRA、IROS以及《科学》杂志和美国科学院刊上发表论文。

到博士后期时,龚超慧开始对广义机器人的规划与任务分配软件感兴趣,认为AI 和 Robotics 技术会在制造业里有广泛应用的机会,“工业 4.0让物理实体设备具有结合数据技术使其更智能化的机会,而设备智能化后也是一种机器人。”

因此,龚超慧在2016年初继续留校做博士后,除了收尾PhD时的工作外,也开始把研究重点往智能制造的方向转变。

在每周五下午的午餐会上,RI各组学生都会聚在一起喝咖啡闲聊,龚超慧结识了小两届的周佳骥,二人常讨论机器人的商业化问题。

周佳骥本科毕业于东南大学吴健雄学院,2012年来到CMU读研,次年在RI开启其博士阶段,师从Matthew T. Mason与视觉教授Drew Bagnell,研究抓取操作与视觉感知规划。

2016年,周佳骥发表的平面滑动运动模型工作获得了当年ICRA全会最佳论文,成为了ICRA创办30年来第三位以第一作者身份获奖的华人。

周佳骥与Matthew T. Mason

在两位学术成果颇为优秀的年轻人中,更早产生创业念头的是龚超慧。每次讨论机器人时,周佳骥更关注深入的学术问题,龚超慧则更关注应用场景。

彼时富士康到美国找研究团队合作,VP戴佳鹏资助了龚超慧团队,龚超慧就开始研究如何让生产更柔性和智能,包括生产设备网络化、智能化后的集群管理,以及AGV等设备有移动能力后的调度来连接生产环节。

在同富士康交流的过程中,龚超慧发现,制造业中传统的管理方法、技术都有大量的信息不对称,在数据的全面性、运算的智能化、计算能力都有瓶颈,生产线上大量设备也没有自适应能力,导致生产效率不足。

看到产业机会后,此前认为自己肯定会走学术路线的龚超慧向Howie提出了自己的创业计划。Howie非常惊讶,没想到龚超慧会在学术做得不错、有教职机会的情况下,还想要创业。

龚超慧向Howie解释,学术研究存在的目的是解决实践中遇到的问题,把它抽象出来突破,但既然部分机器人和AI 结合的技术已经到了可以工程应用和产业化的阶段,更大的机会和空间应该在产业界而非学术界中。

龚超慧的想法得到了Howie的认可,再加上当时组里的硕士生任中强(现上海交大AP),师徒三人于2017年1月在匹兹堡一起成立了宾通智能(Bito Intelligence)。

很快,周佳骥也决定创业。他与在麻省理工大学(MIT)读博的俞冠廷相识,后者师从操作与机制实验室负责人Alberto Rodriguez,曾作为技术架构总负责人带领MIT-Princeton联队在2015-2017连续三年参加亚马逊拣选挑战赛,均获全球前三,并且获得2017年装载任务冠军。

通过亚马逊挑战赛,他们意识到视觉拣选领域已接近可商用化的程度,便于2018年4月在波士顿一起创办了星猿哲(XYZ Robotics),为物流及工业自动化提供更好更快的机器人解决方案,周佳骥的导师Drew Bagnell也参与了种子轮的投资。

不难发现,两位CMU学子对产业机会极其敏锐,果断抓住了机器人的第一波创业机会。伯克利的Pieter Abbeel与三位华人学生成立的Covariant,也是在同一时期诞生,并同样以物流场景起步。(伯克利故事详见https://mp.weixin.qq.com/s/iqiKeMgGIsCuvoNtyi-yaw)

说起各高校的机器人人才,业内普遍认为,若想让机器人达成商业目标、落地,CMU是首选,若关注具体算法,则选伯克利和斯坦福。

据罗瑞琨介绍,CMU 学子多对机器人工程落地的全链条有系统性认知,从课程体系起,就要求学生除了必修数学和本专业外,感知、规划、运动各方向都上够学分,了解机器人整个系统。而且工程师和科学家协作制度完善,教授也分研究型和工程型两类;RI 虽属计算机学院,但却很重视跨学科交叉,吸收了很多机械工程、电气工程等专业的学生一起科研做项目,而非以单一的计算机专业为主。

2012年,罗瑞琨毕业于清华的机械工程自动化系,来到CMU读研。起初他打算申博研究纳米机器人,后因联系的教授在欧洲,面试安排不定,担心错过截止日期的他就先接受了硕士项目的录取。

因对人机交互感兴趣,罗瑞琨加入了做多智能体与高层次规划的Katia Sycara小组,研究人体动作学习和预测,通过结合动作识别和活动学习,优化学习的准确性,并预测下一步行为。此方向当时非常热门,其应用前景包括使机器人能预测人类行为,从而决定自己的行动,例如帮助做家务和做饭。

罗瑞琨

Katia不会干预学生的研究兴趣,但对论文写作尤为细致,带着罗瑞琨从头到尾改完了他的第一篇论文。项目资金结束后,罗瑞琨又做了点 SLAM 及多智能体的工作,便在14年顺利毕业了。

在伍斯特理工与密歇根大学读博期间,罗瑞琨专注于人机协作的实际应用,如工厂中的共同作业、问题检查和装配协助。他曾与苹果供应链专家探讨,发现机器人执行效率低,不如全自动化或人工作业,许多需求在实际应用中不切实际,是伪需求。

权衡过各类机会后,罗瑞琨以CTO的身份在2021年加入创企木牛机器人。他认为,过往积累的机器人交互的多领域知识、实践经验与对系统的了解,在大厂难以充分发挥优势,聚焦工业场景落地的木牛更适合自己,加入后带队开发了一套从伺服驱动控制到上层感知决策的底层框架。


新与旧共舞

今年10月,特斯拉「We,Robot」发布会上,人形机器人TeslaBot(前Optimus)列队出场,化身“酒保”走入人群调酒、猜拳、合照、蹦迪,现场俨然成为了一场赛博大派对。

发布会后,杨硕站在TeslaBot旁,和它合照了一张。

就在去年3月,即将博士毕业的杨硕看到Optimus项目在扩张,便在领英上与团队取得了联系。很快,HR发来了面试邀请,在两轮现场手写C++代码和推公式的面试后,杨硕拿到了offer。

可以说,读博时精进的工程能力,让杨硕具备独自完成推公式、仿真、做硬件、上真机实验、处理数据全流程的能力,特别是对C++解决机器人控制和估计的钻研,使他成为了最匹配的候选人。

特斯拉让杨硕尽快入职,导师Zach了解情况后非常开明地同意了,让杨硕努努力再整理投出一篇论文即可毕业。 7月,杨硕正式加入,参与机器人控制核心算法模块的开发。

今年初,团队发现第二代Optimus机器人的一项关键指标需远超行业标准才能稳定运行。一次双周会议上,Elon Musk对项目进展表示不满。会后,杨硕主动提出在十天内开发一个新的算法模块,两千行代码加上后情况迅速有改善,便在下次会议上向马斯克现场演示。

在特斯拉的一年半里,杨硕慢慢转移到用深度学习、AI 的方法做机器人,过往对传统机器人学的理解让转变十分丝滑。

“做机器人得不断推翻自己之前形成的固有思维,之前无人机做久了我选择去研究新东西,博士期间做传统的方法,来到特斯拉又推翻,用比较主流的AI技术。”杨硕告诉雷峰网,“ 对基于模型的方法有深刻理解后,对无模型的AI方法,通过数据让神经网络自己发掘模型,是更有帮助的。”

除了杨硕,侯一凡对新方法的态度也发生了转变。

2021年博士毕业时,侯一凡认为科研问题已解决,自己完整的操作方案需要在实际场景中验证效果,便加入了有着世界上最大的操作场景的亚马逊机器人部门,研究物流场景中的储存任务,负责自动化存储过程中的柔性控制和运动规划设计。

在亚马逊的三年间,侯一凡意识到自己提出的解决方案效果不错,但受限于建模的需求,在应对不断出现的新场景(长尾效应)或者难以预先建模的家庭服务类场景时往往需要巨量的工程投入来解决。因此,如何在模型质量高度不确定时提高操作的成功率和效率,成为一个全新的挑战。

一直关注着学术进展的侯一凡发现,机器人学习已进入激动人心的阶段,尽管目前成果距离解决实际问题还有很大差距,但已完成了从0到1的转变,让非机器人背景的人也能快速做出demo。

不过,侯一凡认为,在接下来的5年或更长时间内,学习方法仍无法替代某些问题的最佳解决方案,特别是在机器人需要快速、高成功率地应对高度不确定场景时,因为这些问题用模型来处理更容易获得可预测,解释和调节的结果。

他意识到,后续想让demo变得通用和鲁棒既需要机器学习的泛化能力,也需要对机器人问题的理解和分析——机器人学习与传统机器人学的结合有巨大的机会,而探索这些机会的最佳场所是学校,而非工业界。

侯一凡读博时,因参加亚马逊挑战赛的MIT-普林斯顿队中有导师Mattew的学生Alberto Rodrigue,双方交流密切,就此认识了队里的宋舒然。

加上近些年自己最喜欢研究都来自其团队,考虑重返学术界时,侯一凡便联系了宋舒然,两人讨论非常投机,侯一凡就在今年3月来到斯坦福做博士后,依旧沿着解决操作的主线。

“以前认为解决操作的方法和学习关联不大,所以做模型和优化,随着对问题的了解和不同方法的演化,现在觉得是基于模型与learning的结合。”

同样支持两者结合的邱迪聪,在2018年硕士毕业后,先进入了更成熟的自动驾驶领域。

他同时接到了英伟达与MIT创企ISee的offer,在面对他“公司要做什么”的提问时,双方给出了不同的答案:英伟达想构建一个能在特定场景下工作的自动驾驶系统;ISee则致力于开发具有人性化思考的AI,目标不仅是自动驾驶。

ISee的愿景更符合邱迪聪的规划,在他看来,自动驾驶是当时最接近智能化机器人的实例,其他技术要么不够先进,要么虽能落地但缺乏革命性。

三年后,邱迪聪又先后加入了如祺出行与PIX Moving,负责搭建自动驾驶团队,探索商业化落地。到了23年4月,在意识到开放推理能力开始有解决方案后,邱迪聪与CMU LTI(语言技术研究室)的师兄梁俊卫合作,共同创立了雅可比机器人,采取轮式方案,重点在操作以及机器人对开放世界和开放物品的理解。

雅可比以商超为切入点,下一步是餐饮服务、办公场景,最终进入到养老以及家庭场景。“这样每个场景积累的知识和经验能直接应用于新场景,比如机器人在商超场景中学会识别锅碗瓢盆等物品,当转移到餐饮场景时,如清理餐桌,就已具备基础能力,几乎无需额外专用化投入,甚至能实现零样本迁移。”

至于一开始就笃定learning路线的林星宇,则在2022年从CMU毕业。答辩前,David Held专门开了个告别组会,让林星宇给学弟学妹们分享建议,还把二人的邮件往来与合照放在一起,配文“this is how we started”。

林星宇来到伯克利在Pieter Abbeel的组里做博士后,从博士期间注重解决不同任务,如柔性物体的一个个建模,转变为做更通用的基础模型,研究如何利用基础模型让任务更通用,以及构建一个属于机器人学的基础模型。

在伯克利,林星宇和高阳的学生汶川合作,利用互联网人类视频训练机器人大模型,发表了RSS 2024的满分论文。

林星宇发现,许多视频预测模型专注于纹理的真实感,却忽略了物理真实性,就提出了学习微粒轨迹模型的想法,用于预测空间中每个点随时间变化的轨迹。例如,当拿起并倾倒一杯水时,杯中水的微粒会沿着不同的路径移动。最重要的是,这一模型能够直接从视频数据中学习。

今年8月,OpenAI风传已久的机器人组终于重启,林星宇成为了创始成员之一。

OpenAI成立初期,机器人技术就是其主攻方向之一,联创Wojciech Zaremba领导的团队最初试图打造一个通用机器人,并在2019年发表了一篇工作,分享了他们如何训练神经网络使用单只机械手复原魔方。但在2020年10月,因缺乏训练数据,机器人组解散。

加入OpenAI重整旗鼓的机器人组,林星宇经过了不短的思考:首先,OpenAI有研究机器人的经验,重启说明时机已经成熟;再者,产业界研究能比学术界更易于拓展。

更重要的是,很多机器人学的问题在于boot strapping(自举,指机器人或AI系统通过自我学习和自我改进来提高其性能和能力),缺乏数据导致系统性能不佳,无法产出产品,数据积累陷入停滞,形成恶性循环——视觉语言模型能有效缓解这一问题,而OpenAI拥有最顶尖的视觉语言模型。

来到OpenAI,林星宇将继续探索机器人基础模型,“我一开始是想训练一个模型做好可变形物体的任务,但逐渐发现真正需要的是海量数据,需要不同数据间有各种积极的迁移转化,最终希望有一个模型来理解物理、空间来完成各种任务。”


结语

站在是否转向的十字路口,没有all in机器人学习的CMU似乎慢了一步。

与从纯仿真出发、始于图像或游戏的模式不同,工业合作伙伴众多的CMU携带着工程师基因,对解决实际问题习以为常,做项目的重要意义之一就是将技术真正应用于某个具体场景中。

可以说,如果将机器人学的研究工作分为0-1(概念创新)、1-99(技术发展)和99-100(产品成熟)三个阶段,CMU更擅长1到99%的推进,甚至能够制造出接近实用的高完成度机器人。

除了擅长实际工程落地外,CMU的强项还在于对基础问题以及整个系统的深入理解。凭借对传统方法的深厚积累,CMU人才们能够轻松而顺畅地过渡到基于学习的方法。

杨硕、林星宇、王小龙、仉尚航、梁小丹、龚超慧、周佳骥、罗瑞琨、侯一凡、邱迪聪......成长于基于模型方法的CMU一派,用“传统机器人学”搭起坚实地基,以学习为梯,让机器人迈向了下一个阶梯。

在具身智能产学结合紧密的趋势下,补上学习拼图后的CMU派系,逐渐从传统走近了全面。

此刻的他们,正搭建着下一块台阶。

关于具身智能领域的更多精彩群像故事,欢迎添加雷峰网作者微信 anna042023 交流。雷峰网


]]>
人工智能 //m.drvow.com/category/ai/0ampeSPNdNrhEz5x.html#comments Wed, 15 Jan 2025 14:58:00 +0800
2025,大厂们的「大模型牌桌」战 //m.drvow.com/category/ai/kVxhRYQRpNf9Nh8f.html 随着大模型六小虎在AGI上的后撤第一枪被正式打响,中国大模型行业的分水岭快速露出水面、更加清晰。

初创公司在下一代超大规模模型竞争中的局限性开始被广泛关注,大厂「不下桌」的资本筹码变得更加明显。

无论是百度宣布2025年将推出下一代基座模型,还是阿里、字节在AI人才和资金上的继续投入,潮水退去,大模型在决胜战场的主导权还是来到了大厂手中。

01  追赶与转向

2024 年,中国的大模型分水岭其实已经出现,无论是大厂还是创业公司,在技术、产品、商业化与生态等方面的战略都开始分化。大家不再是沿着同一条路线发展,而是根据自己的能力与目标做出不同的选择。百模大战的阶段终于过去。

以创业公司为例,估值超 200 亿人民币的 5 家大模型公司中,百川智能的重心已转向行业大模型(如医疗),月之暗面与 MiniMax 的战略优先级是 C 端产品与应用,只有智谱与阶跃星辰仍在战略上朝着 AGI 大模型发力。低于 200 亿估值的 Tier 2 大模型公司也早已转向,切垂直细分方向。

随着 Claude 3.5 Sonnet 等国内外多家大模型强势发布,性能大幅提升、达到了产品需求,各项指标测试甚至超过了 GPT-4o,OpenAI 不再一枝独秀。大模型变成“电力”资源的趋势已十分明显。

一家专注 AI 代码生成的创业公司就告诉雷峰网,2023 年他们还需要围绕贴着大模型开发,这种模式的问题是但凡一家的大模型有更新、产品就要进行调整。但今年上半年,他们在应用开发中搭建了较大的容错系统后,可以同时接入 5 个底层模型,并根据产品需求调用不同模型的最长处,比如纯写代码时调用 Anthropic、指令遵循时调用 OpenAI。

在此背景下,我们认为,长期来看大模型市场只会存在三层商机:底层基座模型提供商(类比发电厂)、中间云厂商(类比国家电网、南方电网)、上层 AI 软硬产品应用(类比电冰箱、电风扇等电子产品)。

在发电厂、运营商、电气类产品这三个层级中,无论是模型还是应用的创业型公司,由于资金、人才与资源的积累,客观上至多只能选择两块战场、更多只能赌一个赛道。而由于基座模型训练的难度与资源要求高,行业的共识是,接下来更多创业公司的机会可能只有应用层,包括 AIGC 软件应用与 AI 智能硬件。

2024 年,OpenAI 仍在不断发布新模型,但值得注意的是,GPT-5 迟迟没有公布,虽然 OpenAI 发布了推理模型 o1,却并没有改变整个大模型格局。加上过去一年 OpenAI 流失多位核心技术骨干,人才在各个组织间流动、模型训练技巧几乎不再有秘密,下一代基座大模型的发展也面临更大变数。

这些变数可能是:推出下一代基座大模型的公司不一定是 OpenAI;能够推出下一代基座大模型的公司也不再只有 OpenAI。

据近期雷峰网与多位行业人士的交流,大家就接下来有望推出下一代基座大模型的团队所需能力达成的几个共识是:一是具备顶尖人才团队,二是账上有足够多的钱,三是能有大量的训练数据。高质量训练数据匮乏的解决途径包括仿真合成、用户交互或真实世界数据收集等。

也因此,更多观点认为,基座大模型的玩家会收敛到资金人才齐备的大厂、以及极少数创业独角兽上。国内大厂中,只有在基座模型上具有领先身位的百度、以及阿里、字节有一定机会。

尽管近期曝出 DeepSeek V3 的训练不到 600 万美元,但行业公认下一代基座大模型的训练成本仍是天文数字。

参考大模型的技术发展路径,不难看出基座大模型的成本会走向两个极端:

2020 年 6 月 OpenAI 推出千亿模型 GPT-3 后,大模型技术两年没有重大进展,2022 年 5 月 Meta 仿照其推出的同等参数规模大模型 OPT-175B 所需计算成本降为 GPT-3 在 2020 年的 1/7。(更多内容可以阅读雷峰网 2022 年报道《薛定谔的 AI 大模型》)但与此同时,OpenAI 在 2023 年之后推出下一代基座模型 GPT-4 的训练成本是 GPT-3 的 10 倍以上。

也就是说,基于或借鉴已有大模型进行二次训练或优化的计算成本下降是必然趋势,同时推出下一代参数规模更大、智识水平更高的基座模型成本上升也是意料之中。诸如 DeepSeek V3 的技术成功是杰出的,但万丈高楼平地起必然比站在巨人肩膀上摘果子的难度与投入更大。根据其他媒体的报道,OpenAI 训练一遍 GPT-5 的算力成本就高达 5 亿美元。

前零一万物首席架构师潘欣就告诉雷峰网,他认为大模型公司在“国内的第一梯队一年要烧 10 亿美金,国际一年可能要 50 亿美金”。10 亿美金的数字是推算出来的:训练一次多模态大模型大约需要 1000 万美金,一个模型可能要进行上百次实验。因此,下一代大模型的牌桌从资金实力上就已筛掉一批人。

在海外硅谷,近期 GPU 的价格下降也十分明显,算力不再像之前那么紧张。造成这一现象的原因主要有两个,一是供应量加大,二是需求量减少,海外也从 2023 年的模型自训练转向直接调用 API。这说明海外的基座大模型玩家也已收敛到头部大厂或创业公司。

2023 那年,国内大厂包揽模型、云与应用的态势还不算明显:字节虽有云雀大模型、也已推出豆包,行业声量上只有火山引擎站位突出;阿里虽然在云和模型层有一定累积,但多集中在TOB场景,C端AI应用步履缓慢。百度虽布局 AI 十数年,技术积累明显,在模型-云-应用也均有布局,但在大模型落地的产品、应用、场景、生态上仍在下功夫。

到了 2024 年,阿里旗下的AI应用通义正式从阿里云分拆,开始在C端发力;字节重金招入大批人才,在豆包推广上投入大量预算。百度在行业大模型与C端应用上共同发力,实现一批场景的商业化验证。至此,百度、字节、阿里形成大厂集体阵容,在战略布局上与创业公司形成了明显的优势差。

我们预计,2025 年,在大模型领域,无论是基座模型层还是 AI 应用层,大厂与大厂之间、大厂与创业公司之间、创业公司与创业公司之间的鏖战都会更加惨烈。无论从数据、人才与资金,大厂都占了更大优势,但我们也相信,或许有意想不到的黑马会冲出。

02  大厂们的筹码

百度、字节、阿里能够在基座模型、云服务厂商与上层应用中均有布局,这是大厂押注大模型浪潮、应对不确定性的安全牌。不过,这几家大厂是否会选择竞争下一代基座大模型(包括文本与多模态),云厂商如何兼顾自家模型与开源模型,以及应用层选择 B 端、C 端还是智能硬件或机器人等,也将决定接下来各家在大模型市场中的生态位。

目前各家布局也有所特色:

基座模型层,百度的投入与态度都很坚决,且不采用赛马机制、而是统一组队,团队成员是过去 2024 年相对较稳定的。而阿里、字节等大厂在文本、图文或视频上或多或少有资源竞争与团队竞争,赛马制明显。

云服务层,火山引擎绑定豆包与即梦、同时获取其他创业公司的基座模型授权;百度重点打头部国央企等客户,目前已有六成在使用其AI服务;阿里云则一贯,买买买,投资凶猛。

应用层,百度与阿里同时发力 B、C 端。B 端与行业头部客户共创行业大模型,C 端百度有AI搜索、文库、网盘等业务,阿里则以夸克搜索、通义App为主要抓手。百度、阿里、字节也都使用自家基座大模型升级内部产品,其中百度更是重在业务重构。字节的优先级不在行业大模型,主要聚焦在多模态 C 端应用开发,发力豆包、即梦、剪映等。

AGI 真正到来之前,最终赢家还未确定。对大厂来说,全面布局基座模型、云服务与应用端均有布局的优势是能保底增收、以守为攻,难点在于资源分配、组织协调与执行效率。

在下一代基座模型的牌桌上,百度、阿里、字节三者也展现出不同的优势。阿里是生态打法,对外投资和模型开源都是希望能把更多大模型玩家聚集在自家平台上。而字节延续一贯的土豪打法,结合算力储备、C 端产品生态闭环为多模态基座模型的训练提供支持。百度作为国内最早在大模型上投入的企业,在行业认知、模型技术积累和B、C端数据层面都有一定的领先优势。

单从基本盘来看,百度在竞争下一代基座模型上胜率较高,关键在于其要保持甚至超越原有优势。

算法积累时间长、技术系统完善、团队人才资深稳定、资金雄厚,都决定了百度可能是接下来极少数几家能够推出下一代基座大模型的中国公司之一。近期知识产权解决方案提供商 Questel 发布的《2024 深度学习专利全景报告》显示,从 2011 年到 2023 年,百度在深度学习和大模型领域申请专利数位居全球第一。其中,百度大模型创新表现出色,大模型专利申请283件,中国排名第一,腾讯第二、阿里第三。

全球深度学习专利企业申请人排名

此外,基座大模型在百度内部的战略优先级、丰富的 B/C 端数据来源也会是百度差异化竞争条件。

之所以谈到战略优先级,是因为 2024 年全球已有多家公司宣布退出或减少大模型的预训练投入,技术优先级从大规模预训练转向微调、指令优化或现有模型的行业适配优化,战略制定以商业化考虑为先。但据了解,百度仍在继续投入预训练,并预计在 2025 年年初推出下一代文心大模型。

当技术不再是秘密、大模型的发展走势也更清晰时,在一些关键问题的抉择上,决心比能力更能决定未来的形态。以基座模型的升级为例,当下一代大模型的训练投入成本从千万美金上升到 5 亿、10 亿,一些团队即使有能力参与竞争也可能会因为商业的考量而退出竞赛。风险高的牌桌不适合筹码过少的玩家,只有能够自我造血、且有坚定技术信仰的公司能够顶住压力,继续往下摸索。

百度从 2010 年前后开始全力转向人工智能,曾一度因为布局过早而踩了许多先行者注定要踩的坑,但也因此提前赶上了 AI 的浪潮。根据百度多次公开披露,多年来百度一直将超过收入所得的 20% 用于人工智能等技术的研发,研发占比远超其他同规模大厂。

在战略驱动的胜利下,百度在 2023 年 3 月推出中国第一个类 ChatGPT 产品文心一言,同时基于文心大模型与各行各业共创行业大模型。除了文心一言,也是在 2023 年,百度内部提出用大模型技术对全线产品进行重构,百度文库、百度网盘、自由画布等产品也因此得以在 2024 年冲出。

与创业公司相比,拥有庞大业务线的大公司,实现能够打破公众预期、引人瞩目的创新通常需要更高的门槛。但不得不承认,百度 C 端 AI 应用的发展比我们想象地迅猛。

以百度文库为例。据百度官方消息,百度文库在国内的付费用户已经突破 4000 万。根据其他媒体报道,截止 12 月底,百度文库仅 AI 功能的月活跃用户数已超过 9000 万,该数字仅次于 ChatGPT 的 3.1 亿,位列全球第二。相比之下,豆包的月活跃用户数是 5000 万规模。

不论是文心一言还是百度文库,百度在C端产品上的先发优势仍在持续起作用,对用户心智的抢先占领,决定了市场份额。尤其在付费的情况下,用户极少会更换产品使用。在海外 ChatGPT 的 C 端收入仍难被超越也是同一逻辑。雷峰网

根据数据飞轮的原理,越早形成网络效应的C端大模型产品,就能越早形成数据飞轮,促进大模型智能进化。因此,在C端应用上的优势,不仅是商业化成功的验证。从数据的角度来说,也是百度的筹码之一。

从行业上看,高质量训练数据的匮乏已经成为下一代基座大模型训练的重要影响因素之一。

GPT-4 的参数规模是 1.6-1.7T,行业猜测 GPT-5 的参数可能是 10T 以上,也就是说下一代基座模型所需的数据量大约是现有的 8 倍以上。在 NeurIPS 2024 上,Ilya Sutskever 宣称预训练命运终结的主要原因就是,我们只有一个互联网,训练模型所需的海量数据即将枯竭,唯有从现有数据中寻找新的突破、AI 才会继续发展。Ilya 预测的数据突破口是智能体、合成数据与推理时计算。

也就是说,在大厂之间关于下一代模型训练的竞争中,率先实现数据飞轮的公司将有更高的胜率。

在这个问题上,百度的数据优势包括:1)百度搜索引擎带来的大规模中文数据。2)百度智能云积累的企业场景数据。3)文心一言、百度文库、百度网盘等 C 端应用产生的用户交互数据。4)自动驾驶产生的大量高质量多模态数据。5)知识增强技术提高优质数据的利用率。6)完善的数据安全使用体系。

百度的 B 端与 C 端业务同时与模型结合,率先形成数据飞轮,有望帮助大模型训练解决高质量数据稀缺问题。雷峰网

除了基座模型与 B、C 端应用,中间层的算力与 API 服务对大厂也是考验与机遇同在。当越来越多 AI 应用公司出现,大厂们能否在稳住底层与上层实力的同时,扮演好中间的服务商角色?

尽管现在国内的 AI 应用团队还不够多,星星之火仍未燎原,但当前的大模型应用商都已将多个模型接入应用底层、按需调用。在未来,一个任务可能是 4、5 个模型一起完成。唯一的问题是,现在大模型都分散在不同的云厂商手中,且相互之间不兼容。从用户的体验看,如何低成本调用不同厂商的基座模型是他们最关心的问题。雷峰网

一位 AI 代码生成的厂商向雷峰网评价,最理想的模式是通过一家云厂商能同时接好几家大模型。从价格模型看,每家云厂商都需要拥有至少一个主打模型,同时拿到其他模型的授权或自己投入开发多个类别的基座模型。但在方便 AI 应用开发的角度来看,无论海内外,许多云厂商的产品开发体验仍处于起步阶段。

由于基座模型的不断迭代,百度在中间层的基本盘已能稳住。此外,飞桨平台为文心大模型提供高效的训练和推理支持,为开发者提供完整工具链和开发环境,在争夺开发者与企业开发生态上有优势。百度自建数据中心和 AI 专用加速硬件,昇腾芯片和其他国产硬件的支持增强了技术自主性,也能很大程度上规避外界因素的影响。

总的来说,2025年,中国大模型格局从百模大战到大浪淘沙,进入快速的洗牌期。接下来一年中,或将有更多创业公司在下一代基座模型竞争中退场。从如今的战略决心和粮弹储备来看,留在下一代基座模型升级道路上,始终稳坐「大模型牌桌」的可能只有百度、字节、阿里等大厂。可以预见,2025年的大模型竞争格局也将就此打开全新的局面,大浪淘沙下,众者进入深水区。

]]>
人工智能 //m.drvow.com/category/ai/kVxhRYQRpNf9Nh8f.html#comments Tue, 14 Jan 2025 14:52:00 +0800
AI 科学家获诺奖后:从 CASP 看蛋白质结构预测的机遇与挑战丨GAIR Live //m.drvow.com/category/ai/0nuPls59UixWoHrD.html 作者丨朱可轩

编辑丨陈彩娴

“AlphaGo、ChatGPT 都是新科技突破的代表性工具。而在科学领域蛋白质结构预测获得诺奖就是 AI 巨大突破的高光时刻,诺奖之后 AlphaFold 的研发模式已经成为 AI for Science 的样板。”程建林说道。

2025 年 1 月 5 日,雷峰网、AI 科技评论GAIR Live 品牌与 CASP 评估的优秀华人团队联合举办了一场主题为“诺奖之后的新篇章:蛋白质结构预测的机遇与挑战”的线上圆桌沙龙。

圆桌主持人为江苏理工学院教授常珊,并邀请了密苏里大学计算机系教授程建林、山东大学教授杨建益、南开大学统计与数据科学学院教授郑伟、浙江工业大学信息工程学院教授张贵军以及江苏理工学院研究员孔韧共同开启了一场深度对话。

常珊是江苏理工学院教授,现任中国细胞生物学学会功能基因组信息学与系统生物学分会委员,中国疫苗行业协会疫苗基础研究专委会委员,中国中医药信息学会中医临床药学分会理事。

程建林教授目前供职于美国密苏里大学计算机系,他 1999 年赴美留学,2006 年在美国加州大学尔湾分校获得了博士学位,并在 2004 年便开始参加 CASP,先后已经参加了 11 届。

杨建益则是山东大学教授,他自 2011 年开始在密西根大学跟张阳教授做结构预测,至今已有十余年。南开大学统计与数据科学学院教授,传染病预防与溯源全国重点实验室成员,郑伟教授也是在张阳教授实验室开始的结构预测的旅程,从 CASP12 起已经参加了5次 CASP——近 10 年的比赛。

张贵军是浙江工业大学信息工程学院教授,做蛋白质结构预测有十几年时间了,先后参加了两届 CASP。孔韧当前是江苏理工学院的研究员,博士开始和常珊教授一同在北京工业大学王存新教授的实验室做分子模拟以及蛋白质复合物结构预测。2015 年回国后,同常珊教授在江苏理工学院组建了研究所,从 CASP13 开始参加。

几位嘉宾都参加了本次第十六届 CASP(Critical Assessment of Protein Structure Prediction)。CASP 作为自 1994 年以来每两年进行一次的全球蛋白质结构预测竞赛,杨建益将其比作诺奖的“孵化器”和科学研究的奥林匹克。

在此次圆桌会上,大家一一分享了参加 CASP 的心得,以及对于领域前沿进展和突破的洞察,单序列结构预测、多构象预测、RNA 结构预测、蛋白质-小分子复合体预测等也成为了下一阶段亟待得到突破的问题:

郑伟说道,“今年整体看 RNA 赛道无论是难度、数量还是细化上变化都非常明显。也可以看出整个领域在蛋白质结构预测发展得相对来说比较成熟的情况下,大家的关注点可能渐渐要往 RNA 结构预测上产生一定倾斜了。”

同时,“多构象也是 CASP 一直想要增加的赛道,但是鉴于往年多构象的数据不太好采集,今年是首次作为独立赛道设置了比赛,预测好多构象对后续的整个动态过程预测很重要。”但当前囿于真实数据的不足,还未能实现大的突破。

而在小分子预测方面,据孔韧介绍,“ AlphaFold 相对于传统对接方法,已经表现出优势,在某些靶点上比传统对接方法要强,将来感觉可以把传统的对接方法和 AlphaFold 的深度学习方法结合起来做综合考虑和使用。”

不过, AlphaFold3 在使用模版和选择模型等方面仍存不少提升空间。值得一提的是,嘉宾们也针对诺奖“预备役”展开了探讨,其中单序列结构预测被屡次提及:

杨建益认为,“单序列结构预测研究的是蛋白质折叠问题,AlphaFold 与 ESMFold 等方法本质上是数据驱动的结果,并未涉及蛋白质折叠问题。如果未来蛋白质折叠问题解决了,也将会是诺奖级的工作。”

程建林同样看好,他表示,“单序列的结构预测是经典问题,当前 AlphaFold3、AlphaFold2 都依赖于多序列输入,但是很多时候只能找到一个序列,能否精确预测出结构,这甚至可能产生第二个诺奖。”

以下是此次圆桌讨论的精彩分享,AI 科技评论进行了不改原意的编辑整理:


CASP 16 的进步与突破

常珊:我们这次圆桌专注于结构预测方向,主要是受到 CASP 评估会的启发,结构预测还有很多可以探讨的问题。今天一共有八个议题,四个偏专业,四个偏科普。这次很多华人团队都线下参加 CASP 评估会,对 CASP16 评估会有哪些印象深刻的事情?

程建林:这次 CASP 给我的印象一是参加的团队比以前多,二是大陆科学家取得了了不起的成就,包括在座的老师,这次 CASP 大家在所有领域都达到了世界前列的水平。

杨建益:2024 年是我第一次线下参加 CASP,从观众角度来讲,我印象最深的是会议全程四天,参加会议的人都在,不像很多会议大家参加到一半就走了,这是很大的区别。从组织者到报告人大家都非常专注,CASP 能坚持 16 届 30 多年,我很感动。感觉 CASP 有点像诺奖的孵化器,大量结构生物学家、计算生物学家坚持长期主义,艰苦奋斗,长期量变的积累才有了今天的突破。

郑伟:刚才建林老师提到,中国大陆的参赛团队明显变多,我想补充一下,其实整个亚洲的团队数量都是明显变多的,上届日本的团队不少,这届明显感觉韩国的参赛团队数量不少,整个亚洲的团队数量可能差不多和欧美的持平,甚至快反超了。

近年 CASP 更倾向于解决实际的生物学问题,它的重要意义在于能指导结构生物学整体的发展方向,包括计算结构生物学里我们到底应该做什么、这个方向的发展前景是什么。比赛其实更关注这种本质的问题,而不是为了比赛而比赛。

线下评估会主要在讨论赛制或下一届比赛应该怎么做,这也是很多学者不愿离开会场的原因之一。然后是近些年尤其是 CASP16 工业界课题组参赛热情其实明显下降了,大家可能都去卷大模型了,剩下学术界课题组还在坚守本心(笑)。

张贵军:我今年没有去会场,但看了现场 PPT 以后,非常赞成 CASP 是实验而不是竞赛这一原则,它更加关注的是生物学的 insight,而不仅仅是排名,这也估计是 CASP 评估的魅力所在。

孔韧:我是第一次在线下参加 CASP,现场氛围确实非常好,讨论也十分激烈。以前我们总说折叠问题或者复合物结构预测问题,以 AlphaFold3 为代表的深度学习方法对于结构预测领域的每个特别问题都给出了相应较好的解决方案。

然后我听了第一天主席讲的历史,他坚持在这个方向做了 30 年,整个科研生涯都坚持在解决结构预测的问题,我对此非常感慨,这是我们生命科学领域非常核心的存在,任何一个细胞或动物层面的生物特征,追其根本是生物大分子的结构问题,结构正常或异常和生物学功能关系密切。

往届比赛算法还不太发达,我们解决的主要是单体结构问题,但在整个细胞体系中,更多的是蛋白质 DNA、蛋白质 RNA 或者小分子形成的复杂体系,CASP 也可以看到解决复杂体系问题的趋向了。然后整个作用的过程是动态的,基于此,组委会提出将来要发展算法解决动态结构预测问题,这对生命科学研究来说意义重大。

常珊:我们进入下一个议题,本次比赛在蛋白质预测方面有什么新进步?以及今后的发展趋势是怎样的?这个问题请杨建益和程建林老师来讲一下。

杨建益:蛋白质单体结构预测是 CASP 从第一届到现在一直都有的主题,这一届跟以往的区别在于分阶段预测,分为 phase 0、1、2,phase0 只提供序列信息,但不知道化学计量,这个预测比较有挑战性,如果这部分预测错会使结构预测得很差。第二阶段会告知化学计量信息,第三阶段提供了 MassiveFold 生成的基于 AlphaFold2 的 8000 个结构模型,供预测者挑选,从而改进预测结果。

进步方面其实是增量性的,许多团队都是用 AlphaFold3、AlphaFold2 或自己的方法结合起来,其中有两个 Baseline,AlphaFold3 的 Baseline 是 AF3-Server,AlphaFold2 的 Baseline 是 ColabFold,从 Baseline 来看,AlphaFold3 和AlphaFold2 相比确实有一定改进,但并不显著,但 AlphaFold3 功能更全、可预测更多类型的生物分子结构。

还有个较大的进步在于抗体-抗原复合物结构预测。Dima 团队结合 AlphaFold3、AlphaFold2,以及物理采样方法 CluPro,通过 FFT 对接,生成大量候选结构模型,最后基于聚类和打分,筛选最优结构模型。但评估数据集较小,CASP16 只包含 8 个评估对象,不确定这类方法对于抗体-抗原复合物结构预测的泛化能力。

常珊:其实大家常有讨论在预测过程中,人工干预究竟能起到多大的作用?

程建林:我觉得人工干预在选模型上是很难的事,因为当有几个很不同的AlphaFold2 或 AlphaFold3 产生的结构,看起来都有可能,分数也差不多,很难确定哪个结构更好。

但在有些方面人工干预是有帮助的,特别是化学计量 phase0 的预测,这是个新引进的项目。很多时候我们不知道化学计量,而要预测结构需要先预测化学计量,这部分人工干预是有用的,因为可以去找现有的模板,这个模板提供有效的信息,然后结合这些信息产生结构模型,用模型的分数来评估。

然后,这次还有一个挑战在于 AlphaFold3 是在比赛中间放出来的,在比赛前很多实验室的系统已经在 AlphaFold2 的基础上建好了,那 AlphaFold3 出来要怎么变化或快速反应,能不能马上接受并有效使用,也是影响实验室成绩的因素。郑伟老师就跟我讲他本来用 AlphaFold2 做得很好的,但是完全没有用  AlphaFold3 ,所以表现就稍微下降了一点。

AlphaFold3 其实在大的复合物折叠上功能上要比 AlphaFold2 好,特别是当有很多蛋白质时,AlphaFold2 产生不了很好的结果。此外,我也关注到在蛋白质和小分子复合物的预测中,有一项进展是人工智能方法赶上甚至超过了传统对接方法,下届 CASP 可能整个领域的水平都会上一个台阶。

有关发展趋势方面,感觉结构模型排序问题、选择问题和质量评估问题都很有挑战性。以前领域中主要障碍在于如何产生好的结构模型,现在很多时候能够产生好的模型,抗体、抗原都能产生正确的结构,但无法选择出来,这个问题没有彻底解决。

化学计量的预测也很重要,目前 CASP16 中有的方法已经能在一定的人工支持下实现高性能,达到百分之七十几的精度,但如何自动化以及继续提高是很重要的。还有一个问题聚焦于大的复合体预测,就是当复合体中有几十个或更多蛋白质形成时要怎样预测结构,AlphaFold3、AlphaFold2 也没有完全解决这个问题,这是之后需要突破的重要方向。

另外,单序列的结构预测也是经典问题,当前 AlphaFold3、AlphaFold2 都依赖于多序列输入,但很多时候只能找到一个序列,能否精确预测出结构,这甚至可能产生第二个诺奖。

最后是人工智能,当前人工智能在蛋白质和小分子方面都已取得了突破,接下来会有很多应用,但我比较惊讶的是,在核酸结构预测中人工智能还未超过传统方法,陈世杰老师这次在核酸 RNA 结构预测中取得了最好的成绩,也用了 AlphaFold3,但大量使用的还是传统方法,近两年可能会看到人工智能的超越。


蛋白质预测新问题的挑战和趋势

常珊:单序列的蛋白质结构预测有可能揭示了蛋白质结构的一些机制,这是很重要的,核酸结构预测我们后面也会讨论到。程老师刚刚也提到了蛋白质模型的排序、质量评估,还有蛋白质的多构象、复合物的问题,这也是目前比较有挑战的部分,正好引出了我们的第三个议题蛋白质复合物组装以及多构象预测,蛋白质模型质量评估等新问题,请郑伟老师和张贵军老师给大家介绍一下挑战和发展趋势。

郑伟:我先讲一下模型质量评估,目前在复合物结构预测中比较麻烦的问题在于,我们通过大量采样,复合物备选的模型中其实有很多是接近于真实结构的,但还是默认的 QA 打分,模型的置信系数没法把最好的排到前面,在我们开发的方法里,这个问题比较大。刚才建益老师也提到了抗体问题,今年赛后我们看了一下整个模型池,这几个抗体复合物我们也做了大量采样,结果也有很多正确的模型,但它们在排序里很低,这就引出了独立 QA 方式的问题。

今年蛋白质模型质量评估问题上有几个变化,往年大家倾向于做其他参赛者提交的模型排序以及常规的 QA 评测,今年引入了 MassiveFold 的模型质量评估,集成了各种改造版的 AlphaFold2 模型,大概产生 8000 个模型,CASP 有一个赛道就是在这些模型中重新选择结果比较好的。另外,现在的 CASP 可能也更关注模型的自评估,这是从 CASP14 开始引入的,作为最后所有评估参赛表现的其中一个指标,QA 在整个蛋白质结构预测领域其实也日渐被重视。

但这个领域很难,我们今年也尝试了参赛,赛前我们做了一个 QA 评估,想用其他第三方 QA 来给模型重新打分,但基本所有第三方都没法把我们的模型选好,所以我们就想能不能不用 QA 选模型,而是用模型反作 QA,因此我们构建了一个 QA 深度学习模型,然后用我们的模型做为主要的参考对其他模型进行 QA 打分,这又引出了一个问题是 QA 到底应不应该脱离结果预测单独去做,不过这部分问题可能还需要和建林、贵军老师讨论一下。

蛋白质复合物组装这部分除了加入了 Phase0、1、2 之外,整体的体系也在变大,以往复合物组装都是比较小的体系,就是两个蛋白或者这两个蛋白 copy 数不太多,化学计量数也比较小,A1B1、 A2B2 都算比较大的了,整个体系就是一两千个氨基酸,今年大的复合物变得特别多,有的体系里可能包含了十几个蛋白,甚至有的整个体系下来七八千个氨基酸。今年整个复合物的组装,一是化学计量变得更加复杂,二是复合物的体系变得更大,整体感觉变难了。

多构象这块其实是今年 CASP 一直想要增加的赛道,但鉴于往年多构象数据不太好采集,今年是首次作为独立赛道设置,相对其他赛道,多构象不到 20 个结构,数量非常少。多构象在生物学里其实很重要,因为生物过程不是静态的,我们预测蛋白质结构其实大部分都是看某一个结构中间的状态,是静态的过程,但多构象是动态的,这对后续整个动态预测很重要。

但今年一是赛题难度大,二是没有明确的评测指标,还处于起步阶段,多构象预测相对其他赛道更难,数据量比较少,很难训练一个比较常规的深度学习模型预测所有多构象问题,所以处理起来要 case by case,每个 case 都要人工花费很多精力。

从前景上来讲,AlphaFold3 里用的扩散模型的结构模块比 AlphaFold2 基于 Transformer 的结构模块在 Benchmark 的时候效果好些,多构象预测比较好的发展方向是生成模型或 Diffusion 模型。

张贵军:模型质量评估听起来简单,但是实现并不容易,现在的指标体系从单体迁徙到复合物上还存在很多问题,所以在 CASP 中针对复合物的模型质量评估也增加了很多的改进,比如在局部指标增加了 PatchQS 和 PatchDockQ 指标,在 CASP16 中,我们实验室开发了一个基于两个单模型和一个共识方法的 QA 框架,一般来讲,通过共识方法判断模型是否合适会受限于预测方法,因此,从 EMA 赛道的设置的初衷而言,发展单模型方法是重点方向之一。

EMA 整体上需要考虑打分、排序、选择三个不同步骤,它们之间是有区别的。对于一个复合物模型而言,打分的对象有很多种,包括全局、局部、接口残基、侧链、原子的评估分数,然后将这些分数需要整合排序,最后根据生物学需要挑选出感兴趣的模型。目前方式是挑选最佳模型,但在生物学功能问题中时,如果存在多构象问题时,单一的 TOP1 选择方式并不理想。因为复合物模型可能存在两种或以上的稳定功能构象。此外,CAPRI、CASP 在模型质量评估及打分方面的指标也是有区别的。在本届 CASP16 中,除了 Guijunlab-QA 之外,我们实验室还分别开发了 Guijunlab-Complex、Guijunlab-DeepAssembly 两个服务器参加了复合物建模类别,通过盲测分别验证一下 MSA 和模板两个因素在高精度建模中的作用。

郑伟老师的工作做得非常好,这也说明了从目前来看结构预测方法是超前于模型质量评估方法的,预测做得很好,预测的评估也会做得很好。但也会存在全新、预测做得不太好的蛋白,或者参赛队伍间差异性较大的情况。此外,这届 CASP 也考虑到了实验结构的可靠性,从上届开始组委会就已经在考虑是模型预测错误还是实验结构测定误差的问题了,这也表明计算建模方法已经成为实验测定方法的有效环节。

化学计量学的评估也比较重要一个新问题,预测方面出现的新挑战在评估方面都应该考虑。比如二聚体、三聚体、四聚体等计量学问题不仅可以搜模板,还可能从 MSA 中分析得到接口指纹,然后通过指纹判断保守性的方式去解决。如果考虑到模板和 MSA 的话,实际上又归到序列层面相互作用的问题,目前,我们也在针对基于序列的蛋白质相互作用方面开展工作。

另外一个需要关注的挑战是多构象的问题。我一直想跟大家讨论 MSA 在建模和评估方面的双刃剑问题。CASP 多构象建模实践表明,在 AlphaFold 中使用不同的 MSA 配对确实可以产生不同的构象,而且已经有成功的案例,是目前多构象预测的基本流程。但是,从第一性原理的角度来看,多构象信息应该包含在其序列之中。我觉得多构象预测之后应该可以从以下几个考虑,通过蛋白质序列语言模型(也就是 AI)的方式,直接从单序列出发捕获构象变换的语义关系;第二个方面直接在第一性原理上基础上,考虑氨基酸的物理化学性质去预测动态构象。多构象模型精度评估同样需要考虑以上问题,从序列语义、物理化学的第一性原理考虑去研究。最后我想谈谈 EMA 评估的指标体系,除了目前考虑的全局、局部、残基之外,化学计量学的评估指标体系建立也很必要,在算法排序中,选择 5 个模型中的 Best 模型可能更加合适,因为多构象、实验测定误差以及特定生物学场景需求,使得 TOP1 模型的并不是最理想的选择。

还有一个问题我也想和各位老师探讨,从我们现在的 EMA 角度来看,接口残基的辨识率和精度两个指标在 CASP 16 里存在冲突。本届 CASP 16 给出了这两个指标,但填写精度数据时只给了一个地方填写,现有的 PatchQA 和 PatchDockQ 是否有足够的惩罚使得两个指标一致?其 Rank 权重能否真正体现精度就是接口的可能性。最近我们重现了一下,如果不太考虑精度的话,接口辨识成功率是可以提升很多的但精度会下降很多。

在蛋白质复合物预测方面,我们专门从 MSA 改进方面开发了一个 Guijunlab-Complex 服务器,从模板改进方面,开发了一个 Guijunlab-DeepAssembly 服务器进行测试,此外考虑到远程模板的重要性,开发了一个主要用于单体预测的 Guijunlab-Pathreader 服务器。从盲测测试效果上来看,基于 MSA 该进的性能优势还是明显的,这表明目前 AlphaFold2 和 AlphaFold3 在这个领域的成功应用,MSA 的改进仍然是目前的主流方式。

目前需要努力的方向在于化学计量学的预测,这部分工作的开展需要综合考虑 MSA、模板的因素;另外,弱的交互作用的复合物预测也是 AI 方法的挑战性问题,之前我们一直认为缠绕蛋白很难预测,但 AI 出现后已经有了一些成功案例(由于存在较大的接触面积),与此相反,接触面比较小的蛋白如果采用传统组装方法是相对容易实现,传统方法和 AI 的整合,可能是应该此类问题的一种有效方式。

我也想请教程老师,多构象预测方法目前都是以不同的 MSA 配对、选用不用模板、调参生成大量模型,更为理想方法的应该是直接基于单序列。如果是基于 MSA 方式话,在不同的化学计量学下,可能存在的不同聚合关系,这种聚合关系使我们很难去完整预测所有灵活构象。

除了刚才说的这些问题之外,还需要注意的是,设计的算法应该是一个明确的、有界的步骤。目前广泛采用 AlphaFold2、AlphaFold3,虽然考虑了精度,但并没有充分地考虑时间复杂度和空间复杂度这两个算法指标。之后 CASP 比赛中应该会考虑算法的效率问题。另外我觉得目前多构象预测领域存在的挑战还是数据问题,现有的 MSA、模板数据是否能支撑推断出动态信息,或者是否有良好整理的分子动力学模拟的数据。现在 AI 生成模型存在幻觉,但蛋白质是不允许存在幻觉的,PDB 库中的动态结构、良好的 MD 数据将会有效地克服这一问题。

程建林:多构象预测现在有很多人开始做,最近微软也开发了一个软件预测分子动力学的模拟结果,这个领域非常重要,但问题在于没有足够的真实实验数据来训练模型。

理论上来说可以用多构象的实验数据来微调现有的模型,比如微调  AlphaFold2、AlphaFold3,让其产生多构象,甚至从单序列能够产生多构象的结构,但做实验拿到多构象的真实数据比较困难,我不知道现在蛋白质结构 PDB 数据库中有多少这样的数据能支撑我们的训练,这是制约领域发展的重要问题。

质量评估和结构预测放在一起还是分开这个问题也很重要。自我的质量评估是有必要的,但同时从用户角度来说,用户需要用不同的软件来产生模型,然后得到质量的评估,他们更需要的是独立的、甚至是单模型的评估方法帮助他们选择模型。另外是共识和单模型的质量评估方法,共识方法其实是很简单的,就是看模型之间的相似性,然后进行排序,问题在于单模型方法还没有突破共识方法,这是我们需要做的工作。

张贵军:所以应该鼓励单模型方法,而不是共识基线方法,这样可能会压制单模型方法的开发。

程建林:是的,我们也试了几种方法,共识方法、单模型方法和共识、单模型的组合方法,最后在 CASP 的比赛中共识方法还是超过了其他方法,虽然单模型和共识结合的方法在我们自己的实验中比共识方法好。共识方法目前没有什么大的突破,但是设了一个很高的界限,其他的方法还没有系统地超过它,如果有一天单模型或少模型的方法能超过共识方法的话,这个领域才算取得了重要突破。

张贵军:那现在自评估 AlphaFold2 里对一些无序片段的评估质量并不是太高,是不是意味着存在独立于 AF 的第三方的预测和评估方法是非常有的必要的。

程建林:我觉得完全有必要,现在自评估其实也不错,但有时高估一些模型的质量,所以需要独立的质量评估。预测问题是产生结构模型,而评估是选择最优模型,这是两个不一样的问题,都非常难,甚至难度可能是一样的,只不过现在在结构产生上取得了很大的进展,而评估还需突破,但突破是可能发生的,目前评估的重要性已经被 CASP 提到了一个高度。


RNA 结构预测新进展

常珊:我们进入下一个议题,在 RNA 结构预测、核酸复合物结构预测方面,预测的数量和难度是不是都在提升?AlphaFold3 是否有明显优势?请郑伟老师和杨建益老师来介绍一下进展。

郑伟:我们今年是第一次做 RNA 赛道,今年 CASP 拔高了 RNA,上一届 RNA 只有十几个 target,大部分集中在 RNA 单体上,复杂度也不高,可能一两百个碱基已经算比较多,但这届 RNA 或 DNA 相关共有 60 多个。

RNA 和蛋白质复合物结构预测有点像,也分为 phase0 和 phase1,phase0 不告知几聚体,phase1 再告知,今年我们猜 phase0 不会太大,但意外的是大的 RNA 复合物比比皆是,14 个或 8 个 RNA 形成的复杂聚体非常多。

RNA 整个体系也很大,有好几个 target 都超过了 5000 个氨基酸,无论是通过我们自己的方法还是 AlphaFold3,都比较难预测。因为当时 AlphaFold3 的 Server 的最大提交长度阈值大概设在 5000,很多 target 超过 5000,参赛者不太好预测。今年 RNA 细分赛道也很多,去年只有 RNA 单体,复合物很少,而且去年只有两个蛋白质-核酸复合物target,今年大概十几个 target。

核酸小分子上次也完全没有 target,今年也设了几个,整体看 RNA 赛道无论是难度、数量还是细化上变化都很明显。也可以看出整个领域在蛋白质结构预测发展得相对比较成熟的情况下,大家的关注点渐渐要往 RNA 结构预测上产生倾斜了。

另外 AlphaFold3 在这个赛道上没有优势,不光这个赛道,AlphaFold3 在各个赛道上整体排名在 6 ~ 10 名之间,整体精度没那么理想,所以在结构预测这个领域,即使大家拿到了相同的 AlphaFold3 的 Server,用的过程中经验也很重要,这也是大家排名不一样的原因。

蛋白质核酸复合物结构预测是我们今年比较感兴趣的方向,往届受限于方法,很少有做蛋白核酸复合物的方法,发展主要在近两年,之前也有一些基于 Docking 或其他的方法,但纯 AI 完全从头预测是从 David  Baker的 RosettaFoldNA 提出来之后开始的,然后 AlphaFold3 把这个体系发展得相对来说比较好,但整体看这个领域还较难,主要原因在于有效的、能够用来训练的蛋白质核酸复合物数量不太多,大概 3 ~ 5 千个,这是制约蛋白质核酸复合物结构预测精度的原因之一。

今年其实还有几个 target 是抗体蛋白加核酸的复合物,整体来看,大家预测出的结果比蛋白质抗体-抗原复合物精度差很多,尤其在核酸这部分,基本大家预测的结果相对来说很差。

杨建益:我再补充一下,上一届 CASP 才引入 RNA,但那时只有 12 个 RNA,其中 8 个天然,4 个人工设计,人工设计最长有 700 多个核酸,天然的RNA都比较短,大概在几十到一百左右。

这一届类别明显更多,包括复合物、小分子,甚至有 RNA 跟水分子的互作,整体上预测起来非常困难,尤其是复合物类型。我们课题组做的 trRosettaRNA 主要针对 RNA 单体而言,当前可用 AlphaFold3 与 RoseTTAFold NA 预测蛋白-RNA 结构,但其性能依然不理想。

就 RNA 单体而言,预测跟上届比不见得更难,上届难在人工设计,这部分无论 AI 还是传统物理方法都做不好自动预测,但上一届比赛中熊鹏团队把人工设计的 RNA 做的很好。这届 RNA 的精度不比上次低,我们自己方法的在 RNA 单体的平均 RMSD 大概 15 埃,上一届是 20 埃以上,主要是人工设计的 RNA 做得不好,RMSD 都是三四十埃左右。

CASP16 的 RNA 通过 AI 预测的精度还是可接受的,但还没那么精准,人工经验还是比较重要,这方面和蛋白区别特别大,在蛋白结构预测中,人工干预不一定有特别大帮助,但 RNA 中人工干预挺关键的,排名前三的团队都是人工干预做了很多修正,包括人工构建二级结构、模拟产生数据后人工筛选、基于 MSA 调整结构等,过程非常繁琐,AI 很难把所有方面都考虑到。

自动预测好处在于会有许多人受益,我们提供了 trRosettaRNA 服务器,当用户输入的序列在训练集中存在相似数据时,自动预测的结构大概率会比较准确。自动预测的优点在于可以服务更多用户,我们服务器每天都会收到不少新任务。

自动预测是未来发展方向,虽然现在 AlphaFold3 优势不明显,但后面应该会越来越好,它精度不高的原因还是已有实验数据有限,刚才郑伟提到大概有几千个数据,但这些数据很多都来自同一类 RNA 或复合物,其中特别多 tRNA,我们服务器也经常收到这类序列,预测结构都挺可靠,但比较新的 RNA 做得并不好。蛋白结构预测六七十年积累下来数据库很大,有 20 多万个结构供 AI 学习,但 RNA 数据还太少,非冗余的数据就几百个,学不好可以理解。

上届比赛前几名都没有用到 AI 预测,但这届前几名都用 AlphaFold3 或 trRosettaRNA 辅助筛选或模拟,AI 的价值将会越来越大。我相信 RNA 数据积累是个过程,蛋白结构预测早期其实结构也不准确,现在的进步速度应该比之前要快,下一届应该会有更多的 RNA 参赛团队,结构预测精度应该会越来越高。

常珊:自动化的 RNA 结构预测非常重要,在 AlphaFold3 的文章里,其实在 CASP15 比较 RNA 结构预测的时候,结果其实差距不大,人工组还更占优一些,在小分子预测方面则显示出有比较大的提升,就像程建林老师说的,确实这一届的评估也展示了配体预测中 AlphaFold3 作为 Baseline 的结果,人工组没有超过 AlphaFold3,这也是有挑战的问题,请孔韧老师和程建林老师简单介绍一下。

孔韧:上一届比赛中更多是一个蛋白结合一个小分子,或者一个蛋白同时结合多个小分子,这样的问题更像是这个生物体系中蛋白质跟辅因子结合的预测问题,我们比赛结果非常好,因为用的是 template based docking的方法,那时 AlphaFold 还不能预测蛋白小分子体系,在这种蛋白与辅因子结合的问题中,有很多高度类似 template 能被找到。

这届比赛其实引入了更加现实的问题,就是一个蛋白作为一个药物靶点,我们通常在药物发现的过程中需要去评估它跟多个不同化学结构小分子结合的模式问题,以及结合的强度问题。这其实更接近于我们在小分子开发中会碰到的问题,这次 AlphaFold3 没有作为参赛者参赛,但在评估实验中表现非常不错。

这次一共有 L1000 到 L4000 四个 target,分别是四个药靶对应几十个到上百个小分子,AlphaFold3 在 L3000 中表现超过所有参赛组,在 L4000 上表现没那么好,在 L2000 和 L1000 这两个同源蛋白中,它在 L2000 上的表现稍微好一点。整体来看,AlphaFold3 已经表现出优势,在某些靶点上比传统对接方法要强,将来我们真正做药物研发时,可以把传统的对接方法和 AlphaFold 的深度学习方法结合起来做综合考虑和使用,产生更多有可能正确的 pose。

而这又带来这么多正确 pose 如何挑选的新问题,蛋白质结构预测中也会碰到类似问题,通常如果用 template base 方法很简单,就是如果能够在 PDB 库中找到类似的小分子、化学 atom type,或者类似的周围的 residue type 的话,根据相似性打分去评估,类似度较高的 pose 正确的可能性较大。

正确结构挑出之后,其实比赛也分了两个阶段,第一阶段是预测小分子的结合模式以及结合亲和力,第二阶段是告知全部晶体结构和结合模式,直接预测亲和力就行。但目前还没有特别好的方法能评估小分子,或者多个小分子对同一靶点的结合亲和力,将来我们也想往这个方向做。

程建林:孔老师提到 AlphaFold3 现在可能超过了其他方法,但其实还是有很多地方可以提高,比如怎么用模板、怎么选择模型之类的,同时也会有其他竞争方法出现,最近有方法自称超过了 AlphaFold3,但也还需要客观评估,另外这些方法各有所长,有没有可能结合在一起得到更好的方法也是可以研究的问题。

另外我的学生在评估主要的蛋白质小分子复合体预测的方法时,发现了一个问题是很多方法在训练之后的测试过程中,如果小分子跟以前训练数据中有一定相似性的话,可能效果比较好,如果不一样,性能就不可预测,那么要怎样提高这些人工智能方法的通用性,这是一个需要解决的问题。

蛋白质小分子结合亲和力的预测对筛选药物而言也非常重要,提供一个药物靶点,怎样筛选各种和蛋白可能有相互作用的小分子药物,哪怕不能预测结构,只要知道亲和力也够了。但这个领域还处于非常初级的阶段,其实跟排序、质量评估都是相关的,是个非常困难的问题,就像在所产生的上万个模型中随机挑选最优,这样概率会非常低。


结构预测的蓝海方向

孔韧:我的领域属于 CADD(药物辅助设计),后来因为 CASP 有了小分子赛道,我才更多参与到 CASP 的小分子结构预测中。CADD 领域也有很多传统  docking、binding affinity 以及结合自由计算方向的专家和团队,大家可以更多参与到 CASP 比赛中,因为 CASP 的数据集公布了结构、亲和力,可以用其数据集测试自己公司、课题组的 pipeline 是不是能很好地预测 binding affinity,我非常想看到这个方向有没有比较好的解决方案。

常珊:孔老师的观点正好和下个问题相关,就是 CASP 评估赛对产业的实际应用,比如对合成生物产业或生物医药的产业影响是什么?可以请张贵军老师和孔老师再给我们分享一下。

张贵军:只要跟生物有关的都和结构密不可分,这几年来医学、药学、农学领域的专家对结构都非常关注,因为它能揭示重要的生物学功能机制。

对于药学而言,药物靶标发现是比较重要的应用,随着目前焦点从的静态构象转向多构象研究,那么多构象之中的某一个可能是潜在的靶点。医学上抗体的进展也非常迅猛,这意味着在疫苗的设计中,包括检测、诊断、抗体治疗上,都有很多东西能探索。

合成生物学方面,结构的研究直接引起了产业的飞速发展,包括在可降解材料、绿色制造等领域,将成为有效应对全球变暖问题的有效手段。今年都快放寒假了,但是杭州天气还没有去年那么冷,环保问题是事关人类生存的重大挑战性问题。

孔韧:结构对生命科学相关产业都会带来一定影响,现在只是开始,随着工具应用变广,应用在具体问题上变多,影响会更深刻。

我们之前跟做基础医学的老师有合作交流,他们在解释很多蛋白功能重要性问题时,通常会用 coIP 或者 WB 来做,看两个蛋白是否结合、谁跟谁结合,我们建议可以用结构预测的方法从三维蛋白质结构的角度,看蛋白质结构跟功能间的关系、结构,以及如何结合另一个蛋白,哪个结构发挥了作用,哪个界面残基重要,用这些信息帮助他们做下一步实验设计。如果这样的结合对细胞表型、疾病表型有重要影响的话,还可以涉及多肽、蛋白、抗体、小分子去影响这个过程,最终关联到药物研发上。

合成生物学领域现在也非常热,当中就是用细胞工厂来合成想要的东西,细胞工厂里具体的执行者是蛋白质、代谢网络、代谢酶,其中限速酶是谁?限速酶是如何限速的?怎样改进限速酶的催化效率?限速酶跟它的产物如何结合?如果能知道底物结合与产物释放的动态过程,就可以找出其中的关键残基,对酶改造进行合理设计,这也是可以想象的方向。

常珊:我最近看到 Baker 在采访中指出了大概十几个有可能使用结构预测或者蛋白质设计的蓝海领域,是大家可以去关注的方向。还有哪些方向是诺奖之后,结构预测更好的发展方向,请程建林老师和杨建益老师分享一下。

杨建益:我觉得单序列预测如果把蛋白质折叠问题解决了,将是诺奖级的工作。要从单序列去预测结构,深入探索蛋白质折叠机理和问题还有很长的路要走。以后肯定会是 AI 主导的,通过 AI 不断迭代、更新,精度提高的同时,不断加深对折叠机理的理解。

此外,现在 AlphaFold 解决的是静态结构预测问题,现在大家关注的重点逐步从静态转为动态。因为蛋白质要执行生物学功能,主要是因为它在动,虽然我一直觉得只研究一条蛋白质的动态没有太大的意义,重点还是在复合物,因为动是有原因的,比如说跟小分子、蛋白、核酸互作。所以在复合物背景下研究动态构项变化是重要方向,但对于预测者、评估者来讲都很困难。

程建林:获得诺奖是对我们整个领域的承认,会产生很大影响,吸引很多人来学习结构预测。我觉得还有几个可能达到诺奖级别的工作,比如单序列结构预测,然后 RNA 如果能做到 AlphaFold2 当年对蛋白质结构预测的水平就已经达到很高的精度了,这也是诺奖级别的工作。

蛋白小分子复合体结构预测,虽然现在 AlphaFold3 属于领先状态,但它的精度还远远没有达到解决大部分问题,不像它 90% 解决了蛋白单链的结构预测问题。蛋白质小分子其实还有很多工作要做,这个问题非常重要,因为现实意义是巨大的,对制药、疾病的理解是非常重要的,如果能够取得突破性的进展,也是达到诺奖级别的。

得到诺贝奖最重要的因素在于要有巨大的、突然性的,颠覆性的突破,还有其实这是人工智能在科学领域里获得的迄今为止第一个最重要的突破,AlphaGo、ChatGPT 都是新的代表性时刻,而在科学领域里的时刻其实就是蛋白质结构预测,已经成为科学中的样板。

很多人以前都不关心蛋白质结构预测,现在他们都要在自己研究的疾病或生物系统里预测蛋白质结构,比如农业里设计育种,使其更有抗旱性,能源领域设计酶,把生物废料转成能量。另外,很多生物科技公司甚至大公司也在投入其中,他们会使用、继续开发这些工具,或者应用到各个不同的领域里,所以它已经成为非常有潜力的领域,但从学术界的角度来讲还存在许多有挑战性的研究问题待解。

常珊:诺奖确实是对我们结构预测领域的一个很重要的肯定,之前很少人会关注这个领域,或者大家不是特别了解,这也是我们举办这次圆桌会议的重要原因,结构预测获得诺奖肯定以后,我们需要让大家知道诺奖到底为什么颁给结构预测,结构预测可以帮助学术研究、产业界做什么事。

目前中国团队参加 CASP 的热情也很高,所以我们也在讨论有没有可能让中国来承办一次,在中国承办的话,会更大地扩大结构预测的影响力,这方面想请杨建益老师和郑伟老师来谈一下建议。

杨建益:CASP 发邀请信的时候我就问过下一届能不能在中国办,他们回复很感兴趣,这次会议最后一天的预测会议中,也有人建议在亚洲举办 CASP17。Joun Moult 回复邮件说这一届比赛的中国参赛者仅次于美国,日韩团队也很多,他很感兴趣,不过还需要进一步讨论。

郑伟:下一届感觉因为会议组织受国际政治的因素影响比较大,会不会选在中国其实不太好说,估计日韩概率会比较大,但是也不是说没希望,要集体跟组委会反映,最大努力争取。

常珊:评论区也还有一些问题需要讨论一下,大家比较关心结构预测对于突变后蛋白质的预测效果如何?或者对于蛋白质突变中比较小的细微的序列变化,会不会有比较好的预测结果吗?还有对于 Loop 区的预测有没有一些比较好的建议?有没有老师可以解答一下。

程建林:我回答第一个问题。目前对突变的结构预测还不是特别成功,因为 AlphaFold2、AlphaFold3 主要是用对齐的多序列作为输入,所以如果只有几个氨基酸发生变异之后,其实它不能敏感察觉变化,产生的结果和用原始序列是差不多的,我们今天没有讨论到,但这是之后结构预测要解决的重要问题。

郑伟:我觉得点突变分两个方向,一是点突变对结构影响比较大的,二是点突变对结构影响并不那么大的。点突变对结构改变比较大的方向,我们是有一些 case 能做的,CASP15 也有一个点突变复合物,很多团队都预测得还不错,但点突变对结构改变比较大的 case 现在不是太多。而点突变对小构项的影响,如果从结构预测看的话,其实在侧链是能反映出来的,但这种变化能有多少被真实反应很难说,点突变问题需要以结构预测加生物学验证的结合手段为主,这是比较正确的方向,现阶段想依赖 AI 去解决比较难。

Loop 区我觉得本来就是比较灵活的区域,相对来说比较难预测,建议可以多预测一些模型,然后把 Loop 区整体对齐再看一下,然后还是需要结合生物学的验证经验筛选模型,完全依赖于 AI 去预测也是很难的。

常珊:Loop 区的构项本身也很多,有点类似于蛋白质多构象的预测问题,所以很难说有哪个构项是占优的,本身还是有一定不确定性的。

杨建益:同意。Loop 的话跟执行功能是有关的,单纯考虑一个蛋白说Loop 准不准意义不太大,这些区域预测精度低非常正常,即使做实验也无法获取可靠的结构。应该要考虑它与结合对象的互作用,看通过结合其他对象能否稳固 Loop 区的结构。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/0nuPls59UixWoHrD.html#comments Mon, 13 Jan 2025 09:58:00 +0800
拓元智慧完成近亿元人民币Pre-A轮融资 //m.drvow.com/category/ai/VJ0bQLutS5mbFwaU.html

作者 | 赖文昕

编辑 | 陈彩娴

近日,拓元智慧(X-Era AI)宣布成功完成 Pre-A 轮融资,融资金额接近一亿人民币。此轮融资由粤科金融集团、鹏城愿景基金、红鸟启航基金等投资机构共同参与。

早在 2022 年 12 月,拓元智慧就已获得银杏谷资本、源数投资、卓源资本和汉仁资本投资的数千万元天使及天使+轮融资。

拓元智慧成立于 2021 年,作为鹏城实验室智算生态建设的早期成员企业,专注于新型多模态大模型开发,旨在为企业打造具有自主推理能力和价值观的智能体解决方案。

公司创始人林倞教授,同时也是中山大学人机物智能融合(HCP)实验室的创始人,在学术和产业领域均有积累,曾在 2016 - 2018 年担任商汤科技的执行研发总监、研究院副院长及杰出科学家等职位。2024 年,林倞开始担任鹏城实验室多智能体与具身智能研究所所长一职。

今年 8 月,鹏城实验室多智能体与具身智能研究所与中山大学 HCP 实验室合作,发表了多模态大模型时代全球首篇具身智能综述。该综述研究了近 400 篇文献,涵盖具身机器人、仿真平台等方面,详细分析了具身感知、交互、智能体及虚拟到现实迁移等研究内容,探讨了具身智能体在数字和物理环境中的挑战与机遇,为该领域的发展提供了全面的理论梳理。

同时,依托鹏城实验室和中山大学的科研资源,“拓元智慧-中山大学”联合实验室成立。团队由中山大学梁小丹副教授、牛津大学王广润研究员领衔,在多模态大模型、具身智能等领域深入研究,多次获得国际会议和期刊的最佳论文奖,包括中国图像图形学会科学技术一等奖、吴文俊人工智能自然科学奖和省级自然科学一等奖等荣誉,并在 30 余项国内外知名 AI 竞赛中夺冠,每年在 AI 领域顶级会议和期刊发表数十篇论文。

梁小丹担任中山大学智能工程学院副教授和通用具身智能中心主任,目前正带领团队做具身大模型,希望把多模态大模型加上3D感知能力,做具身智能领域的GPT-4o。她曾获阿里巴巴青橙奖,谷歌学术引用次数接近3万次。

王广润则是牛津大学研究员,曾为华为“天才少年计划”最高等级入选者,担任拓元智慧的首席科学家。他强调,拓元智慧的模型注重降低训练和推理成本并提高效率,在特征向量处理上具备动态适应性。

此前,拓元智慧还推出过产品“元分身”,能够为内容创作者提供真人数字分身制作服务,应用于短视频创作、企业宣传和直播等场景,有效解决内容创作效率低、发布内容不可控、缺乏多模态交互等问题,通过一次建模实现高效视频创作,确保内容质量稳定且支持批量生产,同时赋予数字分身知识理解和交互能力,提升用户体验。

雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/VJ0bQLutS5mbFwaU.html#comments Tue, 31 Dec 2024 17:27:00 +0800
JHU 陈杰能:世界模型+心智模型,让具身智能体拥有「想象力」 //m.drvow.com/category/ai/XA3V8ukowAUTVBjZ.html 作者 | 赖文昕

编辑 | 陈彩娴

近日,马尔奖得主、约翰霍普金斯大学教授 Alan Yuille 的团队发布了一项世界模型方向的重磅工作——GenEx,引起了具身智能领域的广泛讨论与关注。

作为李飞飞初创公司 World Labs 发布的同期工作,生成模型 GenEx 的特别之处在于它能让 AI 具有"想象力",使智能体通过想象出来的观测探索生成式世界。

受到心智模型的启发,GenEx 希望在一定程度上试图模拟人类大脑中对世界的认知方式和理解机制,以实现更智能、更灵活的人工智能系统。

具体而言,GenEx 系统有两个相互关联的组件:一个是想象世界,它能动态地生成可供探索的三维环境;另一个是具身智能体,它与这个环境相互作用,以完善自身的理解和决策能力——两个组件构成了一个共生系统,使得人工智能能够以类似于人类认知过程的方式进行模拟、探索和学习。

项目链接:https://www.genex.world/

GenEx 仅依据单张 RGB 图像就能生成整个三维连贯的想象环境,还能通过 360 度的全景视频使其变得栩栩如生。

在 GenEx 生成式想象力的驱动下,智能体能执行复杂的具身任务,包括与目标无关的探索和目标驱动的导航。这些智能体利用对物理世界中未被观测部分的预测性预期来完善自身认知,基于潜在决策模拟不同结果,并做出更明智的选择。

而且,GenEx 还可以扩展到多智能体场景,当某个智能体导航到其他智能体的位置时,还能根据其他智能体想象的认知更新自己的认知。

这个工作的核心作者,是约翰霍普金斯大学即将毕业的中国博士生陈杰能。

在转向世界模型、空间智能前,陈杰能的研究重点为医学图像,本科毕业于同济大学计算机系,2020 年到约翰霍普金斯大学读博,师从 Alan Yuile。

此前,他发表了首次将 Transformers 与 U-Net 融合的网络模型 TransUNet,至今引用量已超 5000。

自今年起,陈杰能把研究重心转向世界模型与空间智能领域。其研究内容主要包括基于单张图像生成具备交互功能的 3D 世界,并且将这个生成的世界构建为具身智能体的心智模型(mental models),从而助力智能体做出更优决策。

从医疗图像到具身智能,陈杰能认为自己已较好地完成了上一个使命,“接下来希望研究新的黄金问题,参与到前期探索中。”

以下是 AI 科技评论与陈杰能的对话。


当癌症遇上AI

AI 科技评论:您正式读博前发布的 TransUNet 至今引用量已超5000,当时是如何想到这个 idea 的?

陈杰能:当时我正在进行另一个项目,目标是对物体边缘的语义进行建模,就有了序列建模的idea,即序列学习(Sequential Learning),Transformer 虽然全局学习比较好,但难以捕捉物体边缘的局部细节。

在2020年底,Transformer 已经证明了在分类任务中表现较好,但对于它能否做密集预测,大家都还在探索中。为了解决这一问题,我就想结合 Transformer 和 UNet 的优势,从实际效果来看,UNet 更擅长处理局部信息,Transformer 则擅长处理全局和预期信息,它们是一个实现局部细节还原并兼顾长距离建模的最佳组合,能够很好地支持多种任务。

后来,我继续把 TransUNet 扩展到 3D 层面,也进一步将其应用于多癌筛查。TransUNet在今天仍是一个经典的架构,广泛应用于分割模型和扩散模型等任务中。

AI 科技评论:那您是如何接触计算机视觉,并决定扎根医学影像领域的?

陈杰能:2017 年下半年我在慕尼黑工业大学交换,3D 视觉学者 Daniel Cremers 是其中一位授课老师,巧的是他也是我现在的导师 Alan Yuille host过的博士后。当时的计算机视觉课程内容偏几何和理论,我被前沿科研吸引,回来后便决定参与视觉的研究,便在同济的陈广老师课题组研究车辆检测。

2019 年暑研,我机缘巧合联系到 Alan Yuille,他与约翰霍普金斯医院合作癌症早筛项目,有抑癌因子 P53 发现者等知名医生参与。他们虽不是 AI 研究者,但也意识到 AI 在医疗领域的潜力,这领域有规模化的机会,同时还能切实地帮助到每一个普通人,这便吸引我钻研医学影像领域。

AI 科技评论:所以您又加入达摩院医疗 AI 团队实习了。可以分享一下做 CancerUniT 的故事吗?

陈杰能:负责人吕乐是我在约翰霍普金斯计算机系的学长,他的导师Gregory D. Hager和我的导师本身就有合作,我们认识的比较早。

当时在医疗AI领域,大家都在做单一病种的研究,达摩院希望我能加入去做多癌筛查。具体而言,我们希望开发了一个 AI 模型,能通过单次CT筛查找出八种癌症并诊断14种亚型,这八种癌症是国内最高发病率高致死率的癌症,涵盖了接近80%的患癌病人。

医疗AI领域涉及众多方向,其中疾病筛查无疑是优先级最高的,尤其是针对癌症、阿尔茨海默症和慢性病等主要疾病。癌症因其发病率和死亡率双高,我认为更值得在我精力有限的情况下优先攻关,也被我认定为一个黄金问题。

对我来说解决这个黄金问题就像是攀登一个更高的山峰,如果它能早一些解决,就能帮助到更多的人、使许多家庭受益,我很有热情,希望能贡献我的微薄之力加速这个进程。我推进工作的过程中,我和我的合作者一起明确了问题的定义,也搭建了一个高敏感性高特异性的基础模型,现在,达摩院正在进一步扩展我当时开发的多癌模型,我期待这系列模型能尽早在社会中发挥实际作用。

从视觉基础模型到空间智能

AI 科技评论:后面您来到字节 Seed 团队做视觉基础模型,为什么会选择这个机会呢?

陈杰能:我的 mentor Liang-Chieh Chen 在谷歌时就曾邀请我去实习,不过我当时去了达摩院,就答应下一年再加入,后面字节成立了核心团队Seed,他加入并带领基础研究组,我也跟着来到字节。

2023年业内研究的一大重点是多模态大模型,Liang-Chieh Chen 在深度学习架构设计方面有着很高的造诣而且经验丰富,特别是在MobileNetv2和DeepLab的贡献。,我希望能对大模型的视觉编码器进行一次彻底设计,探索新的可能性、进一步打磨自己的技术能力,就此加入了。

AI 科技评论:第一次主导视觉编码器架构的设计,成功发表了 ViTamin,感受如何?

陈杰能:其实在做 ViTamin 的过程中和完成后的感受都很深刻。

我负责基础架构设计,需要对多模态大模型里的视觉编码器架构规划并探索 scaling law。而由于耗费算力较大,常常仅有一次训练模型机会,所以设计时得既谨慎又创新。

我们的视觉编码器在imageNet零样本准确率达到了83%的SOTA,也能有效的迁移到大模型里,我们探索了一条合理的scaling law。将模型性能优化至世界最佳的过程,是充满挑战且极具成就感的。

如果将多模态模型比作一个智能体,那么视觉编码器就是智能体的眼睛。随着今年年初公司研究者们认识到了大模型中视觉编码器的重要性,并进行针对性的设计,我再次感受到此工作的重要性。

此外,ViTamin 最高分模型仅有436M,不足 0.5B,在追求大模型、大规模参数量的2023年算是非常小的。而在我们所能获取的最佳数据条件下,这个规模已经达到了 scaling law 的极限。有趣的是,从今年开始,小模型也变得非常热门,现在多模态模型为了终端优化,也只会采用几百兆量级的视觉编码器。不难看出,scaling law 最终会逐步收敛到一个最佳的设置。

AI 科技评论:为什么今年会从医学影像转向空间智能?空间智能的核心是什么?

陈杰能:我相信工业界和医院的联合下,癌症筛查这一关键问题将在未来几年得以解决,而我以前的工作有助于其规模化推广,算是完成了自己的使命。如今我想探索新领域,而空间智能、具身智能等定义尚新,能参与前期探索颇具意义。

导师Alan在1990年就有研究三维物体的表面曲率,近年实验室也一直关注3D 视觉,我常受到熏陶而感兴趣。我今年开始着手解决一两个黄金问题,希望能一起推进空间智能与具身智能。

今年空间智能备受关注,它涉及图片 3D 建模或视频 4D 建模,本质上是逆向图形学单张图重建三维结构并提取物体类别、位置和几何等信息。

举个例子,在虚拟游戏引擎或物理引擎中,通常会通过预设的场景配置文件给定3D模型,并渲染为2D图像,这是一个从场景到图像的正向渲染过程;而计算机视觉则是这一过程的逆向推理,即从2D图像中重建或推演出三维场景。如果能彻底解决这一挑战,计算机视觉可能会有较大的突破,比如在 GPT 的空间推理,以及视频生成是否表现视觉场景的物理性,因此,从图片中推演 3D 场景,是空间智能的一个核心。

我目前的工作聚焦了空间推演。不久前发布的 Gemini 2 也特别强调了空间推演能力,然而,我们最近开发的空间推理基准3DSRBench的结果显示,其准确率仅为 50%,远低于人类的 95%。结果发布后,DeepMind的相关人员也提供代码库,共同推动大模型在空间推理的进展。这表明在空间智能领域,尤其空间推理,机器与人类的能力还存在较大差距。

AI 科技评论:那空间智能与医疗图像之间有何关联与差异呢?

陈杰能:空间智能与医疗图像皆涉图像处理及复杂场景建模,医疗图像的 三维理解与空间智能的 三维理解目标相近,都要将像素数据转化为对三维结构和语义关系的预测,并提取关键的信息如物体位置和形态。在医疗影像中,这具体表现为对器官和病灶的位置、形态及其空间关系的精准解析。

二者也有不同:从数据上,医疗图像是规则的三维数据,通常处于有限范围内(例如人体高度有限、器官形态相对规则),数据复杂度较低;而空间智能的数据更加复杂,包含大量不规则、有形变和带有关节活动的物体,数据的复杂度明显更高。从优化目标上,空间智能和具身智能重实时性与泛化性,期望模型在不同环境泛化良好,达类似小孩智商与感知力;医疗人工智能则强调专家性,欲在专项达医生专家水平,所以二者优化目标迥异。

心智模型之于具身智能

AI 科技评论:您是从什么时候开始聚焦世界模型的?

陈杰能:我对世界模型的研究,是与空间智能和具身智能同期进行的。空间推理是具身智能体感知物理世界的起点,但仅依靠空间感知无法全面支持智能体对物理世界的交互理解。构建一个可预测、可交互的世界模型,将更好地帮助智能体在真实世界中进行有效决策。

虽然世界模型的定义本身仍百家争鸣,但在二三十年前就已应用于控制论了。它的一个本质定义是:给定当前的状态分布和动作输入,能否预测出未来下一个状态的分布。这在早年的控制论等领域中有一些实践,但早年状态的定义较为简单。

我认为世界模型本质是提供对世界变化的预测性分布,但世界变化不应是最初的低维状态,而可以是一个四维世界的状态,包括目标物体的语义信息、纹理信息、三维几何结构、形态、形变、运动特性,以及物体之间的空间关系的建模。

我关注的一个难点是,能否从图像观测中提取上述的三维空间表征,作为世界模型的状态。此外,我也关注世界模型在具身智能的应用。

AI 科技评论:您不久前发布了“生成式世界探索者”,从单张图生成可交互 3D 世界,可以聊聊这个 idea 是怎么诞生的吗?

陈杰能:人类在现实生活中探索看不到的地方,能通过发挥想象力在大脑里构建出一个世界,然后在其中进行想象性的探索。这种能力使得我们人类无需物理移动就能探索到这个世界未知的地方,还能帮助更好地做出决策——让AI智能体具备此能力,就是我的初衷。

从实践的角度来看,当下看到的事物,无论是单张图还是单个观察,首先是要从单张图中生成一个可交互的 3D 世界,下一步才能在这个 3D 世界中探索。

AI 科技评论:那具身智能的心智模型和世界模型又有何关联呢?

陈杰能:心智模型最早在心理学和认知科学领域被提出,心智模型是指存在于我们脑中的一种认知框架,用于表示对世界的理解。它相当于一种内部的现实模拟,帮助人类解读信息、做出决策,并根据以往的经验和知识预测结果。当然世界模型也是根据过往的经验和知识,去对未来的状态分布做出预测。因此这两个模型的本质是相关联的。

心智模型的表征最早主要是关于语言语义学特征,如今生成技术的发展使视觉表征成为可能。我的工作实际上是将心智模型提升到了一个表征上的新高度,即构造出具备空间想象力的心智模型,能想象三维世界中看不到的地方,比如只看到轮子能想象到一辆救护车,亦或者通过动作交互,探索到更远的看不到的场景。

具身智能体基于此核心能力,无论走到哪里,都能通过对周围环境的观察来构造出一个可探索的三维世界,即生成式的三维世界。在对生成的世界里,智能体通过探索发现未曾见过的观测,并将这些想象出来的观测加入到决策过程中——因此称之为“生成式世界探索者”。

将生成世界的观测融入决策的过程,可以看做通过世界模型开发的一种全新策略(policy)。应用于具身智能时,其实是用在生成式世界收集到观测来补充物理世界中的缺失观测,形成更完整的观测集,从而构建一个想象力增强的policy。

AI 科技评论:心智模型属于对常识的理解吗,比如知道横着拿纸杯水会洒出来?

陈杰能:心智模型作为一种认知框架,有基于常识的理解。然而,“知道横着拿纸杯水会洒出来”,这仍基于对纸杯和纸杯里的水的完全观测,心智模型可以解决更有挑战性的部分观测和缺失观测的场景。心智模型是通过已有环境信息,去推演和想象那些未观测到的环境部分,比如一阵大风是缺失观测的,但人类的心智模型或许能推演出风吹后纸杯会倒下。

模拟这些未观测到的环境因素,有助于做出更精确的决策,从而提高决策模型的泛化能力。这一方向在未来会获得更多的关注。

AI 科技评论:这个方向在具身智能领域并不热门。

陈杰能:是的,领域内很多研究者聚焦于提升低层次(low level)策略的鲁棒性,而我目前的研究更侧重于高层次(high level)问题,旨在为具身智能体构建可交互的三维世界模型,以辅助其决策过程。

在高层次领域,除了心智模型,具身智能体的物理世界的空间理解仍有挑战,如果把上游的空间理解处理好加上三维心智模型,低层次问题会解决得更轻松,能让智能体走入真实世界而非仅限在机械臂的环境里。 当然这两者最终可以结合起来形成多层次模型。

最后,我们开发的生成式世界探索者,不仅是具身智能体的重要组成部分,也已经初步证明能够辅助人类的认知决策。我希望在这个多学科交叉的领域贡献点力量。


雷峰网作者anna042023将持续关注具身智能,欢迎添加交流,互通有无。雷峰网


]]>
人工智能 //m.drvow.com/category/ai/XA3V8ukowAUTVBjZ.html#comments Mon, 30 Dec 2024 15:05:00 +0800
基座大模型「六进二」:南阶跃,北智谱 //m.drvow.com/category/ai/yiCLQ8K5ZIvI3He8.html 作者丨陈彩娴

今天消息,阶跃星辰完成了 B 轮融资,总融资金额达数亿美元。

AI 科技评论获悉,此次融资有国资、战略和财务投资人等多家参与,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。

据了解,这笔融资将用于继续投入基础模型研发,强化多模态和复杂推理能力,并通过产品和生态加大覆盖 C 端应用场景,提供丰富的用户体验。

这起融资事件在业内引起了广泛关注。此时距离智谱官宣其完成最新一轮 30 亿人民币的融资才不到一周。上一周,智谱的融资被视为「可能是 2024 年大模型领域最后一笔融资」,但这个预言随着阶跃星辰的融资消息被打破。

不仅如此,阶跃星辰的追赶,也使得未来至少一年内中国大模型的竞争格局将发生肉眼可见的变化:

首先是 200 亿估值的门槛跨越。

在今年 6 月底 AI 科技评论发表的《200 亿估值之后,中国大模型公司还能拿谁的钱?》一文中,我们就已提到 200 亿估值对大模型公司来说将是一道槛,跨得过就至少能撑到下一轮牌桌,跨不过则意味着更漫长的消耗与挑战。

据我们了解,智谱是国内第一家跨越 200 亿估值门槛的大模型,此外还有 MiniMax、月之暗面、百川智能。本轮阶跃星辰没有披露其估值,但据 AI 科技评论获悉,阶跃星辰很可能是 2024 年最后一家跨过 200 亿门槛的大模型公司。

其次是回归基座大模型话题,智谱与阶跃成为「基座双雄」的势力格局愈加明晰。

随着过去两年的技术与产品探索,截至 2024 年 12 月,200 亿以上估值的大模型公司在发展路线上越发泾渭分明。这其中,MiniMax 主打出海,月之暗面主打 C 端产品,百川智能转向医疗等垂直领域——「主打」并非「单一」,但在基座大模型赛道,只有智谱与阶跃坚持追求基座大模型的预训练与效果提升,同时积极探索商业模式。

作为一家成立不到两年的公司,阶跃星辰能快速追赶,是令笔者意想不到的。一年前,阶跃星辰还未浮出水面;一年后,这家大模型独角兽已经崛起,成为一股无法忽视的国产大模型力量。


1、大模型的投资逻辑

在得知阶跃星辰或是 2024 年最后一家拿到融资的大模型公司后,惊讶之余,笔者也与国内多位投资人围绕目前国内几家明星大模型公司的融资与估值进行了讨论。

今年年中,业内 VC 投资创业公司的普遍观点是「追求赔率」,如押某一家公司的 C 端应用,赌其是否能成为爆款。在这种趋势下,上半年 Kimi 概念股的爆发是意料之中,这一阶段的踊跃分子也以 VC 为主。但到了下半年,随着大厂入局用流量浇灌C端应用,「追求胜率」就成为更受欢迎的观点,按这套逻辑,继续研发通用基座大模型的公司会有更广阔的市场空间,且资方中拥有国资背景的大模型创业公司也被视为这一逻辑下的最佳选择。

今年下半年,在大模型投资愈加冷静的大环境下,智谱与阶跃还能拿到融资,除了两个团队的技术实力使然,或许也是因为其符合当前追求胜率的投资目标。

一位人民币基金的从业者直截了当地评价:「至少智谱与阶跃目前还有投资逻辑,其他家的不确定性高:Kimi 只有 C 端增长,要看投流有没有收益、以及能不能打得过豆包;MiniMax 的角色扮演产品与出海要赌赔率,看能不能爆发。如果赌上市,阶跃与智谱还有胜率。」

「如果走互联网产品的流量逻辑,那么大模型的 C 端产品只有三条路:要么胜出,要么死掉,要么转型。」一位投资者向 AI 科技评论说道。

都知道,AI 2.0 之所以比 AI 1.0 的想象力更大,是因为 AI 1.0 时代公司的技术能落地的 C 端场景依然不够广泛,竞争到最后往往是跟垂直领域的传统行业竞争,如安防领域的海大宇、手机领域的虹软,而 AI 2.0 时代大模型技术落地能进入广泛的互联网产品赛道,因此更「Sexy」。但也正是因为跟互联网的逻辑太近,加上 C 端产品有「新鲜感焦虑」,所以目前国内大模型公司在 C 端的收入仍面临重重挑战。

不过,纯 B 端的模式也不受追捧。据 AI 科技评论了解,今年 B 端大模型收入也受到了来自华为、科大讯飞等大厂的竞争,导致一些企业的 B 端收入没有去年高。加上纯 B 端故事不好撑估值,所以一些类 B 端的营收也被放到了 C 端下。

总的来说,对 AI 2.0 时代的创业公司而言,谁能最先推出通用能力最强的基座大模型,成功进入最多的商业化场景中激发 C 端消费需求,才会成为资本的宠儿。

基座大模型的能力提升仍是当前的重中之重。即使已经过去两年,技术增长仍是大模型公司吸引融资的一大要素。

当前第一梯队的大模型公司中,只有阶跃与智谱仍追求基座大模型的效果提升,也只有这两家最像 OpenAI。

坚持基座大模型研发,意味着坚持 AGI,才能支撑起更高上限的资本故事和商业化空间。从成果发布来看,智谱依旧在对标 OpenAI 推出新模型,而从年底国际权威榜单 LiveBench 与 LMSYS 来看,阶跃星辰的模型水平也是国内为数不多能与 OpenAI、Anthropic 等国际顶尖大模型公司一较高下的。

其余三家,百川对外讲医疗大模型的故事。相比智谱有唐杰带队与清华子弟兵,阶跃星辰有前微软全球副总裁姜大昕带队加朱亦博与张祥雨等核心骨干。而 MiniMax 与月之暗面都是主打 C 端产品,一个出海、一个对内,相比预训练,产品创新与体验的效果提升优先级更高。

如果再加上上市的考虑,智谱与阶跃也是投资者最青睐的两个标的。背后的原因很简单:「北京跟上海都押一个宝。」一位投资者告诉 AI 科技评论。

根据公开信息与行业分析,智谱的背后主要是北京国资,阶跃背后则是上海国资。在 12 月宣布的最新一轮融资中,智谱的投资方全是国资,由北京海淀区政府的市场化投资平台中关村科学城⽀持。阶跃星辰B轮核心投资方包括上海国有资本投资有限公司及其旗下基金。

纵观「大模型六小虎」背后的资方情况,不难发现各有特色:MiniMax 和月之暗面以互联网投资居多,智谱是纯国资加互联网,百川同时吸纳了北京与上海的国资加互联网、但没有洋气的美元基金,阶跃是上海国资、战略和财务投资人,零一万物则是纯美元与外资为主。

作为一家成立不到两年、但死磕基座大模型的创业公司来说,阶跃星辰的进步速度比我们想象地要快很多。角逐基座大模型其实是一件投入成本高、同时技术挑战大的事情,尤其在国内面临的竞争对手是成立时间最长的大模型独角兽智谱。

在这样一个看似不可能的目标下,阶跃星辰依然能得到投资方的认可,说明实力不可小觑。2025 年,阶跃很可能是智谱最有力的竞争对手。


2、阶跃星辰的筹码:人才与速度

如果将更多的聚光灯给到阶跃星辰,我们惊诧地发现:这家成立不到两年的大模型公司,在过去的10个月里竟发布了 11 款基座模型;也就是说,他们平均不到一个月就有一次发布,意味着其基座模型迭代的速度飞快,为中国大模型之最。

根据基座模型的能力划分,阶跃星辰的 Step 系列大模型矩阵覆盖了从千亿参数到万亿参数、从语言到多模态、从理解到生成的全方位能力。

在语言大模型上,阶跃星辰先后分布了千亿参数语言大模型 Step-1、万亿参数语言大模型 Step-2 与 Step-1-flash 极速版大模型。

其中,Step-1 只用两个月就一次性训练成功,在逻辑推理、中文知识、英文知识、数学与代码等方面的能力全面超越了 GPT-3.5。Step-1-flash 极速版大模型能够处理上下文长度为 8K 的长文本。Step-2 采用 MoE 架构,是国内首个由大模型创业公司发布的万亿参数语言大模型。

在刚刚过去的 11 月,Step-2 更是在「最难 LLM 评测榜单」LiveBench 上成为唯一进入榜单前十名的中国语言大模型,位列全球第五,超越了 GPT-4o 和 Gemini-1.5,拿下中国第一。

当时同样上榜的大模型还有通义千问和 DeepSeek,但均没有冲进前十,分别位列第十三和第二十三名。上述提到的估值超过 200 亿人民币的第一梯队大模型公司,则除了阶跃星辰外均没有上榜。

榜单链接:https://livebench.ai/,2024-11-19

语言基座大模型是竞争 AGI 的准入门槛。根据 LiveBench 的结果,阶跃星辰的 Step-2 能成为上榜模型,实力不言而喻。换言之,即使基座大模型的竞争到最后只会剩下少数几家,阶跃星辰的基座模型凭借技术实力也能赢得最终的入场券。

从技术发展的趋势来看,OpenAI 认为,AGI 的实现会分为五个阶段:第一个阶段是聊天机器人,AI 具备语言对话能力;第二个阶段是推理模型,AI 可以解决人类层面的问题;第三个阶段是智能体(Agents),AI 系统可以自主决策与执行;第四个阶段是创新模型,AI 可以自主思考并诞生想法;第五个阶段是智能组织,AI 可以完成组织性的工作。

第五个阶段被认为与当前具身智能对通用机器人的追求重合,即无论是一个人工智能系统或一个机器人,均可以完成一个工种的全流程、而非其中一个或两个步骤。OpenAI 认为,他们现在才处于阶段二,即模型的推理层,代表成果是 o1。

而在国内的学术探讨中,AGI 的实现从阶段一到阶段二的研究目标除了包括思维链在内的模型推理,还有多模态。目前多模态模型的研发还没有一个主导性的思路,多模态不仅包含语言,还包含视觉、以及语言与视觉乃至语音等多个模态的信息对齐,视觉研究人才将在这当中发挥重要作用。

众所周知,阶跃星辰由前微软全球副总裁姜大昕博士创立。据悉,阶跃在技术上下一阶段的目标是实现多模态理解和生成一体化。阶跃星辰的研发团队有诸多牛人,包括计算机视觉领域核心奠基工作 ResNet 的二作张祥雨; 

此外,大模型的训练需要消耗大量算力,技术底层系统能力将决定创业公司能否以最高的性价比和效率训练模型。阶跃星辰的系统负责人为朱亦博,其先后任职于微软、字节与谷歌,在大规模系统和万卡集群方面有丰富的实践经验。

不同于 AI 1.0,AI 2.0 时代的基座大模型在预训练中不仅要求算法能力强、也要求底层系统的高效与稳定性。国内同时兼顾算法与系统方面强势人才的大模型公司并不多,阶跃星辰是之一,这也是为什么过去一年阶跃星辰不仅在语言基座大模型、同时在多模态大模型上也频繁发布研究成果的原因。

过去一年,阶跃星辰在多模态领域已经发布了 8 个大模型,包括:

两款多模态大模型 Step-1V 与 Step-1.5V,其中 Step-1.5V 是在 Step-1V 的基础上迭代,从图像理解升级到了视频理解。今年 11 月,LMSYS Org 发布 Chatbot Arena 最新榜单,Step-1V 上榜位列视觉领域中国大模型第一,总分跟 Gemini-1.5-Flash-8B-Exp-0827 持平,超过国内所有大模型公司。

一款图像生成大模型 Step-1X,其具备强大语义理解与图像创意实现能力,可用于各种图像创作与设计任务。

两款视频模型:Step-1.5v-turbo 视频理解模型与 Step-Video 视频生成模型,不仅能准确识别并理解视频中所出现的物体、人物和环境,具备突出的指令跟随能力,还能文生视频,生成 1080P 长达 10s 的高清视频,尤其擅长生成具有中国风美学效果的视频。

除了文图与视频,阶跃星辰还发布了三款语音大模型:Step-tts-mini 语音复刻和生成大模型、Step-asr 语音识别大模型与 Step-1o Audio 语音大模型。其中,Step-tts-mini 只需上传 5s 音频就能进行生动形象的音色复刻,Step-1o Audio 是国内首个千亿参数端到端语音大模型、支持语音与文本的混合输入与输出。雷峰网

国内大模型创业公司极少同时兼顾语言、图像、视频与语音等多个模态的基座模型,目前看来,阶跃星辰的基座模型研发还在持续加速,体现了其坚持追求 AGI 的理想与决心。

值得注意的是,不断打磨基座模型的同时,阶跃星辰在将技术应用落地上也有独特思考。

毫无疑问,大模型会衍生出全新的商业模式,目前各家都还在探索中。据观察,当前阶跃星辰的尝试是通过自研与帮助生态伙伴的方式去打造 C 端超级应用。

目前阶跃星辰最广为人知的自研 C 端产品是智能助手「跃问」。

同时,他们也与客户进行了更深入的合作,比如在金融领域与财联社成立合资公司「财跃星辰」一起打造了 C 端应用「AI 小财神」。后者的合作形式不是只提供 API、解决方案或私有化部署,所以跟 AI 1.0 时代的纯 B 端打法也有所不同。

目前跃问已经接入Step-2 万亿参数大模型和 Step-1.5V 多模态模型,具有智能搜索、拍照答疑、高效阅读、写作、翻译等能力,而且率先将多模态功能「拍照问」接入了 iPhone 16 的「相机控制」,实现了真正意义上的「智能视觉搜索」。雷峰网

OpenAI 预言 AGI 的下一个阶段是智能体,某个意义上,阶跃星辰基于 Step 自研基座模型所打造的「跃问」、或「AI 小财神」应用,也是在探索 AGI 时代的智能体。比如,「AI小财神」能够为用户提供包括 AI 数据挖掘、AI 对话、AI 热点信息和财报解读等功能。

在开发者生态中,阶跃星辰开放平台也推出了「繁星计划」,帮助开发者打造 AI 应用。据了解,网红 AI 应用「胃之书」、国内首款 C 端 AI 电商应用「物圆」、AI 科研大模型专业社区「ReadPaper」、AI 心理陪伴应用「林间聊愈室」、面向胰腺癌肿瘤患者的智能 RAG 平台「小胰宝」等等应用都是基于阶跃星辰的 Step 大模型。

中国第一梯队的大模型公司中,原先智谱、MiniMax、月之暗面与百川智能独占鳌头,花开四朵、各表一枝。一年过去,大浪淘沙,百川退出预训练模型的竞争队伍,月之暗面与 MiniMax 的优先级在产品,只有智谱与阶跃有实力、有决心对标 OpenAI,坚持研究基座大模型。

在不远的未来,模型效果仍是决定上层应用的关键因素。基座大模型双雄,北有智谱、南有阶跃,孰胜孰败一时还难以分晓,不如将答案交给时间。雷峰网

]]>
人工智能 //m.drvow.com/category/ai/yiCLQ8K5ZIvI3He8.html#comments Wed, 25 Dec 2024 14:38:00 +0800
智源线虫登上Nature子刊封面,具身元年尾声深长 //m.drvow.com/category/ai/stcqOUVRXc17Ss2y.html 智源研究院提出了BAAIWorm天宝--一个全新的、基于数据驱动的生物智能模拟系统,首次实现秀丽线虫神经系统、身体与环境的闭环仿真。BAAIWorm天宝通过构建线虫的精细神经系统、身体和环境模型,为探索大脑与行为之间的神经机制提供重要研究平台。

2024年12月16日,智源研究院理事长黄铁军和生命模拟研究中心马雷等共同关于BAAIWorm天宝的重要进展在国际著名科学期刊《自然·计算科学》(Nature Computational Science)上发表,并于12月21日被选为期刊封面故事。

BAAIWorm天宝的重要创新之处在于其不仅关注神经系统的建模,还将身体与环境纳入考量,形成一个闭环系统,通过模拟线虫的行为,探索神经结构如何影响智能行为。这一工作不仅为研究生物智能提供了新的平台,也为具身智能理论的进一步发展和人工智能领域的应用奠定了基础。

伦敦大学学院帕Padraig Gleeson(OpenWorm 团队,本文审稿人之一)评价BAAIWorm:“这是一项了不起的成果,它将秀丽线虫的生理学和解剖学信息整合进了一个计算模型。在不同层面呈现了诸多进展,而且各项成果相互融合,构成了一幅条理清晰的图景。我认为,这是一项我们在秀丽线虫建模和理解‘脑-身体-环境’交互方面的重要进展。”

《自然・计算科学》资深编辑Ananya Rastogi指出:“这项工作让我眼前一亮。动态的机体与环境相互作用以及精细的模拟相结合,使得在闭环系统中研究大脑活动如何影响行为成为可能。”

这一成果的另一审稿人表示:“这项研究为我们从整体上理解神经系统建立了新的研究范式。传统的神经科学研究往往侧重于分离和理解神经系统或大脑的特定方面。然而,通过综合这些细节全面理解整个生物体仍然是一项挑战。这项研究引入了一种很有前景的方法:尝试构建一个完整的生物体模拟。”

Nature文章链接:

https://www.nature.com/articles/s43588-024-00738-w

Research Briefing链接:

https://www.nature.com/articles/s43588-024-00740-2

BAAIWorm GitHub地址:

https://github.com/Jessie940611/BAAIWorm

BAAIWorm天宝对于具身智能研究的意义

近年来,随着神经科学和人工智能技术的深度交叉融合,研究者们越来越多地尝试通过构建生物体模型来理解神经系统与行为之间的关系,并推动具身智能的研究。国际上的个别研究机构在这一领域取得了显著进展。

2022年,瑞士洛桑联邦理工学院(EPFL)发布了NeuroMechFly,一个基于果蝇的神经-机械耦合模型,用以研究神经系统如何驱动行为,相关成果发表于《Nature Methods》[1]。

2024年,EPFL进一步发布了NeuroMechFly v2,对该模型进行了优化,进一步提高了神经-身体交互的功能性[2]。

与此同时,DeepMind也在推动生物智能模拟方面迈出了重要步伐,2020年初步发布了Virtual Rodent,该模型通过模拟啮齿动物的大脑与身体运动,推动了对生物智能的理解。2024年,DeepMind在《Nature》上发布了Virtual Rodent的更新版,进一步提升了该模型在神经网络和行为模拟方面的能力[3]。

生物智能无疑是人工智能研究的源头。BAAIWorm天宝通过高精度还原和模拟生物智能,为理解和探索生物启发的具身智能的核心机制提供了重要的实验平台。

通过将大脑、身体和环境的互动整合到一个闭环系统中,BAAIWorm天宝展示了神经系统如何通过与身体及环境的协同作用,产生复杂而高效的行为。这一研究不仅加深了对生物智能的理解,也为开发具有类似感知与运动能力的人工具身智能系统提供了新的视角。

BAAIWorm天宝介绍

在秀丽隐杆线虫中,运动、觅食等行为是由其神经回路、肌肉生物力学和实时环境反馈之间的协调互动驱动的。然而,传统的模型往往将神经系统或身体环境孤立开来,未能捕捉到支撑复杂行为的整体“大脑-身体-环境”交互。在生物物理学上精确模拟这种复杂性仍然是一个挑战,这也突显了构建完整的闭环模型的必要性,以连接神经网络、生物力学和环境反馈。

智源研究院生命模拟研究中心旨在开发这样一个闭环的生物物理精细模型(“生命模型”),以精确模拟生物体在神经、生物力学和环境互动中的复杂行为。团队采用可扩展的多层次方法,包括多舱室神经元模型,通过细致模拟神经网络中间隙连接、突触和神经元的活动,生成了生理上准确的神经动态。在这项研究中,团队着手开发一个开源模型——BAAIWorm,用于在闭环系统中模拟秀丽隐杆线虫的体现行为。

BAAIWorm(一个集成脑-身体-环境的模型)作为一个开源模块系统,为研究线虫行为的神经控制机制提供了一个多功能平台。BAAIWorm基于实验数据,由两个子模型组成:一个是生物物理层面上精细的神经网络模型,模拟秀丽隐杆线虫的神经系统;另一个是根据线虫解剖学构建的身体模型,并被一个可计算的简化3D流体环境所包围(见图1)。

神经网络模型中的每个神经元都被表示为一个多舱室模型,模拟神经元的结构和功能部分(如胞体、神经突),以精确复现秀丽隐杆线虫神经元的电生理特性以及基于实验数据的精细突触和间隙连接结构。

身体模型则结合了96个肌肉细胞,这些肌肉细胞基于秀丽隐杆线虫的解剖学,在四个象限中建模,以实现计算对称性。表面级的力模拟了推力和阻力,优化了计算效率,同时反映了生物体在流体环境中的互动特性。

系统也简化模拟了环境中的连续感官输入(如食物浓度梯度)。这些输入会动态影响神经计算,进而驱动肌肉收缩,形成一个闭环反馈系统,形成协调的运动轨迹,能够与真实线虫行为类比(见图1)。

图1:BAAIWorm天宝是一个具身秀丽隐杆线虫仿真平台。BAAIWorm天宝将一个生物物理层面非常精细的神经网络模型与一个生物力学身体和三维环境整合在一个闭环系统中,进行感官刺激和肌肉信号的交互。神经网络模型包含了具有精细结构的神经元模型及突触和间隙连接,通过迭代优化模型参数(如连接权重,连接极性等),逼近真实秀丽隐杆线虫的神经动力学特性。身体模型由3,341个四面体(作为身体结构的基本建模元素)和96个肌肉组成,与三维环境互动,实现实时的运动仿真。


BAAIWorm天宝亮点

1. 世界最高精度线虫神经网络模型

研究团队基于线虫神经元的真实生理特性,构建了一个生物物理层面上的高精度神经网络模型。神经网络模型中的每个神经元都被表示为一个多舱室模型,模拟神经元的结构和功能部分(如胞体、神经突),以精确复现秀丽隐杆线虫神经元的电生理特性以及基于实验数据的精细突触和间隙连接结构。该模型是目前已知首个同时在神经元层面和神经网络层面都具有真实动力学特性的,基于多舱室建模的高精度秀丽隐杆线虫神经网络模型。


2. 身体环境模型

该模型符合生物线虫解剖特性,可精准稳定的追踪和度量三维软体运动。相比于OpenWorm,在仿真性能和环境尺度等指标上取得了数量级的提升。

3. 高精度神经系统模型与身体环境模型的闭环仿真

BAAIWorm天宝首次建立了线虫神经网络模型与身体环境模型的闭环交互,模拟线虫通过之字形运动接近食物的行为。环境中的食物浓度刺激感觉神经元,运动神经元驱动肌肉收缩,生成协调的运动轨迹。在这一过程中,研究人员可以通过模拟的方法,实时观察线虫的轨迹、神经活动以及肌肉信号。



通过BAAIWorm天宝,可同时观察线虫运动情况与神经网络每个细节的动态情况。

BAAIWorm天宝基于OpenWorm的新进展

OpenWorm是一个开创性的开放科学项目,致力于通过建模秀丽线虫(C. elegans)推进计算生物学的发展。智源研究团队在研究中使用了OpenWorm提供的诸多宝贵工具和数据,如细胞模型形态、突触动态及3D线虫体信息。基于OpenWorm,BAAIWorm天宝在多个关键方面实现了显著的进展,推动了这一领域的进一步发展:

1. 增强版神经网络模型

OpenWorm提供了许多有价值的神经系统建模工具和标准,如ChannelWorm和c302。然而,BAAIWorm天宝在以下几个方面进行了显著创新:

a) 单神经元建模:c302提供了多舱室的神经模型,且所有神经元的参数均统一。然而,BAAIWorm天宝通过调整五种单神经元模型,使其更精确地拟合电生理数据,确保模型能够准确反映真实的神经动力学。

b) 连接精细程度:在c302的多舱室神经模型中,神经元的连接位于胞体上,而BAAIWorm天宝则在神经元的神经突(neurite)上建立连接,极大提升了神经元连接的解剖学准确性。

c) 训练:c302生成的多舱室神经网络模型并没有经过训练,而BAAIWorm天宝的神经网络模型则经过了严格的训练,以匹配功能图谱,从而更好地捕捉到复杂且真实的神经动力学。

2. 增强版生物体与环境建模

Sibernetic是OpenWorm项目中用于模拟C. elegans物理体动态的物理模拟器。尽管Sibernetic的粒子模型在某些任务(如压力计算)上有一定优势,BAAIWorm天宝的生物体与环境模型在多个方面表现出色:

a) 生物体建模效率:BAAIWorm天宝的体表数据是基于Sibernetic的体表数据进行转换的,但四面体线虫体模型相比Sibernetic的粒子模型,元素数量大幅减少,极大提高了性能,同时保持了解剖学的真实性。

b) 3D环境:借助简化的流体动力学,BAAIWorm天宝的3D仿真场景的规模相比Sibernetic提高了两个数量级,从而能够模拟更加复杂和大范围的环境。

c) 仿真:BAAIWorm天宝采用了投影动力学(projective dynamics)作为形变求解器,相比Sibernetic显著缩短了每个迭代步骤的仿真时间。同时,投影动力学在使用较大时间步长时也表现出了较高的稳定性,这使得仿真能够更高效地运行。

d) 可视化:BAAIWorm天宝采用了实时网格渲染和GPU光线追踪技术,不仅带来了更佳的视觉效果,还在保证高性能的前提下,提升了仿真场景的真实感和互动性。

3. 闭环互动

OpenWorm将c302神经网络和Sibernetic的生物体模型联合实现了两者的交互,但这种交互是开放式的,缺乏环境对于神经系统的反馈。而这一感觉反馈对生物体在环境中生存来说至关重要,BAAIWorm天宝通过引入感官反馈,实现了神经网络与生物体模型的闭环互动。这一重要创新能够更全面地理解线虫如何与其环境进行互动、处理感官信息并执行协调的运动。

未来展望

智源研究院的生命模拟研究中心通过BAAIWorm天宝展示了数字生命体建模的潜力,为进一步理解神经控制机制和智能行为的生成机制提供了全新工具。这一成果基于创新的闭环建模思想,将大脑、身体与环境作为整体进行整合,为构建其他数字生命体积累了宝贵经验。

当前人工通用智能(AGI)研究主要沿三条路径展开:数据驱动的人工神经网络(ANN)模型,如OpenAI的GPT系列;基于ANN的强化学习,如DeepMind的DQN;基于“结构决定功能”原则的类脑方法,例如脉冲神经网络(SNN)。

智源研究院积极探索第三条路径,通过类脑建模探索神经网络结构如何驱动智能行为。这一方向不仅致力于研究生物智能,还旨在为通用人工智能的实现提供新思路。在这一路径中,生命模拟研究中心开发的天演平台(eVolution)提供了强大的建模和优化能力。该平台通过整合详实的生物数据和微调模型参数,实现模型的“电子进化”(electronic-evolution),在通往AGI的探索中开辟了独特路径。

除了BAAIWorm天宝,智源研究院还在开发OpenComplex(一个开源蛋白质或RNA建模平台)和BAAIHeart(亚细胞层级的高精度心脏建模)。

通过在生命的多个尺度领域研究的协同发展,智源研究院正推动生物智能与人工智能交叉研究的前沿探索,以实现对智能本质的深刻理解和应用。

参考文献

[1] https://www.nature.com/articles/s41592-022-01466-7

[2] https://www.nature.com/articles/s41592-024-02497-y

[3] https://www.nature.com/articles/s41586-024-07633-4

]]>
人工智能 //m.drvow.com/category/ai/stcqOUVRXc17Ss2y.html#comments Wed, 25 Dec 2024 10:30:00 +0800
中国首次!高文院士获得 IEEE 社会基础设施创新奖 //m.drvow.com/category/ai/GOQpwmqexZHP6zKF.html 作者|朱可轩

编辑|陈彩娴

近日,IEEE奖励委员会官网(https://corporate-awards.ieee.org/)正式公布了 2025 年度“IEEE技术领域奖”(IEEE Technical Field Awards)获奖名单。

中国工程院院士、北京大学博雅讲席教授、鹏城实验室主任、数字音视频编解码技术标准(AVS)工作组组长高文因其在高性能人工智能计算基础设施和高效视频编码方面的贡献和领导地位,获得 2025 年度“IEEE社会基础设施创新奖”(IEEE Innovation in Societal Infrastructure Award)。

IEEE 每年都会设立技术领域奖,“IEEE社会基础设施创新奖”则设立于 2011 年,至今表彰了 18 位获奖者,高文院士是首位获得该奖项的中国科学家。

公开资料介绍,高文院士的主要研究领域为人工智能,长期从事计算机视觉、模式识别与图像处理、多媒体数据压缩、多模式接口以及虚拟现实等的研究。在面向对象视频编码、可伸缩视频编码、人脸与手语模式识别、AVS 视频编解码国家标准等方面做出重要贡献。

2009 年,他就曾因在“对基于对象的视频表示和可扩展视频编码技术和标准的贡献”,当选 IEEE Fellow;2010 年因“音视频编解码理论、标准及应用的突出成就”被授予中国计算机学会王选奖;

2013 年底,则因“对视频技术的贡献,及对计算在中国发展的领导力”当选 ACM Fellow;2018 年成果获中国高校十大科技进展;2023 年获吴文俊人工智能科学技术最高成就奖。

此次获奖,具体来看,首先,在高效视频编码方面,高文院士提出了一种新的标准范式,即视频编解码技术标准体系 AVS,以尽量减少视频编码标准中的不友好专利成本,并成立了 AVS 小组来开发高效的视频编码标准。

当前,AVS 标准包括 AVS1、AVS+、AVS2、AVS3 在内已更迭三代,形成了 10 项国际标准、13 项国家标准、3 项行业标准、18 项团体标准。2022 北京冬奥会赛事直播、2022 年卡塔尔世界杯等多个重大项目都采用了 AVS3 标准。现在,全球有数十亿个 AVS 编解码器在使用。

其次,在计算基础设施方面,近年来,高文院士也关注大规模人工智能应用的计划,设计了一个低延迟、高可靠的人工智能集群,并建造了中国首个全面自主可控的 E 级(百亿亿次)智能算力平台——鹏城云脑Ⅱ。

据悉,“鹏城云脑Ⅱ”采用华为 Atlas 900AI 集群作为强大的算力底座,总共由 4096 颗昇腾 910 组成,提供 E 级 AI 算力,相当于目前 50 万台高性能 PC 机的计算能力。

同时,鹏城云脑Ⅱ还可提供不低于 1000P ops 的整机 AI 算力和 64PB 的高速并行可扩展存储,具备百 GB 级网络传输速率,任意节点之间的延迟只有2微秒,是一个全节点交叉互联的机器。鹏城云脑Ⅲ也正在研发中,其算力预计将达 16000P,以进一步满足科学计算的超大算力需求。

除此之外,高文院士还屡次呼吁建设算力网,其此前牵头推进了“中国算力网”研究计划,并初步建成全国性智能算力互联体系。2019年,在国家发改委的部署与支持下,鹏城实验室正式启动了中国智算网建设预研项目,研发兼容多种异构 AI 芯片的核心软件栈与分布式调度平台。雷峰网雷峰网

IEEE 技术领域奖完整名单如下:https://corporate-awards.ieee.org/recipients/current-recipients/#1719496010247-9ee98ea9-32e5

]]>
人工智能 //m.drvow.com/category/ai/GOQpwmqexZHP6zKF.html#comments Wed, 25 Dec 2024 09:39:00 +0800
机器人端侧模型的十字路口 //m.drvow.com/category/ai/ATpD7GIzTjyxsxDP.html 作者|朱可轩

编辑|陈彩娴

自 2023 年以来,以大模型为代表的人工智能与以具身智能为代表的机器人成为科技发展的两股重要力量。与此同时,将人工智能算法、尤其是大模型应用于进一步提升机器人智能水平也成为一个自然而然的趋势。

在这个背景下,“机器人学习”、“具身大脑”成为炙手可热的名词。

据 AI 科技评论与多位业者的交流,我们发现诸如“具身大脑”的定义并不单一,更通俗广泛来说,凡是将人工智能算法与机器人相结合,用于提升机器人在交互、感知与控制上的技术派系都能被列入具身大脑或机器人学习的范畴。

从当前情况来看,国内专攻机器人模型的厂商大约可以分为身体控制派和交互感知派,而按技术源头则可以粗略分为几类:

一类是视觉感知派,如穹彻智能、有鹿、若愚科技;一类是强化学习派,如 Physical Intelligence;一类是语言模型派,如面壁智能、岩芯数智、自变量等等。

在解决机器人大脑问题上,不同技术派别有不同的路径之分与观点差异。单纯从过去一年的行业实践而言,研究基础模型出身的大模型派在机器人领域的落地最为焦虑。

除去激烈的市场竞争,更本质的原因是:端侧模型在机器人终端的落地,中间还隔着芯片的开发,由此机器人厂商、大模型厂商与芯片厂商之间形成了一段三角拉力关系。

而从目前来看,这段三角关系正在进入胶着的负增强反馈:

首先,端侧模型应用在机器人上需要适配芯片,但芯片的迭代是基于市场需求的:当前机器人还没有从专业级产品走向消费级产品,出货量远不如手机、PC 等硬件设备,因此适配机器人端侧模型的芯片姗姗来迟;

其次,机器人消费市场的扩大,极大依赖智能水平的提升,即 AI 模型的迭代,但 AI 模型的升级需要大量真实世界的高质量数据,依赖于其能搭载在机器人产品上与用户进行交互;

最终,具身 VLA 的实际效果离消费级可用的精度要求和准确率还相差甚远,机器人的智能水平迭代变缓,出货量更少,又反过来影响芯片的研发与出货成本。由此三者难舍难分。要打破这个“不可能三角”、走入正反馈增强,需要一方主动打破僵局。

模型厂商期望是芯片厂商,芯片厂商希望是机器人厂商,而机器人厂商或又寄希望于模型厂商……那么,谁会是最终的破局者?

大模型在机器人终端的落地是端侧 AI 的一个缩影,至少在短期内,将大模型商业化寄希望于机器人领域或困难重重。


大模型能为机器人做什么?


大模型在提升机器人智能水平过程中扮演着「大脑」的角色,主要体现在泛化与规划能力上,但目前在一些大模型接到机器人的具体操作中,大模型更多是帮助机器人进行简单的任务理解与拆分。

具体来看,一方面,目前机器人依然在执行逐个任务,更多停留在交互层面,没有看到学习能力的增强,多模态任务的实现;另一方面,机器人也更多在执行短期动作(叠衣服、做菜、打开微波炉),很少用到大模型的规划能力,如能一次做几十上百步。

例如,面壁智能目前聚焦的目标是让机器人能够完成更加多样复杂的、长线的、多步操作的任务,执行准确率更高、泛化性更强、纠错能力更好,当下正在逐个击破。

事实上,前述目标往往是需要在长程规划、工具调用、模型协同等全方位能力上具备极高专业性的,这是大模型厂商所擅长的领域。相比之下,机器人公司在这些方面的积累和突破可能会较为困难,因此,通过合作引入端侧模型,也能够更高效地解决问题。

就泛化性而言,大模型掌握世界知识、常识知识以及物理建模的能力,帮助机器人实现泛化能力的提升十分关键,但从前沿成果上来看,泛化性这一部分也还属于初期摸索阶段。

RockAI 所选择的路径便是如此,其旗下 Yan 架构大模型的技术路线是,将文本、语音、视频以及机体参数做一个整体对齐,然后一起输入给大模型。

VLA 大脑模型则通过提升物理建模能力来增强泛化性的,如操纵未见过的东西、理解每个物体的重量等等。不过,在业内看来,VLA 的实际效果离消费级可用的精度和准确率要求都还相差较远。

整体看来,大模型原有的能力暂未在机器人侧发挥出来,大模型的泛化、规划、纠错等能力在机器人侧的应用都还比较初步。此前,字节跳动 GR-2 就曾将文生视频的尝试加入到 default 的 policy model 里,但机器人做若干具体的任务这方面也还在探索中。

字节 GR-2 通用机器人

而大模型能力无法发挥、智能化难以提升的背后,其一是行业还没摸索到真正适合机器人的模型框架:目前有的工作基于多模态大模型,也有的工作基于 Diffusion Policy 的(如RDT 1B),也有两者结合各自负责大小脑建模的,但还没有像 LLM 一般走向统一的架构。

此外,不同形态的机器人对大模型会有不同的要求,短时间内可能实现的设备泛化是形态一致,但不同参数的机器人,形态可能还是相对比较一致的。

不同的输入方式对于大模型也存在挑战,如四足机器人和双足机器人的行走控制方式差异非常大,在大脑层面,向前走可以统一,但底下细致的操控方面差异很大。

这意味着,并没有哪种机器人形态更有利于大模型快速实现设备泛化。当下,大模型的大脑派与机器人的肢体派的融合情况,存在知识壁垒,正在摸索互相打通。

除前述以外,其中最大的难点当属数据——模型厂商很难获取到大量的、多元化(从视觉、语言到动作)的预训练数据,还处在 case by case 的阶段,很难提升模型执行任务的泛化性,以及在这基础上去探索更难的场景。

举例来看,目前的机器人还无法做到精确控制手部动作,就是因为缺乏多元指令微调数据集:

大模型精准控制机器人用手拿东西,要先输出目标物的坐标,而如果是一个五指灵巧手,还要输出五个手指握东西的点位。而模型先通过视觉与传感器判断坐标,然后握住再拿起来,这样的操作在理论上可行,但现在的模型水平甚至无法达到这种程度。

RockAI CMO 邹佳思告诉 AI 科技评论,「目前,手部控制还是交给机器人厂商的小脑来做,我们只需要告诉机器人要执行的动作,比如挥手,我们核心解决的问题是对指令尤其是模糊指令的识别。」

过往指挥机器人得要用特别精确的指令,而且很多指令都是写死的。今年的 WAIC 在进行机器人直播时,有的机器人翻车就是因为指令说得不对,更本质是机器人无法理解自然语言,端侧模型则能提高机器人对自然语言的理解能力。


「机器人大脑」的三角关系


再回到数据不足本身,当中的关键问题其实在于机器人厂商暂未实现量产,还无法从专业级转变为消费级产品。

从此前无人驾驶的演进历程来看,特斯拉起初也并非依靠自动驾驶获取第一批用户,而是靠车机本身的性能,之后随着用户数量增多,产生的数据也愈发变多,这样才有了数据训练模型,进而改进无人驾驶,形成所谓正循环。

但反观机器人当下的实际应用场景,现如今机器人的购买对象主要还是研究人员和偏业务的团队,并且还要先交钱再生产,实际应用场景显然不够多。

针对这一情况下,也有业者向曾向 AI 科技评论分析过破局的关键:依赖所有数据都采集自用户不太现实,如果有团队能够标注出第一版数据,可能可以解决这一问题。

不过,要做到这一点并不容易,因为机器人的数据采集并不像大模型一样从互联网下载语料就可以,而是需要真机采集后做标注,而且机器人所需的数据是多元化的,除了语言外还包括触觉、声音、力等信息,这一系列过程会非常艰难且昂贵。

不仅如此,在训练方式上也面临挑战。由于机器人训练需要真实场景,相比于以往的大模型,在强化学习、机器人的稳定性等方面,实际训练成本都要更高,目前学术界也还在探索解法。

换言之,机器人大模型本身的数据标注会比文本类、识别类模型更困难,需要一台真实的设备才能完成,这也是需要研究攻克的难点,真机采集数据比仿真数据更好、更真实,仿真数据则有些像大模型在做数据合成。

在训练具身大脑的问题上,从预训练数据去学习物理世界、学习普适的操控能力以及学习具身场景普适的规划能力,其实仿真数据也可以行得通,但没有真机数据那么真,前提是要足够多样到能适配各种设备、场景。

同时,具身场景的机器人数据和文本大模型的数据存在些许差异:从数据角度前者会多一维,如景深、3D 点云,但如果从多模态的角度,并没有太多区别,只是模态维度会更多一点。

这意味着,大模型在机器人的环境适用性确实起到一个比较大的作用,但大模型是否会帮助机器人数据采集,业内也仍持观望态度。

数据之外,算力也是现阶段机器人端模型发展的关键瓶颈之一。

目前,国内研究基础大模型的主力军虽然也陆续在发力「端侧小模型」,但起步比较晚、技术进展较缓慢,其当下重点仍旧放置在云端大模型上,如智谱 GLM-130B、百川、腾讯混元、零一万物 Yi 等。

这些大模型的参数规模动辄上千亿,需要大量的算力支持,而机器人搭载的板卡算力往往是非常小的,如若要跑上千亿的大模型,机器人就需要部署非常高算力的板卡,如此一来,成本高、功耗高、散热等都会成问题,当下最先进的联发科 9400 芯片或许都跑不起来。

所以,这些云端模型没法在机器人本体上离线部署,这也是面壁智能、RockAI 这些厂商存在市场价值的原因之一。

而如若联网调用的话,执行任务时机器人会存在延时长的情况。据 AI 科技评论了解,一款国产机器人曾与一家云端大模型厂商合作,在机器人上搭载云端大模型、让机器人去完成取水的操作时,就曾面对类似问题。

在业内看来,端侧 3B 小模型在任务泛化、智能理解等任务上肯定没有云端千亿、万亿大模型强,但 3B 模型也能拥有基础的图像理解、自然语言交互与知识库问答等能力,这就已经能解决机器人的大部分智能需求。

另外,也有观点认为,实际上,机器人的本体构型差异不影响模型研发,而研究机器人大模型主要考虑两个因素:

一是算力环境,比如一般来说,机器人的算力模组主要用 Orin,然后使用 Intel 做运控,也有小型机器人会搭载 ARM 芯片,那么模型厂商需要将模型与不同的芯片适配;二是机器人肢体参数不同,也需要做一些简单的适配,但适配成本也不高。

肢体参数不同具体来讲就是,同样是机器人,但身高分别是一米六和一米八,这两个机器人的臂展、臂长和手臂能旋转的角度也是不一样的,这就需要机器人大模型的算法指令与本体高度适配。

这也是云端模型在机器人本体上跑的 Bug 之一——云端模型与机器人本体无法完成高度的适配。

而对于模型厂商来说,机器人的肢体参数相当于「模态」。以 RockAI 为例,其只关心模型输入的模态、以及模型跑在什么样的环境上。模态包括视觉、语音、语言等输入,也包括机器人自身搭载的传感器所收集的信息,以及机器人本体零部件的参数,这些对机器人而言全是输入。

只要输入不一样,机器人都需要做一些简单的适配,不过,一般适配成本都不高,最大的成本还是芯片适配,当前,受制于算力,大模型朝两端升级的难度较高,中间则相对较低。

一方面往大了做,由于需要大量数据和算力,万亿参数模型会非常难做,模型本身并非难点,主要难在资金投入上。不仅要有万卡集群,而且集群中途不出差错是难度系数非常高的事。

另一方面往小了做。如若大模型基于 GPU 只跑在云端,其实是相对容易的;但要做小、跑在手机、机器人等终端上,则不是易事。

目前,端侧模型 3B 模型的难点主要在底层卡的运维和构建上,除了 3B 外,4B-8B 的模型也都可以应用在机器人上,关键是设备搭载的芯片大小,4090、A100 都可以搭载。

许多业者对于机器人端侧的算力也保持乐观态度,在他们看来,机器人端的算力限制其实没有手机那么强,能搭载的算力选择更多,随着芯片的进一步发展,或许千亿级别的模型也能够在端侧落地。

不过,需要看到的是,机器人厂商普遍倾向于用低功耗芯片,现在很多机器人厂商都还在用骁龙 6,而骁龙 6 每年的出货量上千万台,相当于在近五六年里,中低端芯片占据了芯片市场的主流。

其不愿意选择高算力的 GPU 的原因在于,从实践中来看,一般情况下,人形机器人脱离电源后能坚持一个小时,一旦加了高算力板卡,可能 20 分钟就会没电。

但是,端侧模型要跑在较低功耗的 CPU 上是非常难的,因为算力不够:

业内基于 Transformer 架构跑 3B 大小的模型,在骁龙 7 上跑不了,在骁龙 8 上跑起来则需要做量化和压缩,一旦如此操作,多模态能力便会出现大幅下降,需要在能力和算力需求之间寻求平衡点,这会进一步阻止机器人厂商采购模型的动力。

从当前情况来看,许多模型厂商正在做这方面的权衡取舍,在此之中关键则在于推理优化水平的高低:模型做小、落在端侧上,需要工程人员将模型优化,使其在量化后仍能保持性能、速度和对算力的要求。

有机器人领域从业者向 AI 科技评论透露,像智谱、百川这样的大模型基座,不是不考虑端侧,而是做不了的问题,现在手机厂商与机器人的厂商,基本在 RockAI、面壁与通义三者中选择。

回到芯片的问题,就算是机器人厂商愿意用高算力 CPU 或者 GPU,也会面临成本问题:

从手机厂商的例子中来看,小米使用高通 8 的手机都是售价 5000 块以上,如果叠加大模型,价格或许会接近一万,而高端机的消费人群也是少数。要等到联发科 9400 或者骁龙 8 占领市场,还有三至五年的时间窗口。

值得一提的是,机器人端大模型还面临着本体的挑战,业内研究有发现本体是一个特别大的瓶颈,更有观点认为,整个行业可能还没到模型、数据挑战阶段。


如何跳出「死循环」?


机器人大模型要向前迈进需要倚靠三方合力,不能只是大模型厂商的一厢情愿,而是要同机器人厂商、芯片厂商联合起来,共同凿开一条光明之路。

当前,也有不少大模型厂商给出了解决方案,比如以智源、智谱等为代表的单位就设计了一个端云协作的大小模型协同训练和部署的方式:

首先在云端训练大模型,然后通过知识蒸馏、模型量化等方式得到一个小模型,再把这个轻量化的小模型部署在终端上,如果终端搭载一个英伟达的板卡,就可以部署一个小如 1B 的模型。目前理想汽车就已经能够在英伟达的板卡上部署 2B 的模型。

这种做法既能保持住大模型的能力,也可以更高效地部署。

也有像 RockAI 这样的厂商,基于非 Transformer 架构在一些搭载了纯 CPU 或 CPU+NPU(低端芯片)的机器人上跑起来,来降低算力要求和功耗。(关于非 Transformer 架构的更多内容,可以阅读 AI 科技评论往期报道:《谁将替代 Transformer?》)

另外,由于芯片有迭代周期,需要三年、五年甚至更长的时间。虽然有说法认为,小模型跑在端侧上的壁垒是芯片,但并不是说芯片厂商研发出了最新的芯片,第二年所有设备厂商就会更新换代。

基于此,市场的机遇则在于存量市场,换言之就是,有没有大模型厂商能在现有算力的基础上满足机器人的智能需求。

RockAI 也在做这方面的布局,邹佳思告诉 AI 科技评论,「我们现在做端侧和高通、联发科、英特尔、ARM、华为的芯片都有适配过,用了四个月时间完成了华为昇腾 910 和 310 系列芯片的适配工作,包括训练卡和推理卡。」

「乐聚之所以选择与我们合作,也是因为我们能做他们的存量市场。这意味着他们不需要等高通或英特尔发布更高性能的芯片才能跑模型,这样是有问题的,因为相当于还得等硬件先发展。」

所谓芯片适配,其实是现阶段为了对芯片的 AI 算力进行充分利用,让模型运行更加高效,必须针对模型架构、依托芯片计算单元特点,对推理框架进行优化。

这项优化工作不仅需要对芯片计算单元、推理算子有足够的理解,还需要对模型结构有足够的认知,因此需要芯片厂商与模型公司共同协作才能快速推进。

也有观点认为,现在很多端侧模型无法落地,不是因为机器人的硬件不行或需求不足,而是大模型的技术还不够成熟和完善,所以无法触及到那么大的市场。

不过,虽然通过现有芯片也能做许多图像、音频等处理,但有些任务还是需要突破芯片困局后才能进一步实现,比如实时捕捉视频、识别实时视频流这一点,依靠现阶段的芯片性能便无法实现。

举例来看,让机器人描述在环境里看到了什么,它实际上看到的是一张照片,如果在它面前做一个打叉的手势,因为这个手势是连贯的动作,机器人可能捕捉不到(因为只能识别图片),只能捕捉到其中一个动作,那么它也许就无法理解这个动作的意思。

而要想识别视频流、捕捉中间动作过程,则对算力有着极高的要求。

「视觉这块我们现在做不上去,有更高算力芯片后就会好办了。哪怕是基于 9400 芯片,当前的大模型厂商都很难把视频能力放上去。」有机器人领域从业者告诉 AI 科技评论。

所以,芯片厂商实现高端芯片的突破,将芯片做到高算力、低功耗并行也是当下所需,芯片的跃升会给模型带来更多机会。

值得一提的是,电池厂商辅助延长续航也十分关键,但遗憾的是,如今的电池厂商在机器人市场还未发力,这归根到底是机器人市场不够广阔所致。

有业者向 AI 科技评论透露,「目前发展较好的机器人厂商一年出货量能有几百台已经算很高了,但对于电池厂商而言,这种程度的出货量远远不够,在他们看来不值得投入大量金钱与人力去做技术突破。」

最终,回归到出货量的破局,这方面还得靠机器人厂商自身拿主意,首先就是要本体做得足够更好,稳定性高,能克服各种复杂恶劣地形,覆盖多种场景等。

目前,PC、手机端也有端侧模型,但后者的出货量很显然远大于机器人,数据量也会更大。

如此来看,端侧芯片的迭代会更多放在手机、PC 等硬件设备上,机器人侧的芯片迭代速度会更慢,无法支撑模型需求,模型的迭代也会受险阻,而算法迭代减缓,机器人智能水平迭代减缓,出货量就更小。

在业内的构想中,如果能解决出货量的问题,之后量产得到提升,随之场景也能增多,如若一年能量产上千上万台,自然而然会有上游厂商找过来,资源也会跟着涌进来。

不过,值得一提的是,PC、手机端的竞争正逐步走向白热化,因为其端侧模型已经走向自研。据 AI 科技评论了解,vivo 的云端模型是基于智谱做的,但本地是完全自研的。

这也意味着机器人侧大模型的创业空间会比较大:在对于端侧模型的需求上,机器人最主要的交互方式是语音和视觉,核心诉求是实现拟人化,即整个交互下来机器人更像是个人,手机则无需特别拟人,主要是完成日常工作,目前发力点在于打通系统应用。

长期来看,模型厂商、芯片厂商与机器人厂商都还有很大的探索提升空间,面对当下存在的量产不足、芯片困境以及数据量不足,以至于难以提升智能水平的闭环问题上,亟需三方积极向彼此靠拢,并有一方跳出来主动破局。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/ATpD7GIzTjyxsxDP.html#comments Wed, 25 Dec 2024 09:34:00 +0800
思必驰俞凯:分布式大模型智能体系统是 AGI 时代一道别样的风景 //m.drvow.com/category/ai/dAwjSBX9wDIsW2TE.html 作者丨朱可轩

编辑丨陈彩娴

历时两天(12.10-12.11),今年的 2024 全球人工智能产品应用博览会已在苏州工业园区完美闭幕。

在第一天下午的大会主论坛中,思必驰联合创始人、首席科学家俞凯以「迈向分布式大模型智能体系统」为主题,深入探讨了思必驰在大模型技术路线上的独到思考,以及其对行业的观察和见解。

「分布式大模型智能体系统」是思必驰在深耕对话式人工智能领域十七年后探索出的新发展方向,即:1 个中枢大模型+ N 个垂域模型及全链路交互组件组成全功能系统。

当前,国内许多大模型厂商都跟随 OpenAI 的技术方向,将超级智能作为发力重点。

但俞凯认为,「OpenAI 这一类厂商以单一的、集中式的超级智能为目标去建设大模型,某种意义上是在造一个全知全能的神,在引领技术前沿上有划时代的重要作用;但在 2B 真实场景落地中,这个技术路线遇到了很多的问题,包括实时私域知识缺乏、专业领域能力欠缺、可靠执行能力不足和系统协作架构缺失等。」

区别于此,思必驰选择的技术路径类似于打造一个公司,从 CEO 到 CFO 、CTO 等都各司其职。其中,CEO 是中枢大模型,CFO 、CTO 等是垂域大/小模型,在这之中并不需要每一个大模型都是超级智能,它们是分布式的,核心的系统目标主要是可靠的任务执行。

现阶段生成式大模型都面临难解的“幻觉”问题,AI 还无法知晓自身的知识边界何在,而俞凯反复强调的可靠的执行智能所解决的问题便恰好在于此。

除此之外,俞凯还向 AI 科技评论介绍道,「智能体系统和大模型不一样,大模型或单一智能体现在只强调一个功能模块的输入和输出,最终的用户体验不一定好。而“智能体系统”则考虑多个不同的全链路功能模块组合,强调能组成有机整体,从整个系统层面给用户的交互体验会更好。」

不过,这些对行业的洞察也是在不断摸索试错后,俞凯和团队才逐步明晰的。成立以来,思必驰在找准自身定位的过程中也遇到过诸多技术难题:

从刚开始只想去提升识别率,到后来开始思考降低成本,再之后又面临了软件易复制、智能硬件没做过的难题,而全链路智能语音交互系统、大规模可定制也都存在着诸多需要攻关的技术难点......

以下是 AI 科技评论与俞凯的访谈实录,作者进行了不改原意的编辑整理:


构建分布式大模型智能体系统


AI 科技评论:可以简单介绍一下你们的大模型技术路线吗?

俞凯:我们一直把 ChatGPT 类的大模型叫做对话式人工智能、对话式语言计算。OpenAI 实际上是从预训练语言模型发展起来的,而思必驰是从一个完整的端到端对话系统发展起来的,一直以多轮交互为核心,不断迭代出现在的大语言模型。所以虽然殊途同归,但实际上我们有自己独特的发展轨迹。

思必驰 DFM 语言大模型是自主的技术研发路线逐渐形成的语言大模型。长期持续开展对话式语言大模型自研的其实不多,可能 2023 年之后讲得比较多, 2023 年之前很少,DFM 是 2022 年初正式对外发布的,而发布之前内部就已经在用了,是真正意义上的独立研发。


AI 科技评论:你们和 OpenAI 技术路径的区别具体体现在何处?

俞凯:OpenAI 这一类厂商是以超级智能为目标去建设单一集中式语言大模型,某种意义上是在造一个全知全能的神,它擅长创作和回答问题,并且可以生成多样性的回复。但这条技术路线在面向严肃的任务执行场景时遇到了许多问题,包括实时私域知识缺乏、专业领域能力欠缺、可靠执行能力不足和系统协作架构缺失等。

与之对比,我们的技术路线是构建 1+N 的分布式大模型智能体系统,这个「1」是中枢大模型,相当于大脑,「N」就是不同的垂域模型,大模型、小模型都有,它们都可以是智能体,然后又是分布式的。

这种模式类似于公司的组织架构,其中,CEO 是中枢大模型,CFO 、CTO 等是垂域大/小模型,从 CEO 到 CFO 、CTO 等都各司其职,在这之中并不需要每一个大模型都是超级智能,甚至所有的都不是超级智能体,这是思必驰跟 OpenAI 在技术路线上很关键的不同。

根据我们以往的产业实践,在实际大多数业务场景中,能够可靠地执行任务是最重要的,这类场景中的大模型本身不需要超级大,没有必要不计成本的去堆算力,而是需要许多平常的通用智能体,这些通用智能体具备和人进行交互的能力,当然通用智能体之间也可以互相交互。


AI 科技评论:所以你们的优势在于可靠的任务执行。

俞凯:对。现在国内外比较火的一些大模型很多是以内容创作生成为核心,但思必驰主要关注的是以工具使用能力为主的执行智能。

二者的侧重点不同,生成式强调的是创造性、多样性、流利性,本质是丰富;执行强调的是不出错、可靠。现在大模型有各种各样的“幻觉”,思必驰 1+N 的体系会对执行任务的质量进行保障,乃至于用一些创新的技术思路重新去定义可靠性。

举个例子,我问 10 个问题,你能答对 6 个,其余 4 个你不知道,但是也胡乱作答了;他能答对 5 个,其余 5 个他说不知道,要去问专家。这种情况下,他可能更可靠。一些大模型其实不清楚自己的知识边界在哪,不懂得拒绝。

思必驰在车载系统里着重强调的拒识能力,就是「我不是在跟你说话,你不要回答我」。总的来讲,思必驰的立足点就是可靠执行。其实,思必驰的大模型也可以用来写小作文、诗歌等,在现阶段,这些不是我们的核心出发点。


AI 科技评论:为什么你们今年一直在强调智能体系统这个概念?

俞凯:加了“系统”两个字之后,与大模型就不一样了。大模型现在讲的基本都是语言大模型,即使是一般意义的多模态大模型往往讲的也是一个软件、一个算法、一个程序,你有一个输入,它(模型)有一个输出。但如若只强调输入、输出文字,最终的用户体验不一定好。

我们强调的“系统”是要考虑多个不同的全链路系统组合,不单单只是智能体,有的可能包括模型,非模型的还有软硬件协同的问题,大模型实际上是“人的大脑”,除此之外还要让它有嘴巴、眼睛、耳朵等,这些要与大脑紧密结合,组成一个有机整体,给用户的交互体验会更好,这一点很重要。

举个例子,我说一句话,如果大模型一秒钟之后才反应,那就很慢了,怎么在零点几秒作出反应,还要满足高度可靠的快速定制需求,这就要在系统层面去实现。

做这套体系时,思必驰用分布式的方法将参数规模千亿、百亿、十亿等全尺度的大模型结合在一起,形成具备工具智能的可靠系统,这样才能实现更高的可靠性与产业落地。


投身 AI 创业,贵在长期坚持


AI 科技评论:思必驰成立于 2007 年,创业十七年了,您的这些技术思想是一开始就这么坚定吗?

俞凯:坚持是一件特别不容易的事,尤其对于处于萌芽时期的事物。我们刚开始做人工智能时,这个领域还没有像现在这样倍受重视,我们当时给公司起名叫「AISPEECH」,就是决心要把这件事做好,现在国家商标局已经不允许把 AI 放在前头了。(笑)


AI 科技评论:可以分享一下对于您来讲,你们经历了哪些关键性的转折点吗?

俞凯:我在英国待了十年,在剑桥的时候,前五年做语音识别,后五年做对话系统,2012 年我回到国内,思必驰正式开启了对话式人工智能的篇章。与此同时,我也把数据驱动的对话式语言计算从国外引到了国内,那个时候还不是现在的深度学习,而是早期的贝叶斯学习。那时开始做对话式人工智能,也就是现在大家所看到的语言计算的基础平台。

在 2014 年 10 月的 CES 电子展上, Amazon 的 Echo 一炮打响,人工智能的硬件载体由手机转换到智能硬件,思必驰开始从“软件交互”转向“智能硬件交互”。这个方向技术难度更大,并且一定程度上区别于仅在云端去做一般意义的语义处理,实际上,单一功能的云端 API 调用也很容易被复制。

2017 年,思必驰又有比较大的变化。当时,我们发现软硬件结合的方向非常好,中国的物联网硬件设备千奇百怪,需要各种各样的定制,我们开始研发一系列技术,专注 AI 领域的柔性制造,即把对话系统的模块任意组合,提升在垂域上的性能,快速进行个性化修改,这是大规模、可定制的对话系统,也就是思必驰 DUI 开放平台(Dialogue User Interface)。


AI 科技评论:你们真正开始切入大模型具体是在什么时候呢?

俞凯:2019 年。纵观公司的发展历程,思必驰于 2013 年研发出对话工场实现全链路闭环;2015 年 AIOS 系统实现软硬件协同的云端一体,至此对话系统正式开始面向智能硬件;2017 年通过全链路智能对话定制平台(即 DUI 平台)实现大规模可定制的柔性人工智能;2019 年有了通用对话式语言模型研发。

此后,思必驰语言大模型 DFM 进入深度研发阶段,2021 年发布了第一个版本。2023 年 7 月,思必驰 DFM-2 大模型发布,通过 DFM-2 实现通用人工智能的柔性定制,可以开展大规模、高质量、个性化的人工智能系统定制,既满足客户个性化的需求,又可以大大提升软硬件产品的“非标交付”效率。现在思必驰在这个基础上进一步研发分布式大模型智能体系统。



AI 科技评论:这么多次转变的背后,你们应该遇到过不少困难,都是怎么解决的?

俞凯:当然。全链路的智能对话系统是思必驰的一大优势,它的构建是第一个难题。

早先我们做语音识别技术,并在美国的比赛中取得了国际领先的成绩,但这并不意味着仅凭此项技术就能赚钱了,当时碰到的困难是,就算技术再强也有误差,没听说有谁的识别准确率是 100%。因此,当用户无法完成任务时,思必驰就必须提供完整的方案,单纯的算法优化并不能解决实际问题,必须将其整合到一个完整的对话系统中。

后来遇到的问题是软件产品容易被复制,思必驰在技术上比较强,也需要把技术转化成有效性、成本等优势,虽然软件也能形成系统,但是偏工具型,所以不能纯靠软件,思必驰要从智能硬件角度切入。

面向智能硬件也遇到了困难,在这个过程中要把没有学过的知识,通过学习转化成自己的东西,然后落地实践。硬件要做嵌入式,就得把它做小,做到芯片里......这些都是需要解决的技术难点。

再往后,思必驰要做大规模定制化,于是我们就开始就拆,对话系统拆了要能再接起来,接起来的时候还要能保障端到端的响应速度是业界领先,思必驰是业界最早把端到端的响应速度做到 1 秒以内的,后来有些人跟进了。这需要从真实的场景当中提炼问题,并通过算法、工程手段和系统架构设计来解决。


警惕「拿着锤子找钉子」


AI 科技评论:DFM-2 大模型是去年 7 月升级的最新版,今年有进行技术迭代吗?

俞凯:今年我们进行了很多迭代,都已经融合到产品中了,简单说就是闷头把事给干了,沿着之前做的事往上叠加大模型能力。


AI 科技评论:你们目前主要在哪些场景中落地呢?

俞凯:主要是两个方面,一是推垂域模型,二是推到产品里。

今年比较大的落地场景是智能汽车,除此之外有智能家居、消费电子等,还有政府机构、智能制造、科研等一些场景。



AI 科技评论:现在其实市面上许多大模型厂商都没办法找到真正的落地场景,所以可以看到最近大模型又有些冷下来了。您觉得这是现阶段大家最大的困境吗?

俞凯:是的,现在大模型厂商面临的最大挑战就是商业化落地场景。实际上我们做大模型,是先有端到端对话式系统的应用,然后叠加大模型,先有场景,大模型是嵌入到系统里的。很多大模型厂商现在是拿着“锤子”找“钉子”,而我们有一排“钉子”,用不用这一个“锤子”不一定,因为可能还有另外其他的“锤子”更适合。

现在许多 2C 场景都被互联网厂商垄断了,例如:以多样化文字生成、多模态生成为主的大模型最大的应用场景是内容创作,被抖音、快手等平台垄断;人机交互知识问答这种偏知识检索场景被搜索引擎厂商垄断;纯问答场景被电商垄断;还有其他小的场景,但是没办法撑起动辄几十个亿的投入。如何突围是技术型大模型厂商面临的巨大挑战。

如果往 2B 和智能硬件领域发力,就需要系统。这当中,系统和完整的解决方案是否可靠,是不是可以定制化、规模化是核心问题,这是很多纯算法厂商不擅长的。要积累的话往往也需要很长时间,因为这些核心问题同技术的先进程度有的有关、有的无关,思必驰也是摸索了这么多年才能有今天的积累。

另外,科研方向是有前途的,但偏学术而非产业,或者说是长期方向,短期之内的产业回报不会特别大。

总之,现在的大模型厂商面临着商业化应用场景选择的挑战,据我观察,目前一种破局的方式是往国外“卷”,因为 API 付费这种模式在国外的机会可能大一些 。同时,很多应用场景其实很鸡肋,对厂商来讲有些“食之无味,弃之可惜”,这也是难点。


AI 科技评论:你们做硬件的话,像汽车、办公本这些也都和端侧结合很紧密,现在也有一些大模型厂商想去切端侧,不过手机厂商也都在自己自研端侧模型了。我刚也有听您提到思必驰在做小模型,是指端侧模型吗?

俞凯:思必驰的模型云侧和端侧都有,主要就是一些垂域模型。我认为未来端侧模型一定是个重要方向,但还是要想清楚用它来干什么,有些厂商把文生图都叫端侧模型,这不是通用智能的角度。

通用智能是以端侧语言模型为核心,同时要将任务链路有效整合,有些手机厂商走得比较靠前,但是是产品层面的靠前,基础技术上还有很长的路要走,我们正在与合作伙伴积极推进这一领域的发展,可以期待一下。



AI 科技评论:聊了这么多,那现在有没有厂商和您的想法比较类似呢?你们的差异化优势又体现在哪方面?

俞凯:思必驰的首要优势肯定是技术优势,在算法和系统结合上的优势。经过这么多次的技术迭代,在 know-how 也就是所谓的关键节点的技巧上,这些方面的积累我们也有优势。

第二就是智能硬件,思必驰作为早期参与者之一,至今依然活跃在市场中,这样的企业在国内并不多,可能只有两三家。长时间的行业深耕使我们积累了宝贵的资源,成为我们的一大竞争优势。极少有厂商像思必驰一样覆盖这么多品类,在家电及消费电子领域,思必驰基于智能语音交互技术和芯片,实现对各种智能产品和设备的实时控制,接入各类硬件设备数亿台,AI语音芯片出货数千万颗。此外,依托 DFM-2 大模型,思必驰推出了多款数字硬件产品,如无感扩声麦克风、可感知和交互摄像头、AI办公本等,满足了现代工作场景中的多样化需求,大幅提升了办公效率和质量。

另外,在客户方面,思必驰经过多年的积累和服务,与国内几乎所有的汽车和智能硬件厂商都有深入合作,这也形成了技术适配成熟度高、解决方案经验丰富和客户群基数大的优势。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/dAwjSBX9wDIsW2TE.html#comments Wed, 18 Dec 2024 16:23:00 +0800
Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强 //m.drvow.com/category/ai/k9ksQzBt0UcR49g3.html 「雷峰网消息」今天,月之暗面官方宣布:继 11 月 16 日发布数学模型 k0-math 后,他们又推出了新的视觉思考模型 k1,且「数理化」的能力又上了一个新台阶,实测结果丝毫不输 OpenAI o1!

最直接的实测例子是:当我们把杨振宁、伽利略等世界知名科学家的研究手稿拍照、上传后,k1 居然能识别图片中的文字,生动解读背后的物理、天文学等科学知识,从而回答用户的提问并给出清晰完整的推理思考过程。

例如,当我们上传杨振宁的手稿并向 k1 提问,k1 给出了超乎小编知识范畴所能辨真伪的答案:

这是杨振宁的手稿图片——

这是我们的询问:这是物理学家杨振宁的手稿照片,请你一步一步分析,杨振宁在计算什么,他可能在想什么,当时可能是什么背景?

这是 k1 的回答:

上下滑动查看长图

虽然小编既不懂电磁场、也不懂粒子动力学,但看完 k1 的答案着实大吃一惊!

并忍不住发出灵魂叩问:图灵测试面对大模型还有效吗?人类读者面对这样的问题怎么区分 k1 与尔等用户的区别?当 AI 大模型不断进化,假以时日图灵测试的标准答卷是否会变成:同一个问题的两个不同答案,答案更高明的永远盲选「机器」、答案更普通的永远盲选「人类」……

更重要的是:从数学模型 k0 到视觉思考模型 k1,月之暗面(Kimi)仅用了一个月!

据了解,k1 是基于 k0 的模型升级。k0-math 模型数学能力出众,但由于仅支持 LaTeX等格式的文本输入,依赖图形理解能力的部分几何图形题无法解决。而新的 k1 视觉思考模型借助端到端的图像理解能力,解锁了包括几何题在内更加全面的数学能力。

当多模态智能不断进化,视觉模型的推理能力从文本拓展到「数理化」,我们可以大胆猜想:Kimi 大模型不仅能轻松解决传统的文本与图像信息对齐问题,连谢尔顿怎么教佩妮学物理的难题都能解决了!


1
中国首个视觉思考模型


自 2021 年 1 月 OpenAI 发布 DALL·E 及图文对齐架构 CLIP 以来,事实上业内针对图像-文本任务的双模态信息对齐与处理提出了多样化的解决思路,并发表了大量工作。

但过去三年来,这些模型的特征局限在文本数据上:

首先,以生成为主,如文生图任务,强调图文对齐、而非推理。例如,国内有大批厂商早在今年上半年就已推出看图说话功能,主要应用在旅游景点介绍、拍照生成搭配诗词歌赋等,缺少较强的常识认知与逻辑推理等能力。

其次,不具备一步一步拆解分析数理化问题的思维链能力,没有将基础大模型的语义理解与数理化问题的深度思考需求结合起来。

此外,撇开底层基础模型的能力差异不说,由于推理模型的产品体验不如纯文生图或图生视频等来得直观,模型的思考能力需要结合模型的文本输出能力来获得一手观感。而其中,长文本是展示模型推理的最佳方式之一。

而 Kimi 今天发布的视觉思考模型 k1 ,基于强大的基础模型,就从答案输出的长文本能力体现了其在多模态推理上的跃升。

值得注意的是,这也是国内首个视觉思考模型!

不同于以往国内外发布的推理模型,k1 的推理能力有两大优势:一是数理化能力杰出,二是视觉识别与逻辑推理能力强强结合。

首先,根据官方数据披露,在 k0-math 数学模型的基础上,k1 的能力不仅扩大到了数学领域中的几何图形方向,还增加了物理、化学等基础科学能力。

在基础教育各阶段的几何和图形题专项基准能力测试中,k1-preview 成绩打平或超过了 OpenAI 的 o1 模型:

结合端到端图像理解和深度思维链推理技术,在数学、物理、化学等基础教育学科的基准能力测试中,初代 k1 模型表现接近或超过 OpenAl o1、GPT-4o 以及 Claude 3.5 Sonnet 等领先视觉模型,达到了全球一流水平:

此外,k1 还具备超强的视觉识别能力,并将视觉识别能力与语言推理能力强强结合!

k1 可以准确识别强噪声干扰下拍摄的图片信息,包括但不限于灰暗灯光下拍摄、拍摄有阴影、拍摄书本弯折起伏、拍摄模糊或虚化、有手写字迹干扰等等传统视觉识别也难以解决的场景:

在推理模型的实际应用中,除了文本识别,涉及到公式与图形的理工类图文信息识别往往是用户直接拍照输入解答。

传统基于文本的推理模型,或者不支持图像信息输入,或者需要借助外部 OCR/视觉模型进行转换,效果有明显损失。而 k1 的视觉部分针对这一问题进行了显著改善。

据 AI 科技评论了解,学生群体一直是 Kimi 用户数最广的群体之一,更是 Kimi 崛起的重要幕后推手之一。本次 k1 的视觉思考能力,精准捕捉了学生拍照识题并深度解读的需求,将成为扫描王等产品的强有力竞争对手!

基准测试数据显示,在复杂拍摄条件下,例如照片图像不清晰、多题一起拍、手写字迹干扰,甚至纯手写的题目等场景,k1 模型相比 OpenAI 和 Anthropic 的视觉思考模型,有更显著的领先优势:

2
k1 掀起科学家手稿识别风

相较 k0 的数学能力,k1 解锁数理化并结合视觉识别与推理的能力,显然拥有更广阔的应用场景。其中,最震撼的是 k1 居然能解读诺贝尔奖级别的科学家研究手稿或笔记!

除了开头的杨振宁手稿,k1 的发布还掀起了一批对伽利略、钱学森等科学家的手稿识别风:

先看伽利略的天文学研究。输入一张牛顿的笔记图片:

询问 k1:请一步步推测一下这个笔记的作者是谁,笔记内容在讲什么?

k1 的回答如下:

答案简直逆天有木有!

k1 视觉模型的体验入口已经放在 Kimi 首页,为此小编也抓紧去体验了一下来自科学家的大脑暴击!

接着我又去网上找了几张科学家的手稿照片,这是钱学森的:

我心想图片这么模糊、字迹这么别具一格,k1 总该难倒了吧,结果,k1 不仅精确识别!还逻辑清晰!振振有词!

对于尔等文科生来说,这就好像能带计算机进考场考数学一样,以后行走江湖岂不是轻轻松松纵横四海?(狗头护身)

看到 k1 这么轻松就能解答复杂的数理化研究笔记,小编又忍不住思考:k1 能解答科学家手稿,那能解答抽象的现代美术展馆的艺术展品吗?让我来试试。

输入莫奈的《睡莲》,k1 解读依然完美:

不过,当我输入莫奈另一幅由于战乱辗转导致残缺的《睡莲》画作与今年香港巴塞尔艺术展上颇受关注的油彩笔所画真人画作时,k1 的表现则没有解读科学家笔记时那么深刻、严谨,原因或许是因为训练数据不足。

但在对未知或不那么熟悉的知识领域,k1 也能以拟人、优美的文字表达,展示一步一步思考问题的能力:

输入莫奈残缺版睡莲:

k1 的解读如下:

在处理包含复杂信息的图像上,k1 的能力无疑是当前国产模型的先锋,尤其在包含复杂公式与几何图形的数理化问题上。相比艺术作品,后者更能体现底层模型的逻辑推理能力。

而从用户的体验角度评价,由于 k1 结合了思维链与长文本技术,无论面对理科还是文科问题时都能给出一份展示完整思考过程的答案,在人机交互的产品创新上依然能给我们带来新意。


3
月之暗面的 AGI 进阶之路

大模型冲刺 AGI 的下一步趋势,主要有三块:多模态、推理与 AI 的自我学习。

这三块中的每一块难题攻关,都是挑战重重;而 k1 的发布,至少体现了月之暗面攻克 AGI 的两个重大命题,即多模态与推理,更是难上加难,尤其 k1 将两者结合,无论是技术还是产品上都体现出了月之暗面团队持续的创新能力。

今年下半年起,月之暗面在 Kimi 产品上频频推出新功能:

10 月,Kimi探索版革新「AI搜索」,强调AI的自助搜索能力,瞄准传统搜索引擎的弊端,解决了大量 AI 搜索不痛不痒「拼凑大量信息」问题,重新定义了「AI搜索」。

11 月,上个月的今天月之暗面发布了数学模型 k0-math,其数学能力对标 OpenAI o1 系列。

12 月,今天月之暗面在 k0-math 模型的基础上再推出视觉思考模型k1,数理化能力再上一个台阶。

可以看到,这家大模型公司正在以月为单位的速度推出新技术、更新Kimi产品细节。

一年前,月之暗面发布了支持输入 20 万汉字的智能助手产品 Kimi,创造了 C 端 AI 所支持的上下文输入长度的新纪录,以「长文本」策略一举打响了 C 端 AI 产品市场,赢得一大批用户,也给其他大模型公司带来不小压力。

之后,Kimi的产品能力和技术实力万众期待,整个业界都在期待 Kimi 的下一个动作会是什么,但在之后的整整十一个月里,Kimi都没有任何新的技术发布。

而在这段时间里,Sora、GPT-4o、GPT-o1等现象级产品一次次点燃大众的热情,整个大模型领域都在跟进,每天谁家又做出来「类 Sora」 产品、谁家又超过GPT-4o……好不热闹。

在GPT-o1发布后,其推理能力惊艳,主要体现在数学与编程上。这不仅涉及到思维链的 scale-up,模型推理能力的数据来源、以及背后的训练方法也十分关键。

早在今年 4月底清华人工智能学院的成立大会上,多模态方向领先研究者、京东技术副总裁何晓冬就预测过,下一代大模型的训练大概率是通过模型生成的数据和标注、以及模型互相对抗这条“类强化学习”技术路线来推进。

k0-math 发布时,杨植麟也提出,基于强化学习的 scale-up 比简单预测下一个 token更能提升 AI 模型的思考能力,他认为多模态最重要的也是思考与交互,但思考的重要性远大于交互,思考决定了上限。

基干强化学习技术,AI模型具备像人一样思考的潜力:在遇到问题时,首先分析问题,并提出不同的解法,然后根据不同的解法进行不断试验、反思并改进。

自 AlphaGo 开始,深度强化学习一直被视为实现 AGI 的关键路径之一。但在过去,由于深度强化学习有两大缺陷:一是样本效率与计算效率低,二是算法安全性与鲁棒性低,其不适用于解决现实世界中交通、医疗、金融等关键领域的智能决策问题,因为这些领域的容错率低、一旦出错则风,险极高。

但大模型时代到来后,结合大模型的语义理解与 2022 年出现的思维链技术后,强化学习有了新的生命。通过在大模型产品交互中引入强化学习的过程奖励机制,对模型的推理过程进行逐步激励与惩罚,激励模型生成更详细、质是更高的推理过程。

Kimi 将基于强化学习技术的新一代模型,称为“思考模型”。

这是月之暗面创始人杨植麟技术路线思考的直观体现。

而在明确强化学习与AI思考能力放下之前,月之暗面也经历过战略调整,但最终决定要聚焦,聚焦Kimi。杨植麟称,这是他们主动做了业务减法的结果,聚焦去做离 AGI 上限最高的事情,然后做好。

从 k0 到 k1,月之暗面都给国内的大模型发展带来了惊喜,k1 之后,k2、k3、k4…会如何迭代呢?作为技术的领跑者,Kimi 正在定义属于自己的 AGI 路线。






]]>
人工智能 //m.drvow.com/category/ai/k9ksQzBt0UcR49g3.html#comments Mon, 16 Dec 2024 18:37:00 +0800
SIGGRAPH Asia 2024:传统与创新并存,3D 生成与具身智能热度上升 //m.drvow.com/category/ai/eND3uxD7KkjkUDTl.html 作者丨朱可轩

编辑丨陈彩娴

今日,历时四天(12.3-12.6)的第十七届 SIGGRAPH Asia 在东京正式闭幕,本届围绕的主题为「Curious Minds」,无论是参与注册的人数还是论文投稿数都创下了历史新高。

华人学者在本次大会上的表现依旧十分亮眼,在会场,几乎大多数论文背后都有华人的身影。

当前,在计算机视觉学界主要有新兴派和传统派两类研究者,前者的目光主要聚焦在具身智能和 3D 生成方向,而后者则依旧专注于解决几何建模和几何处理中的细节问题。

新兴派的论文成果正处喷涌期,但今年的论文也并非全然被 AI 浪潮席卷,老派研究依旧占据了一席之地。

除了学术论文外,今年的展位也依旧人头济济。据 AI 科技评论观察,和往年相比,今年有关动作捕捉的展示项目占大头,同时,以 VAST、影眸、元象为代表的 3D AIGC 大陆厂商也参与了展出。

从产业化的角度,3D 当前确实还不比多模态大模型的应用面那么广泛。

但深圳大学计算机与软件学院教授胡瑞珍十分看好这一方向的发展,她告诉 AI 科技评论,「数字媒体一直在更新迭代,一开始是音频,然后变成一些二维的图像视频,不远的将来数字媒体的呈现形式就会变化到三维了,就像 体积视频、元宇宙,包括李飞飞提到的空间智能,都在强调 3D 内容和三维感知。」

现阶段,3D 还是一条相对而言没有那么拥挤的赛道,这也恰好为学术和创业提供了蓬勃发展的空间和机会。

在会场,AI 科技评论和多位从业者进行了交谈,并在此之中得到了一些结论:

  • 3D 生成方向有关几何和纹理模型的技术成果正在快速更新中,但其中有关到底走端到端还是多步迭代的路径业内稍有分歧。

  • 技术还未走向完全成熟,所以 3D AIGC 的应用落地也还尚处早期,用户对于三维的认知和需求也都有待提升,目前在与日常生活较为贴近的游戏、美术设计和电商等方向应用较多,与前者相比,工业界落地相对已较成熟。

  • 关于 Animation 的技术也还需突破,当前在骨骼方面缺乏比较 Scale 的模型,这一方向与 AI 紧密结合后和空间智能会比较接近。


模型技术创新持更中

近年来,在几何、纹理方向一直在持续出现有关大模型的前沿技术。海外包括 Meta 的 3D Gen、Adobe 的LRM 、Google 的 DreamFusion 等,国内目前比较有代表性的主要有 CLAY、TEXGen 等。

在几何方面,影眸科技在今年的 SIGGRAPH 上被提名了荣誉奖的 3D 原生 Diffusion Transformer 生成式大模型 CLAY,也解决了 2D 升维法所存在的问题,实现直接从 3D 数据集训练模型的突破。

CLAY的进阶版本Rodin Gen-1也在今年6月正式上线,并在本届大会上进行了展出。

VAST 所采用的是一个基于 rectified flow 的大规模形状生成模型,据了解,这种模型能够在采样步数更少的情况下精度更高,同时训练也会更稳定。

在纹理生成这部分,此前比较主流的操作方式主要有两种——

第一是借助已经训好的图像生成模型去做纹理贴图,这其中包括 Google 的 DreamFusion 开创的所谓「2D 升 3D」的路径,以及常用的通过逐步的多个单视角的纹理生成和反投影进行整个模型的纹理生成。

但这种方式的缺点在于,由于生成依赖于图像模型而不具有整体的三维感知能力,AI 无法判断各个视角的整体一致性,所以生成内容可能存在诸如一个人正反两面都有人头的问题,当前学术界也在寻求突破。

第二是一种依靠图像数据做训练监督的 regression 的 model,使用一个 texture field 做纹理表示,但这种方式没办法做现在流行的基于原生数据训练的 diffusion model,进行多步迭代,最终呈现出来的细节效果不太好,人眼所看不到的立体图像背面可能会比较模糊。

区别于前述两种操作,此次 VAST 和港大、清华团队获得最佳论文提名奖的论文《TEXGen: a Generative Diffusion Model for Mesh Textures》带来了自己的思考。

论文链接:https://arxiv.org/pdf/2411.14740

AI 科技评论在会场联系到了该篇论文的一作余鑫,他当前在香港大学就读博三,师从齐晓娟。据他介绍,「我们做的模型不需要依赖于 2D 升 3D 的方式,直接训练一个原生的 diffusion model 输出 3D 纹理内容,这种原生的 3D 模型能一次性生成整个物体的纹理。」

这块做下来有几处难点问题,首要的是数据,因为纹理涉及到一些表现形式,而不同的表现形式所获得的数据多少其实是不同的,另外网络架构和算力也存在难点问题。

实际上,余鑫也并非从一开始就做纹理模型,在 stable diffusion 出来之前,他就尝试过用 latent diffusion 做几何模型,后来出于多种因素考虑,他才逐渐开始转向聚焦纹理模型。

在他看来,纹理比几何更复杂、变化更大,并且是一种表面属性,当前的神经网络也很难去处理纹理数据,也正是因为困难相比几何更大,这块赛道当前还鲜有人切入。

「我之前也做过利用 2D 升维的 3D 生成工作,这种方式的确可以在某些程度上取得惊人的短期视觉效果。但他终究不是一个通过 3D data 学习的原生模型,存在各种 bias,所以长期来讲,我觉得有还是要走通过 3D 数据训练的 feed-forward 路线。」余鑫说道。

之后在研究过程中,他也曾考虑过类似 Meta 3D Gen 的路径,将 3D 纹理贴图作为两个阶段分别处理,即先多视角生成再训练一个模型进行补全,并做出了短期效果。但最终认为这种做法其实存在一定上限,如若要追求长远的效果,还需要尝试新的方案。

此外,对于多个阶段的生成方式,他也曾考虑过另一种方式,主要是用到纹理的两种表现形式,并都支持直接训练 diffusion model。(此文章即 Point-UV Diffusion,发表在 ICCV 2023 Oral。)

「之前我的想法是分两个阶段去 train 两个 diffusion model,后来我开始思考 end to end 把两个阶段的优势都发挥出来的可能性,感觉是可以实现的,所以也针对这一点提出了混合 2D-3D 去噪模块。」余鑫说道。

另外,值得一提的是,影眸科技 CTO 张启煊也透露,几何的绝对质量和贴图的绝对精度也将是影眸团队接下来重点会突破的方向,明年 1 月会正式官宣新的突破性进展,并争取在年底上线新版本。

当前,在 3D AIGC 方向的发展与图像、视频这类二维内容生成式模型在多样性、可编辑性等方面、个性化定制等方面还有部分差距,这也是学界和业界需要合力去攻克的问题。

在胡瑞珍看来,「未来到底是走 end to end 还是 Multi step 的路径解决问题,现阶段还不好判断,因为三维数据确实没有二维多。」


3D 生成应用已经起步

本次大会,AI 科技评论在现场听到最多的关键词大概当属「数据」。有业者认为,数据对于 3D 生成平台而言是决定所做产品差异性的关键问题,甚至在现阶段的重要性大于模型。

VAST 目前和同行相比的优势就在于大规模高质量的私有数据集,据 VAST 首席科学家曹炎培介绍,「我们目前已经有 2000 万高质量 3D 训练数据,而训练开源模型或者没有私有数据的团队可能只能用到几十万数据,这样一两个量级的差别会导致最终 3D AI 生成模型结果精度、泛化性、多样性、可控性等方面的差异。」

张启煊同样强调了数据的重要性,「对于 3D 生成来讲,其实数据的绝对数量不重要,质量非常重要。」高质量数据需要足够细节、平整,达到 production ready 的质量,真正用在最后实际生产里。

当前,「开放的 3D 数据存在大量过于简单的 model,还会有很多点云和低质量的 model,这些其实都应该剔除掉,所以我们也花了大量的时间在数据修复和数据清洗上,以此来提高整体质量。」张启煊强调。

影眸展位

除了数据以外,3D Tokenizer 也是当前在技术上较为有挑战性的部分,还有很大的进化空间。

目前情况来看,文字 Tokenizer 实则已经发展到比较成熟的阶段,图像、视频方面其实也已经有了 Sora 在前打样,但 3D 的研究成果还在持续更新中。

应用场景目前在 3D 生成领域也还不够明晰,在业内看来,如若只是服务游戏、美术等方面,最终的盘子不够大。AI 科技评论在现场走访到的几家厂商,现阶段基本集中于游戏、设计、3D打印、电商等落地场景。

VAST 面向的场景之一是帮助游戏、动画行业降本增效,降低此类内容的制作成本和时间,其二则是泛定制化、泛工业的 3D 打印,除此之外、也是未来最关注的场景,则为需要实时低成本 3D 内容创作的UGC(user-generated content)场景。

「比如元宇宙,以及一些做开放世界的客户,其实很希望引入一些 UGC 玩法,有了 3D 内容生成平台以后他们能够解决海量 3D 资产构建的问题,并且设计出在没有实时 3D 生成技术前无法设想的玩法。」曹炎培告诉 AI 科技评论。

「我们在今年 SIGGRAPH Asia 上参与的另一个环节 Real-Time Live! 中所展示的 Tripo Doodle,也正是如何利用 AI 3D 技术让普通人能够从简笔画实时生成自己想要的 3D 模型。」

在他看来,「从逻辑和技术发展趋势上来讲,3D 内容平台是未来一定会出现的应用方向,所以我们未来的发展方向正是构建这样一个平台,而现在所做的 AI 3D 工具是一个必经阶段,因为构建内容平台首先需要易上手、低成本的内容创作工具。」

VAST 展位

影眸所切入的也有类似赛道,但和 VAST 的主要区别在于,前者所做的工具会更为专业。在今年 8 月的 SIGGRAPH 上,影眸团队也在 Real-time Live 中也展示了其特有的 3D ControlNet 功能。

「比起让 AI 像个随机的老虎机,我们更希望让艺术家可以自己掌控生成的环节。」张启煊分享道。

除此之外,电商也是 3D 生成当前的一块落地场景, 影眸目前所做的主要是给家具、工艺品商家提供 3D 模型。

不过,值得关注的是,现阶段,服装类暂时已不被各家纳入应用范畴,此前,其实虚拟试衣一直分为 3D 和 2D 两派。

去年,影眸曾考虑过服装生成的市场,其发表的《DressCode: Autoregressively Sewing and Generating Garments From Text Guidance》也在 SIGGRAPH 主会拿过荣誉提名奖,主要介绍了一种专为 3D 服装设计的生成式 AI 框架 DressCode。

但在今年的会场中,张启煊告诉 AI 科技评论,「现在大家想做虚拟试衣,基本上会跳过 3D 这个步骤,直接进行视频生成,所以我们这方面先搁置了,选择 All in 物品级的 3D 生成上。」

「结合 3D 生成做虚拟试衣其实是需要进行布料模拟的,而这一步十分消耗算力,但视频生成其实所需要的算力相对会更少,而在其他场景里的算力消耗程度则相反。」他进一步介绍其观察。

曹炎培也认为虚拟换装方向现阶段结合图像、视频生成模型相较纯 3D 方案会是更优解。在他看来,视频生成模型在和谐度、动态观感等方面很有优势,而纯 3D 方案则有一些难以解决的问题:

「首先,所需要的 3D 衣服模型许多小的网店商家肯定没有,他们只有实体服装,但如若通过 3D 扫描等数字化方式也较难得到准确、高质量的服饰模型。在此之后,如果要实现虚拟试穿,在纯3D管线中,还涉及如何获取试衣者的高还原度 3D 数字模型、如何进行高质量物理解算与渲染获得试穿效果等难题。」

产业化的落地对比学术界必然会存在些许滞后性,而目前 3D 这块领域的技术还在更新迭代中,只有当技术走向成熟以后,应用落地才能随之提速。

前文所提到的基本是与日常生活更贴近的场景,用户或许对于三维的需求暂时不太旺盛。但胡瑞珍向 AI 科技评论分享了她的观察,在她的视角中,实际上,现在在工业界范围内,3D 的落地已经相当广泛。

「类似智能智慧工厂、港口的智慧调度等等,这些场景都需要三维内容,要有一些数字车间,这部分的发展其实远比我们想象的要成熟,只是距离日常生活稍微有点远,许多人不太了解。」


动态 3D 模型亟需突破

同样作为在现场比较有代表性的厂商之一的元象,选择了 3D 市场中的其他切入方向。大空间 VR 是他们此次展出的重点产品。

其偏于 XR 的整合应用本身,应用场景主要在线下通过佩戴头显进行沉浸式体验,当前元象在全国已开设了三十多家「幻旅之门」线下门店。

据元象引擎和 AIGC 算法负责人黄浩智介绍,「我们主要以超采样配合性能优化带来高清晰度画面,品质清晰度、不眩晕以及帧率稳定是我们大空间 VR 的优势。」

另外,元象本次大会带来也展示了一款骨骼动画的插件,通过文本生成骨骼动画的动作。今年 8 月,元象推出了国内首个基于物理的 3D 动作生成模型 MotionGen,主要解决生成逼真角色动作的行业内持续性挑战问题。

不过,元象也还在探索初期。会场有 3D 从业者告诉 AI 科技评论,当前,在 Animation Rigging 的方向上,其实还比较缺少用数据训得非常充分、非常 Scale 的模型,去服务动态 3D。

MotionGen 在动作自然度、文本匹配度等方面也都还有提升空间。

「如若描述的文字太过复杂,可能会存在无法理解的情况,训练数据也影响到最终呈现的效果,数据、模型都还有很多优化空间。」元象动作生成算法负责人钟国仁向 AI 科技评论介绍道。

也同样由于刚刚起步,用户处于免费试用期,所以元象所使用的也还是开源数据集。

当前,在解决数据问题方面,比较主流的路径有两条:

一是结合动捕设备自己生产数据,这也是业界普遍采用的方法。展位位于元象对面的厂商唯晶科技所选择的方式便与此类似。

唯晶科技旗下产品 Genmotion.AI 的负责人刘同梅介绍,「我们目前和世界排名靠前的游戏公司合作,而他们在使用 AI 工具时,其实担忧的关键问题在于数据来源,所以我们所有的数据都是自己动捕的,所有的动作都有全程录影详细记录,甚至结合区块链辅助溯源。」

元象也有自己的动捕设备,但在钟国仁看来,前述做法其实对许多厂商而言比较费时费力。

所以,元象更看好另外一种做法,即从视频里提取动作,之后再基于大语言模型理解这些动作,然后形成相关文字描述,这也相当于一部分数据。


元象 XVERSE 展位

另外,骨骼的形态变换也有厂商正在探索更多情景。

刘同梅告诉 AI 科技评论,「我们目前的 3D 动画只有一种骨架,骨架重定位的功能正在开发中,之后可支援侏儒和巨人有差异性的骨骼,另外,现阶段 3D 动作只支援人的骨骼,四足动物動作数据还未深入研究。」

值得一提的是,VAST 的 Tripo 平台上也有自动角色绑定和动画的相关功能,可以控制所生成的 3D 形象展开多样的动作,但目前主要适用于人形或类人形角色,更加泛用的动画功能还在研发当中。

结构化生成也是后期需要研究突破的方向。在业者的设想中,未来其实可以做到让类似抽屉等物体可拆分为几片,甚至操作其开合,这也会是一个有想象力的方向。

面向更大的 3D 场景的产品也同样仍处在发展初期,目前做得更偏向于全景图像,将其 3D 化可以看到任意一面的动态,但是,通过 3D 实现操作和交互物件业内也还在探索中。

值得一提的是,事实上,Animation 和李飞飞所提出的「空间智能」也是有共通之处的。

胡瑞珍谈到,「 Animation 通俗理解其实就是建模已经做好了,之后让角色动起来,看上去更加真实,这其中所有的东西都会涉及到对空间感知、空间计算,现在我们把 AI 的一些技术用进来,其实跟空间智能的概念是很像的。」

「李飞飞把空间智能推得很火,但其实也不算是新的概念,她其实就是把学界此前没有合并的概念进行了合并,另外她其实也没有严格定义到底怎样才算空间智能,所以在我们看来,只要在三维空间去进行感知、交互,都算是需要有空间智能的。」


写在最后

今年第三次回归东京的 SIGGRAPH Asia 相比于去年的悉尼,参会热情明显高升,不少参会者都向 AI 科技评论兴奋地分享了一边学术交流一边游玩东京的经历。

SIGGRAPH Asia 作为 SIGGRAPH 在亚洲的延伸,虽然参会人数和投稿量规模会相对小一点,但同样也作为大会技术交流和海报主席的胡瑞珍向 AI 科技评论透露,两场大会的技术论文评选标准是完全一致的,论文质量也处于同一高度。

近年,投稿数量从三百多篇到近千篇,学者投稿 SIGGRAPH Asia 的热情正直线走高,不过,也有会场学者表达了些许遗憾,在他们看来,本次大会还是没有给到太多预期外的惊喜。

明年的大会将落地在香港,在人工智能的浪潮之下,计算机视觉和图形学的未来发展将会如何,可以继续拭目以待。雷峰网雷峰网


]]>
人工智能 //m.drvow.com/category/ai/eND3uxD7KkjkUDTl.html#comments Mon, 09 Dec 2024 11:11:00 +0800
枫清科技高雪峰:从数据到知识,跨越生成式AI与决策智能间的鸿沟 //m.drvow.com/category/ai/qwcxcY9UJNrahHE2.html

12 月 5 日,“2024 中国生成式 AI 大会”在上海开幕,全球 AI 领域的顶尖专家、行业领袖与技术创新者汇聚一堂。会上,枫清科技(Fabarta)创始人兼 CEO 高雪峰深入探讨了人工智能在企业智能化转型中的关键作用。

高雪峰指出,随着 AI 技术的不断进步,企业转型已经进入一个全新阶段。过去,企业的信息化与数字化转型主要集中于加速业务流以及提升业务效率。但如今,如何在瞬息万变的商业环境中利用 AI 技术做出更加精准、智能的决策,并推动业务创新,已成为企业智能化转型的核心命题。他强调,人工智能已经不再仅仅是“工具”,而是驱动产业变革的“引擎”。从信息化到智能化的飞跃,AI 技术正在重塑各行业的核心竞争力。

企业在智能化转型过程中面临着许多挑战,尤其是在大模型应用落地时。当前,许多大模型的可解释性差、推理能力不足以及模型幻觉等问题仍然存在。此外,企业普遍面临数据孤岛、多模态数据管理和知识校验等技术瓶颈,限制了大模型在实际应用中的效果。

枫清科技(Fabarta)创始人兼 CEO 高雪峰

在此背景下,高雪峰提出,企业智能化转型不仅依赖于模型的参数规模的增长,更加依赖于企业数据质量与知识管理的优化。企业的 AI 应用已经进入了“以数据为中心”的新阶段。随着越来越多的人开始关注“Data-Centric(以数据为中心)”架构在 AI 场景落地中的价值,AI 技术正在从“Model-Centric(以模型为中心)”逐步转向更加注重数据质量与智能推理的方向,从而提升 AI 应用的实际效果和决策能力。

为了应对上述挑战,枫清科技(Fabarta)提出了“Data-Centric(以数据为中心)”大模型应用落地的新范式。高雪峰详细介绍了枫清科技如何通过构建全链路优化体系,帮助企业提升数据质量,打破信息孤岛,实现数据与知识的有效整合。这一过程中,枫清科技的知识引擎与大模型双轮驱动的新一代智能体平台,成为提升企业智能化决策能力的关键技术路径。

雷峰网了解到,枫清科技的智能体平台整合了多模态数据、知识库及智能推理能力,帮助企业实现数据、大模型与实际应用场景的深度融合,从而全面提升大模型应用的智能化水平。这一平台已成功推动多个行业的智能化升级,为企业提供了精准的决策支持与高效的运营能力。

值得一提的是,枫清科技在行业智能平台建设过程中,已与中化信息、龙盈智达、立臻科技等多家领先企业建立了深度合作。这些合作不仅彰显了枫清科技在行业智能化升级方面的技术实力,也为其进一步推动产业智能化转型奠定了坚实基础。

高雪峰最后表示,随着企业 AI 应用进入一个新阶段,如何让 AI 真正理解并应用企业内外的知识,提升决策质量与时效性,将成为未来的关键。接下来,枫清科技将持续深耕技术研发,优化产品矩阵,不断为企业提供更加智能化、高效化的解决方案,帮助企业在智能化转型的浪潮中占据先机。

]]>
人工智能 //m.drvow.com/category/ai/qwcxcY9UJNrahHE2.html#comments Fri, 06 Dec 2024 17:33:00 +0800
从灯塔到弃子:波士顿动力为何被追随者反超 //m.drvow.com/category/ai/jKBc0pV9LTLYEXEs.html 李子柒复出,川普正当任,仿佛回到了 2018 年自己还不是毒妇的时候。

2018 年,李子柒凭借视频在 YouTube 涨粉百万,一举成名。同年,有个机器人也抓住 YouTube 的东风火了一把。

那一年,李子柒的最高播放量是,7334 万,而这个机器人的最高播放量是,1.5 亿,比李子柒的两倍还要多。

这仅仅是 YouTube 一个网站的数据,“病毒式传播”的切片视频,让 Spot,一个四足机器人,我们常说的机器狗,成为了现象级的网红。

Spot 也确实很有大网红的素养。

首先,作为大网红它不挑活,施工现场、工厂、荒郊野岭,不管什么环境都坚持跑上跑下认真工作。

它还多才多艺,舞蹈、跑酷、武术、健身全都不在话下。

不过当时的 Spot 还只是实验室的一个试验品,导致虽然波士顿的动力名气很大,却没有任何实际上的产品。

彼时迎接视频红利的波士顿动力忘记了一件事,冲浪要踩准浪头,如果浪潮褪去后赶不上新浪,就只能被拍回岸边。

新的技术浪潮一波又一波,YouTube 的热门视频也换了一批又一批,有些公司红着红着就凉了。

最近,Reddit 的波士顿动力社区里,有一个帖子在主页挂了很久,标题是:“波士顿动力现在到底在做什么?”

这个帖子只有 11 条评论,但在现在的波士顿动力社区里已经算得上是有热度了。

发帖人很好奇,为什么像宇树这些后来的公司都有成熟的产品,而波士顿动力入场早,却并未展现出应有的市场领先地位。

有人说那是因为波士顿动力在专心搞研究不在意商业,也有人说是因为行业小众客户不够,市场铺不开。

归根到底,波士顿动力没能把技术转换成商品,卖不出产品赚不到钱,再顶尖的技术也只能凉凉。


波士顿动力的灵魂

在 MIT Leg Lab 时,Marc Raibert 研发出了世界上第一款能单腿蹦跳的机器人,但机器人并未成为他创业的第一选择。

Marc 最初的想法是,用自主开发的动态模拟工具加机器人技术,造一个基于物理的模拟器。

因此,他创建波士顿动力后的第一个项目是,手术模拟器。Marc 希望它能成为外科医生的指导老师。

这款模拟器在贸易展览上大受欢迎,但没有外科医生愿意为它付费。在他们眼里,波士顿动力才是应该付费的那个,不然谁来告诉模拟器那些和外科手术有关的知识?

Marc 和同伴聊了很久,最终决定放弃这几年的心血。因为他们都察觉到了一点:模拟器不是正确的方向。

他们转换赛道,用索尼 Aibo 机器人的四条腿,做了一个四足机器人,还另外造了一个会跳舞的小型人形机器人。

索尼三代 Aibo 机器狗

索尼对他们的机器人很感兴趣,每周都要和他们开会畅聊技术,持续了好几年。那时候还没有互联网,为了通话,波士顿动力安装了六条 ISDN(综合业务数字网)线路。

Marc 说,他们回到了原来的位置,重新发现了公司的灵魂——机器人

1980 年,Marc 靠他的单腿跳跃机器人拿到了 25 万美元的投资,这位投资人后来成为了美国国防部高级研究计划局( DARPA)的主任。

这仿佛预示着波士顿动力和 DARPA 的不解之缘。

2005 年,被戏称为现实版“神盾局”的 DARPA 开启了一项计划,想挑选几个科技公司为军方研发尖端产品。

波士顿动力的“大狗”(BigDog)在42个项目中脱颖而出,这也是波士顿动力真正意义上的第一款机器人产品。

“大狗”(BigDog)

“大狗”的技术优势是液压方案压缩泵产生的高压液体能通过压强产生巨大的推力,就像人类肌肉一样,能带动机器人关节运动

然而,成也液压,败也液压。

液压驱动导致“大狗”噪音极大,军方不再寄希望于它能作为士兵的驮骡工作。2013 年 12 月底,“大狗”项目停止。

不过,好消息是,波士顿动力因此开发了一种独特的商业模式,“Project-to-VC”模式,通过推出具有震撼力的原型项目,吸引各方投资,再反哺创新。

从“大狗”开始,波士顿动力的机器人道路就一发不可收拾,研发了一系列不同用途的机器人。

打破机器人速度纪录的 Cheetah,轻便还能通过平板与API操控的“小狗”(little dog),还有“大狗”的军事版本 LS3。

2016 年,未来的超级网红机器人,Spot,终于诞生了。

左 1 是初版 Spot


不够合适的 Spot

2015 年,Spot 的概念介绍视频在YouTube走红。

2016 年,Spot 正式面世。

2018 年,Spot 再次走红,依靠病毒式传播成为现象级网红,并宣布进入规模化生产的准备阶段。

2019 年,波士顿动力面向特定客户推出Spot租赁服务,每月租金最高 2,000 美元。

2020 年,波士顿动力开启 Spot 售卖服务,单机售价 74,500 美元。

Spot

一年又一年,波士顿动力的步子迈得很稳,始终没有被网络流量影响方向,但稳过头就成了问题

波士顿动力的“Project-to-VC”模式,只有波士顿动力能享受福利专心搞研发,投资方只能不断地亏损。

2013 年,谷歌以 30 亿美元的价格高调收购波士顿动力,又在 2017 年因无法承受亏损转手给日本软银。

软银接手后,立马注入了 3,700 万美元的资金要求波士顿动力尝试量产 Spot mini(后更名为Spot)。2020 年,Spot 如约进入了市场但销量惨淡,只卖了不到 400 台,总销售额约合 3,000 万美元。

同年,疫情冲击导致软银面临巨额亏损,不得不甩卖资产自救,不能盈利的波士顿动力再次被推向市场。

2020 年 12 月 12 日,现代集团宣布以 9.21 亿美元的价格收购波士顿动力,此时波士顿动力估值 11 亿,降了 63%。2021 年 6 月,现代以 8.8 亿美元的价格正式接手了波士顿动力 80% 的股份。

要想保持技术领先,就必须不断地烧钱。

可从波士顿动力的三次转手经历和估值的大跳水就能看出来,它本身并不具备良好的盈利能力,而资本从来都不是慈善家。

波士顿动力也努力过,想改变节节败退的局面。

Spot 瞄准工业市场,针对用户体验做了多次优化,拥有了可以自由添加的自定义程序和一系列可集成的传感器,试图通过定制化俘获消费者的心 。

但最好的不一定是合适的。

单臂机器人、双足履带式机器人技术含量低,但简单好用又便宜,无人机也因灵活性和低价在安防巡查市场有了一席之地。

而 Spot 本体贵租赁也贵,设备维护的价格更是不菲,对部署环境和操作者技术水平的要求也都很高,企业负担不起大批量应用的高昂成本,即使是大户雪佛龙,也只部署了 10 只。


把机器狗的价格打下来

如果说 Spot 的销售业务是波士顿动力尝试摆脱对军方和外部资金依赖的试探,那么 Marc 卸任 CEO 则标志着公司向商业机器人全面转型的决心。

2020 年,Marc 从 CEO 转为董事长,原 COO Rob Playter 出任 CEO。副总裁 Michael Perry 解释,这是为公司进入“新的增长阶段”做准备。

新任 CEO 迅速引入大量非研究背景的人才,加快商业化步伐,公司规模从 100 人激增至 700 人。

后面的故事我们都知道了,Spot 销量惨淡,寄予厚望的明星产品最终沦为“哑炮”,波士顿动力被第三次转手,这次的新“血包”是现代汽车。

波士顿动力也意识到了太贵的问题,想借助现代的汽车技术把机器人价格打下来,但到现在都没看见成果。

真正把价格打下来的,是中国的机器人公司——宇树。

在 Spot 出圈爆火前,波士顿动力在业内已经名声不小,液压方案的机器狗也因此成了主流。

实际上,液压有着噪音大、易漏液、元件精度要求高等种种缺陷,电驱也比液压成本更低且易于控制。但当时电驱技术卡脖子,电机扭矩不够,导致关节动力单元性能不行,只能被行业冷落。

王兴兴对突破电驱的技术问题很感兴趣,在本科毕业时做出了一个无刷电机驱动器。研究生时期,他又受到无人机的启发,在无人机使用的无刷电调基础上进行改造,最终做出了能够用在机器人动力单元上的小尺寸电机驱动器。

最终,王兴兴用不到 2 万元的成本,搭出了电驱机器狗 Xdog,获得了上海机器人设计大赛二等奖。

他笃定,电驱版本的机器狗必将成为未来机器狗产业化的方向

2016 年,王兴兴找到同窗陈立一起组建了最初的宇树团队,也是全球第一家采用电驱技术的团队。

王兴兴

王兴兴曾在采访中直言,“因为这是个小众行业,我希望把这个行业能赚的钱全赚了。”

宇树的策略很简单,低价,低价,还是低价,堪称机器人内卷的神。

电驱便宜好用,但王兴兴觉得单靠电驱还是不够省钱。

一块零件的价格可以买到制造很多块零件的原材料,王兴兴选择找供应商订材料自己造,不让中间商赚差价。

通常的研发思路是围绕负重、速度等方向去研究如何实现目标,但宇树会先做好详细的产品功能定义,以及整机尺寸、重量、成本等细节内容,再去倒推在这一框架下要怎么改进才能榨干硬件性能

别人想的是要怎么编一个更好的框装东西,王兴兴想的是怎么用一样的材料编更大的框装更多的东西。

这样做的另一个好处是,每次产品更新迭代都能拿着以前的方案接着改,不需要推翻重来,显著提升了迭代速度

从宇树的第一款商业化四足机器人 Laikago 发布以来,几乎每过一年,宇树就会推出新一代的机器狗,而且每一次都比上一代性能更强、价格更低。

2019 年,宇树发布能后空翻的 AlienGo,定价 40 万人民币(约合 5.6 万美元),比 Spot 低了近三分之一。对比 Spot,宇树的机器人不仅能翻转跳跃,还更加小巧,行走速度几乎是 Spot 的两倍,续航时间也更长。

到了 2023 年,宇树的 Unitree Go2 将价格进一步压缩至 9997 元,把机器狗的门槛直接拉到大众消费水平。

Unitree Go2

2024 年,宇树已经成功占据了全球近 70% 的机器狗市场,据测算卖出了 2.37 万台,而 Spot 总销量才勉强超过 2,000 台

今年 4 月,波士顿动力终于放弃无法解决的液压结构渗油问题,宣布另一款明星产品——人形机器人 Atlas——也要将液压系统改为电驱系统。


Atlas 的“技术自嗨”

Spot 商业化失利,而 Atlas 甚至从一开始就不打算进入市场。

Marc 有一个垫脚石理论:如果一年内看不到现有研究的具体成果报告,那就是在原地踏步。对他而言,每一份成果报告都是一块垫脚石。

在谷歌时期,波士顿动力被纳入了 Google X “登月计划”。这一计划旨在推动能够改善数百万乃至数十亿人生活的人工智能与机器人技术,重在长期创新,不计短期收益。

垫脚石理论也在这一时期成型。

实现“登月计划”的目标可能要花很多年,但过程中并不需要解决所有的问题,也不必按固定顺序推进,只需拆解成不同的部分单独击破即可。这些不同的部分最终都会成为垫脚石,帮助 Marc 在正确的方向上取得进展。

Atlas 被波士顿动力定义为前沿研究项目,也是其追求卓越技术道路上最好的垫脚石。

Marc 做研发最在意的是功能,因此多足机器人超越了人形机器人成为了机器人研发的最优选择。除了 Atlas 以外,波士顿动力研发的各类机器人也几乎都是多足机器人。

由于许多人形机器人只注重外观而忽视功能,追求功能性的 Marc 一度有些反感人形机器人,甚至刻意回避人形机器人有关的研究。

无论态度如何,在 DARPA 的资助下,波士顿动力早早开始了人形机器人的研究,研发出了运动和平衡能力双在线的 PETMAN。

2013 年,DARPA 举办了一场机器人挑战赛。在 PETMAN 的基础上进行优化的 Atlas 首次亮相,赢得了“有史以来最先进的人形机器人之一”的名号。

人工智能专家 Gary Bradski 宣称,“一个新物种,机器人智人,正在出现”。

2013 年的 Atlas

波士顿动力还在不断改进,新型电路的计算方案,让Atlas更轻更小;缩小到足球大小的内置电源,集成了大量部件,能提供 5 千瓦的电量。

Atlas 逐渐摆脱了辅助站立的安全绳,也不再发出噪音,从步履蹒跚地清扫地面升级到能够流畅地完成后空翻和跑酷,还能来一段芭蕾、体操或者是俯卧撑。

液压系统动力够强、爆发力够大,Atlas 流畅丝滑的动作让其他的人形机器人黯然失色。

Atlas

人形赛道败退

相比机器狗,人形机器人对技术的要求更加苛刻。它们不仅需要高度复杂的算法,还依赖精密的传感器驱动器和动力系统

要让人形机器人稳定行走,意味着要经历无数次摔倒和调试。而每一次摔倒,都极大可能损坏关键部件或者电机,不仅要替换硬件,还得重新调整算法,一切从头再来。

必经的高成本试错让人形机器人变成了一个高风险、高成本、长周期、低回报的研发项目。

宇树一开始也不愿意碰人形机器人,原因很简单,摔不起。而波士顿动力一直以来都是烧钱搞研究的作风,Marc 一直秉持着一个观念,如果你害怕机器人摔倒,那就永远不会取得进展。

波士顿动力录过一个 Atlas 顺利攀登三个大台阶的视频,在此之前 Atlas 尝试了 109 次,花了 6 个星期掌握这个动作。

不过,辉煌时刻谁都有,别拿一时当永久。

机器狗的赛道被宇树霸占,人形机器人的赛道也出现了新的卷王——特斯拉。

特斯拉有丰富且完整的自动驾驶汽车研发资源,从定制化芯片(如 FSD 芯片)、传感器套件、机器学习算法,到大规模训练数据以及高性能计算基础设施,全都能够无缝衔接到人形机器人 Optimus 的研究中。

Dojo 芯片

例如,Optimus “端到端”的神经网络训练,是先输入视频,再由神经网络处理后输出控制信号,和特斯拉自动驾驶 FSD V12 开发时使用的高度类似。

单凭这一点,特斯拉就省下了其他公司从零开始的无数次尝试和大量资源消耗。

而且马斯克坚定要做人形机器人,从特斯拉和名下其他企业大量抽调资源,也不在乎烧钱,比波士顿动力还要壕。

再加上人工智能尤其是大模型技术的飞速进步,整个研发模式都发生了改变:从实验室原型到市场应用,迭代速度前所未有地加快。

在传统机器人研发中,每次测试都伴随着风险,每次摔倒都可能带来昂贵的硬件损失。而大模型可以在虚拟环境中完成成千上万次试错,不断调整优化后再进入现实测试,极大地压缩了研发周期和成本。

大模型的另一优势在于,它能在一次次测试中持续进化,每一轮迭代都比上一次更好。而传统的实验并不能保证每一次尝试都能得到更好的结果。

这种方式,特斯拉用在了 Optimus 上。

Optimus

特斯拉将强化学习和模仿学习相结合,前者允许 Optimus 在虚拟环境中试验最优解,后者让 Optimus 能从人类动作数据中学习运动模式。

自动驾驶系统积累的超过 500 亿英里的行驶数据,通过高精度的物理仿真引擎投入使用,让 Optimus 能够在虚拟环境中完成数十万次训练。这些虚拟训练生成的数据又会反哺到大模型中,形成一个自适应的循环优化过程。

最终,Optimus 以一种近乎狂飙的速度推向市场。

2021 年的 AI Day 上,马斯克宣布了特斯拉的人形机器人计划,当时的 Tesla Bot 还只是一个概念。仅过了一年,马斯克就把人形机器人 Optimus 的成品带到了 AI Day 的现场。这种速度,靠传统的硬件研发几乎无法想象。

2024 年 10 月份的发布会上,Optimus 就已经更新到了第三代。Optimus 在现场和人共舞、分发酒水和伴手礼,未来还能遛狗、修剪草坪、购物、照顾人类,售价不到 30,000 美元。

马斯克要让每个人都能拥有一台机器人,让每个家庭都能拥有一个独特的家庭成员。

特斯拉短短几年内完成的工作,是波士顿动力十年都无法企及的。这是两种时代的分野:一个在快车道上飞驰,另一个还在缓慢爬坡。而未来只属于那些能够快速迭代的企业。


失衡与摇摆

波士顿动力一直是个很矛盾的公司。

最开始依靠军方合作搞研发,就注定了波士顿动力的研发方向高端且小众,产品也不会亲民。但那时候波士顿动力没有意识到,高度依赖外部资金无法长久,既然不属于军方机构,最终还是要回归亲民路线,回到市场。

后续反复几次的被收购又被转手,也是因为商业化问题不断爆雷。

最出名的 Spot 和 Atlas,消费者不是买不起就是买不到,好不容易拿到手了还没有合适的使用场景。市场的期待被一次次吊起,却又一次次落空。

卖概念已经过时了,现在卖的是故事。

宇树要做机器人的大疆,要卷低价加速通用机器人时代的到来;特斯拉要让人形机器人成为人类家庭的一部分。

波士顿动力的问题与技术无关,而在于它到底想成为一家什么样的公司,要讲一个什么样的机器人故事。

波士顿动力的两大王牌,Atlas 和 Spot,一体两面,像是整个波士顿动力矛盾的缩影。

左为 Spot,右为 Atlas

追求技术还是专注商业化,Marc 给出了自己的答案,波士顿动力最终也做出了正确的选择。只是路线选择固然重要,有没有坚定地沿着拟定的路线走下去才是真正的决定因素。

Marc 说,机器人物理上的行动能力已经够了,但认知能力还不够。

不知道他在说这句话的时候有没有发现,波士顿动力认知能力够了,行动能力还不够,公司的路线调转特别漫长。

更具讽刺意味的是,曾被 Marc 刻意回避的人形机器人 Atlas,反而成为他“登月”技术理想的最佳载体;而他偏爱的四足机器人 Spot,却因“漂浮在半空”与市场脱节,无法落地生根。

2022 年,波士顿动力人工智能研究所成立。一方面效仿谷歌,将尖端研发与商业应用分离;另一方面专注于人工智能与机器人结合,提升机器人的认知能力。

退位两年的 Marc 把精力都集中在了这个研究所上,他说,他不在乎商业化。

好风凭借力,送我上青云。

凭着互联网的东风,波士顿动力拥有过一段辉煌时刻,这次人工智能的东风它能抓住吗?

雷峰网雷峰网


]]>
人工智能 //m.drvow.com/category/ai/jKBc0pV9LTLYEXEs.html#comments Wed, 27 Nov 2024 11:11:00 +0800
2024 生成式 AI 市场报告:企业支出增长率超 600%,安全性和 ROI 成关键决策点 //m.drvow.com/category/ai/FKIbrvUyrogkJgid.html 最近,Menlo Ventures 针对拥有 50 名以上员工的公司的 600 名企业 IT 决策者进行调查,发布了一份名为《2024 年生成式 AI 现状》的企业市场报告。

2024 年,生成式 AI 市场的整体支出飙升至 138 亿美元,相比 2023 年的 23 亿美元增长了 6 倍以上,体现出企业对 AI 工具的强大信心和需求。

报告显示,72% 的 IT 决策者计划在未来更广泛地采用生成式 AI 工具,进一步释放 AI 在商业生产力提升中的潜力。

然而,市场份额的竞争愈发激烈。

尽管 OpenAI 一直是企业选择的首选,其市场份额却从年初的 45% 下降至 34%,部分客户转向了 Anthropic 的Claude 系列,后者的市场占有率翻倍至 24% 。

其中,一些公司从 GPT-4 转向 Claude 3.5 Sonnet 后,惊喜地发现自己的企业影响力从 12% 增长到了 24%。

除了 OpenAI 和 Anthropic 以外,还有 16% 的企业选择了 Meta 的开源模型 Llama 3,12 % 的企业选择了 Google。

这种转变不仅反映出企业对 AI 工具的高性能要求,也说明市场从单一供应商主导逐渐转向多元化格局。

生成式 AI 市场加速扩张

报告显示,整个生成式 AI 的市场风向正在往高性价比靠拢,不看低价而是看 AI 工具是否具有长期潜力。企业最关心的是安全(46%),然后才是价格 (44%)、性能 (42%) 和扩展功能 (41%)。

落到具体的选择条件上,企业最关心的是投资回报和针对特定行业的特殊化定制。与提供最低价格的工具 (1%) 相比,他们更想要的是能提供可衡量价值 (30%) 和了解其工作独特背景 (26%) 的工具。

企业买家对生成式 AI 应用程序非常感兴趣,2024 年他们投入了 46 亿美元,比去年的 6 亿美元增长了近 8 倍。

这些应用程序中,前五大使用案例包括代码生成、聊天机器人、企业搜索、数据转换和会议摘要,均侧重于提升效率和降低成本。

51% 的企业采用了 Code copilots 作为工作助手,GitHub Copilot 的营收也因此迅速攀升至 3 亿美元,同时,Codeium 和 Cursor 等新兴工具的营收也在快速增长。

31% 的企业接入了聊天机器人,能够全天 24 小时无休,为内部员工和外部客户提供知识支持。

还有不少企业把 Glean 和 Sana 这类生成式 AI 和电子邮件、文档等链接在一起,实现了跨系统的统一语义搜索。

在企业内部,各部门都有一定比例的 AI 预算。

毫不意外,技术部门的 AI 支出份额最大,IT (22%)和产品 + 工程 (19%)两部分占据了预算大头,剩下的数据科学 (8%) 、支持部门 (9%)、销售部门 (8%) 和营销部门 (7%)等较为均匀地分摊了剩余的费用。

数据显示,从 2021 年 7 月到 2023 年 7 月,与 AI 和生成式 AI 相关的全球招聘信息增长了两倍多。在招聘平台 Indeed 上,过去一年生成式 AI 职位的搜索量大幅增长了近 4,000%,同期相应的职位发布量也增长了 306%。

也有调查表明,在大公司里,各部门使用的软件即服务(SaaS) app平均数量均有明显上涨。

企业逐渐习惯于在工作流程中嵌入 AI,并期望未来能够使用完全自主的智能体来掌舵。

一方面为了信息安全和避免数据泄露,一方面各类框架逐渐成熟,更多的企业选择自己构建一个生成式 AI。

报告显示,47% 的企业选择内部开发,53% 的选择了 生成式 AI 供应商。这与 2023 年的情况完全不同,当时 80% 的企业都在依赖第三方生成式 AI 软件。

无论是购买还是自研,企业都倾向于建造一个 AI 堆栈,在其 AI 堆栈中部署三个或更多基础模型,根据用例或结果调用不同的模型。并且,有 81% 的企业不约而同地选择了闭源模型。


智能体助力 AI 自动化

资本市场的投资方向也在发生变化。

近几年,Y Combinator 投资的初创公司里,AI 公司的比重越来越高。

2024 年,大模型继续吸引了高达 65 亿美元的投资,但生成式 AI 应用正在成为新兴焦点。

埃森哲财报显示,尽管今年埃森哲总体收入下降,但第三季度的生成式 AI 预订金额已经达到了 10 亿,相比去年同一季度实现了 4 倍多的大幅增长。

融合 Chat 功能与智能体特性的生成式 AI 更受市场青睐,因其不仅能够提供高质量的拟人化对话,还展现出强大的任务执行能力,推动了 AI 自动化向更复杂场景的延伸。

以 OpenAI 的 GPT-4o 为例,这一多模态模型不仅突破了传统 Chat 的局限,还表现出智能体特征,正在向全能型工作助手迈进。

奥特曼和 Greg Brockman 也提到过,用户将越来越多地与由许多多模态模型和工具组成的系统互动,这些系统可以代表他们采取行动,而不是与单一模型对话。

就像之前的 AI 程序员 Devin,它不仅能自主学习新技术,自己改 Bug,甚至还能训练和微调自己的 AI 模型。

这一趋势不仅改变了用户体验,还推动了企业 AI 架构的演进。

一种用于构建高效、可扩展人工智能系统的标准化架构——企业人工智能设计模式,因能够适应复杂的业务环境和不断变化的需求,受到了企业的喜爱。

RAG(检索增强生成)成为企业首选的技术方案,其使用率从 2023 年的 31% 提升至 51%,远超模型微调的 9%。

而智能体今年才首次亮相,就已经为 12% 的企业提供了实际上的应用支持,其处理复杂多步骤任务的能力,成为区别于内容生成和知识检索 AI 的显著优势。

另外,面向特定领域的垂直类 AI 应用正在兴起,不止是大模型,智能体也在其中发挥独特作用。

医疗保健行业的企业已经为 AI 应用支付了 5 亿美元,涵盖了从分诊和接诊(如 Notable)到编码(如 SmarterDx、Codametrix)和收入周期管理(如 Adonis、Rivet)每一个环节。

具体来说,在诊断和治疗计划方面,AI 智能体能通过分析医疗数据、识别模式以及建议癌症或糖尿病等疾病的治疗方法来协助医生;在远程医疗方面,智能体能指导患者进行症状检查并提供与健康相关的建议,从而减少面对面咨询的需求。

法律行业也花了 3.5 亿美元购买 AI 产品,用于管理大量非结构化数据并自动执行基于模式的复杂工作流程,主要集中在诉讼法和交易法两个版块。

在金融行业,企业投入了 1 亿美元进行 AI 转型。

相关应用中,Arkifi 和 Rogo 能够提取高级金融数据加速金融研究, Greenlite 和 Norm AI 能够提供实时的合规监控,帮助企业适应不断变化的法规;Betterment 则利用智能体提供个性化的投资策略和自动化交易服务。

去年,权威咨询公司 Gartner 发布预测,到 2028 年, AI 智能体将自主完成至少 15% 的日常决策。


传统软件业遭受冲击

随着智能体技术的发展,AI 的自动化能力将进一步释放,对传统软件公司的冲击也会持续加深。

以 ChatGPT 为例,在它的影响下 Chegg 的市值蒸发了 85%,Stack Overflow 的网络流量减少了一半。

IT 外包公司和传统的自动化公司必须为即将到来的 AI 自动化挑战做准备。随着时间的推移,即使是 Salesforce 和 Autodesk 等软件巨头也将面临被 AI 公司颠覆的危险。

生成式 AI 的崛起,使得更多企业倾向于使用灵活高效的 AI 驱动平台,从而简化业务流程、降低运营成本。这一趋势直接削弱了企业对传统定制软件解决方案的需求。

AI 驱动的低代码和无代码平台也在加剧这一冲击。这类工具使非技术背景的用户也能够创建软件解决方案,进一步削弱了传统场景中对自定义开发软件的需求。

在软件的维护和升级阶段,智能流程自动化工具以更低的成本和更短的周转时间,替代了传统依赖人工的解决方案,进一步减少对测试员和工程师的依赖。

Appian 公司曾对 2024 年影响企业的 AI 趋势做过预测分析,到 2024 年底,全球将有 65% 的大型组织采用结合 AI 和自动化的超自动化,这将彻底改变现有的软件流程的设计和执行方式。

到 2030 年,通过 AI 进行快速产品创新,企业每年将贡献超过 4 万亿美元的全球经济价值。

而微软和谷歌等科技巨头,已经将 AI 深度整合到自有生态系统中,提供其他传统软件厂商难以匹敌的端到端解决方案。这种整合趋势不仅进一步扩大了它们的市场优势,也进一步压缩了小型传统软件公司的生存空间。雷峰网雷峰网


]]>
人工智能 //m.drvow.com/category/ai/FKIbrvUyrogkJgid.html#comments Wed, 27 Nov 2024 10:53:00 +0800
IDEA研究院发布DINO-X目标检测视觉大模型 //m.drvow.com/category/ai/Jj4c1gIluc9gULTO.html 计算机视觉技术在真实世界的应用场景十分广泛。然而,过去主流的小模型方案,难以应对碎片化、多变的长尾需求,限制了技术落地规模。

源自自然语言研究的Transformer架构诞生后,视觉模型与之结合,走上一条“从小变大,从N变1”之路。自2022年起,IDEA团队从目标检测出发,打造精准度、通用性、泛化能力兼优的DINO系列视觉大模型。 

11月22日,IDEA大会在深举办,在本次大会上,IDEA研究院发布了该系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,实现开放世界(Open-world)目标检测。无需用户提示,直接检测万物。

与此同时,IDEA团队还推出行业平台架构,通过一个大模型基座,结合通用识别技术结合,让模型不需重新训练,就可边用边学,支撑多种多样的B端应用需求。


万物识别:无须指引,罕物尽览 


全面检测:DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。

在零样本评估设置中,DINO-X Pro在业界公认的LVIS-minival数据集上取得了59.7%的AP,遥遥领先于其它现有算法。在LVIS-val数据集上,DINO-X Pro也表现亮眼,取得了52.4%的AP。具体到LVIS-minival数据集上的各个长尾类别评估中,DINO-X Pro在稀有类别上取得了63.3%的AP(比Grounding DINO 1.5 Pro还要高出7.2%),在常见类别上取得了61.7%的AP,在频繁类别上取得了57.5%的AP。DINO-X称得上目前业界检测最全的通用视觉模型。

泛化和通用性:得益于超过1亿高质量样本的大规模数据集多样化训练,DINO-X对未知场景和新物体具有更强的适应性。这意味着在面对未见过的物体或环境时,模型仍能保持高水平的检测性能。这种超强的泛化能力,使其在实际应用中更加灵活。   

多任务感知与理解:DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。

长尾目标检测优化:为了支持长尾目标的检测任务,DINO-X不仅支持文本提示和视觉提示,还支持经过视觉提示优化的自定义提示。

 

开放世界:服务丰富场景,迈向具身智能

 

DINO-X的万物识别能力,让其拥有了对开放世界(Open World)的视觉感知,轻松应对真实世界中的众多不确定性和开放环境,赋能具身智能、大规模多模态数据的自动标注、视障人士服务等高难度场景。

对具身智能而言,开发环境感知和理解是核心能力,这其中的视觉感知更是机器和物理世界交互的基础。近期,聚焦人居环境具身智能核心技术攻关的福田实验室正式挂牌,该实验室正式由IDEA研究院与腾讯合作组建,致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对,而仅依靠人工标注的方式不仅耗时、成本高,而且在面对海量数据时难以保障标注的一致性和效率。DINO-X的万物识别能力,可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果,从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求,DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音,为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域,DINO-X也将发挥关键作用。其卓越的通用检测能力,使得系统能够应对各种复杂场景,识别出传统模型难以检测的物体,为产业升级和社会发展注入新的活力。

 Dino-X基座大模型零样本检测能力,为广大中小企业客户提供便捷高效的计数和标注工具 

IDEA研究院一系列视觉大模型,包括DINO-X,为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题,提供了可行的方案。IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作,在视觉大模型的落地方面取得了实质性进展。

一方面,有别于市场上的以语言为基础的多模态大模型基于全图理解的方法, 通过在物体级别的理解上加入语言模块优化大模型幻觉问题。另一方面结合自研的“视觉提示优化”方法,无需更改模型结构,不用重新训练模型,实现小样本下的场景化定制。 

IDEA研究院通用视觉大模型行业平台架构

从DINO到DINO-X,IDEA研究院始终站在视觉感知技术的前沿。通过对开放世界的探索和对具身智能的赋能,DINO-X的卓越性能和通用检测能力更加凸显。雷峰网雷峰网

值得一提的是,IDEA 研究院也开放了DINO-X API: 

https://user.deepdataspace.com/login?redirect=https%3A%2F%2Fcloud.deepdataspace.com%2Fapply-token

有关DINO-X 的技术细节,请参考同期发布的论文。

► 论文链接:https://arxiv.org/abs/2411.14347

]]>
人工智能 //m.drvow.com/category/ai/Jj4c1gIluc9gULTO.html#comments Fri, 22 Nov 2024 19:56:00 +0800
视觉模型智能涌现后, Scaling Law 不会到头 //m.drvow.com/category/ai/XWPq8GGzgGlqYILm.html

Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文,其研究表明当下的语言模型在大量数据上经历了过度训练,继续叠加更多的预训练数据可能会产生副作用。

这释放的信号是:在自然语言处理领域, Scaling Law 目光所及地到达瓶颈,单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效,低精度的训练和推理正在使模型性能提升的边际效益递减。

Scaling Law 在 NLP 的路上确实展现出了「即将到头」的前兆,但这并不意味着其末日真的来临。在多模态模型领域,由于多模态数据包含图像、视频、音频等多种类型,在信息丰富度、处理方法、应用领域方面均较为复杂,难以达到较大的训练规模体量,因此 Scaling Law 尚没有被真真切切地验证过。

然而,清华系大模型公司生数科技最新发布的 Vidu1.5 表明,多模态领域的 Scaling Law 才刚刚起步。通过持续的 Scaling Up , Vidu 1.5 已经来到了「奇点」时刻,涌现出了「上下文能力」,能够理解记忆所输入的多主体信息,并表现出对复杂主体更精准的控制能力。无论是细节丰富的角色还是复杂的物体,通过上传不同角度下的三张图片,Vidu 1.5 能保证单主体形象的高度一致。

Vidu 1.5 除了能对单个主体进行精确控制,也实现了多主体之间的一致性。用户可以上传包含人物角色、道具物体、环境背景等多种元素的图像,Vidu能够将这些元素无缝的融合到一起,并实现自然交互。

Vidu 在主体一致性方面取得种种突破,不仅是 Scaling Law 法则在发挥作用,根本原因在于其所采用的无微调、大一统的技术架构方案。当前的视频模型为了实现一致性,大多是采用在预训练的基础上再针对单个任务进行微调的 LoRA 方案,而 Vidu 的底层模型跳出业界主流方案,做出了开拓性的改变。

无独有偶,回顾大语言模型的发展历程,会发现从 GPT-2 到 GPT-3.5 发生质变的标志,也是实现了从预训练+特定任务微调的方式到整体统一框架的突破。可以说,Vidu 1.5的推出,开启了多模态大模型的 GPT-3.5 时刻。

Sora 自年初发布之后,再无其他迭代的新版本,其他家的视频生成创业团队也仿佛没了锚定的方向,大多是在 DiT 架构上进行些衍生性工作。对于这一现象,生数科技 CTO 鲍凡则表示:我们不会在 Sora 划定好的路线上去追赶,而是从一开始就在走自己的路,瞄准通用多模态大模型的目标,去实现相应的能力。

从早于 Sora 发布全球首个基于 Diffusion 的 Transformer 架构U-ViT,到首次实现用统一的架构处理泛化任务,生数有的不仅是先发优势,更是持续突破的能力。Vidu 和业界其他的视频生成模型相比,已经初步形成技术代差。


一、重新设计一个「底层架构」

实现主体一致性,是视频模型领域一块难啃的骨头。「这就好比,你知道发动机对于一辆汽车来讲很重要,也知道如果发动机有质的改变,那么汽车的性能也会随之提升,但就是很难造出来一台好的发动机。」鲍凡告诉 AI 科技评论。

包括 Sora 在内,国内外的视频模型都没有在主体一致性方面有所突破。目前有涉足的是国内的一家大厂,仅局限于实现人脸一致性的控制,难以保证细节、衣服、造型等细节,而且采用的是LoRA微调方案。

Vidu 在主体一致性方面的成果也并非一蹴而就。2024 年 7 月底, Vidu 上线之初就主打解决一致性问题,并能够较好地实现面部一致的控制;9月份全球首发「主体参照」功能,把对单主体的控制从面部拓展到整个单主体的形象上;11 月上线的 Vidu 1.5 则进一步提升,可以对单主体的不同视角进行高度精准控制,同时攻破多主体控制的难题。

也就是说,Vidu 在 7 月份上线之时就完成了很多视频生成模型当下正在攻克的事情。

从技术方案上看,其他家都还囿于预训练+LoRA 微调的方案,这种路线虽然成熟但也存在诸多缺点,诸如因数据构造繁琐而需要较长的训练时间、易产生过拟合从而遗忘大量原有知识、无法捕捉细节导致特征不精准。生数则秉承通用性的理念,通过统一的底层模型技术架构去完成,因此不需要单独再去进行数据的收集、标注、微调,只需要1到3张图就能输出高质量视频。

对比大语言模型的技术演进路线会发现,Vidu 有和大语言模型一致的设计哲学:类似于大语言模型用一个 Transformer 去处理所有的输入和输出 tokens,Vidu 作为视频模型也会将所有问题都统一成视觉输入、视觉输出的 patches;在此基础上,再统一架构,Vidu 也像 大语言模型一样采用单个网络统一建模变长的输入和输出。

「统一问题形式」是通用模型的起点。更难的地方在于统一架构,现在 Vidu 已经在最初的 U-ViT 上做了一些颠覆性的设计,和 Sora 的 DiT 架构产生了本质区别,在架构上做到更统一。鲍凡坦言,开发这一架构的难度不亚于从头设计出一个 Transformer。

大一统架构的前身要追溯到 2022 年 9 月,彼时尚在清华大学朱军教授的课题组读博的鲍凡就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文,提出U-ViT 架构,比 Sora 的 DiT 架构提早了两个月,将 DiT 拒稿的 CVPR2023 却收录了 U-ViT。

2023年3月,朱军教授课题组再次发布了一项 Unidiffuser 的工作,Unidiffuser 与同阶段的 Stable Difussion 1.5 效果基本持平,展示了在视觉任务下的优异能力,更重要是,Unidifuser扩展性更强,能基于一个底层模型完成图文之间的任意生成。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。之后,而 OpenAI 则是将 DiT 应用于视频任务,生数作为初创团队则是先将 U-ViT 应用于图像任务,从算力集群规模要求更小的任务入手进行验证。

2024 年 4 月,生数的底层模型架构开始在 U-ViT 架构上做出改变,使得团队率先推出自研视频大模型Vidu,然后这种突破也一直持续着,在7月份正式全球上线的时候,Vidu 在人脸一致性问题上成功地实现了验证。直到本次 Vidu1.5 版本的发布,基于这一架构之上的 Scaling Up 让多模态模型看到了「奇点」。

回顾大语言模型发展过程,GPT-2 的核心思想是在预训练阶段让模型通过海量的文本数据进行无监督学习,不依赖于特定的任务;在预训练之后,GPT-2 使用特定领域的标注数据对模型进行细化调整,使其能够更好地适应特定任务或应用场景。但到 GPT-3.5 的阶段,不再采用预训练加特定任务微调的模式,只需一个更简单高效的统一架构能够去支持多种文本任务,模型已经出现了强大的泛化能力。

类似于从 GPT-2 到 GPT-3.5 ,实现了从预训练加特定任务微调到统一通用的技术架构,Vidu 1.5的推出,让视频模型正在经历 GPT-3.5 时刻。也就是说,其他家的视频模型还在 GPT-2 预训练+微调的阶段,生数的 Vidu 已经到了 GPT-3.5 的阶段。


二、视觉上下文时代的智能涌现

统一高效的底层技术架构是 Vidu 的根本所在,但其目前呈现的综合表现不仅是技术架构使然,更与视频模型的数据工程密不可分。

在人物特写画面中,Vidu 1.5 能够确保人物面部的特征细节和动态表情变化自然流畅,不会出现面部僵硬或失真的现象。该视频中,小女孩的表情能实现从高兴到悲伤的变化十分自然。鲍凡告诉 AI 科技评论,数据对这些细节方面的精心调控非常重要。

随着高质量数据的一同Scaling Up ,鲍凡坦言,在底层的视频生成模型上也看到了类似于大语言模型的智能涌现。比如 Vidu1.5 能融合不同主体,将角色 A 的正面与角色 B 的反面无缝融合以创造出全新的角色,这是之前没有预料到的能力。

除此之外, Vidu1.5 的智能涌现还可以从模型上下文能力提升、记忆能力增强来窥探一二,这体现在对视频中角色、道具、场景的统一控制。

这一现象的关键是解决了「多图灵活输入」的问题,类似于语言模型提升了窗口长度。在与聊天机器人对话的过程中,先通过提示词给出一个角色设定,之后 Chatbot 就能以这个角色的口吻进行交互对话,这说明语言模型不仅仅处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。

同样的,给视频模型一个主体照片作为 prompt,那么在下文中无论继续给出什么新指令,都能生出上文照片中主体相关的视频。可见,视频模型要想更稳定地生成一致主体,也需要理解前后输入的、相关联的文字或图片信息,进而根据这些信息生成一致、连贯且有逻辑的内容。

实际上,从单主体一致性到多主体一致性提升的难度也在于上下文长度。在几个月之前的单主体架构的设计上,就已经兼容现在的多主体一致的架构,而多主体一致相比单主体一致需要更长的上下文长度,从而解决理解更多输入组合的关键问题。

接下来,生数的主攻方向依然会沿着上下文能力这一主线去迭代。「视频模型上下文能力提升后有很大的想象空间。」鲍凡说道。他进一步解释,在模型中输入几段王家卫的电影切片,就可以生成一系列具有王家卫摄影技巧的视频片段;喂给模型一些经典打斗动作的视频,就能生出打斗技巧精妙、打戏画面精良的视频。

Vidu 在上下文能力方面的迭代也有自己的节奏:从初期仅能参考单一主体的面部特征,到现在能参考多个主体,之后预期可以实现参考拍摄技巧、运镜、调度更因素。在这个过程中,参考对象从具体到抽象,要求和难度逐渐提升。

因为目前还没有针对视频模型上下文能力的开源解决方案,所以它并不会像大语言模型一样,在一家做好 PMF 之后,其他家迅速跟上。从这一角度上来说,Vidu1.5 形成了自己的技术壁垒。


三、不止 Sora 一种答案

「无微调、大一统的技术架构被生数设计出来,视频模型的智能涌现先在 Vidu 上得以验证——这些是必然事件。」鲍凡说道。「因为我们团队成立之初的愿景,就是去做通用的多模态模型。」

生数科技从来没有走过单一的、针对具体任务进行微调的方案,这与统一高效的架构是相悖的。这也意味着,通用多模态模型是生数的基因所在。

年初 Sora 刚发布之时,各视频生成创业团队都在「大秀肌肉」,竞争一度十分激烈。然而行至年终,整个行业有些显得「后劲不足」,初创公司的进展鲜有较大突破。然而生数科技却在自己的路线上「精雕细琢」,不仅有规律地提升模型通用性,也不忽略镜头感、动态程度等视频画面细节。

Vidu 1.5 在基础模型层面便具备了对镜头运动的理解能力,能够生成如推拉摇移+顺/逆时针融合的复杂镜头,画面拥有较高表现力和流畅度。比如,输入提示词:模特拍摄,她被鲜花簇拥着,光线明亮且自然,镜头顺时针旋转推进拍摄,得到如下画面。

在动态性方面,Vidu1.5 生成的视频动作幅度大且自然,同时新上线了动态控制功能,能准确的控制画面整体的动态程度。

描述词:一个战士拿着枪在战场奔袭,大动态

除了视频能力外,Vidu 也在规划和布局 4D 模型、音频等更多模态。其中,基于视频模型衍生出来的4D 模型,未来能够对视频实现诸如「调整 6 度」的更加精确运镜控制。鲍凡表示,目前的初期阶段,团队会先单独验证多模态模型中的各个子领域,最后会整合在通用多模态大模型中。

生数技术优势的愈发凸显,也给了其在国内视频模型竞争中的底气。但摆在其前面的挑战,还有快手、字节等大厂压倒性的资源优势。对此,鲍凡回复:当目标足够明确,并且做出的东西真正能够解决行业问题的时候,我们朝这个方向持续前进,最终结果总会是正确的。

对标世界范围内领先的 Sora,会发现生数与 Sora 的关注点并不相同。生数科技的定位是通用多模态大模型,而 Sora 更主张做世界模拟器,希望真实的模拟物理世界。虽然世界模拟器是多模态大模型的一个子问题,但生数的通用多模态大模型会强调解决更多实际问题。

生数并不会完全对标 Sora,更不会跟在 Sora 之后亦步亦趋。Vidu 证明了:视频模型不只于 Sora 这一个答案。雷峰网雷峰网雷峰网



]]>
人工智能 //m.drvow.com/category/ai/XWPq8GGzgGlqYILm.html#comments Fri, 22 Nov 2024 11:09:00 +0800
超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一 //m.drvow.com/category/ai/dcOAovlWY9GL8I8D.html

在大模型技术圈里,有一个获得不少认同的说法:阶跃星辰的底层基础模型能力很强,甚至是几家大模型公司中数一数二的。但其实,拥有这种看法的大多是足够了解国内大模型能力现状的人,对于圈子之外的人,无法直观感受到这种潜移默化的底层硬实力。

然而,在被誉为「世界上第一个不可玩弄的 LLM 基准测试」的 LiveBench 榜单中,阶跃星辰给了行业一次强有力的冲击。

国际权威榜单 LiveBench 官网发布最新的榜单成绩显示,阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越GPT-4o-2024-08-06 、gemini-1.5-pro-002等国际主流模型,目前排在阶跃前面的只有OpenAI 和 Anthropic。


榜单链接:https://livebench.ai/

本次榜单里,阶跃是唯一进入榜单前十名的中国大语言模型,位列全球第五。同样上榜的大模型公司还有通义千问和深度求索,均没有冲进前十,分别位列第十三和第二十三名。

在榜单中的多项测评标准中,Step-2 在 IF Average(指令跟随)的表现上以 86.57 的分数排在第一,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

从 2024年3月发布国内首个由创业公司研发的万亿参数语言大模型预览版 Step-2 ,到在中文大模型基准测评机构SuperCLUE 上登顶国内多模态大模型榜首,到本次在LiveBench 上获得中国大模型第一,可以说,阶跃星辰正在全力提升自身底层实力并且成效显著。

基于 Step-2 万亿参数大模型和 Step-1.5V 多模态模型能力,其 C 端产品跃问也随之迭代,推出的通过图像交互“即拍即问”功能“拍照问”,解决了文字和语音交互中难以准确描述的痛点,获得用户好评。目前,Step-2 已经接入跃问 APP 和网页端(https://yuewen.cn),开发者可以在阶跃星辰开放平台,通过 API 接入使用 Step-2。


一、LiveBench 测出的第一:含金量仍在上升

Step-2 取得 LiveBench 国产大模型第一名——之所以这件事能证明阶跃星辰的模型实力,是因为 LiveBench 本身具有含金量,不同于针对特定数据集进行训练从而拿高分的定向考试。

LiveBench 是由 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构联合推出,提出了一种创新的基准测试方法,其中包含6大类18项任务,一向以权威性、客观公正、全面评估而获得业界认可。甚至把 “A Challenging, Contamination-Free LLM Benchmark” 放在官网最醒目的位置。

并且为了避免大模型“作弊”,LiveBench 每月发布新问题,并根据最近发布的数据集、arXiv论文、新闻文章和 IMDb 电影简介设计问题,以限制潜在的数据污染。LiveBench 也已评估全面著称,可以从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,还能设计中立的评价体系以避免人类评价者受格式偏好和文风影响。

根据过往的榜单情况来看,上榜者多为国外的科技巨头,极少有国内的大模型能冲到排行榜前十,甚至大多难以上榜。2024 年到目前为止的每个月排名中,只有通义千问的开源大模型 Qwen2-72B 在 6月14 日发布的 LiveBench 的测评中上榜,排名位列第八。

令人惊艳的是, Step-2 的 IF Average(指令跟随得分的平均值)指标碾压所有在榜模型。指令跟随衡量的是模型对语言生成细节的控制力,通常模型满足限定要求,诸如必须遵守一项或多项指令,例如字数限制或在回答中纳入特定元素。

指令跟随在文字创作上的表现会更加显著,在生成高质量、有创意的文字内容的同时,Step-2模型能够根据用户的指令对文本进行精确地调整和优化,比如在创作古诗词时,对字数、格律、押韵、意境都可以做到精准把握。

例如,在跃问中输入:写一首主题为“爱而不得”的七言律诗,表达出相爱的人因为不能相互理解而走散,充满对爱情无力、灰心的意境,得出的回答是:

这一段 prompt 明确要求输出中国的古诗体、有规定字数、需要理解其背后的意境,输出的结果符合要求,并且能主动做到押韵。

不仅文学创作能考察指令跟随能力,是否能够一一应对一个复杂 prompt 的多项细节指令,也是衡量指令跟随能力的较好方式。

比如,向跃问提问:设计一个为期一周的社区环保活动计划。活动计划应包括每天的具体活动安排;确定至少三个不同的环保主题,如减少塑料使用、节约能源和垃圾分类;为每个主题设计一个互动环节,鼓励社区居民参与,列出所需物资清单,并估算活动预算;描述如何通过社交媒体和社区公告板宣传这次活动;考虑到不同年龄层的居民,设计适合儿童、成人和老年人的活动;确保活动计划中包含安全措施和应对突发情况的预案。

得到的回答是:

在这一大问题中,包含了八个子问题,跃问一个都没有漏掉,足见其较强的指令跟随程度。

出众的指令跟随能力背后,必然是模型更强大的理解和推理能力在支撑。Step-2 具备出色的理解能力,能够从上下文中推断出用户需求,精准捕捉用户在模糊指令中的真实意图,提供更准确、个性化的响应,把模糊指令读得更清晰。

除此之外,数据量也是 Step-2 能力强悍的关键因素。其知识覆盖范围和深度都取得显著突破,不仅能够处理常见领域知识,还能深入理解和回答在特定领域或边缘分布中的复杂问题。


二、阶跃不止于万亿参数大模型

开发出万亿参数模型,是各家大模型发展之路的一个里程碑。一年左右的时间内,号称要发布万亿参数大模型的公司不下五家,但最终能真正发出来的却寥寥无几。

今年 3 月,阶跃星辰发布了 Step-2  语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型,很多成立时间更早、融资体量更大的公司都没有成功发布。

Step-2 万亿参数语言大模型采用 MoE 架构。可以说, MoE 架构是万亿参数模型现阶段不可绕开的路,但阶跃星辰在开发 Step-2  MoE 架构时候没有采用相对成熟的 upcycle(向上复用)方案,走出对算力的需求低、训练效率高的舒适区,转而完全自主研发从头开始训练。

通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计, Step-2 中的每个“专家模型”都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。基于创新算法架构的 Step-2 万亿参数大模型,在数学、逻辑、编程、知识、创作、多轮对话体感全面逼近 GPT-4。

在 Step-2 训练过程中,阶跃星辰系统团队更是突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,具备领先的系统能力以支持高效训练。

然而,阶跃的「星辰大海」远不止于万亿参数的大语言模型。

Step-1.5V 是阶跃星辰 Step 系列里的多模态大模型,其视频理解能力不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪,因此被应用于各种视频分析和处理任务,如视频内容理解、视频问答等。

除此之外,Step-1.5V 也具有超强感知能力。通过创新的图文混排训练方法,Step-1.5V 能够准确理解各类图像、图表、复杂图文混排的长上下文内容及其逻辑关系,也能够精准感知图像中物体的复杂空间关系,甚至能够处理高分辨率和极限长宽比的图像。

Step 系列中包括 Step-1X 图像生成大模型。和大语言模型一脉相承,Step-1X 也具备了更强的深度语义对齐能力和细节生成能力与创新力。通过 Step-1V 大模型对高标准训练图像实施精细化标签处理,可获得高精度图文配对数据,极大提升了语义匹配的准确度与深度,即使面对包含多个对象、详细属性、复杂逻辑关系的文本指令时,也能确保生成图像与描述相符和。

Step-1X 生成的图像不仅具备丰富的细节和逼真的质感,还针对中国文化的深度优化,使得该模型在处理富含中国元素的内容时展现出独特优势,无论是传统美学还是现代风尚,更能满足国人独特的审美需求。

有了扎实的底层模型后,阶跃星辰的产品开发应更加有底气。在定位为智能助手的跃问中,加入了智能视觉搜索功能「拍照问」。「拍照问」能够解决难以用语音和文字准确描述的问题,比如,拍一张今日晚餐,跃问就可以计算卡路里摄入;随手拍各种物体图片,跃问就能反馈正确的发音、例句。

阶跃星辰,赞71

基础模型加持下,阶跃星辰的产品能力的想象力还会进一步延展。


三、写在最后

阶跃星辰创始人姜大昕曾表示,他期待的 AI 下一个里程碑有二:一是强化学习模型泛化能力的提升;二是视觉领域理解和生成的一体化。

而今看来,阶跃星辰距离里程碑的路程就在不远处。登榜LiveBench 的首个国内万亿参数大模型、全链路自研 DiT 架构的Step-1X图像生成大模型、具备超过行业平均理解能力的Step-1.5V多模态模型,都是脚下一步步朝上迈的台阶。雷峰网雷峰网雷峰网

以通用大模型为目标,这家公司正在以阶跃之力,奔赴星辰大海。



]]>
人工智能 //m.drvow.com/category/ai/dcOAovlWY9GL8I8D.html#comments Fri, 22 Nov 2024 10:39:00 +0800
国行 iPhone 16 相机控制也接入视觉智能了!可一键调用阶跃星辰智能助手「跃问」 //m.drvow.com/category/ai/KbJB6HJHVsxuZkxC.html 国内 iPhone 16 用户终于也能通过相机控制键调用视觉智能功能了,这意味着这一代苹果新机主打的 Apple 智能(Apple Intelligence)不再只是空话。今年 iPhone 16 发布时,最令国内果粉遗憾的就是目前海外版 Apple 智能接入了 OpenAI 的能力,国内用户暂时无法体验和使用。

11 月 18 日消息,国内头部大模型创业公司阶跃星辰旗下产品「跃问」,已经将其智能视觉搜索功能「拍照问」接入了 iPhone 16 相机控制按钮,支持用户一键调用。iPhone 16 用户只需简单的配置,就可以点击相机控制按钮快速打开「拍照问」,通过拍一张照片使用智能问答搜索。这项功能可以解决用户在使用智能助手类产品时,通过语音或文字难以准确描述和快速解决的问题。

比如,用户可以拍晚餐让拍照问计算卡路里摄入量;拍图让大模型基于场景给出所有物体的英文单词,学习发音、例句,并生成专属单词卡;在博物馆逛展时,也可以用拍照问拍文物了解其背后的历史故事。

除 iPhone 16 外,其他机型的苹果手机用户只要将系统升级到 iOS 18,也可以从控制中心、锁屏等入口快速使用「拍照问」。

 

 据了解,跃问「拍照问」背后是阶跃星辰自研的 Step-1.5V 多模态理解大模型。在第三方中文大模型基准测评机构 SuperCLUE 的 10 月中文多模态理解测评基准榜中,阶跃星辰多模态理解大模型的技术实力位列国内多模态大模型榜首,逼近 OpenAI 的 ChatGPT-4o-lastest,超过了百度、阿里、腾讯等国内头部厂商的大模型产品。

阶跃星辰于 2023 年 4 月成立,聚集海内外人工智能领域的顶尖人才,坚定探索实现通用人工智能的道路。目前已对外发布 Step 系列通用大模型矩阵,覆盖从千亿参数到万亿参数,从语言到多模态,从理解到生成的全面能力。基于 Step 系列通用大模型的强大能力,阶跃星辰积极探索 C 端应用,已推出的产品包括智能助手「跃问」和 AI 开放世界平台「冒泡鸭」。此外,在金融财经、内容创作、消费娱乐等领域也与行业头部公司达成深度合作,共同推动 AI 创新应用落地。

 雷峰网

]]>
人工智能 //m.drvow.com/category/ai/KbJB6HJHVsxuZkxC.html#comments Mon, 18 Nov 2024 18:26:00 +0800
MIT 热门研究:AI 工具“带飞”科研,但也严重加速内卷 //m.drvow.com/category/ai/e7NyDnLbEeOmy1LA.html 最近,MIT的一名博士生Aidan Toner-Rodgers历经四年,在AI + 科研领域挖掘出一个惊人的结论——AI的参与让科学发现和创新迈上了新台阶,却也意外拉大了科研人员之间的“能力鸿沟”。

在这项实验里,AI的加持让专利申请量像火箭一样蹿升了39%,产品创新数量也提升了17%。

但这项技术的助力却并非人人受益,反倒在科研圈引发了不小的焦虑。

在这场别开生面的实验中,AI似乎对某些人特别“偏心”,特别青睐那些站在科研金字塔尖的研究人员。

数据显示,前10%的科研精英在AI的辅助下,研究产出飙升了81%。然而,在团队中垫底的三分之一成员却几乎没从AI那里得到一丁点儿好处。

AI“偏心”的原因很简单。

顶尖研究人员拥有深厚的专业功底和敏锐的判断力,自然能够快速筛选出AI生成的高潜力候选材料,而那些经验相对较少的研究者,在面对AI产生的海量数据时,却往往感到手足无措,浪费了大量的时间在无效的摸索上。

从本质上来说,这种差距并非源于学识的深浅,而在于评估AI建议的能力——这是一个无形却又无法回避的“新门槛”,让科研领域的“马太效应”愈发明显。

换句话说,AI工具让强的人被迫卷得更强,弱的人被迫卷得更弱。

另一方面,AI的加入让科研效率迎来了一次“量变”,但它对科研工作者的工作体验来说,却未必是一场“质”的变革。

颇为值得注意的是,发起本次研究的Aidan并非AI研究者,而是一名经济系的学生。

经济学对决策问题的探讨与人工智能所研究的问题有很多不谋而合之处,这决定了两门学科在研究上存在着很多交叉之处。

人工智能经济活动带来的影响是广泛和深远的。现在,在分析经济增长、收入分配、市场竞争、创新问题、就业问题等经济学关注的内容时,都难回避人工智能所造成的影响。

尤其是本次研究中涉及的“效率与公平”,更是发展经济学的传统话题。

至于AI“去人类化”的趋势也带来了职业上的不确定性、许多人开始担心自己的工作未来会逐渐被AI所替代,也成为经济学家们研究的新课题。

AI已经拿下了诺贝尔物理奖和化学奖,未来是否可能在经济学上有所突破?

以下是本次研究的部分核心发现:

  • 在AI的辅助下,创意生成的时间大幅缩水,从原来的39%锐减到16%。相反,判断任务的时间却几乎翻了一番,达到40%。科研人员在材料评估上的时间更是增加了74%,这意味着他们需要投入更多的精力去甄别和判断AI生成的结果。

  • 在这种情况下,有高达82%的科研人员工作满意度大幅下降。他们普遍认为AI工具不仅没有让工作变得更轻松,反而加重了对AI生成内容的评估负担。

  • 在这些不满的声音中,73%的人觉得AI没有充分利用他们的技能,而53%的人则认为工作变得越来越机械化、缺乏创造性。甚至有些科研人员悲哀地感到,自己多年积累的科研训练在AI的协助下似乎变得毫无用处。

这篇论文在推特上收获了大量转发和点赞,很多网友都产生了共鸣。

AI把创造性的工作都做完了,人类该怎么办?人类会不会因此逐渐丧失创造力?

不过,再强大的AI也只是工具,什么样的人去使用它就会得到什么样的结果。只有天才才能把AI的效率发挥到极致。


实验解读

这项实验依托一家大型公司的研发实验室进行,目标是测试AI在新材料发现上的实际作用,实验跨越了从2020年5月至2024年6月整整四年。

通过随机分配,实验室内符合研究要求的1,018名研究人员被分成三波,逐步接触一种基于AI的新材料发现技术。

研究团队的工作流程包括四个步骤:首先生成新材料的候选化合物,然后对其进行初步评估,再测试最有潜力的化合物。最终,成功的研发成果会被申请专利并纳入产品原型,推动产品创新。

在此次实验中,AI工具被设计成一个基于图神经网络(GNNs)的“逆向材料设计”系统,通过分析大量已知材料的结构与特性,预测和生成具有特定目标属性的新化合物。

AI首先被预训练,然后通过实验结果不断调整,以更精确地匹配研究人员的需求。最终,这种智能模型可以根据输入的属性需求,迅速生成可能具有这些属性的材料候选清单。

研究结果表明,AI让研发效率提高了13-15%,AI辅助研究人员发现了44%以上的材料,导致专利申请增加39%,产品原型创新增加17%。

这些新发现的材料具有更优越的物理结构,显著提高了下游产品创新的数量和质量,也推动了更多新产品线的出现。


AI催生的科研焦虑

人们往往以为AI的横空出世会让所有科研人员都受益匪浅。但事实却并非如此。AI带来的优势并未雨露均沾,反而让科研领域的“贫富差距”愈发明显。

AI对高能力研究人员的影响更大,前10%研究人员的产出增加了81%,加剧了90:10的研究绩效不平等现象。

这种现象说明,AI在一定程度上扩大了科研领域的“马太效应”,让强者更强,弱者进一步被边缘化。

这一切的关键在于,AI自动化了高达57%的“创意生成”任务!这使得科研人员的注意力不得不从新材料的初步筛选转向了对AI生成的候选材料进行评估。

顶尖研究人员往往更善于识别具有潜力的候选材料,他们凭借深厚的专业背景和经验,更快地筛选出优质材料;而对于缺乏判断力的研究人员,他们在评估AI生成的材料时往往难以有效筛选,从而浪费了大量时间在无效的尝试上。

更让人惊讶的是,AI并没有显著减少科研工作量,反而改变了任务的结构。

在AI的“帮助”下,创意生成任务所占时间从39%锐减至16%;而判断任务占比却从23%激增至40%,实验时间比例也有所上升。

这种任务重构引发了科研人员的大量不满。

与直觉相悖的是,受益最多的头部研究院人员反而是最为不满的群体,82%的研究人员认为总体满意度下降。

数据显示,73%的人认为AI未能充分发挥其技能,53%的人认为工作变得重复,缺乏创造性。

随着AI逐步接手创意生成等基础性工作,部分科研人员感到他们的技能正被边缘化,计划重新培训的研究人员的数量增加了71%。

一位科研人员抱怨,AI工具的表现虽有效,却让他“多年接受的科研训练几乎派不上用场”。不少人担心在AI重塑的科研环境中,传统学科知识的作用在减弱。

随着AI的深入应用,科研人员不仅面临着效率与竞争的加剧,也感受到一种前所未有的职业危机。

为了适应新的AI科研模式,研究人员不仅需要传统的学科知识,更需要跨学科的技能,以便在AI生成的庞大数据中筛选出高价值的科研成果。

实验室也重新调整了人员结构,甚至解雇了3%的科研人员。这些被解雇的人中有83%位于判断能力的中下四分位。不过,实验室通过增加招聘来弥补这些偏差,最后呈现了研究人员人数的净增长。

根据论文的判断,前三四分位数的科学家被解雇的概率不到2%,而后四分位数的科学家的被解雇概率几乎达到了10%。

AI虽然能显著加速科研进程,但这种进步往往伴随着部分科研岗位的消失。

这种“去人类化”的趋势令研究人员们面临前所未有的职业焦虑,使得部分研究人员担心他们的技能无法适应AI的“改造”。

这种情况也和Anthropic的首席执行官Dario Amodei的观点相契合。他认为AI会将科学的发现速度提升10倍,同时人类的工作岗位会因为AI的替代而减少,但与此同时与AI紧密联系的其他岗位的需求量也会大量增长。

如果AI在90%的工作上都能表现得很好,剩下的10%也能创造一堆新的人类工作,扩大到能够雇佣所有人的程度。

未来,研究人员与AI之间的关系应该为共生关系,而非替代关系。

比如,AI可以专注于基础性预测与筛选任务,而研究人员们则保留在“终端评估”的角色,以确保最终的科研成果具有更高的创造性和实用性。


AI在科学研究中的边界

AI技术的广泛应用似乎给科研界带来了一股“清流”,但同时也引发了一系列棘手的“科研责任”问题。

想象一下,当科学发现越来越依赖AI算法和大数据时,万一AI在推荐材料或设计实验时出了偏差,这个锅到底该由谁来背?

尤其是在AI应用越来越广泛、人类监督逐渐弱化的情况下,AI在科研中的责任机制仍然有待进一步明确和完善。

其次,随着AI在科研领域的广泛应用,“科研伦理”也需要得到更新和重新定义。

科学发现的核心价值在于探索真理、解决社会问题和推动技术进步。然而,当AI成为科学研究的主要推动力,科研伦理是否应当与时俱进?

特别是在科学研究对AI的依赖越来越深的背景下,究竟是以效率为先,“前进,前进,不择手段的前进”,还是强调“以人为本”,兼顾更多靠后的科研人员的吃饭问题,已经成为需要整个科学界共同攻克的重要课题。

在这样的过程中会有很多需要解决的问题,但正如王尔德所言:我们都在阴沟里,但仍有人仰望星空。

在1970年,NASA给赞比亚修女Mary Jucunda的一封回信中,也有着类似的讨论。

Mary Jucunda 修女在给NASA的信中问道:目前地球上还有这么多小孩子吃不上饭,他们怎么能舍得为远在火星的项目花费数十亿美元。

NASA Marshall 太空航行中心的科学副总监 Ernst Stuhlinger在回信中列举了显微镜的发明对消除传染性疾病的贡献,并进一步解释:

事情并不是仅靠把去往火星航行的计划取消就能轻易实现的。相对的,我甚至认为可以通过太空项目,来为缓解乃至最终解决地球上的贫穷和饥饿问题作出贡献。

同样,在现在的科研界,事情可能并不是仅靠保住那些无法适应AI“改造”的科研人员的饭碗,喊几句“避免人成为技术的奴隶”就能轻易实现的。如果AI在科研发现上突破的速度足够快,所衍生出的新的科研问题,同样需要更多的研究者来解决。雷峰网雷峰网


]]>
人工智能 //m.drvow.com/category/ai/e7NyDnLbEeOmy1LA.html#comments Mon, 18 Nov 2024 14:29:00 +0800
月之暗面发布首款数学模型 k0-math,对标o1 //m.drvow.com/category/ai/e2X6O6fDuKQoIKXa.html 今天,在京东科技大厦,月之暗面创始人杨植麟宣布 Kimi 数学模型 k0-math 正式发布,其数学能力对标OpenAI o1系列,还公布了截止2024年10月 Kimi  月活超过 3600万。

杨植麟称未来会更关注基于强化学习的方法去scale,不仅仅是简单地预测下一个token是什么,因为这是基于静态数据集,使得大模型不能完成更难的任务。在这个过程中,很重要的是让AI具备思考的能力。

用Next—Token prediction是做不到的,而用强化学习的方法一定程度上可以学习到这种思考的方式。例如解一道数学题,想要知道它的解题思路是怎样的,最后的结果是怎么一步步推导出来的,这就是一个深度思考的过程。

伽利略曾说,数学是宇宙的语言,所以数学场景是一个很广泛的应用场景,是培养 AI 具备思考能力的最佳场景。OpenAI的 o1 模型最初也是从数学场景出发,好处是不用跟外界进行交互,可以自成一体。

k0—math正是从数学场景出发,再推理泛化到更多的任务上。

例如,问它一个很难的竞赛题,k0—math 通过大量的尝试,可能尝试了八九中不同的做法,最后发现还没能得到最终的答案,那么它可以把前面几种不同的解法综合一下,就能得到一个正确的答案。

根据上图,在多项基准能力测试中,k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型:o1-mini和o1-preview。在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中,k0-math 初代模型成绩超过o1-mini和o1-preview模型。在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

未来的一到两周时间内,k0-math 强化模型将会放到 Kimi 探索版中,包含了意图增强、信源分析、链式思考三个特点。

其中,模型在深度思考的过程中,生成的学习数据是否都有用以及是否正确,这是强化学习中的一个核心问题,以前做Next—Token  prediction,处理的是静态数据,可以做静态过滤、打分筛选,而在强化学习中则对奖励模型的效果提出挑战,核心是是怎么更好的训练奖励模型,设置奖励的机制,以此来让模型尽可能地减少学习错误的数据。

k0-math在思考的过程中会出现「过度思考」,例如问它1+1等于多少,正常人是不需要思考的,而k0-math 就会给出一整套它的思考推理过程,最后才得出1+1等于2。

对于这个问题,杨植麟称是因为奖励上没有对它的长度做任何的限制,让它自由地思考,也可以通过改变奖励模型的结构,一定程度能抑制过度思考。

同时,杨植麟称,该包含了k0-math 强化模型的 Kimi 探索版大概率会让用户自己选择使用,早期通过这种方式可以更好地分配、满足用户的预期,这里面包含了一个技术问题,一是能够动态地分配最优的算力,如果模型足够聪明就应该知道什么样的问题不需要想很久,就跟人一样1+1等于几不用想;第二个点是成本不断下降的过程。

未来,k0-math 还将从数学问题上的推理泛化到更多任务上,例如物理学、化学、生物医学等等。

去年今天,是Kimi Chat 面向全社会开放服务的日子,今年10月推出AI搜索功能,再到今天推出数学模型 k0-math,三个动作月之暗面整整走了一年。

可以看到,在一众大模型公司中,月之暗面的产品策略更克制。

杨植麟称,是他们主动做了业务的减法,聚焦去做离 AGI 上限最高的事情,然后做好;始终保持卡和人的比例最高。去年整个大模型行业经历了大扩张,而到目前为止,月之暗面人数是所有大模型公司中最少的,不超过200人。

「我们不希望把团队扩那么大,扩太大对创新会有致命性的伤害。如果你想把团队保持在一定的规模,那最好的方式是在业务上做一些减法。」杨植麟称,一开始月之暗面也尝试过几个产品一起做,这在一定时期内有可能有效,到后来发现还是要聚焦,把一个产品做到极致是最重要的,如果几个业务一起做,把自己活生生变成大厂,创业公司的优势就丢掉了。

杨植麟认为Kimi目前最核心的任务是提升留存。

对于当下愈演愈烈、有关于Scaling Laws「撞墙」的争辩,杨植麟认为「预训练还有空间」,这个空间会在明年释放出来,明年领先的模型会把预训练做到极致。

他判断,接下来最重要的是强化学习带来的技术范式上改变,但它依然还是scale。至于Scaling Laws是否到上限,核心在于原来用的是静态数据集,这属于简单粗暴的使用方式,现在用强化学习的方式——很多情况下有人参与标注数据的过程,比如人标注 100条数据,就能产生非常大的作用,剩下的让AI自己思考。AI 加上人的杠杆,上限是很高的。「雷峰网」


]]>
人工智能 //m.drvow.com/category/ai/e2X6O6fDuKQoIKXa.html#comments Sat, 16 Nov 2024 11:04:00 +0800
大模型容易忽视的安全,火山方舟早就「刻」进了基因 //m.drvow.com/category/ai/39AaXseMBZmw5ynI.html 大模型时代,企业使用云上模型的痛点有哪些?

你可能会说模型不够精准,又或者成本太高,但这些随着AI技术的快速发展,在不远的将来或许都不再是问题。

比如成本,自豆包大模型首次将价格带进“厘”时代以来,行业纷纷跟进,企业客户从此不再为使用模型的成本过度高昂而烦扰。在未来,随着行业技术进步,成本或许将越来越不再是问题。

与前述问题比起来,安全是一个容易被大多数人忽视但又极为重要的事项。伴随模型能力的快速发展,企业在使用大模型过程中面临的安全挑战越来越多:从安全漏洞导致的用户数据泄露,到部分公司违规抓取数据,都已经出现相关案例。

企业在使用新技术的同时,必须时刻拧紧安全的阀门,这是关乎企业生存的根基,一点马虎不得。因为一旦发生意外,损失便有可能是致命的。

1、大模型时代的安全挑战

AI正在重塑行业。

自Open AI发布的ChatGPT引领互联网行业进入AI 2.0时代以来,无数企业和AI创业者投身行业。在国内,除了

百度、字节、阿里等传统互联网大公司斥资投入,更是有智谱AI、月之暗面、Minimax等明星创业公司散落其间。

短短两年间,市场似乎已经从早期的莽荒开拓期进入到淘汰期。前段时间,有媒体报道称,国内AI“六小虎”至少有两家已放弃预训练模型。在美国,不少大模型公司都在卖身,仅剩OpenAI、Anthropic、Meta、谷歌,以及马斯克旗下的xAI等公司还在大手笔投入基础大模型的研发。

市场趋于冷静之时,大模型时代的安全问题也在日益凸显,成为行业关注焦点。相关安全事件包括但不限于,企业违规操作过度抓取数据、外部攻击窃取用户数据、使用者通过AI窃取个人隐私信息等。

以某知名生成式对话大模型产品X为例,自发布以来,曾多次被爆出存在安全漏洞。

早在2023年,就有用户爆料X存在明显漏洞,致使少数用户能够看到其它用户与AI对话历史记录的标题。今年5月份,有研究员再次发现上述产品存在的安全漏洞,该漏洞允许黑客在用户的长期记忆设置中存储虚假信息和恶意指令。但当时,相关公司对其报告并没有给予重视,草草结束调查。

同样在2023年,某提供导航服务的公司向当地报案称,发现有人利用技术手段盗取公司服务器内全国的导航地图信息数据,并在论坛售卖,导致公司直接经济损失约21万元。

今年7月,美国某电信巨头披露,客户数据在第三方AI数据云平台发生大规模泄露,超过1亿条用户数据被黑客获得,涉及几乎所有移动客户的通话和短信记录。涉事平台因大量客户遭黑客攻击饱受质疑,该电信巨头只是众多受影响的企业之一。

越来越多的安全事故显示出, 随着AI多模态大模型等新技术普及,用户数据正面临越来越严峻的安全挑战。企业在使用大模型时,不得不更加警示可能存在的潜在安全风险。毕竟,安全无小事。

正因如此,以火山方舟为代表的不少Maas(模型即服务)平台,始终对安全相当重视。火山方舟是火山引擎旗下一站式大模型服务平台,一年多前,刚刚对外发布时,方舟平台就同步上线了基于安全沙箱的大模型安全互信计算方案,利用计算隔离、存储隔离、网络隔离、流量审计等方式,实现模型的机密性、完整性和可用性保证。这也是大模型行业内首创的安全互信机制。

2、把安全「刻」进基因

安全从来都不是一朝一夕的事情。

在同行几乎都卯足劲发展大模型能力时,火山方舟从开始就把安全作为一项基本功能,用最严格的标准要求自己。用火山方舟自己的话说,要保证你的数据,唯你可见,唯你所用,唯你所有。

近期,雷峰网与火山引擎智能算法负责人、火山方舟负责人吴迪进行了近一个小时交流,了解到更多火山方舟为保证客户数据安全做出的不懈努力。

火山方舟平台还没有成型的时候,方舟的团队就在谈安全、隔离、沙箱。可以说,火山方舟从开始就把安全「刻」进了它的基因。正因此,那时就有很多同行来问吴迪为什么如此重视安全。

在火山方舟看来,生成式AI的机会还远没有完全显现,未来的市场容量可能是今天的1000倍,它会渗透到千行万业的核心业务当中,是很多企业核心业务的重要依赖。在这种情况下,一家公司核心业务将离不开大模型,除了追求效果、性价比,数据安全将愈加重要。

另一方面,生成式 AI 的发展将对安全产生更多新的挑战。换句话说,AI 1.0时代的安全方案在生成式AI时代未必可行。过去,为了确保数据的安全,企业的选择经常是数据不动模型动,也就是说很多企业客户会把数据留在自己的私域空间里,请模型服务商把模型部署到自己的私有化空间,但是这一套实践可能在生成式 AI 的时代就行不通了。

其一,私有化大模型很难追随着公有云上最先进的大模型同时升级迭代;其二,私有化大模型所消耗的基础算力的单位价格是远远高于公有云上大模型服务,从性价比角度来讲,公有云上的集中调度更加便宜、更加方便。

在公有云条件下,用户对云上操作不可见,如何让用户充分信任云上数据的安全性始终是一个难题,这也是火山方舟过去一年始终致力于探索解决的问题。

吴迪告诉雷峰网,火山方舟对安全的代码实践是直接渗透到系统的核心设计中的,包括所有的执行环境、日志审计环境,它是随着系统本身的搭建一起进行的。打个比方,这就好像大厦水泥基柱中的钢筋一样,保证了数据非常高的安全性。相比较而言,部分不那么重视安全的平台,可能会先把大厦建立起来,然后再在外面贴保温层、防护层加固。长期来看,这种模式的大厦是抵御不了台风等恶劣环境的。

不仅如此,火山方舟的安全团队独立于其它团队之外,拥有一批优秀的工程师,随时准备应对内外部的安全测试。字节跳动内部有专门的蓝军攻防系统,随时可能进行各个角度渗透攻击,独立验证火山方舟的安全方案。从日、周、月、到季度,火山方舟几乎都有不同级别的安全演练。

吴迪曾多次表示,站在第一天,我们就着眼于未来的 5 年或者 10 年时间,从第一天就知道取得客户的信任是一件非常重要的事情。

3、如何帮客户实现「会话无痕」

正是基于从开始就把安全当作一项基本功能的理念,以及对生成式AI前景的坚信,火山方舟对安全的投入毫不吝惜,方向也越走越明,研发出一套全周期的安全可信方案。

具体而言,这套方案主要包括四大能力:链路全加密、数据高保密、环境强隔离,以及操作可审计。

如此说来,不少用户大概会感到晦涩难懂,我们不妨稍加展开。

所谓“链路全加密” ,包括网络层传输加密和应用层会话加密方案,简单来讲,它主要用来防止用户数据在传输链路阶段被截获;“数据高保密”保证用户数据仅本人可见;环境强隔离,用于杜绝外部风险入侵、内部数据泄密,就好像一座安全堡垒;“操作可审计”仿佛一座瞭望塔,能够帮助用户查看几乎一切影响其数据资产的操作记录。

整个方案四大能力围绕数据传输、数据使用、数据静态存储等阶段相互协作,共同致力于提升用户在使用模型时的安全性, 为平台提供了全周期的安全能力,最终实现会话无痕(你的数据,唯你可见,唯你所用,唯你所有)的安全目标。

随着大模型普及,企业效率得到提升的同时,对数据安全的需求也在不断迭代更新。

晓多科技是一家智能客服的SaaS企业,围绕大模型做了两款独立产品,其一是通过豆包大模型模拟买家训练新人客服,上岗时间缩短了一半以上。其二是,结合晓多原有的知识库,豆包大模型加成后,在客服接线时针对商品知识问答、商品对比、商品推荐等复杂场景,给人工客服提供副驾驶能力。

晓多科技首席技术官向海直言,他们在为客户提供线服务能力过程中,也要保证访问链路的加密和租户数据的隔离。“这个过程跟方舟思路差不多的,当然,投入肯定没(方舟)那么大。”向海笑着说道。

向海坦言,在没有大模型时,前述产品是很难做出来的。只有有了生成能力,才能大量模拟买家,去与新的客服人员对话。豆包大模型出现以后,特别是,经过半年围绕客户真正需求精调后,客户满意了,产品才能做出来。

从安全角度讲,客户把自己的知识、培训内容、技巧,甚至于流程都固化到产品中,其中一部分变成参数,直接被集成到提示词中。无论是晓多科技,还是他们服务的商家,都非常关心方舟是如何保证这些承载用户知识数据安全性的。

回到方舟的安全方案,其自始至终的目标同样都是保证用户数据实现「会话无痕」。相关审计日志充分开放向用户开放,也在很大程度上给客户吃下了一颗定心丸。

从诞生至今一年多时间,火山方舟一直致力于提高用户数据资产(模型、会话数据、训练数据等)的安全水位。火山方舟负责人吴迪在直播中表示,目前火山方舟已经达到Don't be evil(不作恶)。这意味着,方舟平台能保证除了用户外的任何方一旦做恶(违反方舟的数据安全策略),都能够第一时间被用户或者方舟的安全团队发现并追责。

不过,Don't be evil 只能算是一个基础安全水位。长远而看,Can't be evil 才是火山方舟始终追求的安全目标。吴迪也坦言,信息安全有个特点,只能接近满分,但永远无法达到。

在被问道,与客户接触过程中有没有印象深刻的故事,吴迪开玩笑般说到:“我觉得安全方面没有故事,只有事故。”

但我们反过来想,一直以来,火山方舟都没有发生事故,或许就是最好的故事,也是最朴素的真实。


]]>
人工智能 //m.drvow.com/category/ai/39AaXseMBZmw5ynI.html#comments Fri, 15 Nov 2024 16:03:00 +0800
清华大学获X-Embodiment最佳论文奖,机器人顶会CoRL 2024获奖名单出炉 //m.drvow.com/category/ai/BO76IIC5ctDmOTim.html 来自清华大学的高阳团队在最新一届机器人顶级会议 CoRL 2024(Conference on Robot Learning)中荣获 X-Embodiment Workshop 最佳论文奖。

CoRL 是全球机器人学习领域的顶级学术会议,每年汇聚来自全球顶尖学府的创新研究,评选出的最佳论文通常代表着前沿技术与重大突破。

清华团队此次获奖的论文标题为《Data Scaling Laws in Imitation Learning for Robotic Manipulation》,关注的是数据规模定律在机器人操作中的模仿学习中的应用,尤其是能否通过适当的数据规模来实现零样本泛化。

研究团队收集了超过 40,000 次演示,并进行了 15,000 多次机器人实测。结果表明,策略的泛化能力主要依赖于环境和对象的多样性,而非单纯的演示数量。

在此基础上,他们设计了一种高效的数据收集方案,仅需四个采集者花一下午便能获取足够数据,使两个任务在新环境和新对象上的成功率达到约 90%。

随后,团队将机器人部署在各种野外环境中,包括火锅店、咖啡馆、电梯、喷泉和其他以前未收集数据的地方。结果显示,模型在这些全新的环境中展现出极好的泛化能力,超出预期。

这篇论文的作者是来自清华大学交叉信息研究院的高阳和他的学生林凡淇、胡英东、盛平岳、Chuan Wen、游嘉诚,其中林凡淇、胡英东、Chuan Wen 同属于上海期智学院和上海人工智能实验室。


论文链接:https://data-scaling-laws.github.io/paper.pdf

项目网址:https://data-scaling-laws.github.io/

代码:https://github.com/Fanqi-Lin/Data-Scaling-Laws

数据:https://huggingface.co/datasets/Fanqi-Lin/Processed-Task-Dataset/tree/main


实验设计

研究团队选择使用手持夹持器(UMI)在不同环境中收集人类演示数据,并使用扩散策略(Diffusion Policy)对数据进行建模,主要研究了策略的泛化性能如何随着训练环境数量、物体数量和演示数量的变化而变化。

实验选择了 Pour Water(倒水)和 Mouse Arrangement(鼠标移动)作为案例研究任务,并在此基础上扩展到 Fold Towels(叠毛巾)和 Unplug Charger(拔掉充电器)任务,收集了超过 40,000 次演示,并在超过 15,000 次实际机器人操作中进行了评估。

具体的实验任务分为对象泛化、环境泛化以及跨环境和对象泛化三种类型,分别针对同一环境下的不同物体、不同环境下的同一物体和不同环境下的不同物体收集演示,随机选择部分演示进行训练,并评估策略在未知情况下的的表现。每个实验设置下,策略在 8 个未见过的环境中进行评估,每个环境有 5 次试验。


研究结果

实验结果表明,策略的泛化能力与训练物体数量、环境数量和训练环境-物体对数关系密切,符合幂律分布。

对象泛化

随着训练物体数量的增加,策略在未见过的物体上的表现显著提高。当训练物体数量达到 32 时,策略在未见过的物体上的表现超过了 0.9。

环境泛化

增加训练环境数量显著提高了策略在未见过的环境上的表现。即使演示数量保持不变,环境扩展仍然有效。

跨环境和对象泛化

同时增加环境和物体数量显著提高了策略的泛化能力。与单独扩展环境或物体相比,同时扩展两者的效果更好,且额外的演示对性能的提升更快饱和。


作者介绍

林凡淇

林凡淇,清华大学交叉信息研究院 (IIIS) 的一年级博士生,指导老师是高阳教授。此前在清华大学计算机科学与技术系获得学士学位。

他的研究重点是 Embodied AI(具身智能),这是一个集成机器人、计算机视觉和自然语言处理的跨学科领域。具体来说,他的目标是使机器人能够通过大规模数据实现人类水平的操作能力。同时,他还热衷于利用基础模型来增强机器人的能力。

胡英东

胡英东,清华大学交叉信息研究院 (IIIS) 的四年级博士生,指导老师是高阳教授。此前在北京邮电大学 (BUPT) 获得学士学位。

他的研究重点也是具身智能,他研究了开发通用机器人系统的基本挑战,这些系统可以在各种非结构化的现实世界环境中有效地适应和推广其学习行为。

盛平岳

盛平岳,清华大学交叉信息科学研究院 (IIIS) 姚班的一名本科生。他的研究兴趣集中在机器人技术、模仿学习和算法上。

Chuan Wen

Chuan Wen,清华大学交叉信息科学研究院 (IIIS) 的博士生,指导老师是高阳教授,同时与宾夕法尼亚大学 GRASP 实验室的 Dinesh Jayaraman 教授密切合作。此前在上海交通大学电子工程系获得学士学位,师从张亚教授和王新兵教授。他目前还是伯克利人工智能研究 (BAIR) 的访问学者,由 Pieter Abbeel 教授和林星宇博士指导。

游嘉诚

游嘉诚,清华大学交叉信息研究院 (IIIS) 的一年级博士生。

高阳

高阳,上海期智研究院 PI,清华大学交叉信息研究院助理教授。于美国加州大学伯克利分校获得博士学位,师从 Trevor Darrell 教授。在获得博士学位后,于加州伯克利大学与 Pieter Abbeel 等人合作完成了博士后研究。研究方向为强化学习与机器人。

高阳博士目前主持具身视觉与机器人实验室 (Embodied Vision and Robotics,简称EVAR Lab),专注于利用人工智能技术赋能机器人,致力于打造通用的具身智能框架。


最佳论文奖

本次 CoRL 2024 也已经宣布了最佳论文的获奖名单,分别为来自 Kuo-Hao Zeng 等人的《PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators》,和来自 Franck Djeumou 等人的《One Model to Drift Them All》。

PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

论文作者:Kuo-Hao Zeng, Zichen Zhang, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs

论文摘要:研究团队提出了 POLIFORMER(Policy Transformer),这是一个仅使用 RGB 的室内导航代理,通过端到端的强化学习在规模上进行训练,并且能够在没有适应的情况下泛化到现实世界。

POLIFORMER 使用了一个基础的视频变压器编码器和因果变压器解码器,实现了长期记忆和推理能力。它经过数亿次交互,在各种环境中进行了训练,利用并行化和多机部署以实现高效训练和高吞吐量。

POLIFORMER 是一个精通的导航器,在两个不同的实施例中——LoCoBot 和 Stretch RE-1机 器人,以及四个导航基准测试中都产生了最先进的结果。它突破了以往工作的局限,实现了 CHORES-S 基准测试中前所未有的 85.5% 的成功率,绝对成功率提高了 28.5%。

POLIFORMER 还可以轻松扩展到多种下游应用,如物体跟踪、多对象导航和开放词汇导航,无需微调。

One Model to Drift Them All: Physics-Informed Conditional Diffusion Model for Driving at the Limits

论文作者:Franck Djeumou, Thomas Jonathan Lew, NAN DING, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subosits

论文摘要:如果使自动驾驶车辆能够在轮胎力饱和的极限条件下可靠运行,将提高它们的安全性,特别是在紧急避障或恶劣天气等场景中。然而,解锁这一能力由于任务的动态本质和对道路、车辆及其动态相互作用的不确定属性的高敏感性而具有挑战性。

受到这些挑战的启发,研究团队提出了一个框架,利用包含不同环境中不同车辆轨迹的无标签数据集,学习用于高性能车辆控制的条件扩散模型。

研究团队设计的扩散模型能通过物理信息驱动的动力学模型的多模态参数分布来捕捉复杂数据集的轨迹分布。通过在生成过程中进行在线测量,将扩散模型集成到实时模型预测控制框架中,用于在极限条件下驾驶,并展示了它能够即时适应给定的车辆和环境。

在丰田Supra和Lexus LC 500上的广泛实验表明,单个扩散模型在操作时能够在不同轮胎和不同道路条件下可靠地实现自动驾驶漂移。

该模型在特定任务上的专家模型的性能匹配,同时在泛化到未见条件方面表现优于它们,为自动驾驶在处理极限下的通用、可靠方法铺平了道路。雷峰网雷峰网


]]>
人工智能 //m.drvow.com/category/ai/BO76IIC5ctDmOTim.html#comments Thu, 14 Nov 2024 14:21:00 +0800
伯克利罗剑岚:机器人的范式革命,藏在真实世界中 //m.drvow.com/category/ai/w5ybJ9rvLSroaVbl.html 作者 | 赖文昕

编辑 | 陈彩娴


近日,伯克利大学 Sergey Levine 团队发布了一项强化学习方向的重磅工作——HIL-SERL,引起了具身智能领域的广泛讨论与关注。

根据实验结果,基于强化学习框架 HIL-SERL,研究者可以直接在现实世界中训练基于视觉的通用机器人操作策略。其中,机器人经过 1~2.5 小时的训练后,就能完成主板、仪表盘以及正时皮带组装等操作任务。

而且,机器人完成所有任务的成功率均高达 100%!

这些任务包括组装家具、颠勺煎蛋、鞭打积木、插入 U 盘等操作,即使在人为干扰的情况下,机器人也依旧能够稳定、灵活地完成任务。

此前,强化学习(RL)总是被业内人士诟病其只能在模拟环境中改进算法性能,无法解决现实世界里真实机器人的问题。但 SERL 系列的工作证明,真机 RL 不是天方夜谭——如今,强化学习不仅能应用在现实世界中,且在精准灵巧的操作任务上效果极佳,且远超模仿学习方法,节拍数也平均快了 1.8 倍。

换言之,SERL 是真机 RL 机器人领域的一个划时代工作。而这个工作的核心作者,就是中国青年科学家、伯克利在读博士后罗剑岚。

罗剑岚

今年年初,罗剑岚团队提出了高效机器人强化学习套件 SERL,机器人能用 20 分钟学会装配电路板,成功率同样是 100%。

HIL-SERL 是基于 SERL 的升级版。但不同的是,HIL-SERL 结合了人类的示范和纠正来训练强化学习策略,而 SERL 仅依赖于人类的示范。

加入人类纠正这一微小的差异,对于让策略从错误中学习并提高性能至关重要,特别是针对那些对智能体来说得从头开始学习的任务。而且,HIL-SERL 专注于相对困难的任务,还解决双臂协调或动态操作的问题。

项目链接:https://hil-serl.github.io/

HIL-SERL 的效果也出乎了罗剑岚与导师 Sergey Levine 的预料,看到成果后,Sergey 对罗剑岚说的第一句话就是:“You really made RL work.”(你真的让强化学习跑起来了。)

在不久前 AI 科技评论发布的《伯克利具身智能图谱》一文中,我们简单介绍了罗剑岚在伯克利研究强化学习与机器人结合的故事。回溯过去,罗剑岚已在机器人真机 RL 方向“固执”了将近十年时间。

2015 年,罗剑岚到伯克利机械工程系读机器人控制博士,同时开始探索 Robotics+AI,并在 Pieter Abbeel 的指导下攻读计算机系硕士。在他的博士论文答辩中,Pieter 也是他的博士答辩委员会 co-chair。

在强化学习里,仿真器是不可缺失的一环,在模拟环境中实验测试结果的分数越高,算法效果自然就更好。但同时,如何将强化学习落地到现实世界中也是机器人领域一直悬而未决的问题。毕竟,MuJoCo 的物理模拟再精确,也并非真实的物理世界。

于是,从博二的第一个强化学习工作开始,罗剑岚就一直在研究如何让强化学习在真实世界中落地。这当中,强化学习的研究从 AlphaGo 的如日中天到变得渐渐冷门、甚至被行业唱衰,但罗剑岚一直坚信,机器人的真机 RL 是一个长期命题,一旦克服、将对机器人学习的突破产生范式般的变革。

2020 年博士毕业后,罗剑岚加入了谷歌,先后在 DeepMind、Everyday Robot 与 Google X 等部门工作,由此学习了更多从底层动力学到上层控制的机器人系统知识。与此同时,他也一直坚持探索机器人与强化学习的结合。

2022 年,当所参与项目被孵化为工业机器人创企 Intrinsic 后,罗剑岚重新回到了伯克利,在 Sergey Levine 团队当博士后,是 Sergey 组最坚定的 RL 研究者。SERL 系列工作的探索,也是罗剑岚在伯克利探索真机 RL 多年来取得的最具突破性成果。

以下是 AI 科技评论与罗剑岚的对话。


重返学术

AI 科技评论:您在伯克利机械系读博,那最早是如何接触深度强化学习的呢?

罗剑岚:机械系做的范围大而全,我是控制方向的,最早控制论和强化学习就是对偶的存在,比如控制里的 HJB 方程,强化学习里的 Bellman Backup,都是原理相同的动态规划方法。所以这个切换反倒能给我不同的视角看两个领域怎么解决问题。

2017 年暑假,我参与了西门子伯克利分部的工作,把深度强化学习应用到工业生产中,学习策略以解决传统机器人解决不了的问题,比如高精度装配。

当时的任务是操作一个 3D 打印的齿轮,将其安装到一个可活动的机械装置上,要求设计的算法不仅要能进行规划,还要能实时响应外部变化,并制定策略成功完成装配。这个项目是我在强化学习领域的起点,也是和 Pieter Abbeel、Sergey Levine 合作的开始。

AI 科技评论:博士毕业后您在谷歌工作了两年,为什么会决定重返学术,到 Sergey Levine 的组里读博士后呢?

罗剑岚:其实这是比较偶然的决定。

在谷歌期间,Stefan Schaal 让我积累了很多硬核机器人知识,真正地从底层动力学到上层控制摸清楚整个机器人系统。当时我参与的项目注重于把 AI 用在工业生产上,提高生产力。在项目孵化为做工业机器人的 Intrinsic 后,我想着回国找教职,打算先做一年 part time 的博士后作为过渡,就问了当时也在谷歌兼职的 Sergey。

Sergey 当时训练机器人完成简单操作需要几十个小时,通过我们的合作,我的工作里插拔等工业上较精密任务的成功率有 100%,并且只用了很短的时间,意识到团队得有人既懂机器人系统又懂 learning 才好将二者结合,很热情地建议我到他的组里全职做两年博士后。因为我俩的能力比较互补,之前的合作又非常愉快,我便同意了。

AI 科技评论:回到伯克利后,您参与了 Open X-Embodiment 数据集的创建。

罗剑岚:没错,最早在 2023 年 3 月,Open X-Embodiment 还是个团队成员不足 10 人的小型探索项目,主要是伯克利、斯坦福与谷歌一起合作。我在里面负责最主要的线缆任务 Cable Routing,发现比较可行后,就决定扩大规模。因为之前的机器人数据集都很分散,我们想把行业内的学术、产业力量都拉进来,就给所有数据集作者发邮件,最后的合作者达到了 200 多人。

AI 科技评论:在最新的 HIL-SERL 之前,您先是在 2 月发布了 SERL,可以聊聊这个 idea 是怎么诞生的吗?

罗剑岚:要让强化学习真正好用,就必须确保所有环节和选择都正确无误且放在合适的位置,因此尽管 AI 社区都想用强化学习来解决实际任务,但它门槛高,流程易出错且不稳定,一直难以攻克,很多人都已放弃用强化学习在真实世界里训练策略。

所以在 2023 年初,我就萌生了一个想法,为社区提供一个开源的、端到端的解决方案,里面包括强化学习环境和机器人控制器,能让大家下载下来后直接使用,就像现在拿仿真器训练机器狗走路一样简单。

之前我在谷歌的工作,其实也涉及强化学习在真实世界的应用,比如在 2022 年我与 Sergey 的合作以及我在 DeepMind 参与的项目。在过往研究的铺垫下,我在 2023 年 6 月开始带领团队做 SERL,与斯坦福、华盛顿大学、谷歌等几家机构一起合作推进,进一步完善了以前的工作。

SERL 第一次实现能通过真实世界的视觉信息,用 20 分钟完成精密装配,学好一个策略。在 PCB 板组装、电缆布线和物体重定位这些复杂任务中,每个策略平均训练 25 到 50 分钟,任务的成功率接近完美,而且即使在受到干扰时也能表现出极好的鲁棒性,并展现出紧急恢复和校正行为。

整个研究的推进过程是一次真正的科学探索,我们实验时发现了其中有一两个非常关键的选择,能让整个系统运行地极好,当时我们也傻眼了。今年年初 SERL 发布后,海内外很多机构也开始使用它,比如北大、波士顿动力AI研究院、谷歌等等。

论文链接:https://arxiv.org/pdf/2401.16013


现实世界的拥护者

AI 科技评论:听起来您是现实世界和真实数据的坚定拥护者?

罗剑岚:没错,回到 2017 年第一次接触强化学习时,大家的研究都在仿真里,在 MuJoCo 模拟环境中进行强化学习实验、刷榜、发论文还是常规操作,但我觉得那些强化学习的算法性能榜单并没有解决实际问题,与现实世界的机器人控制问题其实是脱节的。实际上,强化学习的采样效率一直是个问题,至今没有很多人用在真实机器人上。

当然,仿真对移动(locomotion)很有效,但这不是魔法,仿真是人根据物理模型写的,其实是在做基于模型的控制,只不过仿真给了更好的计算工具。

而移动是一个相对简单的问题,模型也比较简单,四足狗是桌子模型,双足是倒立摆。挑战在于模型不准确狗摔倒,或者外界扰动稍大走路打滑,但这些不确定比较有限。这些问题用传统的 MPC(基于模型的控制)和鲁棒控制也能解决得很好,比如对不确定性有一个定量估计,那么我们可以设计出对这个 bounded uncertainty 鲁棒的控制器。

今天的波音客机就是根据此原则来设计控制器的,它能对油量的变化造成的飞机重量变化,高空中气流的变化等等都保持有效,这也是民航客机能够安全运行,我们放心坐上去的保证,所以基于模型的控制是十分有效的,只不过入门门槛及对工程能力的要求太高,刚入门的研究人员一般不太愿意在这上面深耕。

而在操作中,本体的模型是确定的,你让机械臂往左走它一定会往左走,真正的难点在于外部环境无穷无尽的变化和难以计算的复杂物理, 比如物理接触和柔性物体,需要处理的复杂度几乎是无限的。

因此,在真实环境中进行训练是必要的。虽然现在有些成功的深度学习仿真系统,但如果你构建了一个仿真器,从中学习出的策略是不可能超越仿真器本身能力的。最终,你的仿真器会限制你的策略学习。我们不能因为使用仿真器解决了一个相对简单的问题就认为它一定会解决另一个难得多的问题,从而不去解决这个困难问题的本质,反而被困在“鞍点”里,去绕路构造这个困难问题的近似(proxy)来尝试去解决它。这样长远来看,会失去找到全局最优解的能力。

在仿真环境与现实世界做操作存在显著差异,尤其是在涉及视觉输入的情况下。因此我的研究重点一直放在如何设计出具有高样本效率的算法上,而且要与硬件和控制器对接无误。例如,在有视觉信息的情况下,能够在 20 分钟内在现实世界中学会一个非常复杂的策略,而其他方法无法解决。

Sergey 也是真实世界数据的坚定支持者,有次我俩徒步时聊天,说起如果有 100 亿美元,是去建世界上最大最好的仿真器,还是去收世界最大的数据集?我们的答案很一致,就是数据集。

AI 科技评论:看来您很早就开始研究强化学习在现实世界中的应用了。

罗剑岚:是的,我对真实的机器人比较感兴趣,在和西门子合作的项目里解决问题时就有试着把强化学习用在现实世界,但当时强化学习搞不定。它行不通,我就想把它弄明白,所以从 2017 年开始,我就一直沿着这个主线研究,花了很长时间,但我好像也没发现谁比我更快做出来,因为很多人试了一两次不 work 就放弃了。

之前很多人认为在现实世界中应用强化学习并不是一个好方法,因为机器人需要算法与硬件和控制器方面进行极佳的对接,才能使整个系统运行良好。在HIL-SERL中,我们的系统能在1-2小时内利用视觉输入,在一系列工业生产、动态操控和灵巧操作的任务上取得100%的成功率。

大家现在使用仿真的一个主要观点是机器人真实数据很难获得,仿真可以瞬间生成 100 亿数据,但没有人会反对如果有真实数据,最有用的还是真实数据。但这不是问题的本质,十年后我们有一亿个机器人部署在真实世界中,不断分享着真实物理数据(physical experience),那时我们再来看现在的困局,很多问题将不存在,很多观点将变得无关紧要。

现有的数据量、部署的机器人,都不足以让我们产生确切的科学结论,所以才会百家争鸣。远的不说,谁先第一个部署 1000 台人形机器人到工厂里,这些 24x7 传回来的数据就足以让我们产生新的范式和科学结论,我们先从这些半封闭空间的问题入手,一旦对问题有了更深的了解,得出的方法论才会更进一步延伸到无约束空间的问题。

作为科学家,我们应该关注更远的未来,比如五年或十年后的技术发展,需要解决一些基础的科学问题,探讨现在无法实现但未来可能产生重大影响的事情。


强化学习之于具身智能

AI 科技评论:大模型的诞生好像让强化学习的热潮在 Robot Learning 领域冷却了不少。

罗剑岚:如果说 2016-2021 年的主线是以伯克利为首的强化学习,那么 2021 年随着大模型兴起,收集数据和大模型的结合变成了新潮流,比如说谷歌的 RTX 系列。现在的趋势是大模型继续火热,强化学习强势复苏,二者结合,大模型实现初步 50-60% 的策略,再用强化学习算法逐步提升至 100%。

虽然我也做大模型,但我认为自己的代表作和研究重点还是强化学习,因为 HIL-SERL 目前实现的成功率是 100%,周期时长也更短。

如果局限于大模型,其实无论如何收集数据,人与机器人的观察仍会存在差异。人类拥有记忆、大脑和思维,而机器人模仿人类行为时难免会有缺陷。理论上,机器人的行为无法实现对人类 100% 的完美复制。那么如何接近呢?这就需要强化学习,比如让机器人像人类学习骑自行车一样,通过尝试和犯错来学习,看电视或父母教导固然有用,但要真正掌握技能,必须亲自尝试和经历失败。

我预测,现在这些大规模使用模仿学习的创业公司,在他们试过之后,知道痛点在哪之后,明年开始就会用强化学习去优化成功率,节拍数,和一定的鲁棒性。

AI 科技评论:那您是如何看待强化学习在机器人学习或具身智能里发挥的作用呢?

罗剑岚:在机器人学习中,机器人也必须与环境互动,从环境中得到反馈,然后根据这些反馈调整策略,以达到更高的成功率——这是一个根本的逻辑问题。与大模型不同,物理世界的机器人学习是一个复杂的系统,涉及多维、高维度的数据,难以简单实现,但一旦成功,就能超越人类,成为超级系统。

例如,人类需要 10 秒钟完成的任务,机器人通过多步推理,可能只需 5 秒钟就能完成。这是一个非常强大的工具,我们仍在探索如何有效使用它。但可以肯定的是,它将是具身智能不可或缺的一部分。有趣的是,在和机器人领域的专家交流时发现,他们会更关注基础模型完成现实操作任务的成功率,50-60% 会使他们失去兴趣,但得知我们能实现 100% 便会很好奇我们的成果。

Rich Sutton 的 bitter lesson 说历史告诉我们 learning 和 search 是两种可以无限 scale 的方法。模仿学习可以告诉我们怎么从数据中找到特征,但是没有 search 或 optimization(RL),它超越不了数据的局限,从而以新的方式解决新的问题。


中国优势:高质量、低价格

AI 科技评论:您怎么看待现在具身智能越来越火热的趋势呢?中国的优势在哪里?

罗剑岚:以前的确没想到具身智能会火,我们自己还开玩笑说 robot learning 是个自嗨的小圈子,这么多年来我第一次觉得自己属于主流了。

我非常认可国内的供应链优势。其实有很多机器人的卡点是在硬件上,当硬件做好了,软件就可以轻松很多,得硬件和软件一起迭代,而不是在较差的硬件上开发算法。

当我们提到“性价比”一词时,总会下意识觉得这意味着“平替”的质量差了不少,但现在,中国在全球产业链、供应链中的作用并非仅仅是降低成本。例如,波士顿动力的机器狗产品定价在 5 万美元,之前没有人打破,但宇树成功了,而且不是以低质量的方式成功的。

中国作为拥有完整产业链的工业国家,正在重新定义产品价值和定价体系,目标不是制造廉价产品,而是通过全产业链的优势,重新教育和定义市场,确立自己的定价权。


AI 科技评论:可以分享一下您接下来的计划吗?

罗剑岚:其实我出国的时候就想回国,从来没想过长期待在海外。在学校里从事由 0 到 1 的开创性科研,就算需要长时间坐冷板凳,但从长远来看,这价值是巨大的。人生苦短,只有几次机会能够实现重大突破,如果错过了,那至少也努力过了。

我认为突破性的原创研究如果能真的转化为实际应用,会创造更大的社会价值,伯克利和斯坦福的成功离不开硅谷周遭的创业生态。机器人是一个与产业紧密结合的实用科学,能将科研成果从 1 扩展到 100,实现产业化。在这方面我最佩服的人是李泽湘老师,他共同创立的大疆不仅是一家价值数百亿美元的公司,更重要的是在09-10那个时间点证明了源自中国的硬科技创新是可以成功的,这彻底改变了中国科技的历史,这个意义远大于它的经济价值。

Khosla venture 的创始人 Vinod Khosla 说过一句话,创新从来不发生在一个系统的核心部分,它永远发生在系统的边缘(“Innovation never happens at the core of a system, it always happens at the edge")。系统的核心部分有它的既得利益,没有足够的动力去颠覆自己的利益来创新,而在系统边缘,一个好的想法被尝试,然后经历失败再不断的尝试,不确定性会变低,成功的概率就会变大,如果它足够重要,就会产生颠覆性的创新。

就好像没有一次的科技革命是被一个几万亿市值的大公司引领的,也很少有重大的科学发现是科学家快退休时做出来的。汪滔创业时挤在深圳十几平米的小平房里,用今天的话来说就是没有资源,所以大疆的成功会激励中国的年轻人去创造下 100 个、1000 个大疆。

接下来我会关注通用高性能机器人,尤其是在工业生产领域。尽管目前车厂的自动化水平很高,但实际上还有很多工作需要人工完成,因为今天的机器人还无法灵活地处理多变的任务。强化学习等技术将很快应用到这些领域,改变现有的生产模式。例如,特斯拉和富士康等公司已经开始使用机械臂进行柔性生产,以适应不断变化的生产需求。这种生产模式的转变正在全球范围内发生,它不仅能够提高生产效率,还能解放人类的创造力。

我认为,全球制造业的产值巨大,但自动化的比例仍然很低。如果能够通过机器人技术提高自动化水平,不仅可以降低人力成本,还能释放人类的生产力,让人类有更多机会去探索和创新。这种变革已经在一些先进的工厂中得到体现,例如现代汽车在新加坡的新工厂,就采用了更灵活的生产单元模型,取代了传统的生产线,使得生产更加灵活和高效。


关于具身智能领域的更多精彩故事,欢迎添加雷峰网作者微信 anna042023 交流。雷峰网

]]>
人工智能 //m.drvow.com/category/ai/w5ybJ9rvLSroaVbl.html#comments Tue, 12 Nov 2024 16:23:00 +0800
伯克利具身智能图谱:深度强化学习浪尖上的中国 90 后们 //m.drvow.com/category/ai/enZknsm97XLHhmw8.html

作者 | 赖文昕

编辑 | 陈彩娴


短短不到一年内,边塞科技、星动纪元、星海图和千寻智能接连成立,跻身国内明星创企之列;大洋彼岸,Covariant 和 Anyware Robotics 也正在湾区闪耀。

六家具身智能公司,八位 90 后创始人,他们都成长于深度强化学习的摇篮。

作为最早一批开启新范式的人,他们探索 AI 和 Robotics 的故事要从踏入伯克利校园说起。


潮起深度强化学习

2016 年春,伯克利计算机系每学期都会变化的 frontier 课开始了。

Frontier 课又称临时课,内容不定,老师多变,是为了探讨学术前沿而设——这次,轮到了“深度强化学习”。

走进只有二三十人的教室,吴翼和高阳、段岩(Rocky Duan)、陈曦(Peter Chen)坐在了一起。

讲台上,Pieter Abbeel 和 Sergey Levine 轮番上阵分享最新研究,系统性理论教学与进阶内容并不多。此时鼎鼎大名的人工智能实验室 BAIR 尚未成立,伯克利最火的教授还是做统计、贝叶斯机器学习的 Michael  I. Jordan 和 Martin Wainwright 等人。

当时 OpenAI 尚未提出近端策略优化(PPO)算法,其前身 TRPO 算法(由 John Schulman 和两位讲者提出)、DeepMind 刚改进的 DQN(深度强化学习开山之作)以及强化学习经典的策略梯度(Policy Gradient)算法是这门临时课的重点。

作为刚入门强化学习的“小白”,吴翼不懂就问,常抱段岩和陈曦的“大腿”,因后两人正跟着导师 Pieter Abbeel 在 OpenAI 实习,研究强化学习算法的框架 RLLib,天天写代码。

此时的吴翼刚结束了一个学期的焦虑与煎熬:博二的他在 Stuart Russell 组研究贝叶斯推理,继续大三暑研就开始参与的概率编程语言项目。上课之余,他还在带本科生参加 DARPA Challenge,项目重且每学季都有汇报。论文九投一中,新方向颗粒无收,反而是本科论文中了。

吴翼

但同年,和吴翼同届的 Chelsea Finn 与 Sergey Levine、Pieter Abbeel 开发的算法第一次实现了用深度学习做机器人控制,让机器人 BRETT 学会了将瓶盖拧到瓶子上、将衣架放在架子上以及用锤子爪端拔出钉子等技能。

尽管圈内鲜有人认可,但伯克利 AI 方向的几位教授已开始带着学生试跑强化学习,比如 Trevor Darell 和其学生 Evan Shelhamer(现 DeepMind 科学家)。他们踩了些坑后判断这个方向可行,于是 2015 年夏天,Pieter Abbeel 开了个大组会,宣布整组转向深度强化学习。

目睹隔壁组的转向,申博时就想做大规模机器学习系统的吴翼也对深度强化学习产生了兴趣。最初他选择伯克利的原因之一,便是被 AMP Lab 孵化出来的 Databricks 及其开源大数据处理工具 Spark 吸引,觉得学术界能做出工业级别的系统很厉害。

但导师 Stuart Russell 对此不太感冒,其研究偏好在贝叶斯推理、逻辑推理,喜欢优雅的算法和 AI 理论,而非工程性较强的项目。

吴翼和 Stuart 讨论过一个问题:如何将逻辑推理系统扩展应用到大规模数据处理?

吴翼认为由下至上(bottom up)的逻辑推理系统比较容易实现,先从简单情况开始,把整个逻辑系统中容易扩展(scale)的部分迁移到 Spark 上,以便先把算力利用起来实现一些应用进展,然后再慢慢向完整的推理系统和逻辑理论靠近。

Stuart 则支持由上而下(top down),不能一开始就仅仅为了计算能力去盲目追求扩展性(scalability),应该从更高的起点出发,先构建一个完整的推理系统,再考虑如何使其可扩展。

文无第一,师生二人的理念不同,虽然 Stuart 的观点从做科学的角度看很有道理,但吴翼对自己的学术偏好也有自己的坚持。该研究导师感兴趣的问题,还是做自己最想做的方向?

在纠结中失眠半年后,吴翼想了一个解法:在做组里课题的同时,多加一个新方向的研究项目。这个想法也获得了 Stuart 的支持。

2015 年圣诞节假期结束回校,吴翼就去找了 Pieter Abbeel,自我介绍后就开门见山:“I want to do some deep reinforcement learning projects(我想做点深度强化学习的项目)”。

Pieter 欣然同意,让吴翼从三个项目中自选,吴翼没多考虑就选了“Value Iteration Networks”这个项目——半年后,他就发表了第一篇深度学习论文,并获得了 NIPS 2016 最佳论文奖。

2016 年 7 月,吴翼去参加 IJCAI,偶遇刚读博的 Jakob Foerster(现剑桥教授,多智能体领先者之一),与其聊到智能体之间如何通过交流推测帽子颜色,发现这和自己在清华姚班读本科时接触过的博弈论有异曲同工之妙。

同年暑假,他受李磊邀请去字节今日头条实习,接触了自然语言处理(NLP),回伯克利后发现他的师兄 Jacob Andreas(现 MIT 教授)开创性地将强化学习与 NLP 结合,能让 AI 智能体实现指令跟从,在 2D 模拟环境中执行从找到镰刀、拿起镰刀、移动到麦田、收割麦子等一系列动作。

这两项工作对吴翼的启发很大,他也由此对多智能体学习产生了兴趣,并转向该方向的研究。后来博士毕业后,吴翼加入 OpenAI 也是从事大规模强化学习系统与多智能体的研究。

此外,在伯克利读博期间,吴翼还到 Facebook 实习,在田渊栋的指导下参与了视觉导航最早的工作之一 House3D。House 3D 是 Facebook 具身智能体研究平台 Habitat 的重要组成部分,后来其“Habitat 挑战赛”也成为了具身智能最热门的挑战赛之一。

被吴翼抱大腿的段岩和陈曦,由于在 Pieter Abbeel 组,也最早经历了伯克利深度强化学习浪潮的崛起。

2011 年,段岩从深圳中学毕业后来到伯克利读本科,和陈曦是计算机与统计双专业的同班同学。此外,段岩还多修了数学专业。

段岩人称“Rocky Fast”,做事效率高、速度快,因为想创业,和陈曦两人用三年读完本科后就创立了一家公司叫 Sellegit,专注于对移动电商平台的开发与研究,比如以 9 分钟极速闪拍模式爆火的时尚电商拍卖平台 PEACH。

段岩 Rocky Duan

这段创业经历也很快结束,只持续了一年左右。2015 年 8 月,两人又回到伯克利,一起在 Pieter 组读博。

段岩与 Pieter 的缘分可以追溯到大三,他发表的第一篇论文就是 Pieter 带领的铰接式机器人工作,被机器人顶会 IROS 2013 接收。

读博后不久,两人又跟着 Pieter 加入了当时团队只有 10 人的 OpenAI,研究深度学习、强化学习和模仿学习。可以说,他们是最早接触深度强化学习的中国青年。

先行者们很快认识到深度强化学习的局限性:它依赖大量环境互动,且适应性差,一旦环境变化就需要重新训练,成本高昂。相比之下,人类和动物能够利用丰富的先验知识和经验迁移,快速学习新技能。

为了解决这个问题,段岩提出将元学习与深度强化学习结合,目标是让模型学会如何快速学习,并在 2016 年末提出了 RL²算法,陈曦也参与其中。

此时 Transformer 尚未诞生,太过领先的元强化学习还是一个难以理解的概念,不被学术圈看好,因此论文投稿一直没中。

为了支持学生,Pieter 干脆将自己演讲 PPT 的第一页换为论文介绍,只要有外出分享的机会,就会向在场观众介绍,“这是我们今年最重要的工作。”

除了元强化学习开山之作 RL²算法外,在 OpenAI,陈曦还跟着生成对抗网络(GAN)之父 Ian Goodfellow,参与了提高训练 GAN 技术的工作,论文引用量超过了一万。

陈曦 Peter Chen


开创 AI + Robotics

Pieter Abbeel 的成名之作是在斯坦福吴恩达组读博时用强化学习控制直升机倒飞。2008 年他到伯克利后,除了开拓深度强化学习,还最早将原本壁垒很大的深度学习与机器人领域结合,创立了机器人学习(Robot Learning)实验室。

机器人学习研究的主要内容,也是如今具身智能领域最核心的方向之一。

前文提到的 TRPO 算法是该方向的一大突破性贡献,它让机器人能学习一系列模拟的控制技能,其开源代码与视频教程也吸引了越来越多研究人员参与其中,使机器人能完成的任务越来越复杂。

除了 TRPO,Pieter 团队在该方向还发表了许多引领性的工作,例如 2015 年的泛化优势估计(GAE)首次实现了 3D 机器人运动学习,2018 年的柔性致动评价(soft-actor critic)能在数小时内教机器人解决真实世界的问题、引用量接近一万,是迄今为止最流行的深度强化学习方法之一。

2016 年陈曦和段岩的本科师弟张天浩加入 Pieter 组读博时,Pieter 组内的研究重点也从强化学习转向了机器人与 AI 算法的结合。

从左到右:Pieter Abbeel、陈曦、张天浩、段岩

段岩与陈曦提出的 RL² 算法虽能让机器人从自身经验中快速学会一项技能,但机器人在实验室学习的经验是简单和人为的,可学习的技能范围也有限。

那时候,陈曦和段岩常从伯克利校园自驾 15 分钟,到奥克兰唐人街的中餐厅吃饭。一次晚饭,二人聊起 RL² 算法,发现对机器人快速学会技能后具体的下一步是什么并不清楚。

他们意识到,机器人该掌握哪些技能、应用在哪些具体场景、任务的实施对象、在多长周期内完成、所需硬件有哪些等等问题依旧悬而未决——学术领域的抽象追求和真实行业的实际需求差距太大。

于是他们就产生了一个想法:创业。

“Rocky Fast”再次用三年时间读完博士,然后拉上还没毕业的好友陈曦、师弟张天浩,以及对他们无条件支持的导师 Pieter Abbeel,一起离开当时已经近百人规模的 OpenAI,2017 年 9 月成立了一家名为“Embodied Intelligence”的机器人创业公司。

但很快,因为名字太直接、与“Embodied AI”的大研究方向几乎重名,就像用 AGI 给大模型公司命名一样不合时宜,他们又将公司名改为了“Covariant AI”。

有了 Pieter 的加入,Covariant AI 在种子轮就融到了 700 万美元,后续的投资人阵容更是众星云集,包括 Geoffrey Hinton、Yann LeCun、李飞飞、Jeff Dean 等人工智能领域的大牛,连比尔·盖茨也参与了去年的 C 轮融资。

也是在 2017 年前后,伯克利计算机系的几位大牛一起筹备成立了一个虚拟的组织——伯克利人工智能实验室(BAIR)。

Jitendra Malik 和 Trevor Darrell 是 BAIR 最初的两位发起人。他们认为,伯克利的 AI 虽强,但各自为战、没有形成群体的影响力,所以希望通过 BAIR 把计算机系的各个团队聚集起来,整合资源做更大的事。

这个想法获得系内的一致认可。于是参与 BAIR 的各个组汇聚到同一个大平层里,宁可吵一点也要让所有人每天都能交流,无论是老师之间、学生之间还是师生之间都能平等合作。

Trevor 的两位中国学生高阳、许华哲也是从这时开始,从视觉转向,开始同 Pieter Abbeel、Sergey Levine 合作研究强化学习相关的课题。

高阳是 2014 年到伯克利读博,和吴翼同一届。到伯克利之前,高阳在清华计算机系读本科,期间曾加入朱军团队参与研究贝叶斯推理,以及在谷歌北京跟着原谷歌中国工程院副院长张智威和清华学长李方涛研究 NLP。

高阳

进入伯克利后,高阳第一年上了许多包括 Michael Jordan 在内的教授的课,发现他们做的研究偏理论,涉及大量数学公式推导而非编程实践,与自己的预期差距不小。

高阳想做更有现实影响力的工作,于是就找到了 Trevor Darrell。彼时 Trevor 正在研究机器人跨模态的视觉和触觉交互数据集,让高阳也参与进来,算是对他的考察。项目完成后,Trevor 对高阳很满意,高阳就成功进了 Trevor 的组读博。

机缘巧合下,后来视觉与触觉也成为如今机器人最重要的两个感知模态。高阳的第一个工作也被 CVPR 2015 的“视觉领域数据集的未来” workshop 接收。

Trevor 的风格是鼓励学生自由探索自己感兴趣的方向。他有一个特别知名的中国学生叫贾扬清,就是在这样包容的研究氛围中开发出了深度学习框架 Caffe。高阳进组后也先做了一个深度学习网络结构的工作,并在头两年跟着 Trevor 深耕视觉。

除了视觉的感知,Trevor 还鼓励学生广开思路,探索可动、可执行的人工智能(Actionable AI),去做跟决策相关的研究。于是 2016 年博二下学期,高阳开始接触自动驾驶,暑假还到 Waymo 实习,参与了自动驾驶的感知与决策研究。

决策涉及强化学习的知识,但此时高阳只在 frontier 课里上过 Pieter 的课、没上手做过项目,而这又跨出了 Trevor 擅长的研究范围,高阳就同 Trevor 提议,跟大力钻研 RL 的 Sergey 合作,Trevor 爽快同意,团队便一起探索彼时仍少人涉足的模仿学习预训练与强化学习微调相结合的算法。

项目最早的实验针对人形机器人站立、跑动等控制问题展开,后期再转移到自动驾驶领域。“本质上自动驾驶就是一个特殊的机器人控制问题,所以最开始研究的很多算法,在机器人和自动驾驶两个领域都完全通用。”高阳告诉雷峰网。

从技术发展的先后顺序看,自动驾驶当时恰好处于人脸识别等纯视觉技术与机器人之间,技术未定型又不至于完全不成熟,需解决视觉感知和决策问题,正合高阳的意。

到了博四,高阳参与了由 Trevor 领衔的 Deep Drive 项目。作为北美最大的自动驾驶研究组织之一,此项目汇集了包括 Sergey、Pieter 在内的十余位教授,Toyota、Meta 和 Sony 等汽车制造商和上下游公司出资赞助科研,高阳也因此第一次接触硬件。

在 2017 年,高校里有一台完整的自动驾驶汽车还是件新鲜事,因本校空间有限,还得到里士满湾校区做实验。高阳负责开发核心算法并将其整合到汽车上验证效果,以 Sim2Real 的方式测试端到端算法在现实世界中的表现。

当看到自己单独开发的算法能让汽车通过简单的训练在测试场里连续行驶三四圈,高阳很惊喜,“当时从下至上把 ROS(机器人操作系统)摸了一遍,深刻理解了硬件实际操作与纯仿真环境的不同。”

2016 年,许华哲也从清华毕业来到伯克利 Trevor 组读博,首个项目便是与高阳合作的端到端自动驾驶课题,被 CVPR 2017 录取为 Oral Paper 。

他们发布了当时最全面、时长最长的自动驾驶数据集 BDDV。

当时 Trevor 传达的核心理念是,模型的质量取决于数据的质量。基于这一理念,他们利用车载摄像头收集了数万小时的视频数据,几乎覆盖了旧金山所有街道,再通过位置、速度、加速度等信息预测车辆动作,同后来模仿学习的范式非常一致。

论文链接:https://arxiv.org/pdf/1612.01079

在伯克利,许华哲与高阳、吴翼的关系最好。他们都来自清华,又都对 AI + Robotics 感兴趣,三个人有一个微信小群,经常约着一起吃饭。

许华哲刚进 Trevor 组时,团队主攻域迁移与视觉-语言两大方向,Trevor 建议许华哲和高阳去“开荒”彼时热度飙升的自动驾驶。

但做了几个自动驾驶的项目后,许华哲认为视觉技术的本质是识别或生成,而他更希望创造出能做决策、与世界互动并对世界产生影响的智能体——也就是机器人。

所以博一下学期,得益于 BAIR 对跨组合作的鼓励,许华哲开始跟 Sergey 合作,研究重点也从单纯的视觉转向了强化学习、视觉与机器人结合的方向。

2017 年 6 月,BAIR 博客正式开张,许华哲还成为了首届编辑部的五位成员之一。

许华哲

因早期机器人非常昂贵,他们的研究主要以模拟器和游戏为主。许华哲和 Sergey 合作过 2.5 个项目,是关于赛车游戏、超级马里奥和仿真机器人;还和同样喜欢打星际争霸的师兄唐浩然(曾任 Covariant 研究科学家)一起,同 Pieter 合作了一个打星际争霸的项目。

转方向后,许华哲最大的感受是个人的研究乐趣提高了,“因为成果很直观,比如(强化学习)能让游戏打得更好,当然代码难度也更大。纯视觉更多是对神经网络的调参能力要求较高,强化学习的神经网络结构相对简单,但要处理一大堆模拟器等底层的东西。”

2018 年 2 月,许华哲到 Facebook 人工智能研究院(FAIR)实习,和田渊栋、马腾宇合作。当时马腾宇刚拿到斯坦福教职 offer,想在 gap year 探索些不同的理论,许华哲就与他合作了机器人的相关内容。

随着机器人成本逐渐下降,许华哲在 2019 年第二次入职 FAIR 时开始逐渐上手碰真机,真正地从 Actionable AI 转到具身智能。

当时 Facebook 跟伯克利有个“FAIR BAIR Triangle”项目,双方合作,学生可以在两地各有一位导师,许华哲在 Facebook 的导师是 Roberto Calandra(今德累斯顿工业大学教授),在他和 Trevor 的指导下做机器人触觉相关项目,完成了触觉数据库 Pytouch 与让机械手弹钢琴的工作。

在触觉灵巧手项目中,许华哲意识到,真机与仿真间的gap很大:触觉模拟器不好用。和只需要按下重启即可做下一次实验的模拟器不同,真机的某零件损坏就得修理或重买,是个“脏活”,“2020 年疫情自己在家里拿杯子采数据,触觉传感器突然坏了,得等网购的东西到才能修好,节奏马上就慢了下来。”


Robotics + AI

如果说计算机系作为深度强化学习摇篮研究的是 AI + Robotics,那么隔壁的机械工程系则是在盟友的影响下,加速了对 Robotics + AI 的探索。

具体而言,计算机系是从上层感知技术向底层逐步渗透,从 AI 出发,在遇到 AI 的局限(例如可解释性不足)时,再整合控制理论等元素;机械工程系则从底层起步向上拓展,侧重于模型基础研究和工业应用,在遇到传统技术局限时,引入 AI 技术进行增强。

也是从 2017 年起,两大专业的交叉内容越来越多。

随着伯克利 CS 系的 frontier 课逐渐系统化,加入了理论推导和更多细节,其最终在 2017 年正式成为全球首个深度强化学习(DRL)课程。此时 DRL 在业界才刚火起来,基本停留在研读论文的阶段,由 Sergey Levine 授课的 CS285 自此成为该领域的“圣经”。

第一次正式开课,伯克利机械工程系的陈建宇、汤特也来了。两人在机械系统控制实验室(MSC Lab)读博,师从模型预测控制(MPC)的奠基人、美国工程院院士 Masayoshi Tomizuka。

Sergey 备课极认真,深入浅出地从基础知识到最前沿技术,串起深度强化学习,配上编程作业和仿真器教学,学生们得以兼修理论和实践。当时还在读博的 Chelsea Finn 偶尔也来做嘉宾讲座,分享自己的第一手研究。在最后的开放式大作业中,陈建宇开发了一种分层强化学习框架,并首创了一个无人车仿真器进行训练,填补了当时该领域的空白。

2011 年,陈建宇被保送到清华精密仪器系(国内最早从事双足人形机器人研究的单位之一),前两年接触机器人硬件,后两年关注机器人算法,大三暑研就来到了 MSC Lab 做步态检测,以类似遥操作的方式提取人腿数据分析双足步态行走,并在毕设项目设计机器人步态规划算法,在仿真里做双足机器人。

读博期间,陈建宇主要参与无人驾驶项目。

他的导师 Masayoshi 自 1980 年代起便对无人驾驶技术充满热情,曾在加州高速公路上开展无人驾驶车队列项目,希望通过紧密编队提高运输效率。但由于成本过高和技术限制,该项目最终被搁置。

直到 2015 年深度学习技术兴起,无人驾驶车辆的感知能力显著提高,Masayoshi 认为无人驾驶发展前景光明,于是重启了相关研究。在此背景下,陈建宇成为了组内最早做无人车的 PhD 之一。

陈建宇

在研究无人车的同时,陈建宇密切关注着隔壁 CS 系将强化学习与深度学习相结合的研究,特别是在机器人领域的应用。他认为深度强化学习与控制领域紧密相关,且其解决问题的表示形式与 MPC 在本质上相似。在观察到这些技术的潜力后,他决定转向强化学习领域进行深入研究。

博三起,陈建宇在无人驾驶领域进行了端到端的探索,他坚信端到端学习是未来发展的趋势,并在仿真环境中进行了强化学习和模仿学习的研究,初步尝试将世界模型的概念融入算法中,尽管受数据和技术所限未能在实车上应用。

即使主要课题和奖学金都来自无人车项目,在验证学习算法时,陈建宇也使用了其他形态的机器人,如机械臂等,以展示具身智能的普适性。在他看来,无人车也是一种机器人形态,“而且无论是 MPC 还是强化学习,都是适用于不同形态机器人的通用方法。”

尽管在论文层面没有直接合作,陈建宇同 CS 系在方法和创意的交流十分频繁,特别是向 Sergey 请教。

比陈建宇大两届的汤特则和 Pieter Abbeel 交流更多,还邀请了 Pieter 加入自己的博士委员会提供指导。读博期间,汤特的研究主要围绕模仿学习而展开。

工业机器人巨头发那科和 MSC Lab 合作紧密,因此汤特在 2013 年从上海交大毕业来到伯克利后,便一直与发那科深度合作,甚至每年暑假都去极少对外界开放的发那科研发总部实习。他读博的首个课题,便是解决业内公认难题:让工业机器人根据触觉反馈,灵活地进行装配。

“装配过程很难用精确的数学建模来解析。但人类有一种直觉,在感受到阻力时调整装配的方向和移动速度,而机器人在需要柔顺性的任务上表现不佳,其核心问题在于不具备此直觉,”汤特解释道,“模仿学习能将这种直觉转移到机器人身上,且即使在数据匮乏的情况下,也能高效地学习到高维度的信息。”

汤特

在刚体装配有所突破后,接下来的两年半时间里,汤特进一步挑战更复杂的柔性体装配。像汽车生产的四大环节中,冲压、焊接、涂装都已高度自动化,但总装环节仍然劳动力密集。一个重要原因就是以线束为代表的柔性体很难被自动化装配,涉及实时3D追踪和运动规划的问题。

汤特使用模仿学习的策略,通过较小样本量的人类演示,教会机器人完成复杂的柔性体操作任务,比如在不同的初始状态下给绳子打结、折叠衣服,控制人形机器人双手协作安装线束。

通过这两个项目,汤特深刻理解了感知与决策的关系:3D 视觉是第一步,用于获取物体三维信息并进行初步处理。但关键挑战在于将识别结果与机器人动作决策相结合,而模仿学习通过将视觉信息转化为运动指令来填补这一空白。

2018 年汤特毕业,正遇上湾区机器人创业的浪潮,陈曦和段岩想开拓物流仓储场景,需要擅长工业机器人的伙伴互补,便通过 Pieter 联系汤特,想让他加入 Covariant 一起合作。

汤特考虑再三,觉得自己对工业场景和客户需求的理解还不够深刻,决定先到工业界历练几年,便婉拒了邀请,来到发那科参与组建先端研究所 (Advanced Research Lab),成为其首位成员。

除了 MSC Lab 的二人外,在机械工程系读博士的罗剑岚也在探索 Robotics + AI,同时在 Pieter 指导下攻读计算机系的硕士,最后 Pieter 也成为了他博士论文的 co-chair。罗剑岚最关注的是如何让强化学习在真实世界可行。

同年来到伯克利的罗剑岚和陈建宇志趣相投,前者做强化学习和真机机器人,后者做强化学习和自动驾驶,两人常一起约饭,讨论强化学习的应用。

2017 年暑假,罗剑岚参与西门子伯克利分部的项目,和 Pieter、Sergey 开始合作,把深度强化学习应用到工业生产中,学习策略以解决传统机器人解决不了的问题,比如高精度装配。

这也是罗剑岚在强化学习领域的起点,所设计的算法不仅要能进行规划,还要能实时响应外部变化,并制定策略成功完成装配。那时,在 MuJoCo 模拟环境中进行强化学习实验、刷榜、发论文是常规操作,但罗剑岚却认为,当时的强化学习算法性能榜单与现实世界机器人控制问题脱节,并没有解决实际问题。

几篇论文下来,强化学习效果有限,罗剑岚却决心“一条路走到黑”。2020 年,罗剑岚毕业,Pieter 两次邀请他加入 Covariant,但他觉得时机不是特别成熟便婉拒了,想先去谷歌积累经验。

加入谷歌后,他先后在 DeepMind、Everyday Robot 和 Google X 工作,跟随 Stefan Schaal。Stefan Schaal 是诺奖摇篮马普所的创始所长以及机器人强化学习、控制的泰斗人物 ,联结整个欧洲机器人圈子。罗剑岚读着 Stefan 的论文成长,全面掌握了机器人系统的各个层面,包括从底层动力学到上层控制的所有知识。

罗剑岚

他在谷歌参与的项目孵化为工业机器人创企 Intrinsic 后,罗剑岚决定重返学术界,想在回国找教职前先兼职读一年博士后,便去询问了在 Google X 期间合作较多的 Sergey。

先前合作时,Sergey 训练机器人几十个小时以完成简单任务,而罗剑岚做插拔等工业精密任务的成功率高达 100%,这让 Sergey 深刻意识到团队里需要有人既懂机器人系统又懂 learning,才能将二者结合。Sergey 热情表示,二人能力互补,提议他全职两年,罗剑岚便在 2022 年回到了伯克利。

强化学习应用门槛高,流程易出错且不稳定,用其解决实际任务一直是 AI 社区想攻克的难点。

因此,在 2023 年  6 月,罗剑岚萌生了提供一个开源的端到端解决方案的想法,包括强化学习环境和机器人控制器,以便用户能够轻松下载并使用,就像使用仿真器训练机器狗一样简单。

基于这一愿景,罗剑岚主导与斯坦福、华盛顿大学、谷歌等机构合作,将自己谷歌时期的项目成果在伯克利进一步发展完善,在有视觉信息的情况下,能够在 20 分钟内学会一个 100% 成功率的复杂操控策略,效果显著。

论文链接:https://arxiv.org/pdf/2401.16013

在有视觉输入的情况下,真机强化学习训练操控策略基本上已被放弃,但在此工作后,大量的企业和高校又重新捡起来这个几乎被放弃的方案,比如 Toyota 研究所、波士顿动力、北大、斯坦福等等。

一次徒步时,罗剑岚和 Sergey 聊起仿真,说如果有 100 亿美元,是去建世界上最大最好的仿真器,还是去收集世界最大的数据集?

两人同时脱口而出:数据集。

“仿真对移动(locomotion)很有效,但不是魔法,相对于基于模型的控制,是更好的计算工具。而且移动的模型很简单,狗是桌子模型、双足是倒立摆模型,外界的不确定性也有限。”

罗剑岚认为,高性能的操作必须建立在真实数据上,“操作的难点在真实世界连续多样的变化,以及各种难以计算的复杂物理,比如物理接触,柔性物体,尤其是在涉及视觉输入的情况下,因此重点是设计出具有高样本效率的算法,且与硬件和控制器对接无误。”


具身智能创业

伯克利的具身智能人才似乎天然具有创业的基因:国内,边塞科技、星动纪元、星海图和千寻智能在一年内陆续诞生;国外,除了 2017 年的 Covariant,汤特等人于 2023 年 1 月创立的 Anyware Robotics 也早早入局。

汤特在婉拒 Covariant 的邀请后,在发那科先端研究所锻炼了四年,作为创始成员领导 AI Vision 项目从无到有并实现商业化。

随着对机器人在工业领域的商业化落地的认识加深,汤特觉得自己的研究基础加上对工业领域的理解已成熟,是时候出来创业了。

两位 MSC Lab 的同门师弟范永祥、周亦扬也有创业的想法,三人能力互补、一拍即合:汤特擅长模仿学习与 3D 视觉;范永祥擅长运动规划;周亦扬则专注于自动驾驶。

三方面结合起来,就构成了他们机器人最核心的要素——一套移动机械臂需要自动驾驶的能力来移动底盘,运动规划的能力来进行手臂抓取,同时还要有视觉和学习的能力来进行引导。

Anyware Robotics 希望打造重型通用机器人, 应用于物流、生产场景。汤特认为,未来将有两种主要的通用机器人形态互为补充,“一种是灵活的人形机器人,擅长轻任务;另一种则是体型更大、更强壮的轮式机械臂,擅长执行重体力任务。我们在打造的是后一种通用机器人。”

作为“伯克利归国四子”,吴翼、高阳、许华哲、陈建宇的路径出奇的一致,都是“清华—伯克利—清华叉院”。

同在 BAIR 的吴翼、高阳、许华哲座位挨得很近,当时 Stuart 组里只有吴翼一个中国学生,他便总和 Trevor 组里同为零字班的高阳聊天,许华哲来到伯克利后又变成了三人小队。陈建宇则和许华哲在学生会干活,时不时一起组织中国留学生的烧烤局。

BAIR 三人常在名为“葫芦娃”的小群里约着干活后一起去实验室门口的 food court 吃饭,临近毕业时也开始讨论对于求职的迷茫与焦虑。

作为首批回清华叉院任教的“青椒”,吴翼是最早做出决定的。

从 2016 年暑假首次来到北京的字节 AI Lab 到博士毕业,除了 2017 年在 Facebook 外,吴翼每逢放假都会回国到字节实习,还在 2018 年暑假转到了核心的搜推组。早期的字节让吴翼看到了 2012 年的 Facebook: 员工三千,管理扁平,CEO 爱办 All Hands(全员沟通大会),每周讲 all in 短视频。

国内互联网的朝气蓬勃让吴翼决定回国,那就留在字节吗?

2018 年的字节处在从传统系统转向深度学习的阶段,用大规模神经网络做搜推是个不错的机会。但经历过 2016 年 3000 人的字节,面对 2018 年的字节,吴翼觉得自己有很多想做的技术探索,尤其是强化学习方向,似乎在当时看来很难在一个大厂里实现,而直接创业又没有特别好的时机。琢磨一周后,吴翼人生中第一次冒出当老师的念头,想在自己的课题组做强化学习。

9 月,吴翼联系了自己本科毕设老师徐葳,询问是否有职位空缺,徐葳回复说有,并嘱咐他尽快回国。10 月,吴翼从美国飞回北京参加面试,在飞机上赶完了最后一版 PPT。面试结束后,他进到姚期智院士的办公室,一拿到合同就问签字的位置,姚先生笑着告诉他,应该由自己先签字。就这样,吴翼成了第一个在姚先生办公室里就即刻签约入职的“青椒”,也是第一个回姚班教书的姚班毕业生。

吴翼认为,自己在学生时代的特点是涉猎比较广泛,而强化学习又是一个很通用并且能把很多不同方向整合起立的框架,因此希望作为教师组建团队后,同时推进语言注入、多智能体强化学习算法、机器人,最后实现一个完整的人机交互系统。“我的目标不是做一个机器人硬件,而是一个需要承载在硬件上做交互的大脑。”

签约清华后,吴翼跟姚先生提出在美国业界多待一年半再入职,姚先生爽快答应了。

起初吴翼想去在学术界声誉好且发表论文多的 Google Brain,面试后谷歌对吴翼也很满意,不过由于吴翼坦诚只能干一年,headcount 紧张的谷歌需要花时间走内部流程。

与此同时,曾与吴翼合作过的 Bob McGrew 给他打电话,邀请他下周入职 OpenAI,吴翼希望多等谷歌一个月,Bob 也同意稍后再沟通。2018 年平安夜前一天,Bob 再次联系吴翼,问他考虑得如何。吴翼便决定不等谷歌,去 OpenAI,就这样成为了多智能体研究组的一员。

在 OpenAI,吴翼加入了智能体玩捉迷藏的项目,让智能体分成红蓝两队进行游戏。研究显示,只用简单的+1/-1奖励机制和大规模的强化学习,智能体也能自行进化,掌握工具使用,并发展出六种不同的策略和对策。为了衡量智能体行为的复杂度,团队还设计了五种测试,所有通过强化学习训练的智能体在测试中都达到了最高分。

这意味着,多智能体强化学习加上复杂的模拟环境可以产生类似人类的智能行为。此工作一经发布便获得了大量关注,其官方视频至今仍是 OpenAI 在 YouTube 播放量的榜首。

2019 年,吴翼一边在 OpenAI 工作,一边开始招首批博士生。一人做语言注入,强化学习加语言;一人做强化学习+机器人+控制;还有一人是电子系汪玉老师的博士生,和吴翼联合指导,做多智能体学习。年末,Bob 在内部评审会时建议吴翼多待两年,给他升职发股权,毕竟他入职时 OpenAI 还是个没有股份的 NGO。吴翼却觉得发股权对自己意义不大,还是得回清华当老师。

回到清华开始自己做机器人后,吴翼深刻体会到硬件之难,“以前伯克利路线是较 AI 驱动而非传统硬件驱动,刚开始上真机踩了不少坑。”

彼时吴翼的高中与伯克利师兄、时任字节 AI Lab 总监的李磊也想做 AI 机器人,和吴翼一拍即合,决定一起学习、踩坑。吴翼带着学生李云飞和字节合作,从头开始搭建了机械臂、足式机器人等软硬件设施。经吴翼推荐,李云飞还到 Covariant 实习,让段岩帮忙培训培训。

最早回国的吴翼也是最早开始商业化尝试的。2020 年在上海期智研究院成为项目负责人后,吴翼有了更大的探索空间,在姚先生的大力支持下,吴翼根据自己在 OpenAI 的经验和自己的认知,想做全栈且和工程结合的研究,于是 2021 年在上海期智研究院组建了专注于大规模强化学习技术研究的科研团队。

一次和网易的合作,吴翼发现团队已具备充足的能力,就决定用商业化公司的方式最大化强化学习技术的商业影响力,恰好碰上疫情爆发,封控结束后就遇上了大模型的浪潮。“还是很幸运吧,回顾以往,做的选择都很随机。”

2023 年 5 月,吴翼团队孵化成立了边塞科技,目标是用强化学习为更多人创造更好的智能体验。

在一众伯克利博士+清华叉院教职的创业者里,边塞科技是唯一不涉及机器人硬件的。“算法、应用、多模态融合以及硬件都很重要,”吴翼拆解自己的宏观愿景,“但是人不能追求高而全,还是要先去最好自己擅长的事情,硬件的环节我不是专家,算法、成本、供应链都有很多要学习和探索的部分,因此就不在公司里面商业化运营了,机器人就研究院做技术研究。”

第二个确定入职清华的是高阳。

2018 年,姚期智院士到伯克利招聘,和高阳简单交流后热情邀请他回国面试。此前高阳主要在美国面试公司,没考虑过回国当老师,但既然有面试机会,便决定试一试。

12 月 31 日,高阳在清华进行了两场学术报告后的当晚,就收到了叉院 offer。火速到手的 offer 出乎了高阳的预料,经过 2 个月的深思熟虑,他决定拒绝 Waymo、Nuro、Aurora 等多家自动驾驶公司的 offer,回国教书。

此时已是高阳博士生活的最后一年,自动驾驶在学术界能做的探索已基本完结,去到清华能做什么呢?

回到伯克利,高阳参加了 Jitendra Malik 和 Alexei Efros 等多位视觉教授的组会,聊起人的智能如何进化而来的哲学问题。

大家认为,五指灵巧手能进行复杂物理操作,为智能的发展提供了基础,因此猴比猫狗智能;而猫狗之间,狗的群居特性促进了沟通的发展,使得狗与人社交时强于猫——因此,智能产生的本源,是和现实物理世界产生交互(与环境、与人类、与机器人本身)。

看到具身智能作为大有可为且尚处初级阶段,很自然地,高阳想到把自己做自动驾驶的技能转到通用机器人上。

除了钻研已久的感知外,为了继续提高对决策的了解,高阳向 Pieter Abbeel 提出自己将去清华任教,计划做机器人的研究,想先到他的组里做一年博士后,还分享了很多想做的题目。Pieter 也想把更高级的视觉技术引入强化学习里,便爽快答应了。

在机器人领域,传统的输入并非基于纯视觉信息/场景图像,而是基于对物理世界的低维表征,例如物体的 XY 坐标。高阳与 Pieter 的合作便是针对从高维度的视觉数据中提取对决策有用的信息这项极具挑战的工作,其中最知名的 Efficient Zero 项目更是将这一研究方向推向了极致,并提高强化学习的样本效率。

与喜欢在半小时内高强度输出的 Sergey 不同,Pieter 则更关注宏观层面,不讨论具体技术细节,而根据自己的经验给出方向是否有前景的反馈。适应了一阵后,高阳逐渐领悟到宏观指导实际上是优秀导师的理想状态,科研的品味与独立性也得到了提升。

2020 年 8 月,高阳入职清华叉院任助理教授,聚焦计算机视觉与机器人结合领域,探索强化学习在机器人领域的应用,让机器人通过 “看” 操纵周围事物。

强化学习应用于现实世界需解决数据匮乏和缺少监督信号两大难题,高阳团队也基于此开展了一系列工作,比如从2D人类视频中学习机器人动作策略的 ATM、具身大模型框架 ViLa 和 CoPa 等。

高阳想实现的终极场景是,在物理实体上实现科学研究中的算法,建立一个可以“用眼睛看”并服务于家庭场景的机器人,如告诉机器人“做一杯咖啡”,它就会走到咖啡机前,进行磨豆子、拉花等一系列操作。

去年年中,在看到大模型和具身智能领域的变革后,高阳决定创业。他清楚具身智能产品必须是软硬件结合的解决方案,自己虽有多年 AI 软件经验,但缺乏硬件和商业化背景,就开始寻找既懂硬件也懂机器人落地瓶颈的合伙人。

在共友的牵线下,高阳结识了前珞石机器人 CTO 韩峰涛,后者有十余年机器人行业经验,不仅很懂硬件,还做过 1000 多个落地场景,对于各场景的卡点到底在软件还是硬件非常清楚。而韩峰涛也有创业打算,在找 AI 人才,两人能力互补、一拍即合,便决定一起创业。

今年 2 月,千寻智能成立,做具身智能基座大模型,是国内少数选择端到端技术路线的具身智能创企,选择轮式+双臂的方案。

入局创业后,高阳对技术路径与团队协作也有了新的认识,在最近的两次美国之行中,高阳还分别和 Deepak 与 Sergey 交流了 Skild AI 和 Physical Intelligence 的发展情况,还聊到了具身大模型的未来,包括其构建方法、面临的挑战以及所需的数据量等关键话题。

至于比吴翼、高阳小两届的许华哲,也在 2022 年夏天回到了清华。

一年前,许华哲从伯克利毕业,来到斯坦福的吴佳俊小组读博士后。吴佳俊也对机器人很感兴趣,彼时组里正在进行让机器人捏橡皮泥、学会弹塑性物体操作任务的项目。

过年期间,许华哲和好友包饺子庆祝春节,突然意识到如果让机器人学会饺子的世界模型,就能使一个机械臂独立完成包饺子的步骤。于是,几人搭好工具库和厨房后,让机器人随机选择工具与面团任意互动以采集数据。

加上训练的工具分类网络、机器人策略网络以及视觉反馈作为新的感知信息输入,机器人能在有干扰的情况下使用工具包饺子,文章也被机器人学顶会 RSS 2022 所接收。

在斯坦福时,许华哲就拿到了叉院的 offer。刚回国时,许华哲发现具身智能的概念在国内很少人买账,清华里研究机器人的依旧是以传统 MPC 等方法为主的自动化系。

许华哲希望做出可以决策的机器人或智能体,便成立了自己的实验室,在次年正式命名为具身智能实验室,以包含视触觉的机器人泛化灵巧操作和控制为长,也探索 DRL 在实际机器人复杂任务中的应用。

许华哲支持学生们去尝试各种奇思妙想,上课很有热情,课堂教学评价常排在前 5%,被吴翼称之为“经典的伯克利 Style”和“当老师的料”。他选择加入星海图的那天,恰逢十一假首日,正带着组里的博士生去郊游。

许华哲合流星海图其实是个巧合:他看到具身智能的机会后想自己创业,听闻赵行已开始,便来咨询心路历程和时间节点。而星海图在筹建期,赵行就拉上许华哲和高继阳一起吃饭,大家聊得投机,想法高度契合,许华哲丝滑加入,负责带领操作团队,同样采取轮式+双臂的构型方案。

除了“葫芦娃”三人外,MSC Lab 的陈建宇则在 2020 年末入职叉院。

此时正值疫情爆发,陈建宇在暑假的面试还得线上进行。回国后的前两年里,陈建宇除了延续无人驾驶的工作外,也开拓了包括机械臂、轮式、四足等多形态的机器人方向,并在 2022 年的春夏之交开始自己做人形,研究更通用的具身智能。

“无人车的技术和产业格局已初步成型,所以想转新的大方向。”对陈建宇而言,在新领域做开创性工作吸引力太大,“我本科做过双足,一直关注人形的动态,当有了自己的课题组和研究资源,并花时间琢磨技术架构后,发现是可行的。”

在实验室研究双足人形的陈建宇逐渐发现其具有能改变世界的产业价值,可改变世界不能仅靠在实验室做 demo ,得借助更多商业化、产品化手段,而公司能吸纳社会资本,招聘、股份激励等更宽松。随着小米、特斯拉等产业界代表的入局与 ChatGPT 的诞生,陈建宇意识到是时候了——2023 年 8 月,星动纪元创立。

涉猎过包括无人车等多种形态的机器人后,陈建宇认为,不同形态之间没有本质上的区别,很多原理是相通的,但若想实现智能,必须一开始就做最终极的人形(双手和双腿),“可以在过程中辐射其他形态,但不能从开始就降低天花板。”

在硬件方面,业界对于如何制造高爆发力双腿和灵巧手尚无统一的解决方案。陈建宇团队就先从腿部开始,从前两代的 MPC 逐步升级到 2023 年以强化学习为核心的步态行走网络,让机器人能在雪地、长城、戈壁滩等复杂路面上稳定快速行走。

至于手部设计,陈建宇选择了一条与众不同的路径:缩小腿部关节应用在手部上,以实现更精细的操作和更高的灵活性。因此,他们的灵巧手为全驱动,拥有超过十个主动自由度,而特斯拉的手部仅有六个。


结语

回到 2017 年伯克利的深度强化学习课堂上,对于几位中国 90 后而言,热点方向紧密发生在身边,可第一时间和作者们面对面交流切磋甚至参与其中,无疑是兴奋与享受的。

彼时具身智能(Embodied Intelligence)还不是热词,机器人学习(Robot Learning)随着深度学习范式的兴起开启了新的一页,在感知有所突破后,AI 和 Robotics 开始双向奔赴。

他们隐隐感觉到:下个十年的机会来了。

段岩、陈曦、张天浩、吴翼、高阳、许华哲、陈建宇、汤特、罗剑岚......从深度强化学习出发的伯克利一派,以先驱者之势火速突破上层感知,让机器人真正开始具备类人的学习能力。

更重要的是,在得益于 AI 之强势时,他们也清楚地意识到硬件和底层控制的价值,无论是计算机系还是机械工程系,都在往交叉点靠拢,追求全栈式覆盖。

最合适冲浪的波浪周期为 8-16 秒,对于伯克利派系而言,深度强化学习的浪从十年前开始,站在浪尖上的他们,此刻正踏着具身智能的波峰,再望向下一朵浪。


关于具身智能领域的更多精彩群像故事,欢迎添加雷峰网作者微信 anna042023 交流。雷峰网

]]>
人工智能 //m.drvow.com/category/ai/enZknsm97XLHhmw8.html#comments Tue, 12 Nov 2024 16:06:00 +0800
湾区聚力 开源启智 //m.drvow.com/category/ai/GOFc2P7ObVJsgTGi.html 当下,全球数字化浪潮席卷而来,开源技术已成为科技创新和产业升级的关键驱动力。11月9-10日,以“湾区聚力 开源启智”为主题的2024 CCF中国开源大会在深圳隆重举行。本届大会由中国计算机学会主办,CCF开源发展委员会、鹏城实验室、新一代人工智能产业技术创新战略联盟(AITISA)联合承办,中电金信软件有限公司、华为技术有限公司协办,天工开物开源基金会提供特别支持。大会汇聚了全球顶尖的学术界、科技企业、科研机构及开源社区的精英力量,共同探索开源与人工智能技术的无限可能,推动技术创新与产业升级,助力中国及全球开源事业迈向新高峰。  

在11月10日的2024 CCF中国开源大会暨第五届OpenI/O启智开发者大会主论坛上,中国工程院院士、鹏城实验室主任高文发表了开场致辞。 

中国工程院院士、鹏城实验室主任高文

高文表示,开源技术在过去三十年对IT发展至关重要,从软件开源到芯片开源、系统开源,尤其是近期人工智能大模型的开源,打破了技术壁垒,降低了成本,促进了全球创新与合作,对科技发展起到了重要的推动作用。在国家政策支持下,粤港澳大湾区将利用其科技研发能力、高校和企业优势,借助开源力量,提升在国家经济中的引领作用。鹏城实验室作为粤港澳大湾区的新型国家研究机构,牵头建设了OpenI启智社区,建立了与国际接轨的治理体系和社区管理制度,提供综合支撑服务。OpenI启智社区还支持全国人工智能大赛等顶级赛事,并通过“中国算力网”推动AI任务跨域调度,助力智能计算技术的应用与生态发展。他强调,大会的目标是构建行业平台,汇聚各方力量,传递开源理念,推动人工智能产业健康发展,并呼吁英才共筑世界级湾区,为国家现代化和民族复兴作出更大贡献。

开源技术的蓬勃发展离不开每一位开发者的辛勤付出和无私奉献。为致敬在开源领域做出卓越贡献的个人和团队,OpenI 启智社区特别设立了年度奖项以示表彰。天数智芯和燧原科技两家企业荣获“2024年度OpenI启智社区异构算力生态贡献奖”,华为昇腾荣获“2024年度OpenI启智社区开源生态最佳合作伙伴奖”,颁奖仪式在本次大会上进行。 

在特邀报告环节,大会邀请了北京大学多媒体信息处理全国重点实验室主任、北京智源人工智能研究院理事长、新一代人工智能产业技术创新战略联盟秘书长黄铁军,清华大学软件学院院长、大数据系统软件国家工程研究中心执行主任王建民,CCF开源发展委员会常委、OpenHarmony项目群技术指导委员会主席、上海交大教授、ACM SIGOPS主席、ACM/lEEE Fellow、华为Fellow、基础软件首席科学家、中央软件院副总裁陈海波三位重量级嘉宾,以主题报告分享的形式,揭示开源技术的最新进展和未来趋势,向业内开启了一场开源与创新的深度对话。

  

北京大学多媒体信息处理全国重点实验室主任、北京智源人工智能研究院理事长、新一代人工智能产业技术创新战略联盟秘书长黄铁军

北京大学多媒体信息处理全国重点实验室主任、北京智源人工智能研究院理事长、新一代人工智能产业技术创新战略联盟秘书长黄铁军,在《人工智能开源:思考与实践》的主题报告中阐述了人工智能开源的重要性,介绍了他在北京人工智能研究院的开源工作进展,以及社区在人工智能开源领域过去五年特别是过去一年的共同努力和最新成果。他分享了三个方面的信息:

一是不忘初心:自2017年国务院发布《新一代人工智能发展规划》以来,中国人工智能发展坚持开源开放原则,通过成立新一代人工智能产业技术创新战略联盟和OpenI启智社区,推动AI技术栈的完整体系形成,促进了全球AI的发展。联盟始终坚守着2017年规划中提出的初心,努力推动人工智能技术的开放、共享和普惠。

二是启智社区运营驱动:OpenI启智社区通过持续运营驱动,形成了丰富的AI开源生态,注册用户达16万,项目数超6万,模型文件24000多个,数据集文件43000多个,组织1200多个。社区提供算力网支撑,集成多款加速卡,运行任务数41万,形成闭环体系奖励算力提供方。社区组织多种活动,促进AI创新,并得到华为MindSpore昇思和中国人工智能学会等组织的支持。过去几年,社区通过现金和算力等方式持续激励和奖励开发者,形成了一个闭环的创新体系,推动AI发展。

三是大模型进展:智源研究院在过去六年中开发了多个大模型,涵盖了语言、视觉和多模态等领域。特别是在2021年6月发布的“悟道2.0”模型,其规模和性能达到了国际前沿水平。他还介绍了“1+X+Y”旗舰项目的进展,该项目通过大模型评测和协同创新,推动了产学研用的深度融合。他还提到了最新的8B多模态模型,该模型已展示了强大的生成和理解能力,并计划在不久的将来开源。智源还建立了中文数据集和评测体系FlagEval,以及支持多元异构芯片的算子库。智源的大模型探索了从海量数据中提炼智能的通用技术路线,并计划开源最新模型,推动人工智能技术的共同发展。

最后,他强调人工智能的发展必须依赖开源开放的方式,这不仅是技术进步的必然选择,也是促进全社会共同创新、推动智能时代到来的重要途径。 

清华大学软件学院院长、大数据系统软件国家工程研究中心执行主任王建民

清华大学软件学院院长、大数据系统软件国家工程研究中心执行主任王建民在大会上,介绍了其团队在智能装备工业物联网数据库领域的最新进展和未来方向。他首先回顾了过去几十年在软件开发领域的历程,强调了开源对于技术传递和科学研究的重要性。他指出,面对工业物联网中海量时序数据的挑战,团队开发了一款新型的时序数据库管理系统IoTDB,该系统能够有效管理从终端设备到边缘服务器再到云端的时序数据,支持数据的高效压缩和自描述,显著提升了数据处理的性能和效率。通过多个实际应用案例,如赛博控制器、长安汽车物联网、城市轨道交通和气象预测等,展示了IoTDB在不同行业中的广泛应用和显著效果。他还特别介绍了团队开发的时序大模型TIMER,该模型通过数据库中的Create语句即可实现对未来时间序列的预测,为工业物联网的智能控制和决策提供了强大支持。最后,王建民表达了对Industrial IoTDB开源项目的愿景,希望借助开源的力量,进一步推动时序数据库技术的发展和应用,让更多的企业和研究机构受益。

 CCF开源发展委员会常委、OpenHarmony项目群技术指导委员会主席、上海交大教授、ACM SIGOPS主席、ACM/lEEE Fellow、华为Fellow、基础软件首席科学家、中央软件院副总裁陈海波

CCF开源发展委员会常委、OpenHarmony项目群技术指导委员会主席、上海交大教授、ACM SIGOPS主席、ACM/lEEE Fellow、华为Fellow、基础软件首席科学家、中央软件院副总裁陈海波,在大会上介绍了他在万物智联时代操作系统领域的技术创新与生态构建。他分享了OpenHarmony项目的发展历程,强调了操作系统在智能终端和各行业中的关键作用。他指出,OpenHarmony不仅支持华为个人消费终端产品,还在金融、交通、能源、消费电子等行业中广泛应用,成为万物智联时代的坚实数字底座。此外,他重点介绍了OpenHarmony的“元OS”架构理念,通过弹性方式支持多元化设备,实现全场景协同和智慧化。陈海波还提到,团队开发的高性能文件系统EROFS已成为业界标准,影响了全球终端产业。他强调了开源的重要性和OpenHarmony生态的快速发展,目前已有超过8000名社区共建者和数亿设备使用OpenHarmony基座。最后,他表达了希望通过开源社区的合作,推动OpenHarmony在全球范围内的发展,并感谢了各位专家的支持和指导。

三位重量级嘉宾的主题报告不仅分享了各自领域的最新进展和独到见解,还引发了参会者对开源技术未来发展的深入思考。紧接着,大会还举办了“开源与产学研融合创新”高峰论坛。论坛上,周明辉、黄铁军、陈海波、章文嵩、杨轩、庄表伟等多位业内知名专家大咖深入探讨了开源与产业发展的紧密关系,分享了产学研合作的新机遇与发展新路径。

“开源与产学研融合创新”高峰论坛

周明辉认为,开源已成为国家发展战略,是软件产业创新的重要渠道,能够激发从0到1、1到100乃至全球大同的创新。黄铁军强调,成功的开源项目需要大量积极的贡献者和外部资源的支持,中国已具备原始创新能力,需要更多支持与信心。陈海波指出,OpenHarmony的国际化是当前开源项目面临的主要挑战之一,产学研应各自分工、协同而非融合,共同推进创新。章文嵩提到,中国高校和企业应更多贡献开源项目,特别是通过国家课题强制软件成果缺省开源,以进一步推动产学研的协同。杨轩认为,中国的开源项目需要提高国际参与度和贡献度,包括语言和社区建设;同时,国内大公司之间缺乏协同,应该在多场景协同标准方面加强合作,增强国际竞争力。庄表伟指出,真正的挑战在于从1到5的阶段,基金会应通过推拉结合的方式帮助项目从学校走向市场,解决更广泛的真实需求,而不是局限于本地问题。

此外,11月10日的大会分会场,设有10个分领域平行分论坛,聚焦多个前沿主题,涵盖“OpenHarmony-技术筑生态,智联创未来”、“开源创芯,RISC-V 的‘智’‘力’机遇与发展新路径”、“大模型时代的软件供应链安全技术”、“可信开源生态”、“云脑开源应用生态”、“开源工业软件产教融合生态”、“软件供应链标准建设与实践”、“开源社区运营发展”、“国产开源生态的困境与解决之道”和“0penI启智开放异构生态”等热门话题。这些论坛汇聚了各领域的顶尖专家,深入讨论了开源技术的关键议题,剖析了各技术领域的难点、挑战及未来趋势,并邀请参会者交流,共同探讨中国开源事业的发展之路。

本次大会不仅是一场技术盛宴,更是开源创新思想与实践的集中展示。通过跨界融合、产学研协同、人才培养等多维度的深度交流与碰撞,大会为推动中国开源生态的繁荣发展注入了强大的动能。参会的专家学者和行业领袖共同见证了中国开源事业在全球技术浪潮中的崭新起点,也为未来的开源创新、产业融合与技术突破指引了前行的方向。  站在新的历史起点,开源生态将在创新浪潮中不断前行,推动中国与全球数字经济的深刻变革与跨越式发展。通过合作共建,开源力量将成为推动科技创新与社会进步的双重引擎,引领我们迈向更加智慧与繁荣的未来。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/GOFc2P7ObVJsgTGi.html#comments Mon, 11 Nov 2024 09:34:00 +0800
当大模型升级速度变缓,AI Infra 创业还是一门「好生意」吗? //m.drvow.com/category/ai/RoIFmqrqyUclOLwP.html 作者丨朱可轩

编辑丨陈彩娴

时至今日,如果说清华系撑起了中国大模型创业的半壁江山,那 AI Infra 这条赛道绝对是清华系「上阵师徒兵」的又一波创业豪赌:

媒体所实验室孵化的清昴智能、高性能计算机研究中心牵头的清程极智、NICS-EFC 实验室孕育出的无问芯穹......AI Infra 赛道的明星创企几乎都来自清华各大实验室,而硅基流动和潞晨科技的创始人袁进辉和尤洋也均属「清华代表队」。

当前,在这层创业要解决的问题也比较明确,主要就是面向上下游,把各类模型同芯片深度适配,一方面减少算力资源闲置现象,另一方面则实现模型应用的提速降本。

不过,作为中间层,模型、应用和硬件层正处在瞬息万变之间,这意味着 AI Infra 的突破方向也在随之调整,值此之际,该方向的创业也不断面临质疑和些许阵痛,例如:

  • 创业公司做 MaaS 平台会不会面临压力?

  • 训推一体机究竟是不是伪命题?

  • 海内外需要的基础设施有何差异?

  • 国产算力的软件生态需要怎样的突破口?

  • 异构混训是长远方向吗?

  • ……

这些问题的背后关系着创业最终能走多远,而不同的团队显然有着不同的预判。

在这条尚处探索期的赛道中,孰对孰错还尚未可知,那么各家能否在此之中找寻到真正的商机呢?


推理究竟如何布局?

去年年底开始,大模型的发展重心变开始逐步从训练转向推理,而继 OpenAI 发布 o1 大模型后,大模型的 Scaling Law 从训练转向推理的趋势也更加明显。

不过,在业内看来,目前哪怕是 o1 这种闭源模型,半年后,其能力也能被开源模型陆续赶上。而随着模型的能力逐渐达到相对满意的程度,训练厂商减少和萎缩是必然发生的趋势,此后,应用落地才是箭在弦上的问题,而其中最关键的核心便是推理成本。

推理需求爆发是必然趋势,据预测,整个推理成本未来三年,每年都做到十倍降本是可行且会发生的事情。当前,推理优化部署无疑成为让大模型好用的关键一环,随之而来的还有巨大的算力缺口。

不过,尽管海内外 AI Infra 创企都看到了推理侧的机遇,在具体布局上却有着些许分歧,比如在打造 MaaS 平台这一趋向上。

由于模型每天的调用量是海量的,如果不优化一年将花费巨大,所以应用方要实际用起来的话,还是需要找可靠性较高的弹性服务,通过在底层更快部署来合理运用算力以节省成本,创业的价值也在于此。

简单来讲,MaaS 这条路径的思维就是将模型要部署到云上,过程中平台不训练模型,而是变成 API 再集成,只负责最终的工程化实现,更多地专注在计算调度方面,主打提高成本、稳定性、可用性。

不过,对此,潞晨科技创始人尤洋曾向 AI 科技评论表达过些许顾虑。在他的观点中,通过 MaaS 平台卖大模型 API 实际上是在和通用大模型公司竞争,创业公司将很难吃到「蛋糕」。

于是,潞晨入局了视频大模型,除了年初发布全面开源的 Open-Sora 外,今年 10 月,其还发布了 Video Ocean 视频大模型,正式走向商业化。尤洋坚持认为,如果不做自己的优质大模型,推理平台上没有优质资源。

这步棋下得和 Together.AI 其实有些异曲同工之妙,去年 5 月, Together.AI 也曾发布过类 ChatGPT 开源模型 RedPajama-INCITE。

目前,从海外各家厂商的情况来看,他们似乎对于做 MaaS 的压力也有些许感触。Lepton.AI、Fireworks 都在布局 Together.AI、CoreWeave 的方向,而后者的核心收入基本都是 IaaS 收入。

有知情人士向 AI 科技评论透露,Fireworks 比较犹豫,之前说要做 MaaS 平台,现在估计觉得这种方式会直接和 ChatGPT、Anthropic 竞争,压力对于基础设施公司来讲太大了。

而 Lepton.AI 最开始主要聚焦的其实是 PaaS 和 MaaS,今年 5 月,其新上线了 FastGPU,这时旗下的 IaaS 业务才逐步开始入场。

「推理平台要和 ChatGPT 竞争很难,因为这类平台的优质资源是模型本身,而训练微调平台只需要和 CoreWeave、Lambda Labs 竞争,并且作为优质资源的 GPU 肯定能买到。」业内人士曾向 AI 科技评论分析。

值得一提的是,据 AI 科技评论了解,Together.AI 同 Lepton.AI 和 Fireworks 相比完全是自己的 GPU,这种方式相较于使用他人的硬件和云,然后在上层叠加模型服务部分,利润空间其实会更大。

除此之外,一位 AI Infra 创业者也曾告诉 AI 科技评论,在 AI Infra 这一层创业,其实硬件也要自己做,光做软件长期可能站不住,技术再好也不能没有底层基础设施。

从布局上来看,无问芯穹也有着相似的感知:

今年来,无问芯穹开始布局端侧大模型推理处理器 LPU,计划以 IP 的形式和合作伙伴做联合芯片发布,并在明年开始落地尝试。

在无问芯穹的思考中,大模型作为一个人机交互的接口,本身非常大,所以对于端上这部分的场景有很大的需求量,而固化到硬件层面也有很强烈的需求。所以在端上的大模型推理,大模型落地的硬件是一定会被大量需求的。

「无问芯穹如果能把自己的推理卡做好,有这样的背景,就可以通过芯片层去变现,感觉这是他们在思考的事情。」业内人士在和 AI 科技评论交谈时曾有提及。

不过,和前述顾虑相比,部分创业者的想法还是偏向乐观的。他们认为,除了自身并不局限于 MaaS 这一种形式外,就算是做 MaaS 和通用大模型公司有竞争也是实属正常。

从当前情况来看,即使 OpenAI 一年创收十几亿美金,但大模型应用的需求依旧处于非常初期的阶段,未来,大模型应用必然会起量,大模型将无处不在,形成非常基础的能力,成本也会降得很低。

待到那时,跑大模型或者 AIGC 推理需要的将会是百万甚至千万张,就像每人一部手机的时代,需求量会变得非常巨大。而这样一个足够大的市场之中,同一个细分市场也能容下好几家厂商。

除了云平台外,私有化部署在国内呼声也逐日走高。

在这一趋势的洞察之下,硅基流动、潞晨科技和清昴智能纷纷选择了训推一体机的交付路径,这也和当前市场内大多数头部玩家的走向一致。

从尤洋的判断中看,潞晨科技布局训推一体机主要针对的是 Post-training(后训练)这一层,面向的大部分传统行业客户目前并没有采用大规模集群,最多买了千卡。

但并非所有玩家都做此选择,也有观点认为,训推一体机为了兼顾训练和推理,可能会出现顾此失彼的情况,这不会是长期走向。

清程极智创始人汤雄超就觉得,训推一体机实际上并不契合训练的算力需求,「训练和推理两种业务间区别较大,很难想象一个较小的一体机能承载大的训练业务,现在大模型预训练可能都是万卡以上的规模,只能在大规模智算集群上完成。」

需要关注的是,面向推理,端侧对于中间层而言也有着很大的想象空间。

除了前文提到过的无问芯穹外,清昴智能也已有所布局,与许多同行从云切入有所不同,其最初便从端侧切入,也曾和手机上的高通、骁龙芯片,寒武纪、比特大陆等都进行过适配。

当前,手机、电脑、车均开始逐步有了落地场景,但却存在因模型太大而放不到端侧的情况,这时就需要把大模型变成 1B、7B 的小模型。 

中国比美国应用场景更多,而端侧把性能、成本、功耗做到极致则非常关键。未来,端侧软件的作用也会愈发凸显。


夹缝中能否觅得商机?


在海外,软件层创业似乎相对国内更容易:首先,海外市场有一套成熟的订阅软件付费方法,其次,由于英伟达统一了市场,基于英伟达去做会更简单。

中美市场存在些许差异,在应用的多样性上双方是类似的,都要去支持不同应用,比较大的区别在于对底层芯片的支持,海外主要由英伟达和 AMD 瓜分天下,需要适配的芯片较少,创业可能相对国内好做。

不过,从另外一个角度来看,海外市场反而也会因为有巨头的存在,必要性不太强,国内芯片厂商长期来说还会处于分散的状态,这种情况下,对不同国产芯片的支持就显得比较重要。

有业内人士曾向 AI 科技评论分析过,在海外像 Coreweave、Lambda Labs 这样的小型云其实是有机会的,不过,现阶段附加值有限,即便是 Coreweave 都有些像是英伟达的「白手套」。

另外,海外一切以 GPU 为核心,产业链的核心定价权都由能否拿到足够多的卡来决定,以规模为核心。很多创业公司甚至没法获得「白手套」的身份,且做的也仅仅是资产租赁生意,有短期的红利,但不是长期事业。

目前来看,海内外走向两个极端,海外被巨头垄断,而国内则过于分散。国内的芯片格局有些类似于「战国时代」,各家都在争夺技术高地。

一方面,芯片设计中不同的处理器架构和指令集设计会直接影响芯片性能和效率,尽管大体上设计理念和架构相近,但在具体实现和芯片制造过程中,各厂商的技术路线与细节处理上存在差异,这造成了芯片性能和兼容性等方面的区别。

另一方面,虽然在芯片设计及前端的 IC 设计环节已取得一定进展,但芯片生产制造以及配套软件生态的建设相对较弱,尤其是软件开发方面的投入相较于硬件设计来说还有待加强,这就导致了芯片碎片化问题较为严重。

据 AI 科技评论了解,目前英伟达的软件占比在 2: 1,而国内甚至还不到 1: 2,因为国内厂商主要还在跑产能,保证交货量,软件生态肯定相对来讲要弱一些。

同时,国内算力其实并非不够,反而是太多了,问题关键在于「富裕但不匹配」,真正能用于大模型训练的集群不够集中和规模化。

国内有约十多万张 A100 和 H100,但配有万卡集群的只有头部三四个玩家,这些卡中超半数属于头部大厂,但大厂却因集群不是一个业务部门独占,导致无法集中使用算力,而剩下一部分则分散在三五百家不同的中小型企业、园区及金融机构中。

算力分散化导致大量算力未集中用于大模型训练,不仅造成了算力资源闲置,也限制了国产算力资源能力的发挥。

当前业内多有提及的 GPU 泡沫或者说算力通缩现象也是正在发生的事实,这种情况下,国内大量自建算力中心自持资产则显得不一定理智。

有业者曾向 AI 科技评论分析,由于 GPU 性能提升和迭代速度远高于 CPU,所以 GPU 的整个贬值速度或者摊销的时间必须更短,但国内许多智算中心动辄 5 年、8 年时间摊销,这种现象显然不合理,CPU 最多也就 5 年摊销。

这些问题也恰好为 AI Infra 创业带来了空间——

无问芯穹是国内少数选择了异构混训这条路径的创企,主要通过异构多种 GPU 卡来同时混训一个大模型,地方政府、大模型厂商和偏研究型的单位都有这方面需求。

在无问芯穹创始人夏立雪看来,「异构混训的难点主要在于,不同能力、背景的员工怎样一起做一个大任务,其中会存在 GPU 性能如何预测,任务怎样拆分、分配让硬件各司其职,同时,怎样在通信上实现较好地协调以及打通通信库等多种问题。」

据了解,目前,英伟达加上国产卡 1+1 混训,无问芯穹共有六种芯片,任意两种都能组合训练,在百卡和千卡这个级别都已经完成混训,整体效率达到 97.6%。

不过,GPU 异构真的是长久之计吗?长期来看这类解决方案究竟能走多远呢?

业内多有观点认为,异构是芯片产能不足现状下的妥协。更甚者,有较为尖锐的声音直指,「在异构的或者在不同品牌的芯片上去做一个统一的训练平台是个伪命题,是不存在且没必要去做的方向。」

在实际的训练场景里,如若采用不同的芯片架构去做异构训练,其中的性能损耗较大,整体上来说效率和性价比均无法匹敌单一型号 GPU 的同构集群,很难发挥硬件的底层算力性能。

即便都是英伟达的芯片,将 A100、H100 混用也会带来每层之间的训练参数、能力之间的巨大差异,最后会导致这些 Bottleneck 影响到训练的效果。

因为训练是一个集中式的过程,其实有点像一个超级计算机,每一层的中间过程都会影响到性能发挥,所以在单一集群里混用多种芯片做训练实际上必要性不大。

从超算的更迭趋势上来看,也不存在同一超算中心放不同型号加速卡的情况。所以,随着国产芯片产能的提升,最终智算中心会回归到以往比较偏同构的基础架构里,因为单一方式是最高效的解决方案。

此外,推理更没必要异构,因为推理基本上把模型部署在单台机器或者一个小集群上,即使是商业闭源模型也都部署在 16 卡、 32 卡的小集群上,因此,每个集群本身仅需保证集群内卡型一致。

而如若能够兼容多种不同类型的芯片,不同集群使用不同芯片跑,就可以将推理变成一个分布式的任务,这也是 PPIO 派欧云看好分布式推理的原因之一。

「在这个过程中更重要的事情就是调度,因为可能 A 集群性能最强,任务很快就处理完了,B 集群 Transformer 还在过程中,那下一个任务要优先调给 A 还是 B,其实是任务调度和资源池化管理任务分配的话题。」PPIO 派欧云联合创始人、CEO 姚欣曾向 AI 科技评论解释。


超越云厂

过往,关于创业 AI Infra 到底会不会和云厂产生正面冲突,也是被提及最多的疑问之一。二者看似存在诸多相似之处,那大家为何不选择体系更为成熟的云厂呢?

对此,也有许多业者向 AI 科技评论表达了自己的见解。从结论中综合看来,大部分观点其实都指向与云厂相比存在差异,这也是创企有着同云厂友好协作空间的原因所在:

一是,云厂过去解决的问题跟现在要解决的问题并不完全相同,甚至是相对的两个方向,云厂基本从资源池化和共享的角度切入,而当前要解决的难题在于分布式的资源合并;

二是,云厂商都是做后端、做前端、网络管理、调度的人才,AI 人才较为缺乏,事实上很难对国产芯片做适配。

但也有不同的声音认为,「不管是美国的大模型公司,还是中国六小龙,其实都要建自己的基础设施,不然就是被云厂服务,创业公司很难切到这部分蛋糕。」

总体上来看,如今,AI Infra 的重要性是不言而喻的。而在大模型的这一波浪潮中许多创企也正在摸索更合适的业务方向,正因为此,可以明显感知到业内的观点在不断碰撞摩擦。

火星四溅之下,无论是会否和通用大模型公司抑或是其他云大厂竞争,还是说一体机和异构是否为长久之计,要解决的底层关键都是国产算力问题,而对于当前阶段而言,不管从哪个方向切入或许都会是调优路上的有益尝试。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/RoIFmqrqyUclOLwP.html#comments Sat, 09 Nov 2024 20:24:00 +0800
共筑开源技术新篇章 2024 CCF中国开源大会盛大开幕 //m.drvow.com/category/ai/TEesiErwjneYmz9V.html 在这个技术革新日新月异的时代,开源精神如同点燃创新火焰的火种,照亮了无数技术探索者的征途。2024年11月9日,备受瞩目的2024 CCF中国开源大会在深圳这座充满活力的创新之城盛大开幕。这场开源领域的顶级盛事,以“湾区聚力 开源启智”为主题,汇聚了国内外顶尖的院士专家、行业领袖、学者和开发者,共同探讨开源技术的未来趋势,携手绘制中国开源生态的壮丽蓝图。在这里,激情与智慧交织,创意与实践融合,CCF中国开源大会的召开,不仅展示了现阶段开源技术的成果和魅力,更引发业内对未来趋势的无限启迪和展望。 

本次大会由中国计算机学会(CCF)主办,CCF开源发展委员会、鹏城实验室及新一代人工智能产业技术创新战略联盟(AITISA)共同承办,中电金信软件有限公司、华为技术有限公司协办,天工开物开源基金会提供特别支持。中国工程院院士、鹏城实验室主任高文,中国科学院院士、北京大学教授梅宏,中国科学院院士、CCF开源发展委员会主任王怀民,中国科学院院士、南京大学教授吕建,中国工程院院士、香港城市大学(东莞)校长段宝岩、中国工程院外籍院士、加拿大皇家科学院院士罗智泉,香港科技大学(广州)创校校长、香港工程科学院院士倪明选,国际欧亚科学院院士、中国科学院深圳理工大学筹备办副主任赵伟八位院士领衔,与众多开源领域的学术精英、产业领袖和技术专家,共同探讨开源技术的最新进展、实践经验和未来趋势。此次盛会不仅为与会者提供了一个共享知识、促进合作的平台,也为中国开源技术的发展注入了新的活力。

开幕式上,广东省科技厅二级巡视员夏奇峰首先发表了讲话,他谈到:广东省一直遵循国家战略关于人工智能发展的重要指示,出台了一系列政策文件,推动人工智能与实体经济深度融合,并成立了专班部署全省人工智能工作。省科技厅通过连续四轮重大专项支持人工智能技术创新,特别是在开源领域的发展。本次大会以“湾区聚力 开源启智”为主题,不仅展示了开源开放的最新成果,也为粤港澳大湾区的产业生态构建和高质量发展提供了积极推动力。

随后,中国计算机学会金海副理事长上台致辞,他表示:中国计算机学会自1962年成立以来,已成为中国计算机领域最具影响力的专业社团,拥有超过13万会员。中国计算机学会致力于服务专业人士,推动计算机事业发展,每年举办众多学术会议和论坛,促进技术交流与应用。CCF开源发展委员会自2021年成立以来,专注于平台建设、项目孵化和人才培养,助力中国开源生态发展。2024CCF中国开源大会在深圳举办,旨在汇聚顶尖科技力量,探讨人工智能的未来,推动技术创新与产业升级。在这个开源推动科技创新的时代,我们期待开源的力量为中国科技创新和社会进步带来更多成果。

最后,鹏城实验室石光明副主任上台致辞,他提到:本次以“湾区聚力 开源启智”为主题的大会,突显了开源文化在科技创新中的引领作用,展现了粤港澳大湾区在全球开源事业中的责任与担当。深圳作为创新高地,鹏城实验室依托其开放环境,致力于前沿研究,积极推动开源发展。大会不仅是思想交流的盛会,也是推动开源事业高质量发展的行动。鹏城实验室将持续深化国际合作,加大开源人才培养和技术创新,助力中国科技自立和数字经济。我们呼吁社会各界共同参与,共建开源生态,共创开源创新的未来。

算力是新型生产力,是支撑数字经济蓬勃发展的重要“底座”,是激活数据要素潜能、驱动经济社会数字化转型、推动数字政府建设的新引擎。而算力如何有效的开放共享也成为产业、学术界关注和研究的重点。中国信息协会算力网专业委员会主任梅建平为现场与会嘉宾介绍了“中国信息协会算力网专业委员会 算力开放共享专题研究”的相关内容。他谈到:在科技快速发展的背景下,算力成为推动社会进步的关键力量。中国信息协会近期成立了算力网专业委员会,旨在共建全国一体化算力网,促进技术多元创新和应用产业生态。今日,我宣布算力网专委会将与多方合作,启动算力开放共享研究,探索算力互联协同公共服务模式,并推动中国算力网开源开放试验场的建设。同时,结合《算力中心成熟度测评计划》,我们将评估并优化算力基础设施,提升服务水平。我呼吁相关单位和专家共同参与,为我国一体化算力体系建设和高质量发展贡献力量。

随后,中国信息协会算力网专业委员会主任梅建平,新一代人工智能产业技术创新战略联盟秘书长张伟民,CCF开源发展委员会秘书长刘旭东,鹏城实验室 网络智能研究部高效能云计算研究所所长余跃,广州数据集团有限公司副总经理、广州人工智能公共算力中心主任李学军,北京昇腾创新人工智能有限公司总经理张飞,天津智算数字产业发展有限公司、天津市人工智能计算中心副总经理孔祥朋,东北亚数字科技有限公司副总经理、长春算力中心CEO王磊,大连人工智能计算中心CTO殷正茜,智算云腾(成都)科技有限公司、成都智算中心生态发展部负责人梁爽,武汉人工智能计算中心、技术运营部部长宋威,长沙人工智能创新中心公共事务部总监黄博,共同启动本项研究。算力开放共享专题研究的启动,标志着我国在算力领域的开放共享迈出了坚实的一步,将推动算力资源的优化配置和高效利用,促进跨行业、跨领域的算力协同创新。该研究将聚焦算力基础设施的共建共享、算力服务模式的创新探索以及算力生态的构建与发展,为我国算力产业的健康发展提供理论支持和实践指导。

 

在特邀报告环节,多位重量级嘉宾分享了在开源领域的最新研究成果和前沿技术动态。香港科技大学(广州)创校校长、香港工程科学院院士倪明选教授在大会上分享了中国开源的发展状况,强调了开源在基础软件、硬件和大模型领域的重要性,并分析了开源的商业价值。他指出中国在Linux等开源项目上的贡献显著,并且国家政策自“十四五”规划以来支持开源发展。倪教授通过Linux、RISC-V、新能源汽车和AI框架等案例,展示了开源对产业发展的推动作用,并探讨了开源商业模式,如RedHat和MongoDBAtlas的盈利方式。随后倪教授邀请大湾区数据经济研究院基础软件的首席科学家张宏波博士上台分享了两个成功项目。

倪明选教授最后强调了中国在开源领域的发展目标,即不仅仅是参与,而是要拥抱和主导开源的发展,展示中国的创新能力。他认为开源技术是国家创新战略的重要组成部分,政策支持将进一步加强,以促进产业合作和技术协同。  

中国工程院外籍院士、加拿大皇家科学院院士罗智泉教授介绍了他在应用数学和软件领域的实践,以及港中大(深圳)和深圳市大数据研究院的发展。他分享了三个研究中心的工作:网络性能优化、人工智能和大数据、优化与工程软件。重点介绍了优化求解器的开发,这是一个在工业基础软件和数学优化领域的重要工具,尤其是在5G网络和工业仿真中的应用。罗教授提到,他们的团队开发的“仙鹏求解器”在国际上具有竞争力,并计划将其开源。他还强调了开源在工业软件发展中的重要性,提出了OpenCAXplus平台的概念,旨在通过模块化架构促进开源合作。最后,他表达了希望通过开源社区的合作,推动优化求解器和工业软件的发展,并感谢了各位专家的指导。 

中国电子首席科学家、中电金信研究院院长况文川分享了金融行业数字基础设施的现代化建设,强调了在完成了从0到1的突破以后,如何实现从1到100的发展过程。他提到中国电子作为具备全栈信息技术产业链的央企,在金融等关键行业有丰富的服务经验,并指出了行业基础设施现代化的几个挑战:行业的特定场景和极致性能需求、混合架构和复杂的技术路线选择、行业的自主可控要求和高度定制化等。况文川还回顾了中国电子打造“源启”行业数字底座的实践——面向行业数智化场景,运用软硬一体化设计和垂直打穿等系统工程方法,体系化地替代传统架构,并通过平台工程技术支撑多类型上层应用、数据和智能模型。他强调了开源对于金融行业基础设施中的重要性,金融行业侧和供给侧不仅仅要充分运用开源并积极参与国内外开源社区建设,还需要针对性地就金融数字基础设施开展有组织的开源协同,并提出了软件供应链管理、定向开源等方式来加速技术创新和规模化应用。最后,他表达了希望通过开源大会获得更多的交流、学习和合作机会,以共同推动国内行业数字基础设施建设。  

华为技术有限公司副总裁、标准与产业发展部部长甘斌分享了华为公司的开源实践和思考。他强调了开源在信息技术革命和智能时代的重要性。对于构建健康和谐的开源生态,甘斌提出了四个关键维度:优质项目、优良治理、可持续和全球化。他详细阐述了华为在操作系统、AI软硬件和编程语言等领域的开源最新进展。此外,他还讨论了开源治理的重要性以及华为在全球开源社区中发挥的积极作用,以及如何通过社区和联盟等产业组织推动商业成功。最后,甘斌表示华为将秉持“深耕技术创新、坚持开源开放“的发展思路,携手产业伙伴,共建和谐健康的全球产业生态。 

在大会的中外院士高峰对话环节,与会院士围绕“开源开放与大湾区创新发展”主题展开了热烈讨论。院士们认为,开源的本质是开放,它体现了人类科技进步中的一种新开放模式。在开源体系中,贡献是关键,它超越了国界、民族和信仰,对人类进步具有共同价值。引领是贡献得到认可后的自然结果,当个人的兴趣和开源工作被社会接受为贡献时,其影响力和引领力便随之产生。 

而在9日下午的分会场,9场不同类型的分论坛同样精彩纷呈。 “开源聚力·湾区共创论坛暨2024大湾区计算机大会BBCC”;“大湾区智链未来:智算产业应用论坛”;“开源教育创新发展论坛”;“红山开源创新论坛”;“开源科学计算与系统建模openSCS分论坛”;“开源治理关键技术及行业应用论坛”;“开源软件可信仓建设”;“可信大模型评测与开源技术”;“开源智能EDA工具与芯片设计”。这些分论坛涵盖了开源技术的多个维度,为与会者提供了广阔的交流平台,共同推动开源生态的繁荣发展。

2024 CCF中国开源大会的启幕,向我们展示了一场开源时代的盛宴。在这场知识的交汇与智慧的碰撞中,每一位参与者都是开源精神的传播者,每一场讨论都是推动技术进步的火花。大会不仅为开源技术的发展描绘了宏伟蓝图,更为广大开源爱好者、从业者和研究者搭建了共享、共创、共进的桥梁。在这个开源力量汇聚的平台上,我们看到了中国开源生态的蓬勃生机,感受到了开源文化在推动社会创新中的巨大潜力。让我们携手并进,以开源之名,共创科技未来,共筑数字世界的美好明天。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/TEesiErwjneYmz9V.html#comments Sat, 09 Nov 2024 20:10:00 +0800
“通用大脑”来了!MIT何恺明用大模型思维玩出机器人预训练新花样 //m.drvow.com/category/ai/hQbgyJD6Opps0hcW.html 在机器人领域,一场关于“通用智能”的探索正如火如荼地展开。

MIT 的何恺明和 Lirui Wang 等人最近成功在“通用数据”上取得了进展,让机器人离拥有“通用大脑”的目标又近了一步。

机器人数据的异质性问题一直是机器人训练的大难题。

以往,训练机器人需要为每种任务、每种环境,甚至每台机器人的不同硬件量身采集数据。

举个例子,假设需要为一个家庭服务机器人进行训练,团队通常要为不同任务和环境单独收集数据,如厨房中的搬运、清洁任务,或卧室内的物品分类。

数据必须特定、精准,这让数据采集量变得庞大而复杂,相当于不同的电子设备需要各自的“充电接口”,换个场景就得换一套数据格式。

这种方式导致数据难以通用,训练中存在大量重复劳动。明明数据总量看着比以前多得多,但实际训练时可用的数据量并没有实现大幅增长。

想要实现真正的通用机器人,就意味着必须收集尽可能全面的数据集。但这样一来,收集和整理数据的成本会极高,据估算可能高达数百万美元,且整个流程耗时数月,效率低下。

为了应对这一问题,研究团队纷纷尝试新方法。

比如,斯坦福大学的 RoboTurk 项目想通过远程操作来降低数据收集成本,但这只能缓解一部分压力。由于高质量传感器、定制环境和复杂的演示操作需求,任务专用的数据收集依然耗时且昂贵。

收集不好搞那自己造总行了吧?

许多团队转而依靠“合成数据”作为替代。合成数据虽说解决了一部分量的问题,却仍然无法完全彻底替代真实数据,尤其在应用于多任务通用训练时依然面临障碍。

MIT 这支团队两个都不选,他们选择另辟蹊径,与其不断增加新的数据,不如着手让现有数据实现“通用”!

他们的论文将在神经信息处理系统会议上发表,第一作者是来自MIT CSAIL (计算机科学与人工智能实验室 )的副教授何恺明和同一实验室的博士生 Lirui Wang、赵家梁,第二作者是 Meta 的研究员陈鑫磊。

论文里提出了名为“异构预训练 Transformers”(Heterogeneous Pretrained Transformers,HPT)的新架构。

在他们的研究中,不同来源的数据——无论是模拟数据还是真实机器人传感数据——都被对齐到一种共享“语言”,使得生成式 AI 模型能够“理解”这些数据。

换言之,无论是来自视觉传感器的数据还是机械臂位置编码器的原始信号,HPT 都能将它们转化为通用的数据格式,避免了重复的数据收集,也不浪费任何一种数据。

Lirui Wang 认为这样能够更好地发挥本体感知的作用,让机器人实现更多的灵巧动作。

HPT 的优势不仅在于通用性高,还兼具高效、低成本的特点。由于所需任务专用数据量更少,HPT 在模拟和实际测试中均展现了出色的表现,性能比传统训练方式提升了 20% 以上。

来自GPT-4的启发

机器人通常采用模仿学习的方式,通过人类演示或远程操控的方式获取训练数据,导致一旦环境或任务发生变化,机器人就容易“出错”。

这种数据非通用性一直是机器人学习的痛点,限制了其在多样任务中的灵活性,也限制了通用机器人的开发。

研究团队从 GPT-4 等大语言模型中汲取了灵感:GPT-4 这样的模型能顺利处理多任务的核心在于“大规模预训练+少量微调”的模式。

即便语言数据类型丰富且复杂,GPT-4 并不需要为每个任务分别准备数据,原因在于所有内容都被视为同一种语言——“句子”。

相比之下,机器人数据更为复杂,不仅有相机图像、语言指令,还有深度图等多样形式。每种数据源的适用性还受到机器人硬件、传感器等差异的限制。

因此,研究团队的挑战在于如何实现一种“通用的语言”来整合机器人数据。

他们提出的解决方案是“异构预训练 Transformer”(HPT)架构,分成了三个模块:

在 Stem(茎)部分,HPT 对不同的数据进行对齐,将它们转化为标准化的令牌序列;接着在 Trunk(树干)部分,通过多重转换和编码操作,将这些令牌转化为共享的潜在表示;最后在 Head(头)部分,将潜在表示转化为具体的动作指令,驱动机器人完成相应操作。

HPT 像“大模型”一样,随着处理的数据量增长,模型的性能也逐步提升。

为了支撑这种通用化训练,团队建立了一个庞大的数据集,包括 52 个数据集、200,000 条机器人轨迹,涵盖了人类演示视频和模拟数据。

借助这一数据集,HPT 可以高效预训练,用户只需提供少量特定任务或设计信息,就能让 HPT 在预训练知识的基础上完成微调,适应新任务。

HPT 在预训练和微调的方式上也有所创新。

与大模型同步更新所有模块不同,HPT 在预训练阶段只调整 Trunk 参数,而 Stem 和 Head 部分只会在微调阶段根据具体任务进行调整。

此外,HPT 不仅处理视觉数据,还支持直接处理传感器采集的原始信号,进一步扩大了数据使用范围。

目前,研究团队还在探索增加数据多样性,以进一步优化 HPT 的性能。他们的最终目标是实现“通用机器人大脑”,让用户即插即用,无需繁琐的培训和数据收集,让机器人训练变得像下载个 APP 一样简单。


不止“看见”,还要“感觉”

以往的研究往往更侧重视觉数据,而这篇论文难得的将本体感知也放到了核心部分。

具体来说,本体感知赋予了机器人对关节角度、末端执行器位置、姿态等内部状态的把控力。

这种能力在执行高精度任务时尤为重要。比如,拧紧螺钉、拿稳玻璃杯这类任务,光靠“看”还不够,机器人还需要“知道”自己的手臂位置、关节角度等内部信息,防止动作过多或偏移,最终减少失误。

研究团队认为本体感知才是让机器人完成一些精细且复杂的操作的关键。如果本体感知信息没有得到良好的学习和利用,机器人可能会在特定场景和任务中表现出重复的运动或轨迹,导致过拟合。

同样,具身智能强调的也是机器人与物理环境的交互能力,这种智能不依赖单一模态,而是通过整合外部视觉和内部本体感知,形成一种更全面的任务理解力。

因此,研究团队将视觉和本体感知信号作为等同重要的数据源进行“通用”处理。

这种综合处理使得机器人不再单纯依靠视觉,而是以一种“通用智能”的方式理解任务。

例如,在清扫任务(Sweep Leftover)中,HPT 架构允许机器人整合视觉和本体感知的多模态数据,结果显示,经过微调的 HPT-B 和 HPT-XL 模型的任务成功率远高于只依赖视觉模型的 VC-1

(微调的 HPT 模型与几种基线模型(包括纯视觉预训练模型)之间的比较)


研究方法

HPT 架构设计

HPT架构把策略神经网络分为三个模块:Stem(茎)、Trunk(树干)和 Head(头),分别对应特定的实例输入、通用的处理层和任务特定的输出。通过这种模块化设计,HPT 能够将不同环境和任务下的传感器和视觉数据对齐为标准化的令牌序列,使机器人可以应对多样化任务。

1. Stem:数据输入层

Stem 是 HPT 的前端层,用于将不同任务和环境下的传感器数据(如相机图像和本体感受)转换为固定数量的令牌,供后续的通用处理使用。它包含本体感知分词器和视觉分词器两部分。

本体感知分词器将机器人状态信息(如执行器位置、关节角度等)编码为16个标准令牌。首先通过多层感知器(MLP)将输入数据映射到特征空间,添加正弦位置编码,再利用注意力机制进行处理。

视觉分词器处理相机图像(视频)数据,采用预训练的 ResNet18 提取图像特征,然后展平这些特征,并通过注意力机制转化为 16 个令牌,确保视觉数据能够以标准化的格式进入模型。

2. Trunk:共享中间层

Trunk 是 HPT 的核心部分,包含一个可扩展的 Transformer 架构,用于将 Stem 模块生成的令牌序列转换为通用的潜在表示。通过自注意力机制和前馈神经网络,Trunk 将输入数据编码成共享的表示,便于不同任务 Head 模块调用,以输出特定的机器人指令。

3. Head:任务输出层

Head 模块负责将 Trunk 的潜在表示转化为任务的具体动作。首先,Head 对输出动作空间进行标准化处理,再根据特定策略(如MLP或Transformer解码器)将数据映射为控制机器人执行的动作序列。最终,Head 根据不同任务生成适配的输出。

训练目标

预训练阶段

在预训练过程中,HPT 的目标是最小化跨多个数据集的行为克隆损失。HPT 通过多数据集的归一化动作标签与预测动作的 Huber 损失,优化不同任务下的模型参数。公式如下:

在训练中,Trunk 参数会在每次迭代中更新,而 Stem 和 Head 则基于训练批次动态更新。

迁移学习

在迁移学习阶段,面对新的任务,HPT 会重新初始化 Head 和 Stem 参数,并冻结 Trunk 权重,使 Trunk 的预训练知识直接迁移到新任务中,减少训练时间和数据需求。


实验设计

默认设置

实验的初始设置中,研究团队选择了 27 个机器人遥操作的数据集用于预训练,每个数据集最多包含 1000 条轨迹,总计约 1.6 万条轨迹。

模型使用的是 HPT-Small 版本,参数量为 317 万,训练批量设置为 256 ,在 80,000 次迭代中完成训练。

为了评估模型性能,研究者还构建了一个由这 27 个数据集组成的验证集。

扩展设置

在更大规模的实验中,研究团队扩展了数据来源,使用 52 个不同的数据集进行预训练,这些数据集包括模拟数据、实际部署的机器人数据,以及人类执行任务的视频数据。每个数据集最多包含 20 万条轨迹。

这个设置中采用的模型版本为 HPT-XLarge,参数量高达 1 亿,训练批量增至 2048,以更大规模的数据和更高参数量提高模型的泛化能力。

合成数据和互联网人类视频

为增强数据多样性,研究团队还利用了 7 个模拟数据集和 EPIC 厨房及 PoCo 的互联网人类视频数据进行额外的预训练。


作者介绍

何恺明

何恺明,深度残差网络 (ResNets)的主要发明人,博士毕业于香港中文大学,师从汤晓鸥。现在是 MIT 电气工程和计算机科学系 (EECS) 的副教授。

他的研究方向为计算机视觉和深度学习,目前研究目标为通过计算机视觉问题的视角,开发适用于各个领域的可推广方法。目前的研究重点是构建计算机模型,这些模型可以从复杂世界中学习表示并开发智能。长期研究目标是用更强大的人工智能来增强人类智能。

Lirui Wang

Lirui Wang,计算机科学与人工智能实验室 (MIT CSAIL)的博士生,指导老师为 Russ Tedrake 教授,和何恺明教授一起合作。他在华盛顿大学获得了学士和硕士学位,与 Dieter Fox 教授一起工作,并与 NVIDIA 合作。

他的研究方向为机器学习和机器人技术,特别是开发可以在复杂和非结构化的现实世界环境中泛化的算法和系统,致力于开发可随异构数据扩展的队列学习。

赵家梁

赵家梁,MIT CSAIL (计算机科学与人工智能实验室 )感知科学小组的博士生,指导老师为 Edward H. Adelson 教授,与 Russ Tedrake 教授和何恺明教授一起合作,目前的研究方向为机器人和人工智能。硕士毕业于卡内基梅隆大学,在 IAM 实验室与 Oliver Kroemer 教授合作,专注研究机器人操作的机器人学习。

陈鑫磊

陈鑫磊,Meta FAIR 实验室的研究科学家,卡内基梅隆大学语言技术研究所的博士生,本科毕业于浙江大学计算机科学专业。他的研究方向为预训练,特别是具有自我监督和/或多模态的视觉表征的预训练。

雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/hQbgyJD6Opps0hcW.html#comments Fri, 08 Nov 2024 15:31:00 +0800
Sim2Real新突破:Jim Fan团队造机器人“修仙”模拟器,挂机50分钟=修炼一整年 //m.drvow.com/category/ai/RvlZBfo7O5sCWWQH.html 天上一天,人间一年——这居然已经不是神话了?

Jim Fan 团队的最新成果实现了 10,000 倍的超级加速:机器人在虚拟“道场”里训练了整整一年,但现实里只用了 50 分钟

而且训练结果无需微调,就直接无缝衔接到现实世界使用。

再发展下去,说不定未来人们就能在虚拟世界里用一天体验一万年的生活,神话还是太保守了。

更不可思议的是,这种 1 万倍加速体验,只需要少少的 1.5M 参数。

再对比看看其他家模型的参数量,谷歌的 Gato 11.8 亿参数,Meta 的 TACO 2.5 亿参数,OpenAI 的 CLIPort 4 亿参数。这差距真是让人汗流浃背了。

一刻也没有为十几亿大参数的过时停留,立刻来到战场的是 Jim Fan 团队的超迷你模型。

“不是每个基础模型都需要大参数。”Jim Fan 表示,模型小小,超级有效。

这个小身材大能量的模型还干了一件大事,通用。

在此之前,机器人要完成不同的任务必须依赖特定的控制策略。

举个例子,如果我们希望人形机器人进行导航,那就要依赖于根速度或位置跟踪进行专门优化;要是想让机器人去完成端茶、擦桌子这样的桌面任务,就需要优先考虑上半身关节角度跟踪。每换一个方向就要更改策略重新训练一次。

这样的训练方式导致人形机器人只能进行技能专精,很难往我们想要的全能方向发展。

那么有没有一种通用的训练策略,能够在不用更换控制模式的情况下训练多种任务呢?

Jim Fan 表示,现在有了。

前面提到的新模型叫 HOVER,是一个多模式策略蒸馏框架,出自英伟达的 GEAR 团队的最新研究,由李飞飞教授的学生 Jim Fan 和朱玉可共同领导,其余作者大部分是来自各大高校的华人学生和研究员。

Jim Fan 团队找到的通用办法,是把全身运动模仿作为所有这些任务的共同抽象,并为机器人学习多种全身控制模式提供通用的运动技能。

通俗点说,他们把导航、桌面操作等任务的共通点提炼成全身运动模仿,让机器人通过学习通用的运动技能来训练全身控制模式。一通百通,全身运动会了,端个茶带个路也是轻而易举。

这一办法的灵感源自于人类潜意识的处理方式。

人类在日常活动中,比如步行、维持平衡或是调整肢体动作时,大脑会不自觉地进行一系列计算,帮助我们迅速作出反应。

Jim Fan 团队通过模仿这种潜意识的运作机制,将类似的“内在”计算能力引入机器人技术,推出了 HOVER(仿人通用控制器)。

HOVER 能够使机器人学习如何精确控制电机,从而协调人形机器人的运动和操作,将多种控制模式整合成统一的策略。更重要的是,HOVER 还能在保留各模式独特功能的同时,实现模式间的自然衔接,从而打造了一支步调一致的机器人军团。

具体来说,我们能用 HOVER 通过“提示”输入头部姿势、手部姿势、全身运动、关节角度等各种类型的高级运动指令,也可以训练任何可以在 Isaac(英伟达 AI 机器人开发平台) 中模拟的人形机器人。

因此,HOVER 的通用不止是单个机器人动作模块的通用,更是支持多种机器人共同训练的通用。

以前的机器人训练都是各家训各自的,不互通也很难移植已有的成果。现在在英伟达的 Isaac 模拟平台上,HOVER 让各家“杂牌军”都能协同进化,一跃成为“正规军”,伟大无需多言。

Jim Fan 的通用野心也早有显露,“2024 年将是属于机器人、游戏 AI 和模拟的一年。”

在 GEAR 团队成立之初,他在推文里自信地写道,“我们团队有足够的资金一次性解决机器人基础模型、游戏基础模型和生成式模拟三个问题。GEAR 可能是世界上最有钱的具身智能实验室。”

Jim Fan 还配了一张英伟达股票暴涨的图片。

这么一看 HOVER 的强大实力背后都是烧钱的味道。有钱任性,真好。

而 GEAR 团队选择聚焦具身智能的核心原因,并不是因为财力雄厚可以随便造。

对此,黄仁勋表示,“下一波 AI 浪潮,将是物理性的 AI。 届时,AI 将可以理解物理原则,并与人类一起工作。”

具身智能——在物理世界中具备互动和适应能力的 AI,正是英伟达及其顶尖团队认为未来 AI 演化的关键。

具身智能的核心不同于虚拟环境中高度抽象化的 AI,而是强调 AI 的“具身性”,即让 AI 拥有实体,无论是机器人还是虚拟代理,从而直接与环境发生交互,在真实世界的复杂性中提升自我。

Jim Fan 关注的正是对整个具身智能领域来说都很关键的问题:Sim2Real(simulation to reality,从模拟到现实),即将在仿真环境中学习到的知识或技能成功地应用到实际环境中。


还有谁也在关注 Sim2Real?

Jim Fan 的同门师兄、同样毕业于斯坦福的苏昊,也选择了具身智能领域开辟属于自己的 Sim2Real 道路。

(苏昊)

苏昊早年就读斯坦福时跟随 Leonidas J. Guibas 攻读博士,并得到了李飞飞教授的指导。在研究所时,他便是 ImageNet 数据集的重要贡献者之一,这一数据集成为日后 AI 领域公认的基石之一。

苏昊与 Jim 一样受到李飞飞教授的影响,最终转向了具身智能的研究,但二人的技术理念却渐渐有所不同。

Jim Fan 借助生成式 AI 构建了庞大的虚拟世界模型,打造了一种能够低成本、高效率完成自我训练的模拟环境。

通过这种方式,他让 GEAR 团队在虚拟环境中训练游戏 AI 和机器人代理,帮助 AI 以更快速、更适应性强的方式在虚拟环境中成长。模拟世界的庞大数据流,让 GEAR 能够模拟成千上万种场景,提升机器人和游戏 AI 的适应性。

苏昊则沿着另一条轨迹,在真实世界的训练中寻找具身智能的根本。

自从 3D 感知与建模成为 AI 领域的热点时,他开始关注如何在物理环境中提升 AI 的实时应变能力和自适应性。

在 MIT 的一次活动中,苏昊以踢球为例解释了他对具身智能的认知,“当我们踢球时,我们的感知引导行动,行动又带来反馈。 这种反馈不断调整我们的感知,甚至重塑我们对环境的理解。”

在他看来,智能不仅仅依赖于大脑,还与身体和环境的互动密不可分。 感知、认知、行动这三个要素的紧密结合,才是智能进步的关键。

然而,巧妇难为无米之炊。数据短缺成了最大的瓶颈——没有充足的 3D 数据,再好的构想也难以施展。

他想重走之前在斯坦福做过的事情,像做 ImageNet 一样,做一个 3D 的数据集。

2015 年,苏昊领导团队发布了 ShapeNet,一个高质量的 3D 形状数据集,为 AI 提供了 220,000 个 3D CAD 模型,总计覆盖 3,135 类对象,是 AI 视觉识别中的重要数据资源。

2017 年,突破性的点云处理网络 PointNet 深度学习模型问世,被誉为 3D 数据处理领域的 CNN。

很可惜,这些开创性工作虽有成效,但 ShapeNet 和 PointNet 却没能带来像 ImageNet 那样的变革。

3D 多模态数据的采集依然复杂、成本高昂,导致 3D 数据数量的增长依旧缓慢。

从中学接触到最小生成树算法开始,苏昊就认识到,“人类的智能或许并不是那么独特,而是可能被机器复制的。”

既然人类的智能可以复制,真实世界的数据也能被复制。

为了破解数据收集成本高、速度慢的难题,他决定采用生成式方法——即不再局限于收集物理世界中的数据,而是直接通过 AI 生成数据。

在这种思路下,苏昊在实验室里做了大量尝试后创立了 Hillbot,希望能凭借自己的技术解决实际的社会问题。

Hillbot 的核心在于利用 3D 生成式 AI 技术,通过文字提示生成3D对象,再将生成好的 3D 对象,放入自主开发的模拟器 SAPIEN 中。这种方法通过生成数据和模拟真实环境中的互动,提供了源源不断的数据流。

SAPIEN 模拟器不仅是一个 3D 渲染平台,更是一种多模态数据收集的工具,能够实时采集数据并与 AI 的多模态传感器组合,允许机器人在虚拟的物理环境中直接进行交互,以培养其应对复杂情境的能力。

简单来说,只要有文字提示,Hillbot 就能通过 3D 生成技术生成对应的 3D 物体,几乎不再受到真实数据来源的限制,想要多少数据就有多少数据。

Hillbot 的目标很宏大也很明确,利用 Hillbot 在机器人、模拟和 3D 生成式 AI 方面的尖端解决方案套件,释放人工智能和机器人技术的力量。

这份自信并不是空穴来风,Hillbot 有独特的模拟数创建方法,能够避开避开高昂的成本以及繁琐冗长的训练过程。

他们使用的 SAPIEN 模拟器也是目前市面上少有的速度快、性能高的机器人模拟器,通过真实性高的模拟技术,Hillbot 的团队可将机器人的训练速度提高 5 倍,并将训练时间从 12 个月缩短至仅仅几个月。

在具体训练方法上,Hillbot 的团队还模仿了人类的任务处理模式,将复杂的任务分解成多个小的简单任务,让机器人能够逐步提高推理能力,有效提升机器人对复杂任务的适应能力。

目前,Hillbot 的业务主要集中在工业和家庭任务上,比如汽车制造、仓储零售等。Hillbot 还在寻找合适的合作伙伴,采用市场上已有的机器人硬件,合作开发更加强大的通用机器人。

苏昊的另一位师弟,新加坡国立大学助理教授邵林也在关注 Sim2Real 的问题。

不过邵林关注的是另一个不同的方向,Real2Sim2Real,从现实再到模拟再到现实,将仿真方法应用于现实后比较它们的性能,根据仿真与现实的差异更新仿真模型和方法。

邵林的论文《TieBot: Learning to Knot a Tie from Visual Demonstration through a Real-to-Sim-to-Real Approach》,被收录在即将召开的 CoRL 2024(2024 年机器人学习大会)上。这篇论文介绍了一个TieBot 机器人系统,采用 Real-to-Sim-to-Real 的学习方法,能够通过视觉演示教会机器人打领带。


Sim2Real 是AI的未来吗?

“Sim2Real”概念最早可以追溯到 20 世纪末,当时的研究主要集中在如何让机器人在实验室或仿真环境中学习基本技能,并测试其在现实任务中的应用可能性。

随着深度学习和机器人技术的进步,这一领域在 2010 年代迎来更高的关注。OpenAI、Meta 和谷歌等科技公司陆续开展研究,试图缩小虚拟仿真与现实之间的差距。

2018 年,谷歌发表了一篇 Sim2Real 的相关论文,想让机器人学着像人类一样观察世界。

传统的机器人依赖于固定视角的镜头来获取视觉输入,这也导致机器人很难在活动的情况下精准地执行任务。而人类能够在不固定自身视点的情况下,灵巧地操控各种物体,利用丰富的感官信号和视觉作为反馈来自行纠错。

学习人类的视觉特点或许能对机器人的控制精准度有所提升。

为此,谷歌开发了基于深度循环神经网络的视觉系统,使机器人无需校准摄像头便能灵活控制机械臂,提升了任务完成的精准度。

与此同时,Meta 和其他研究团队在 Sim2Real 的物理仿真上继续深入探索,以期实现更高的模拟精度。

尽管取得了一定进展,但早期机器人模拟器的效果往往不够理想,学界普遍对 Sim2Real 的实用性存疑。

不过,随着 GPU 算力和 AI 技术的发展,各大研究团队也在高仿真度方面取得了重大突破。因此,人们对模拟技术有了更高的认可度,Sim2Real 也逐渐被认为是实现具身智能的最高效路径。

在 Sim2Real 的探索中,各研究团队的切入点各不相同。

前面提到的 Jim Fan 的 HOVER 主要做的是优化模拟环境,而苏昊选择的是深耕合成数据。

根据 Scaling Law,训练具身智能机器人需要大量涵盖各种场景的多样化数据,然而,获取这些真实数据的成本极高且耗时耗力。

因此,苏昊团队选择合成数据,创造跨越昼夜、季节、室内外的多种场景数据。这样一来,机器人就能够在虚拟环境中进行大规模、多样化的操作学习,涵盖不同操作对象、环境变化、机器人构型和传感器状态等条件。

选择数据作为突破点的还有联想的 DexVerse™ 引擎,它通过自动生成具身智能任务所需的合成数据包,与 AI 模型训练同步,不再依赖于传统的大规模数据存储,从而极大提升了数据生成与模型迭代的效率。

尽管技术取得突破,Sim2Real 的实用性仍面临“现实鸿沟”(reality gap)的挑战。仿真与现实环境在细节上的差异,如摩擦力、物体形变和碰撞等,可能显著影响模型在现实环境中的表现。

尽管许多机器人在模拟中能够达到 99% 的准确率,但这 1% 的偏差在现实制造中可能导致巨大的隐患。而相比之下,不少人类经过短期培训后就能能够达到 100% 的准确率。

虽然 Jim Fan 和苏昊团队选择了不同的突破方向,但两者的研究目标却殊途同归:如何弥合真实与虚拟之间的差距,才是他们研究的核心。

Jim Fan的 HOVER 模型特别强调无需微调,即可将模拟结果有效迁移到现实环境中;而苏昊则提出生成数据和模拟数据之间是互补关系,探索多源数据的协同应用或许是理想的解决方案。

李飞飞团队近期提出的“数字表亲”(digital cousin)概念也为 Sim2Real 的研究提供了新的思路和解决方案。实验表明,通过这一方法,无需额外微调,即可将模拟中生成的策略直接应用于现实世界。这一创新不仅能够提供更广泛的数据分布,还能有效克服从模拟到真实环境的差距。

面对这些共同的挑战,越来越多的研究者开始意识到,打破单一任务适应的局限,扩展到多任务和跨设备的全局泛化能力,建立一个灵活且可扩展的开发环境才是关键。

苏昊团队提出了统一接口的构想,希望通过易于插拔的仿真器、渲染器等模块,形成集成开发环境(IDE)。

英伟达的 Isaac 平台也采取了类似的策略,组合加速库、应用框架和 AI 模型,为自主移动机器人(AMR)、机械手、机械臂及人形机器人等 AI 机器人开发提供稳定支持。

Meta 的研究团队则推出了 Habitat 3.0 平台,支持在多种家庭和复杂场景中进行 AI 训练,通过创建可复制现实条件的合成数据集,进一步拓宽了 Sim2Real 的应用范围。

这些努力在本质上都是为了实现机器人技术的高效整合与应用,为 Sim2Real 领域的研究提供更可靠的开发基础。


One more thing

在 AI 领域有一个提得比较多的概念是“世界模型”,指的是一种用于描述和预测环境的内部模型。它通过学习环境的动态特征,使得智能体能够在未见过的情境中进行决策和规划。

世界模型的设计灵感源于人类的潜意识推理能力。人类在日常生活中通过经验和知识的积累形成对周围世界的理解,能够迅速、无意识地利用多种感官信息进行推理与决策。

例如,当我们走路时,脑海中会自动生成关于环境的“地图”,帮助我们避免障碍、保持平衡并选择最佳路径。这种无意识的认知过程正是是世界模型希望复制的目标,使智能体在复杂环境中同样能够作出迅速且有效的反应。

其实,世界模型的概念早在传统的机器人研究中就有提及,不过现在的具身智能研究则更多地希望利用类似世界模型的概念,通过强化机器人对环境的感知来解决 Sim2Real 的问题。

Jim Fan 也在介绍 HOVER 时提到,人类需要大量的潜意识处理才能走路、保持平衡并将我们的手臂和腿操纵到所需的位置。HOVER 就是在变相地捕捉这种“潜意识”,学习如何协调人形机器人的电机以支持运动和操作。

当前的具身智能研发的主流趋势是做通用机器人,在此基础上根据具体的应用任务进行特定方向的调整。无论是通用还是专用,机器人对环境的感知都是一个关键课题。

举个例子,如果我们想让机器人完成拿起书本的动作,机器人必须能够识别书本的位置以及与其的交互方式。这一过程对所有类型的机器人来说都是通用的,因为环境感知是实现各种任务的前提。

像 Hillbot 的文生 3D 和其他团队研究的图生 3D,都是以丰富数据的形式构建一个更真实的模拟环境,让机器人能够更好地感知世界。

随着世界模型的不断发展,AI 的应用前景将更加广泛。从自动驾驶到智能家居,从医疗机器人到生产自动化,这些技术都将依赖于强大的世界模型。

通过更好地理解和模拟人类的潜意识推理过程,未来的机器人将能够更有效地与环境互动,实现真正的自主智能。

雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/RvlZBfo7O5sCWWQH.html#comments Fri, 08 Nov 2024 14:13:00 +0800
零一万物以“Infra+模型+应用”三体布局 ToB:以数字人、AI Infra 解决方案智赋企业数智化增长 //m.drvow.com/category/ai/proYjGFG6zPeGZD8.html 11 月 6 日,继 10 月中旬发布全球 SOTA 的新旗舰模型 Yi-Lightning 之后,零一万物首度对外披露了基于 Yi 模型构建的一整套大模型 ToB 解决方案。

基于“Infra+大模型+应用”三位一体战略,零一万物在模型训练、AI Infra 以及应用开发等多个领域积累了成熟的能力,并在自身实践中得到了验证。依托这些能力,零一万物已经为政企客户打造了一整套解决方案,涵盖从 AI Infra 到模型,再到应用落地的全过程。

此次零一万物新发布了面向电商直播、办公会议等场景的“如意”数字人解决方案,还在自身国际领先的 AI Infra 能力基础上凝练出 AI Infra 解决方案,助力政企客户构建大模型算力平台。两项最新亮相的解决方案,结合原有的以 Yi 大模型开放平台为核心的 Yi API、为企业客户开放的模型训练平台,共同构成了一整套“从 AI Infra 到模型,再到应用”的全行业 ToB 解决方案。

这也是在“Infra+模型+应用”三位一体布局下,零一万物基于自身技术能力向外赋能、实现商业化落地的战略布局。目前,零一万物大模型 ToB 解决方案已经与多家世界 500 强企业客户展开合作,涉及能源、零售、游戏、电商、智算等多个领域,与中国领先的餐饮公司百胜中国、创新型亲子家庭服务商孩子王、新型智能算力运营服务厂商图灵新智算、知名内容营销一站式服务商乐淘互娱、数字化营销服务商直客通等都已签约。

零一万物 CEO 李开复博士表示,以大模型技术为代表的 AI 2.0 将重塑各行各业的生产力格局,颠覆现有的企业组织结构和规模。但是目前大模型能力并未在 ToB 应用上释放出全面潜能,只有进入业务核心系统、快速轻量级大批量部署才能最大程度地为企业降本增效。零一万物会继续坚持“Infra+模型+应用”三位一体布局,以垂直整合的商业模式探索 AI ToB 的最佳实践。生成式 AI“长坡厚雪”,零一万物愿与产业内富有远见的头部企业共同探索。

零一万物联合创始人祁瑞峰进一步强调,零一万物将采取“一横一纵”的打法,充分发挥 Yi 系列基座模型的横向泛化能力,在行业纵向做深做透。依赖于零一万物“一横”中的包括世界第一梯队基础大模型在内的全栈技术平台能力,寻找行业核心业务场景,帮助客户实现业务层面、用户层面的增长,或帮助客户降本增效带来 ROI 层面的回报。在为客户带来业务价值的同时,零一万物也会持续打造大模型原生、标准化、可规模复制的应用产品,力求通过云服务的方式多快好省地为客户提供部署与后续服务,以大模型智赋企业数智化,共建新质生产力,为各行各业注入增长新动能。


零一万物“如意”数字人:一机开万店播,互动精确全天候,有客户GMV提升170%


基于以 Yi Lightning 模型为代表的 Yi 模型,零一万物搭建起了包含角色大模型、直播声音大模型、电商话术大模型在内的一整套专用模型基座,推出了与 AI 1.0 时代完全不同的数字人解决方案——“如意”。

解析“如意”背后的技术底座,就能更清晰地看出与 AI 1.0 时代数字人的不同。其中,角色大模型为零一万物“如意”数字人提供了动作训练、表情生成等能力,直播声音大模型使得数字人迈过了多国语言和情感表达的门槛,电商话术大模型则成为了数字人主播的“AI 大脑”,负责链接知识库,完成智能对话。

在多模态协同训练的模型基座加持下,与 AI 1.0 时代的数字人相比,零一万物的“如意”数字人解决方案不仅在形象和声音上更为逼真、更贴合垂直场景的需求,还具备了“AI 大脑”,能够自主完成部分决策任务。

在接入Yi-Lightning后,“如意”面对直播间里实时用大模型处理大量文字的弹幕提问的响应速度更快、回复质量也有进一步提升,实现了与直播间观众的高质量实时交互。

零一万物“如意”已经跑通了包含本地生活直播、AI 伴侣、IP 形象、办公会议、媒体营销等场景,已合作客户包括中国领先的餐饮公司百胜中国,创新型亲子家庭服务商孩子王、新型智能算力运营服务厂商图灵新智算、知名内容营销一站式服务商乐淘互娱、数字化营销服务商直客通等。 

百胜中国首席资讯技术官张雷表示,零一万物的数字人技术在百胜进行了直播测试,该技术通过大模型驱动,能够实现与用户的实时互动,相比于传统数字人仅能进行单向循环播放,该项直播中的互动能力可以显著提升直播间的用户体验。零一万物基于大模型的数字人解决方案可提升直播运营团队的效率,其产品在操作体验上的优化,使运营人员能够同时管理多个直播间。百胜中国和零一万物在合作过程中,都各自展现了自身的专业度和服务意识,互相配合共同推进了大模型驱动的数字人技术在直播场景的探索。

孩子王首席技术官王海龙表示,这段时间使用零一万物如意数字人产品的体验非常好,尤其零一万物团队针对直播的场景做了很多优化,考虑到了很多运营过程中的细节,能够显著提高运营的效率和质量,而且产品的迭代更新也比较积极,双方建立合作后,技术和运营方面的支持和响应也是比较及时的。9 月签订战略合作协议后,整体进展速度很快,后续还会策划合作构建新的直播间。 

乐淘互娱创始人陈建武表示,零一万物推进的数字人直播、无人直播以及即将推出的大模型赋能视频生成已在乐淘互娱逐步落地。在直播中,数字人可以代替人工进行长时间稳定直播,而视频生成技术未来可用于制作商品介绍视频等。未来合作前景广阔,比如可拓展到更多超市门店的线上直播活动、丰富线下活动的数字人互动环节等,可进一步提升乐淘互娱在零售领域的数字化水平。此外,乐淘互娱在湖北省准备推动数字人下乡万店直播促消费活动,也将是与零一万物合作的重要新场景。 

直客通首席执行官刘华表示,直客通的战略是为酒店行业在新渠道提供营销解决方案,产品包括各渠道的系统连接、流量增长方案、管理系统和营销体系的一体化,目前合作了国内90%的五星级酒店。直客通选择深度和零一万物合作,由零一万物提供基于 AI 大模型的数字人直播产品,直客通提供酒店供应链和流量增长能力,共同为用户提供旅游推荐和高性价比产品。

在已有合作的过程中,零一万物“如意”均帮助客户带来了显著的业务提升。其中某头部酒旅企业在接入 Yi-Lightning 全新加持的“如意”数字人直播后,GMV 较此前上升 170%。

以本地生活直播场景为例,零一万物的“如意”数字人能够快速提取商品信息、精准识别弹幕意图、自动给出推荐方案,丝滑地与客户原有营销、物流系统互动,实现从引流到下单的全流程陪护。一步到位,完成促单。 

与“如意”数字人解决方案配套,零一万物还将推出营销短视频解决方案“万视”,目前正在与头部客户共同打磨,很快会正式对外发布。使用“万视”后,运营人员可通过极简流程,随时生成超低成本、高品质的营销视频视频,解决了传统真人短视频的成本和制作周期问题。百胜中国首席资讯技术官张雷表示,百胜期待这一功能正式发布,以实现直播和短视频 AI 运营的有效结合。

在单店的维度上,零一万物“如意”与“万视”能够为客户提供 7×24 小时不间断地高质量直播与营销短视频,相互配合下转化非高峰时段流量,为客户带来新的业绩增长点。更值得一提的是,这个单店维度的增长模型能够在极简化运营前提下,被批量复制到千店、甚至万店中去。 

在多店维度上,零一万物开创性地设计了面向品牌连锁的“万店直播”架构,通过总部集中化的管理,在门店可以通过手机实现分钟级的开播;大模型可自动生成高质量话术、自动回复弹幕消息,为店播端侧提供了极简化、无打扰的运营模式,客户无需为门店重新配置直播运营人员。例如,在本地生活领域,接入“如意”后,某母婴品牌连锁的1个运营人员,就能够同时管理100个直播间的运营。

与此同时,凭借着零一万物“Infra+模型+应用”三位一体的布局,世界第一梯队的 Yi-Lightning 在价格上也直逼行业最低价,每百万 token 仅需 0.99 元。

这两方面共同为“万店直播”提供了成本基础。零一万物“如意”数字人解决方案的本身部署价位极具性价比,即使多店开播,客户既无需考虑部署成本,也无需为门店新增直播运营人员。 

在接入“如意”和“万视”后,每个开播的门店都能以极低的成本,生产 7×24 小时不间断直播内容和短视频内容,覆盖门店三公里以内的线上流量。对于线下门店众多的连锁餐饮品牌商家而言,这毫无疑问是巨大的流量入口,也是新的业绩增长点。

值得一提的是,这套基于大模型的数字人全链路解决方案不仅可用于电商直播、办公会议等场景,未来还可泛化到金融、客服、培训等多个 ToB 甚至 ToC 场景,为模型能力落地带来更多可能性。


AI Infra 解决方案:构建算模协同的智算中心,助力大模型生态繁荣


在训练大模型的过程中,更强的计算能力和更大规模的数据处理能力必不可少。作为提供这些资源的平台,智算中心的战略地位变得越发重要。可以预见的是,随着大模型对底层算力的诉求进一步升级,大规模算力集群建设和运营将不仅是大模型企业的必备能力,也会成为各地政府推动大模型生态繁荣的基础门槛。

与传统数据中心相比,大规模 AI 集群的建设和运维面临着一系列的挑战。在电力供应、液冷技术、计算能力、网络连接、存储解决方案、调度系统以及故障监测与定位等方面,都需要特别关注和精心规划。要打造世界一流的智算中心,AI Infra(AI基础设施)能力尤为重要。

得益于“Infra+大模型+应用”三位一体布局,零一万物从 Day 1 开始便注重打造自身 AI Infra 能力,以来自国际顶尖大厂的多位行业高级技术专家为班底,打造了一支世界一流的 AI Infra 团队。截至目前,这个团队具备万卡集群的设计、建设和运营经验,构建过 10+ 个超级 IDC,成功训练过多个百亿和千亿参数模型,是全球范围内为数不多拥有这样深厚经验的团队。

基于自研算力管理平台,零一万物相继训练出了新旗舰模型 Yi-Lightning、千亿参数模型 Yi-Large。在世界权威盲测榜单 LMSYS Chatbot Arena 排行榜上,两个模型在发布时均处于全球第一梯队。其中,Yi-Lightning 排名世界第六、中国第一,零一万物也跟随 OpenAI、Google,与 xAI 并列,成为世界前三大模型公司。

通过 Yi 系列模型的生产训练实践,零一万物的 AI Infra 团队积累起了多项核心技术,并构建了成熟的解决方案。如基于故障预测、检测与自动恢复等技术搭建了 On-the-fly 弹性伸缩和故障恢复系统。当某块 GPU 卡或某台 GPU 卡服务器出现故障时,能够快速发现并定位故障设备并进行在线处理,同时还能确保训练或推理过程不中断。在多项核心技术加持下,零一万物自身 MFU (模型 FLOPs 利用率)远超行业平均水平,Goodput(有效训练时间比率)也达到了99%。

在此基础上,零一万物选择以国际领先的 AI Infra 能力协助政府及企业构建大模型算力与服务平台,助力大模型应用落地。

今年 7 月,零一万物曾与新型智能算力运营服务厂商图灵新智算签署战略合作协议,基于全球领先的 Infra 基础架构平台与大模型训练平台的软件栈能力,零一万物将帮助图灵新智算在“黄埔一号”打造全球领先的新一代智算中心,双方在整机密度优化、大模型私有化部署、算法优化、算电协同等六大技术领域展开深度合作。10月末双方合作进一步深入,共同挂牌成立了零一万物-图灵实验室,共同推动以“如意”数字人为代表的大模型应用落地。

图灵新智算董事长刘淼表示,“作为智算产业的引领者,我们与零一万物的战略合作具有深远意义。双方的合作源于对大模型和智算产业未来的共同愿景——利用集群和infra能力的结合打造新一代智算中心。从今年 7 月至今,短短几个月内,我们已经取得了多个标志性进展:完成了首个MVP样板工程,验证了从硬件到应用的全栈整合能力;10月24日成立了联合实验室;实现了多个技术突破,特别是在模型训练效率和推理性能方面,实现了更高的性价比。” 

刘淼进一步表示,展望未来,零一万物与图灵新智算的合作将围绕三个方向深化:持续深化技术创新,特别是在大规模生产环境下的性能优化;扩大应用场景,从数字人延伸到更多AI应用领域;加速全国化布局,打造区域级示范中心。图灵新智算相信,这种合作模式将成为行业标杆,服务于更广泛的行业需求,引领新一代智算基础设施的发展方向。


零一万物以“一横一纵”破局 ToB,剑指 AI 1.0“非标化、定制重、交付重”怪圈


中国 ToB 赛道向来是个拥挤的赛道。各家的打法各不相同,零一万物在 ToB 方面也走出了一条不同的 ToB 之路。AI Infra 解决方案、Yi 大模型开放平台、“如意”数字人解决方案以及即将正式亮相的“万视”营销短视频解决方案,共同构成了从 AI Infra 到模型、再到应用的一整套面向政企客户的解决方案。

“今天在大模型领域内,大部分 ToB 项目都集中在私有化定制模型,如何能够真正让大模型进入客户核心业务场景,形成一个大模型赋能下、标准化、可规模复制的应用产品是未来ToB的一大挑战。”零一万物联合创始人祁瑞峰说。

祁瑞峰表示,从 Day 1 开始,零一万物就已经开始探索 ToB 方向,积极寻找大模型在各个场景下的能力边界。一方面需要考虑模型能力,以模型的强泛化性避免 AI 1.0 时代非标化、定制重、交付重的商业模式;另一方面则是要考虑推理成本,能够帮助企业客户核算 ROI,在不赔钱的前提下做规模增长,是模型能力在 ToB 方向落地的基础。 

在 TC-PMF 的视角下,零一万物采用了独特的方法论,去寻找能够支撑大模型落地的核心业务场景。祁瑞峰强调,第一个原则是帮助企业客户做增长,其次是要做到显著地降本增效,第三,在切实为客户带来益处的同时,是否有成为标准化云服务的可能。

聚焦此次零一万物发布的一整套大模型 ToB 解决方案就会发现,“标准化”与“垂直精细化”是其中的关键点。

基于零一万物自研的算力管理平台、模型训练平台及应用能力,零一万物能够为企业客户提供从 AI Infra、模型训练到应用开发的一整套解决方案。一方面,帮助企业把行业数据提炼出来,搭建数据库,训练自己的专属模型;另一方面,基于各项模块化的能力协助企业结合自身场景产出对内、对外的应用。这就是“垂直精细化”。

从云计算时代开始,标准化的产品形态、订阅制的商业模式始终是企业服务赛道内的玩家所推崇的两个业务演进方向。而回顾整个 AI 1.0 时代,AI 企业始终难以摆脱高度定制化的模型产品、项目制的商业模式。这使得此类公司均面临着业务可复制性、可扩充性不足,项目有毛利,但公司不赚钱的窘境。 

大模型的出现一定程度上解决了这一难题。为打破“非标化、定制重、交付重”的怪圈,“标准化”成为零一万物选择业务场景时的重要考量因素。零一万物的 ToB 产品矩阵中,“如意”数字人解决方案的“万店直播”架构、Yi 大模型开放平台都是以跨行业复用为目标,尽管是 ToB 业务,但两条业务线都具备“高度可复制、规模化发展”的特点。

后续,零一万物将采取“一横一纵”的打法,持续与客户深度探索“垂直精细化”新场景,并结合行业和应用场景凝练出“标准化”企业级应用,致力于将世界第一梯队的大模型能力转化为标准化云服务产品,在为客户带来业务价值的同时,跑通 AI 2.0 时代特有的可复制增长的商业模式。

百胜中国首席资讯技术官张雷表示,百胜中国正积极探索如何将最新的 AI 技术应用到具体业务场景,以实现降本增效创造业务价值。百胜中国不断发掘 AI 原生应用场景,过程中需要和零一万物这样的大模型公司合作,发挥零一万物的大模型能力和应用经验,和百胜中国一起共同识别应用场景,以及针对场景进行模型调优, 将双方领先的行业经验和技术专长相结合,协力共创落地行业方案。 

孩子王首席技术官王海龙表示,在大模型竞争异常激烈的今天,高质量的数据无疑是最核心的技术壁垒,如果零一万物的大模型可以基于孩子王自有的海量数据打造出高质量的母婴垂类智能体,那孩子王就可以利用 AI 的能力向用户提供更高质量的产品和服务,同时运营的成本也会极大地下降。这里面的主要工作就是基于独立数据集的大模型微调,同时又涉及到数据私密性的问题。如果零一万物能够在同时兼顾两者的前提下提供技术赋能,那 AI 就会真正成为孩子王最核心的基建,这也会是孩子王在大模型领域最具前景的合作场景。

图灵新智算董事长刘淼表示,图灵新智算的战略重点是打造新一代服务于未来大模型的新型智算中心,坚持软硬一体、训推一体、基模一体、算电协同、算模协同,通过“前店后厂”模式和一体化算力网提升精细化运营能力。在这个战略框架下,零一万物是图灵新智算重要的合作伙伴。未来,双方将携手在更多垂直领域展开深度合作,共同推动 AI 产业升级。

乐淘互娱创始人陈建武表示,在 AI 大模型时代,乐淘互娱希望利用新技术实现业务创新和增长。零一万物的基础大模型+应用可以在个性化推荐、智能客服等方面为乐淘互娱赋能。比如通过大模型分析顾客购买数据,数字人客服能更精准地回答顾客问题,推荐合适商品,这将是双方合作的重要前景方向。在湖北省准备推动数字人下乡万店直播促消费活动,希望借助数字人直播的优势,将更多优质商品信息传递到乡村地区,激活乡村消费市场,这也将是与零一万物合作的重要新场景。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/proYjGFG6zPeGZD8.html#comments Wed, 06 Nov 2024 14:58:00 +0800
第一个走入全面AI化的行业,正在经历一次「系统升级」 //m.drvow.com/category/ai/XqrP2PLQePgU0Szh.html 一年前,阿里巴巴国际站首次发布AI外贸产品时,AI行业还刚刚陷入“模型还是应用”的大辩论中。

在彼时的采访中,阿里国际站总裁张阔对此没有丝毫迟疑:“模型不是稀缺的,真正稀缺的是好的应用。”

这一判断下,仅仅一年,阿里国际站的AI外贸产品就已经在全球范围内拥有了6万企业用户,发布了700多万商品,接待了2000万次海外客户;这些用AI发布的商品,支付转化率能高出52%;靠AI接待的客户,回复率提升了26%……

当这一长串的数字划过一年后又一场发布会的大屏幕时,前排一个外贸商家举起来拍照的手机屏幕里弹出一条新闻:“有一半大模型企业要去做应用了”。

业界的争论在现实面前尘埃落定,但外贸领域的AI应用已经义无反顾地深入到了产业的核心环节。

台上的阿里国际站总裁张阔这次给出了更加笃定的判断:“未来,50%以上的线下商机将会由AI服务,80%以上的增量商业价值将会由AI驱动的效率更高的商家获取,100%的商品信息将会由AI与人的紧密协同产生。”

这个新判断下,阿里国际站发布了全新升级的全流程外贸AI。

全流程,意味着AI在外贸行业的应用,将不仅仅是一个个单点的效率提升小工具,而是真正能端到端全程托管、创造增量生意的系统级产品。

外贸的全面AI化时代已经正式来临。

“这不是在演示AI产品,而是在说我们每天经历的日常”

在这场发布会现场,一位商家对前半程讲的观点、判断还只是时不时举起手机拍照——他说他要带回去好好琢磨琢磨。

但当讲到这一新的全流程AI针对外贸经营的四大拦路虎“发品、接待、营销、合规”配备了4个专业级的AI Agent时,他举起的手机就不再放下了——并且拍照转成了摄像。

会后他告诉雷峰网,这不仅仅是在演示新产品,而是在说他每天都在经历的日常。

事实上,阿里国际站总裁张阔也告诉AI科技评论,为了找到AI在外贸中的核心应用点,他本人就聊了上百个商家,他和他的团队一次又一次地调研商家日常的经营难题,甚至每天都会去翻95后、00后商家在社交媒体上对出海贸易难题的吐槽。

他会发现,中小外贸商家的难点,几乎都与这四大“外贸拦路虎”有关:

一是发品,发布一个商品需要三四十分钟甚至更多时间;商品发布之后,对市场缺乏了解,新品转化和提升很难;如何选品、如何描述商品等,都是问题。

二是运营接待,因为海外时差问题,业务员无法全天24小时守在电脑前回复询盘,即便三班倒,也无法保证询盘的质量。

三是营销获客,营销是商家在整个获客层面实打实的投入,如何最大程度优化自己的资金,确保商品出现在合适位置,出现之后转化如何、如何去优化,获取的询盘是不是目标用户等等,这些分析和实时干预都是营销过程中亟待解决的痛点问题。

四是合规问题,如今海外各种各样的法规层出不穷,以及海外买家信用卡拒付等,都是商家在日常经营过程中普遍会碰到的问题。

而现在的全流程AI,则给商家的外贸生意日常,提供了全新的、极简的解决办法。

根据现场演示,这4个AI Agent会像真正专业的外贸助手一样,在各自领域帮外贸人找到更高效的经营方式,实现生意增长。

比如智能商品托管。

当商家使用上一代AI极简发品功能,最快60秒完成发品后,可以选择一键开启智能商品托管Agent。像在商家过去最头痛的新品成长方面,它会实时优化、自动帮商家开启一系列比如智能橱窗等策略,拿到更多曝光,加速新品成长。

同时AI Agent还会主动识别全球各地买家的复杂需求,自动调整展示顺序、商品表达,用不同语种、千人千面展示给买家,提升商品吸引力,吸引买家发起询盘。

而在营销方面,智能全站营销Agent能帮外贸人实现几乎全自动的智能推广。

身边的商家告诉雷峰网,如果用了这个,它以后就真的不用再辛辛苦苦地选词、找词,AI Agent就会帮他自动匹配几乎所有的行业大词、热点词等等,然后自动开始投放。

同时针对不同国家与买家,AI Agent还会24小时自动出价,无需时刻盯盘。

当客户来了之后,外贸人还可以通过智能接待托管,把接待工作一键托管给AI。不仅可以实现7x24小时实时回复买家询问,AI Agent还可以关联专属知识库,学习商家的沟通技巧,像一个真实的接待助手一样给出更具个性化、更专业的回复。

当AI监测到买家有下单意向,就会根据商家的设置,立即提醒外贸人介入人工接待,双方配合之下,效率和效果都将大幅提升。

而在合规方面,AI Agent则会像一个风险顾问一样,自动帮商家检测各种风险,并且提供解决方案。此外,商家也可以询问AI Agent,了解智能优化详情以及更多海外风险合规方面的相关知识。

这是一次“系统升级”

增量生意、省时省力、个性化——这是张阔归纳的全流程外贸AI的3大特点。

因为AI可以基于买家复杂需求的理解和买家行为实时数据,精准匹配买卖需求,提升转化。数据显示,通过上一代AI智能发品功能优化的产品链接,支付转化率能提升52%,那随着功能更强大的全流程AI上线,增量生意的创造会成为AI外贸应用的显著特点。

而省时省力就更好理解,一键开启之后AI就会7x24在线,本质上,这4个AI Agent是将此前“AI生意助手”1.0时代,内嵌于外贸经营链路上的各个功能串联起来,实现整个外贸经营的全流程托管。

而个性化,则在于新的AI Agent可以关联企业专属知识库,形成更加个性化、专业化的服务方案。

做到这三点并不容易。本质上,阿里国际站是用AI把外贸行业做了一次端到端的系统升级。

这有赖于阿里国际站本身在外贸行业25年的深度积累,本身的数字化服务就已经贯穿了外贸商家经营的全程,这让全流程外贸AI在阿里国际站上的诞生变得顺理成章。

一直以来,说起这一轮生成式AI浪潮下被改变最深的是哪个行业?很多人都会说汽车。在马斯克和众多车企的狂轰滥炸之下,“端到端”几乎都快从一个专业技术词汇变成消费者选车时的日常用语。

但马斯克发布的没有方向盘和踏板的“CyberCab”目前还停留在PPT,而外贸走向全面AI化则已经是一个现实。阿里国际站的端到端的全流程AI,已经实打实地在改变外贸商家每天的经营方式。

过去一年,外贸人之间流传着这样一个故事。

一个名为杜思的90后义乌女孩,在从事过两年外贸业务员后,今年3月决定创业,做外贸。一番摸索之后,她在阿里国际站上开了个店铺,预计正式上线前上架100个商品链接,为之后的开单做好准备。

之前的工作经验告诉她,这样的工作量需要一个人花费一个多月的时间才能完成。但真正做的时候,通过阿里国际站的“AI生意助手”,仅仅在一周的时间里就提前完成了。

“AI生意助手”不仅发品速度快,而且选品眼光还更准。在AI的建议下,杜思在夏天就踏准了B2B领域通常要提前很久开始准备的圣诞节旺季节奏。

于是,一个几乎0基础的创业“小白”,成功实现了店铺的“冷启动”,迎来快速爆发,1个人60天,冲进行业前50。

而杜思并不是唯一一个在AI的帮助下学会做生意的商家,像这样的故事,在阿里国际站还有很多。

最新数据显示,目前全球已有超过6万中小企业在使用阿里国际站的AI产品,AI发布的商品规模已达700万。

而此次进行全新一轮迭代升级后,阿里国际站的AI产品与当前市面上的AI提效小工具之间的代差还将显著增加,“这是真正能帮人做生意的AI。”外贸行业人士说道。

但这还不够。

张阔将AI视作外贸变革的一大变量,他认为,AI正在快速地重塑外贸的供需匹配和经营模式。

“不管是去年10月份发布的第一个产品,还是今天升级后的产品,都只展现了我们构思中的10%左右,所有的产品还在快速演进中。”

是的,当全面AI化的齿轮开始转动,产业的变化只会越来越快。


]]>
人工智能 //m.drvow.com/category/ai/XqrP2PLQePgU0Szh.html#comments Thu, 31 Oct 2024 15:05:00 +0800
独家丨字节招兵买马,拟在欧洲设立AI研发中心 //m.drvow.com/category/ai/Z1xamGM1tBEB7BLr.html 雷峰网独家获悉,字节跳动准备在欧洲设立 AI 研发中心。

知情人士透露,字节跳动目前已经开始寻找欧洲的 LLM 和 AI 方面技术大牛,积极招揽人才。

而纵观欧洲各国的 AI 技术水平,瑞士、英国和法国相对靠前。

其中,瑞士和英国都有不少知名院校。瑞士的苏黎世联邦理工学院(ETH)和瑞士洛桑联邦理工学院(EPFL)的强大技术实力与人才密度,让瑞士正成为世界上最顶级的机器人创新中心。而且瑞士是 Google 海外除了印度以外设立 Office 最多的地方,员工人数约 5000 多人,涵盖 Google Assistant、Youtube、Cloud、Commerce、Research、Geo、Core、Ads 等业务。

而英国和法国从去年开始就在激烈争夺欧洲 AI 中心的领导地位。前者希望将 AI 科技行业作为发展经济核心地位,后者更是「疯狂」投资人工智能的训练和研究。

其实,早在今年 9 月初,就有媒体报道,字节跳动董事会加入一位欧洲新董事,即法国富商、法国互联网服务提供商和移动运营商伊利亚特电信集团(Iliad)的创始人和董事长泽维尔·尼尔(Xavier Niel),拓展欧洲市场的意图明显。

不止欧洲,今年 6 月有消息称,字节跳动计划投资约 100 亿林吉特(21.3 亿美元)在马来西亚建立AI中心。另外,字节跳动还打算额外投资 15 亿林吉特扩大其在马来西亚的数据中心设施。

如今,全球大模型叙事进入下半场,字节跳动也在加快布局。

其实从整体来看,在上半场,字节跳动在大模型上并不算最早一批,但目前动作频仍。

2023 年 1 月,字节跳动开始组建大模型团队。

8 月,字节跳动自研底层大模型「云雀」上线,随即 AI 对话产品「豆包」正式推出。

11 月, 字节跳动成立 Flow 部门,专注于 AI 应用层面的研究和开发,由技术副总裁洪定坤和字节大模型团队负责人朱文佳主导该项目。

12 月底,除豆包之外的又一产品 Coze 在海外上线,其核心服务是为用户提供一个快速开发 AI 应用的平台,支持 30 秒无代码生成 AI Bot,并且集成插件工具集,可满足用户个性化需求。

而雷峰网获悉,今年以来,在大模型相关工作的推进和人才招纳上,字节跳动的节奏明显加快。

年初,Coze 相应的国内版的产品「扣子」正式上线,海外版和国内版整体产品形态和功能定位基本差不多,都是能够快速创建、调试和优化 AI 聊天机器人的应用程序。

9 月,字节跳动正式发布豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型。

本月月初,字节跳动与清华 AIR 成立可扩展大模型智能技术联合研究中心(SIA Lab),推动大模型产学研合作。

前几天,有消息称,字节跳动再添一员 AI 大将,即阿里通义千问大模型的技术负责人周畅。

周畅,2012 年本科毕业于复旦计算机科学与技术专业,2017 年博士毕业于北京大学计算机软件与理论专业,通过「阿里星」计划加入阿里巴巴。在职期间,周畅曾带领团队设计并实现了超大规模的多模态预训练模型 M6,参数规模高达 1000 亿,是多模态预训练领域史上最大的模型。

如今,字节跳动又将目光瞄准欧洲市场,AI 已经成字节全球化战略的最重要一环。


]]>
人工智能 //m.drvow.com/category/ai/Z1xamGM1tBEB7BLr.html#comments Thu, 31 Oct 2024 14:57:00 +0800
95 后创业者 VAST 宋亚宸:要做3D「抖音」内容平台 //m.drvow.com/category/ai/Zz7Dq53WU1FnCVsD.html 2022 年 9 月接近尾声的一天,Google 发布了文生 3D 技术DreamFusion,利用预训练的 2D 文本到图像扩散模型,提出SDS(score distillation scapling)方法,首次完成开放域文本到 3D的合成。

听到这个消息时,宋亚宸非常激动,他在商汤时就很关注 3D 生成技术。DreamFusion的发布对于整个3D领域是一个大的转折点,意味着 3D内容制作的成本和门槛趋近于零,虽然生成的 3D模型效果很差,但已经是一个大的技术变革。

几个月后,一家致力于通用3D大模型研发的AI公司VAST成立,创始人正是宋亚宸。

不到两年时间,这家公司已经成长为 3D生成领域的头号玩家,受到多方关注:

一个月前马斯克转载了Tripo 2.0的创作者视频;在有着“AI教母”之称的李飞飞新创办的公司Pre A轮融资BP里,VAST是唯一一家被提到的中国公司;Tripo也入选了A16Z的AIGC产业地图;在国际图形学顶级会议Siggraph上,创始人宋亚宸与英伟达黄仁勋、Sony和Unity高管同台发表主题演讲,是首位在该会议上进行主题演讲的中国创业者;在一年内,VAST创造了 3D大模型赛道的最大融资金额。

以上是Tripo 3D大模型生产模型的一些案例,可以看到Tripo 2.0相比Tripo 1.4生成效果明显提升

而取得这些成绩的公司VAST,背后的创始人宋亚宸是一位生于97 年、首次创业的年轻创业者。翻看他的履历似乎在这波AI创业者中并无特别之处,毕业于约翰霍普金斯,但学的专业跟AI毫无关系,反倒对神学很感兴趣。

他尚未毕业便加入商汤在CEO办公室实习并工作,先后负责战略、AI动画、AI游戏的业务,20 年开始做AI游戏,AI游戏事业部是闫俊杰兼任负责人,负责技术,宋亚宸称他则负责其他杂七杂八的事情,这对他今后的发展是一个大的转折点,因为游戏正好是他的擅长区域,他是一位资深游戏玩家。

21 年以001号身份作为MiniMax早期联创参与创建这家公司,负责MiniMax对外的事务,包括业务生态、数据、算力;22 年底便创办3D大模型公司VAST,获得知名基金绿洲、达晨、春华、英诺、水木等投资。

2023年,宋亚宸在国际图形学顶级会议Siggraph上演讲

这位当前3D大模型领域的明星公司VAST的掌舵者宋亚宸,非常自信、犀利、张扬、侃侃而谈,喜欢谈论信仰,喜欢用“眼里是否有光”来看人,从小在国外长大,但偶像不是马斯克,而是毛泽东。

他认为自己是一个有信仰的人,而这个世界上有信仰的人很少,这种信仰不是指技术信仰,如果一个人相信一个技术能改变世界,这是另外一回事。在小说《源泉》中讲述了一个天才建筑师霍华德·洛克,他坚持自己的原创和风格,拒绝妥协和迎合,他坚信自己会造出最牛的建筑,其他声音他都不在意。宋亚宸认为这是有信仰的人。

同样,宋亚宸坚信未来会出现一个类似于抖音这样的3D内容平台。

成功的事业,团队非常重要,VAST CTO梁鼎,师从戴琼海院士,曾担任商汤通用视觉和语言大模型发起人和垂类语言大模型负责人,首席科学家曹炎培,师从胡事民院士,前腾讯ARC Lab和AI Lab 3D方向专家……据宋亚宸透露,团队70%都是技术人员,大多来自清华本硕博。

当问到一些厉害的人为什么愿意跟随他时,他认为这是一群有信仰的人的相聚。宋亚宸认为自己最擅长的两件事就是:将自己的想法装进别人的脑袋,把别人的钱装进自己的口袋。

宋亚宸

这是奥里森·马登的著作《这一生,为自己而活》的思想,里面说:“世界上最难的事有两件,一是把自己的思想装进别人的脑袋,二是把别人的钱装进自己的口袋。”在这本书中,马登探讨了成功与影响力的本质,指出将个人的理念植入他人思维,并在过程中获得认同,是一种高度成功的表现。

以下是AI科技评论跟宋亚宸的对话。


1

一个神学爱好者加入一家AI公司

AI科技评论:听说您对神学很感兴趣?

宋亚宸:从小就是,回家坐禅,背经文。也对历史很感兴趣,从小收集古币,小时候觉得背道德经、金刚经挺好玩的。我高中是一个教会学校,很喜欢跟大家去辩论。

AI科技评论:所以在约翰霍普金斯念的神学?

宋亚宸:高中很想报神学,30 所学校里20 所报了神学,但是约翰霍普金斯没有神学,最后选择了发展中国家经济和中东政治,在以色列待了一年,学的是希伯来语与阿拉伯语。

AI科技评论:研究神学给您带来什么样的影响?

宋亚宸:让我成为一个有信仰的人。但这种信仰跟宗教无关。我很喜欢《源泉》这本书,里面的主角天才建筑师霍华德·洛克,他坚持自己的原创和风格,拒绝妥协和迎合,虽然周围的人都看不起他,但他坚信自己会造出最牛的建筑,其他声音他都不在意。我很喜欢这样的人,做事很纯粹,我认为这是有信仰的人。AI科技评论:现在AI圈很多人都有信仰吧,例如信仰AGI?宋亚宸:信仰一定是触及到非常本质的东西,例如世界是怎样诞生的,谁创造了这个世界,这个世界上为什么有苦难,人为什么会活着,这些问题才是信仰真正要去解决的问题,如果一个人相信一个技术能改变世界,这是另外一回事,是技术信仰。AI科技评论:您在商汤主要做什么?宋亚宸:我在美国待了八年,还没毕业就加入商汤CEO办公室,2019年开始做AI加动画,那时动画是一个劳动密集型产业,是工厂流水线的形态,并不是我们想象中的创业行业。所以那时AI可以用到动画游戏行业中,将从业者从繁重的工作中解放出来,AI更多用到创意上,但是现实很骨感,AI进步的没那么快,那时做了很多事情,也没有很深入。AI科技评论:19 年主要是CV技术,您主要做哪部分工作呢?宋亚宸:19年那时CV技术已经很成熟了,给AI在动画领域落地提供了一定的基础条件。我主要是把商汤现有的技术包装成解决方案,卖给一些动画公司,但是中国的动画公司比较穷困,跟商汤数亿的单子比起来这不是一个赚钱的生意。当时也觉得toc很有意思,就找了一些供应商合作,做了几个百万粉丝的动画IP。因此商汤内部也正式成立了一个动画团队,专门去制作动画。

20年开始做AI加游戏,这对我今后的成长是一个很大的转折点,因为我很喜欢打游戏、看动画、看番、小说,很爱玩,但我不认为自己是标准的二次元,就跟我喜欢研究神学,但我不信教一样。

那时可以做一些大单子,因为游戏公司本身有钱,很多上市公司对股价很敏感,那时候去做AI就对股价有比较好的提升,所以当时是AI加游戏的好时代,也出了很多AI 跟游戏结合的公司,最重要的是20年下半年原神出来了。

原神出来后,大家都觉得米哈游的成功是因为其技术有壁垒,而不只是画风或者审美的优势,所以大家就开始卷技术,那时AI加游戏就可以卖比较多,赚了不少钱,商汤也是在20年年底成立了AI游戏事业部。从一个人变成了一个事业部。

AI科技评论:您是事业部的负责人?

宋亚宸:AI 游戏事业部是闫俊杰兼任负责人,负责技术,我负责其他杂七杂八的东西。21年从商汤离开,参与创办MiniMax,负责MiniMax对外的事情,业务生态、数据算力这些。

AI科技评论:第一份正式的工作就是在商汤,三年里您从商汤学到了什么?宋亚宸:我一开始做战略,做战略的思维跟我过去在学校的学习很不一样。在学校学习中东政治和宗教理解了如何拥抱世界的复杂性,研究这个世界上非常复杂的东西,例如一个人群,那么描述一个人的tag就有好多个,教育背景,宗教背景,历史、民族、语言……以前就是去学习世界的复杂性,独特性,以及身上不同的tag对一个人的影响。

但是在做战略的时候,其实要反过来,Deductive(演绎的,从一般到个体)、Inductive(归纳的,从个体到一般)这俩是相反的,尽快看清事物的本质,要怎么去做决策。

比如自动驾驶这件事要怎么做,遇到这个问题要怎么看清事物的本质:来画一个坐标轴,有4个象限,y轴上面是高速,下面是慢速,x轴左边是密集人群,右边是无人,就会发现,高速无人就是高速公路,低速无人就是例如AGV(自动导向车),低速人很多就是园区、景区,可以划分出了这样一个图。那么在每一个区域其实都有不同的自动驾驶公司在做,就能把市场进行划分,我要怎么进入到这个市场,战略是什么,就得不停地去看清事物的本质。

AI科技评论:做战略就是要能快速去弄懂一件事情的本质,能快速地总结和抽象。宋亚宸:是的,学到的第二件事就是人在做有趣的和自己喜欢的事情上,本身就是有优势的,在任何地方花的时间将会成为你和别人最深的鸿沟。

例如我从小喜欢打游戏,爸妈不让,就偷着玩,内心玩得很不开心,因为每次玩游戏收到的都是批评和阻碍。而现在已经自洽了,打游戏积累的经验已经成为我的核心竞争力。

比如同是创业者,其他人没打过游戏,我打过游戏,进入游戏行业就顺理成章的,但是对于一个不打游戏的人,是无所适从的,即便他读10篇研报、听20个专家访谈,跟50个制作人交流……也很难把对游戏行业的认知补上,时间就成了最深的鸿沟。去研究一个游戏产品和内容,我也当然更犀利。

人要坦然面对自己不擅长的事情,尽可能多做自己擅长的事情。

AI科技评论:现在做CEO擅长吗?宋亚宸:最初不太擅长。我在商汤早期时很不擅长reading and writing,就去补,很痛苦,觉得太难了,更喜欢通过听和说去交流、去获取知识。后来就跟自己和解了,那我就去做性格擅长的比如销售、项目管理,现在创业这就成为我的核心竞争力,招人、搭建团队、管理、融资、业务。AI科技评论:如何成为核心竞争力呢?宋亚宸:换句话,创业团队非常重要,那么我的核心竞争力就是擅长把自己的想法放到别人脑袋里,让优秀的人为我所用。


2

要做「轻内容强交互」的 3D抖音平台

AI科技评论:离开 MiniMax是为了创业?MiniMax也做过3D人形,后来放弃了,您为什么选择出来继续做 3D?宋亚宸:22 年底谷歌发布了文生3D的技术DreamFusion,这是大的转折点,终于看到3D内容制作的成本和门槛接近零,虽然效果很差,但这是一个大变革。而 MiniMax那时候作为创业公司得聚焦,这也是它的优势,不准备做3D大模型。所以我就有了出来创业的想法。

AI科技评论:在MiniMax也可以继续做 3D啊。

宋亚宸:创业意味着拥有足够多的话语权。

AI科技评论:为什么这么说?宋亚宸:我认为一个人的初心很重要,我不是一个能跟自己别扭着过下去的人。很多人创业的初心是不一样的,例如有些教授创业可能要担心影响评院士;有些高管年纪大了,要做下社会影响力变现;还有人是一群兄弟跟着他没赚到钱,创业带他们赚点钱。

但是对我来说创业其实很简单,就是为了去把一件事情做成,实在不行可以赔钱做,比如说这家公司要是没有钱了,我可以哪怕借钱继续做这个事,实在不行了这家公司倒闭了,又开下一家公司,继续做这个事。做成这件事才是关键,创业只是一个方式。

我本来不想创业,如果MiniMax能让我在那做3D也行。

AI科技评论:离开时正好是ChatGPT出来,为什么没有选择大语言模型,可以融更多钱。

宋亚宸:我不喜欢,我不觉得这东西有什么好玩的。我喜欢游戏,我喜欢动画,我喜欢 3D 的虚拟世界,我相信未来会有 3D 的「抖音」。

AI科技评论:什么时候开始相信 3D有前景?

宋亚宸:一直都相信 3D有很大的前景,但是不知道怎样的路径,不知道怎么做成。之前在商汤还说过要做 3D 的横店、做 3D 迪士尼,为此画过各种各样的PPT,当时还有人说我是别人是先看见再相信,我是先相信再看见,还是拿着望远镜。

所以我是一直想做 3D这件事,但是一直没找到合适的路径,没有找到答案,直到谷歌的那篇论文发布。

AI科技评论:为什么会有一个 3D的「抖音」呢?

宋亚宸:文字、图片、视频、音乐这些信息载体都有自己的内容平台,3D 是唯一一个没有自己的 UGC 内容平台的一个信息载体,每一个内容平台的商业化都是经过无数次验证是赚钱的,例如小红书、抖音、快手、 TikTok 、微博都是通过做内容平台做起来。

AI科技评论:能做多大?

宋亚宸:如果要做一个3D的内容平台,商业化前景很广,很有可能做出来一个千亿美金,甚至万亿美金的公司。

AI科技评论:看起来现在还不能做成一个 3D「抖音」平台,有什么样的前提条件呢?

宋亚宸:会发现所有的内容平台,都发生在大众级别的创作工具出现之后,但大众级别的创作工具出现并不一定意味着新的内容平台出现。

AI科技评论:怎么定义大众级别的创作工具?

宋亚宸:比如说打字法,比如说手机摄像头,它都有三个特征:第一,创作的门槛为零,第二,创作的成本为零,它的 fix cost(固定成本) 和 variable cost (可变成本)都几乎等于零,第三,它一定是实时的创作。打个字,这个字就出现了,拍了张照,这个照片就立马出现了。

但是在3D大模型出来之前,这三点都达不到。创作门槛、成本、时间极高。所以说 3D 一直没办法出现它的内容平台。

3D 大模型就具备这三个特征:第一,创作门槛几乎为零,因为只用文字或图片就能生成一个 3D模型,第二,创作的成本几乎为零,单3D模型的推理成本几乎等于零,第三,几乎是实时生成,就只要几秒钟就可以生成一个3D 模型。

AI科技评论:大众级别的创作工具会往什么方向演进?

宋亚宸:不断往提升创作效果演进,比如手机摄像头它刚出来的时候是180P(指像素),后来有360P、720P、1080P、4K,8K,3D模型的生成效果也可以对应到,Tripo1.0 应该有360P,Tripo2.0 应该有 720P,我们认为明年有机会达到 1080P甚至 4K。

AI科技评论:3D生成模型的成本属于低的?跟大语言模型和多模态生成不一样么?

宋亚宸:3D生成时可以跑在一个非常差的卡上,而且生成只要几秒钟,算一下一个 3D模型的生成成本是很低的。

AI科技评论:听起来会有一个3D「抖音」平台的逻辑是通的,但是这个内容平台具体是怎样的呢?

宋亚宸:在消费端VAST想要提供「轻内容的强交互」,例如 1-2 分钟的“游戏”体验,觉得没意思,推荐算法再推给一个新的 1-2 分钟的“游戏”体验,就像抖音的 feed 流。

这个平台上就是一群想要消费重交互轻内容的人,背后是一群ROI算得正的 3D创作者去提供内容。里面还会出现经济体系,例如开始卖游戏资产,卖皮肤,但是我们认为在大家都不花钱的情况下这个平台就可以赚钱了,这是我们长期认为会发生的事情。

AI科技评论:什么是「轻内容的强交互」?

宋亚宸:在消费端,有需求很重要。可以画四个象限,就像无人驾驶一样,x 轴其实非常简单,就是它是重内容还是轻内容?什么叫重内容呢?就是要花 5 个小时、20个小时去玩的东西,比如说黑神话悟空。什么叫轻内容呢?短视频,这很好理解。y轴就是强交互和弱交互,强交互是什么呢?比如说原神。电影就是弱交互,没办法去改变什么,就只能看。

重的两端都有人做了,重内容的强交互是黑神话悟空,就是所谓的游戏。重内容的弱交互是谁?电影。轻内容的弱交互是谁?短视频。而轻内容的强交互是空白的。

AI科技评论:轻内容的强交互,能举个例子吗?

宋亚宸:有一个趋势,我们发现游戏越来越短了,比如去年年中的时候,短时间内出过一个全中国畅销排行榜第一名的游戏,叫做全明星街篮派对,原来打一盘篮球的时间大概是在一个小时不到,现在打一盘篮球时间在 2 分钟。就 11 分,谁拿 11 分谁就赢,11 分什么概念?四个三分球就赢了,而且带各种技能。所以一两分钟玩一盘游戏,这就是所谓的轻内容的强交互。

这跟黑神话是完全不一样的东西了,但是他们又不属于3D内容平台的新范式,因为它还是很重复的,就一分钟两分钟打一盘篮球,如果没有 feed 流推荐新游戏,天天打的话就很无聊。

AI科技评论:所以未来这个平台上 3D的内容都是游戏?

宋亚宸:把所有出现了 3D的娱乐项目都叫做游戏,在全世界有近三千亿美金的市场,未来我们会把现在所有游戏都归在 3D内容的一个子类里,就跟现在的短剧一样只是视频的一小部分。

AI科技评论:3D和其他信息载体的区别?

宋亚宸:文字、图片、视频、声音、音乐各种各样的信息载体,当我们把它作为内容来去呈现的时候,其实都是用 empathy 去体验内容,什么empathy?就是移情。比如你在读金庸的小说的时候,你带入的是张无忌,看吃播的时候,带入的是吃东西的人,会用对方的视角去看世界,是没办法跟这个世界产生实际的交互,是他带着你去跟这个世界进行交互的,所以叫移情。

另外一种消费内容的方式,我们把它叫做agency,就是你是有自主意识的消费者,比如,你在所有的 3D 的内容里面,你其实代入是你自己,哪怕你在玩王者荣耀,你玩后羿不会觉得自己就是后羿,而是自己完成了杀敌、推塔等游戏体验。

玩黑神话悟空的时候,其实也想你带入自己,但是它有一个问题,黑神话悟空是个太硬核的 3A游戏,有点像极致的第九艺术,导致它有点像电影,跟视频比较接近,每次打完一关,给你看段剧情视频,比如说玩黑神话只能按照它的剧情来,自由度比较差。

所以3D其实是一个讲究agency,自由度的东西,自由度越高你的体验越好。最本质的的区别就是这个地方用的empathy,那个地方体验的是agency,但有些东西比较模糊,两者都有,比如说有什么交互电影。

元宇宙这个词等于无限自由度,之前的元宇宙都有一个问题,虽然有很强的自由度,但没有足够多的 3D内容做填充,所以导致它的自由度是伪自由度。

最极致的 3D内容体验,一定来自最极致的 3D内容供给,而 3D 内容供给它一定来自 AI 生成的,肯定不是人工能搞出来的。


3

新的内容平台一定是新玩家做出来的

AI科技评论:Tripo现在能做哪些事情?

宋亚宸:包括静态3D模型的生成、骨骼自动绑定、动作生成、3D风格化,及各种格式的导出和转换,都可以在tripo3d.ai中体验。

AI科技评论:Tripo模型现在发展到什么阶段?

宋亚宸:Tripo1.0类似于Midjourney V2,或者说 Tripo1.3 类似于Midjourney的V3,类似于GPT-3,Tripo2.0 类似于 Midjourney V4、ChatGPT。

AI科技评论:Tripo现在有多少用户?

宋亚宸:社区有接近三四十万专业开发者,主要是海外,国内没怎么做,海外付费能力强,大概有1- 2 万多个中小客户的API调用。

AI科技评论:如何去做用户增长?

宋亚宸:我们不做用户增长,让其自然增长,没花过一分钱买过量。更多的增长是来自于社区,我们培养了一些 KOC、KOL,大家会在社交媒体等平台去展示自己的一些作品和showcase,其实会吸引到很多用户来。然后这些新的创作者加入后,他们又能成为新的KOC、KOL。

AI科技评论:怎样吸引到现在的核心团队成员加入?

宋亚宸:不是因为我有多强,而是一群有信仰的人汇聚到了一起。在AI 大航海时代真正相信One Piece(海贼王中的“大秘宝”,最终的宝藏)的人太少,简单点说就是有信仰的人太少了。即纯粹地相信一件事,并觉得这件事做成会很牛,愿意 all in。真正愿意这么做的人很少。我们就是这样的一群人。

AI科技评论:商业模式是什么?

宋亚宸:现在技术还在往前发展,商业模式还在探索中,不过我们未来一定会专注于ToC,目前也做ToB,Tripo Web工具是我们的一大亮点,它通过会员订阅和API接口为个人和企业提供服务。3D艺术家、游戏建模师、独立开发者等个人用户可以通过订阅获得强大的建模工具。对于企业客户,我们不仅提供API接口,还提供定制化的专业解决方案。

AI科技评论:现在关注收入吗?

宋亚宸:现在更希望去聚集更多的创作者,并在 3D的落地场景里去打的更深,然后去和这些行业去做结合的解决方案,和这些行业去更给他们创造有价值的、完整的、可用的 3D 模型。这是我们最重要的事情。本身市占率有百分之七八十。

AI科技评论:主要的应用场景有哪些?

宋亚宸:主要有四大类的应用场景,第一类是传统的 CG 行业,比如说游戏、动画、影视、虚拟制作,第二大类就传统的工业,工业设计,鞋服、家居首饰、玩具、食品、香薰、蜡烛、灯具、文创等,核心就是做柔性的定制化生产。第三大类就是所谓的新兴行业,就比如说元宇宙,比如说XR、MR,比如说具身智能里面的仿真模拟,比如说数字孪生,再比如说数字人;那第四大类我们把它叫做传统的互联网行业,比如说社交、直播、电商、教育等等。

AI科技评论:如何跟大厂竞争?

宋亚宸:大厂是最穷的,就比如说我们做 3D,大厂的算力、人才、预算、数据在 3D 上面肯定是没有我们多的,预算肯定是没有那么多的,那为什么我们打不过他们?

AI科技评论:比如在大语言模型,刚开始一些创业公司,智谱、百川这拥有先发优势,但是下半场像字节、快手现在都追上来了。

宋亚宸:两个方面来说,没有哪一个新的内容范式的内容平台是过去的大厂做的,抖音、小红书、Snapchat都不是,新的内容平台不是老玩家做出来的,一定是新玩家。

短期来说,创业公司更聚焦,而且创业公司做大语言模型,有点像跟谷歌比搜索,但是3D大模型是另外一回事。

AI科技评论:您有偶像吗?

宋亚宸:毛泽东,当年毛泽东能把那么多优秀的人(各种条件的)集中到井冈山,在那么一个生活条件很差的地方,只是因为这些人真正相信他们在做的事情,就是要解放中国。

AI科技评论:在技术发展史中,每一个新技术都是欧美国家走在前面,特别是像现在的AI大模型,中国可能一直都是 Copy to China,那么在 3D这块,我们领先了,您觉得我们的竞争优势是什么?会不会被赶超?

宋亚宸:其实我们看文字、图片、视频、声音和音乐这些内容的生成,每一个领域,文字会想到ChatGPT,视频生成会想到 Runway,Sora,音乐想到 Suno,没有一家中国公司,但是 3D现在VAST是全球第一,对比之下Tripo的模型生成效果确实是最好的。3D 是一件非常新的事情,这个领域的核心论文都是中国人和华人,所以这个行业里反而是中国人占主导地位,在3D大模型这个领域,全世界最领先的是一家中国团队和中国的学术界。「雷峰网」「雷峰网」



]]>
人工智能 //m.drvow.com/category/ai/Zz7Dq53WU1FnCVsD.html#comments Thu, 31 Oct 2024 11:26:00 +0800
实时音视频领域拓荒者的十年 //m.drvow.com/category/ai/D8iFNlr0tLknmdBx.html 2015 年,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC(实时视音频)大会。在大会开始的前夕,现任声网市场VP、RTC大会主策人彭小欢失眠了,她非常担心明天会不会有人来。

一晃十年过去了,当年的RTC大会早已升级为RTE(实时互联网)大会, 10 月 25 日RTE 2024也如期而至,但早已不用担心是否有人光顾,现场可谓是座无虚席。

图:RTE2024开幕当天的现场

国内大模型领域的「大模型六虎」,其中的智谱、MiniMax、零一万物团队都出现在2024年RTE大会上,在ChatGPT发布后的近两年时间里,智谱和MiniMax分别在 tob和 toc两条路线上越走越深,有许多心得可以分享,通义千问团队也带着国内最大开发者生态的经验在RTE大会上加入讨论。

此次RTE大会也不乏AI大牛创业者的身影,例如全球最受瞩目的AI科学家之一,一年前从阿里巴巴离职、躬身入局大模型Infra的贾扬清也出现在RTE大会的主论坛上,分享了他在AI Infra领域创业 18个月后的经验心得以及对RTE+AI的趋势判断。

除此,谷歌、蚂蚁、面壁智能、生数科技、商汤、旷视、WPS、Soul等也在大会上分享了团队过去一年里在ChatGPT时代的AI探索。

今年的RTE大会,可谓是大咖云集,AI 内容拉满。

迄今,RTE大会已经是第十届,十年如一日地每年坚持举办,从未间隔。恰逢GenAI爆发,声网深耕的RTC(实时音视频)技术,让人与AI的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点——多模态。

而今年的RTE大会便提供了一个交流平台,凭借在业界的影响力,吸引各行各业专家参与,使得业内一起共同探索RTE+AI的未来潜力,这也将给RTE和声网带来更多机遇与挑战。

当年,声网CEO赵斌期待“通过RTC这样的大会让开发者使用实时音视频功能像使用水一样简单”,十年后,实时音视频功能成功在各行各业应用,丝滑地融入大众的工作生活中。在此十年之期,也是声网创办的十周年,RTE开始与GenAI结合。

走到今天,一切都源于RTE大会以及背后的声网公司十年前的那份坚持与初心。


1

拓荒到蓬勃:技术布道者到行业风向标

今天,实时音视频(RTC)互动技术已经成为一项基础设施,在我们的日常生活中无处不在。

视频会议、在线课堂、社交平台直播连线PK等众多场景都有实时音视频的支撑,才有了低延迟、低卡顿、高清晰度、沉浸式的互动体验。

十年前,国内实时音视频还是一片荒原,声网看到机会,率先推出RTC PaaS服务以此来打开市场。实时音视频技术门槛较高,仅有WebRTC,开发者依然很难上手实践,而在RTC PaaS模式下,开发者只需调用简单的API接口就能实现实时音视频互动,极大地降低了开发者的门槛和成本。

彼时恰逢移动互联网全面爆发,整个行业生机勃勃,实时音视频也开始寻找落地的契机。

成立后的第二年,声网创始人赵斌意识到实时音视频将是互联网企业必须的工具和功能,声网作为在这片荒原上第一个挥锄头开荒的人,必须担负起技术布道者的责任。

所以在 2015 年,为了让实时音视频行业拥有一个能进行技术交流、行业趋势探讨的机会,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC大会,这也是一个为开发者而生的纯行业技术峰会。

第一届RTC大会议程安排上仅由一个主会场、一个分论坛,以及一个 workshop 组成,就吸引了 700 多名观众参与。之后,声网与参会者约定——一年一会,万象更新。

在第一届WebRTC大会上,W3CWebRTC标准中Media Capture和Streams Specifications核心部分的合编者——“WebRTC标准之父”Dan Burnett出席现场会议,并与伊利诺伊理工学院客座教授Alan Johnston一起,为开发者们进行了约8个小时的培训课程,对于开发者来说,在当时RTC专业知识极度匮乏的年代,犹如久旱逢甘霖。

2015 年的RTC大会打破了RTC技术布道在国内「三无」状态:无行业会议、无专业书籍、无专业媒体及社区。而在RTE 大会迈入第10年之际,声网也于今年8月正式出版行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》,持续为科普实时互动添砖加瓦。

十年过去了,今天RTE大会已经成为业内当之无愧的“全球规模最大音视频行业峰会”,大会规模扩张到 20 多个论坛,观众数上限一度达到六七千人。

据声网官方统计,这些年间,大会累计影响了 200 多万开发者,覆盖 300 多个行业场景,吸引 2000 多名专家讲师参与分享,成绩斐然。这期间,RTE大会似乎每年都能“押题”成功,成为行业的风向标。

2015 年,在第一届RTC大会上,声网提出“直播连麦”将成为主流玩法,第二年,连麦互动便成为直播风口。

2016 年,声网认为在线教育将成为新风口,第二年,在线教育迎来爆发式增长。

……

2023 年,大会主题是智能、高清,再一次成功预判了未来趋势,24 年年初多模态爆发,Sora、GPT-4o引爆舆论,多模态成为各大模型玩家最重要的发力方向。

当AI成为科技界的主流,RTE第十届便是以“AI 爱”为主题,推出了覆盖AI、出海、Voice AI等 20+行业及技术分论坛。

在此次大会上,声网CEO赵斌认为生成式AI正在驱动IT行业发生大变革,主要体现在四个层面:终端、软件、云和人机界面,其中AI Native Cloud将成为主流。

Lepton AI 创始人兼 CEO 贾扬清也认为继 Web 云、数据云之后,AI 是云的第三次浪潮。在 AI 云的形态下,实时的交流和智能的结合在用户体验环节非常重要,可以说实时将直接与生产力划上等号。

作为此次大会的主论坛演讲嘉宾,贾扬清分别从 AI 应用、云、GPU 算力云技术以及企业大模型自主性等层面带来了他对 AI 基础设施进化的解读。他认为,今天是最容易建设AI应用的时代,越是简洁的AI模型思路越容易产生优秀的效果。

本次大会持续了两天,大会上的分享嘉宾集结了当下AI届的名流,包括「大模型六虎」中的智谱、MiniMax、零一万物,还有谷歌、WPS、Soul这些在AI应用落地探索走在前列的企业。他们结合自身业务,分享了过去两年里在AI、大模型方向的探索,这将是给与业界的一笔宝贵经验。

本次大会不仅囊括了RTE+AI发展的前沿技术分享,还将关注点放在了当下大家最关心的AI落地问题上。

大会最精彩的一部分便集中在在圆桌讨论环节,就AI的 6000 亿美金难题,Lepton AI 创始人兼 CEO 贾扬清、MiniMax 合伙人魏伟、面壁智能联合创始人&CTO 曾国洋、Hugging Face 工程师王铁震、Agora 联合创始人 Tony Wang 五位嘉宾一起探讨了从 AI 基础设施到 AI 商业化落地的机会与挑战。

贾扬清认为基于开源架构的应用会越来越普遍;王铁震呼吁大家不仅要关注开源模型本身,还要重视开源模型的基础设施和数据闭环;魏伟则阐释了在产品和用户服务过程中,文本、语音、音乐、视频这些模型可以很好地帮助艺术、影视、音乐等领域的创作者提高效率,并提出新思路;曾国洋认为未来算力一定会越来越便宜,算力成本优化最终会转化为训练更强大的模型。

在大会上,声网发布了他们的RTE+AI能力全景图,在全景图中,声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度,清晰呈现了当下 RTE 与 AI 相结合的技术能力与应用方案。

正如CEO赵斌所说,生成式AI与RTE结合带来的场景创新,将成为下一个十年的主题。


2

新机遇:

实时多模态是通向AGI的必由之路

今年 5 月,GPT-4o一经发布便再次引起业内热议,其展示出的实时语音交互能力让人印象深刻,开创了AI实时语音交互的先河。

在发布会上,GPT-4o展示了大幅降低的语言延迟,平均 320 毫秒的反应时间,让AI与人类的对话第一次接近人类真实对话的反应速率。

实时的交流和智能的能力是人机结合的重中之重,正如贾扬清在RTE大会上所说,实时可以跟生产力划等号。

但要达到人类可接受范围内的「实时」,端到端实时多模态的崛起只是近来取得技术突破的一条明显,它从思考速度上缩短了语音的交互实践,而另一条暗线则是 RTC(实时音视频,Real-Time Communications)技术的进步。

而GPT-4o正是在采用RTC方案后,便展现出了自然、流畅的低延时语音交互体验。而且在实际应用中,用户的设备很多时候不能始终联网,所以无论多强大的模型都要依靠RTC技术来实现实时对话。

因此,RTC是将多模态大模型跟实时互动场景连接起来的关键技术桥梁。

声网CEO赵斌称,生成式AI有一个大的、清晰的方向就是向多模态清晰深度进化,除了提供GPT-4o发布会上令人惊艳的情感拟人对话之外,更重要的是打开大模型进一步智能进化的数据需求。

目前文字训练数据基本上已经被充分利用,语言本身是一种声音化的文字,能够提供的信息和数据的空间将会被放大很多倍,并且超过文字,自然环境的声音和视觉数据的获取、运用,将给大模型提供几乎无限的数据空间。因此多模态成为当下的重要发展方向。

在推进多模态清晰深度进化上,声网通过过去和多个行业伙伴打磨、对接、深度实验、测试、评估,发现多模态对话体验存在两个关键侧面:(1)声音体验包括延迟、语气、情感、情绪、口音,这些都是人与大模型进行人机对话时体验的关键角度。(2) 人与大模型支持的 agent 对话时的互动体验中,最核心的就是「打断行为」,如果在对话中打断不自然,出现抢话、不知道如何顺利开展下一段讨论等行为,也会对人机交互的效果产生影响。

而这些要通过对现有的RTE技术栈等基础设施进行改进,大模型才有机会大规模参与到与人的各种对话,在各种场景、形态、模型下开展直接语音对话。未来RTE基础设施将会成为多模态大模型AI Infra的关键部分。(注:RTE在提供RTC音视频服务的基础上进一步提供了更加丰富和灵活的实时互动能力,让开发者可以根据不同的场景需求,自由地选择和组合各种实时互动能力,打造出更加个性化和差异化的实时互动体验)。

赵斌认为只有把RTE技术运用地足够好,部署到全球各个云和边缘节点,大模型的多模态能力才能普遍地、高质量地走进各种实时互动场景。

而在这场多模态带来的实时对话式AI的竞争中,由于RTE技术门槛较高,那么接下来,只有拥有核心技术和具备行业解决方案能力的实时音视频厂商才能接住大模型带来的这波新机遇。

在国内市场,声网不仅是头部玩家,还是实时音视频领域的拓荒者,深深扎根行业已达十年。

10 月初 OpenAI 发布了实时API公测版,瞄准了GPT-4o语音到语音的AI应用和智能体,还公布了三家语音API合作者的身份:LiveKit、Twilio,以及 Agora。

其中,Agora的兄弟公司便是声网,从底层的RTC等音视频能力来看,两个兄弟公司都有一致且深厚的技术积累。

相较于市面上大部分 2-3 秒的AI互动延迟实践,声网的对话式AI解决方案将对话响应延时优化至500毫秒,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入&输出,通过丰富的功能构建真实、自然的 AI 语音交互体验。

而声网RTE技术在AI上的探索,并不是追风口的一时兴起,早在四年前,transformer 在学术界崭露头角不久,声网是业内首家开始把AI技术引入RTE技术栈的公司,用于改善音视频传输保障。

不仅如此,紧跟兄弟公司Agora的步伐,声网跟 MiniMax 正在打磨国内第一个Realtime API。声网CEO赵斌在RTE2024上展示了声网基于 MiniMax Realtime API打造的人工智能体。在演示视频中,人与智能体能轻松流畅地进行实时语音对话,即便人打断提问、进行新的提问,智能体也能像人一样反应灵敏。

可以预见的是,AI跟RTE结合,正给人机交互带来诸多可能,纯文字互动的大模型无法实现AGI,RTC加持下的实时多模态将是必由之路。「雷峰网消息」








]]>
人工智能 //m.drvow.com/category/ai/D8iFNlr0tLknmdBx.html#comments Thu, 31 Oct 2024 10:31:00 +0800
CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡 //m.drvow.com/category/ai/whoq2ta3XsBVKxHF.html 今年到 CNCC 现场参会的朋友,想必都对 CNCC 2024 举办所在地——超过 6200 亩的横店圆明新园印象深刻!

虽然园内建筑身临其境,并且薅了主办方一把羊毛,免门票游览了圆明新园与横店多个著名旅游景点,但园子实在是太大了。参会人数超过 1 万 2,园内车辆、美食供不应求,小编表示腿已经走断。

也是急中生智,我们想到:是否能用 AI 帮我们在横店点一杯咖啡?

结果,智谱真的做到了!

在今年的 CNCC 上,智谱发布了一个新功能:自主智能体 AutoGLM,智谱将其称为是一个可模拟用户点击屏幕的手机操作助手,以及点击网页的浏览器助手。

我们现场实测,整体操作非常丝滑:可以通过一句话下达任务指令,AI根据我的指令,打开了美团,按照我的要求点了咖啡,过程中除了付款环节不需要人的任何参与。

智谱这次发布的 GLM-4-Voice 情感语音模型「活人感」简直溢出屏幕,不仅能「呼吸」,撒娇也信手拈来,时不时有种「 AI 林志玲」的哎呀调调,话语间自带波浪号「哎~呀~」……

并且,我们真的成功在 CNCC 会场喝上了AI点的咖啡!

目前 Web 能力已经通过「智谱清言」插件对外公开使用,不过手机端仅开放了安卓用户体验:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

从文本到文生图、文生视频,再到语音,事实上智谱本次的新技术成果发布反映了在通往 AGI 追梦之路上的重新思考。

在 CNCC 大会第二天上午的主题圆桌论坛中,香港大学马毅教授提到,人类智能在大自然的进化过程中有两个「原生大模型」,一个是 DNA,另一个是语言;而之所以称这两个特征为大模型,是因为其本质上都具备自我学习的能力。 

尽管今年的大模型已经发展到了一个新高度(如 o1 的复杂推理),但现在大模型知识丰富、智能不足的短板仍是行业共识。如圆桌论坛中唐杰所言,我们距离 AGI 的实现还很遥远,这中间的研究趋势至少包含三步:多模态、推理与自我学习。

在 AI 能够自我推理、自我学习之前,多模态是必须跨过的一步,因为人类的智能学习规律就是文本、图像、语音乃至触觉、嗅觉等更多五官共同学习、相辅相成。

 

(智谱发了一个AGI进程图)

而 AutoGLM,其实是智谱在工具能力上的新研究,也是智谱所思考的 AGI 实现路径之一。

 

「活人感」满满的 AI 助手

在进一步分析理解智谱的 AGI 技术路径之前,我们先来看一下智谱在语音模态上所取得的最新突破——

当前,智谱清言情感语音助手在响应和打断速度、情绪感知、情感共鸣、语音可控表达、多语言多方言等方面均实现了突破。

AI 科技评论对于这一系列功能革新进行了一番实测:

首先,我们给小智进行了一个比较常规的英语陪练测试,在纠正发音方面她确实表现良好,甚至日语练习的切换也相当丝滑。

随之,听说「小智」还精通北京腔、台湾腔、东北腔和粤语,作为广东人,可不能放过这个为难她的机会,于是,我们测试了「各个国家有各个国家的国歌」这段入门级粤语绕口令。 

实测发现,小智的粤语发音其实不算非常地道,甚至有一股泰国味。不过,在这之中,值得表扬得是,她能在领悟到我们的诉求是需要粤语回答时,自动将「旁白」部分也切换为粤语。 

之后,她又加赠了一段「吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮」的粤语绕口令展示,还想让我们也试试看。

而面对我们刻意为难提出的「加快语速」要求,小智也一宠到底,随着倍速居然能明显体会到她的情绪愈发激动,甚至伴随有呼吸声。

整体上看来,可谓是「活人感」十足。

同时,本届 CNCC 落地横店也给了小智些许施展拳脚的机会,我们带着小智一同游览了知名景点「秦王宫」,并让她化身李白澎湃激昂作诗一首。

小智写的诗是这样的:

「秦王宫中念群臣,壮志凌云绘风云。金戈铁马尽奔腾,万古英雄气不容。」

还挺有鼻子有眼的。

之后我们也尝试上了难度,想要前述古诗的东北腔读法,不过,小智貌似没有完全理会,她「哎呀妈呀」一声张口就来,随性发挥了一篇东北腔版秦王宫夸夸小作文。

小智还时常戏瘾大作,我们也让她即兴给我们讲了一段鬼故事,并模仿了故事中的女鬼笑声:

读到这里,小智所呈现的形象可能带有一丝幽默,甚至有些调皮。但值得关注的是,她其实也能给出非常多建设性的建议,并且在安慰人这方面也很走心。

我们扮演了一个疲惫打工人的角色和她半夜诉苦,小智也给足了情绪价值,甚至能代入闺蜜视角给到积极正向的安慰。

实际上,在对话开头,我们还告诉小智,在下班路上因为看到了彩虹而感到开心。

她不仅共情,还把这个内容默默记下了,下轮对话开启时,其第一句招呼语便是「希望彩虹带来的好心情能持续陪伴你,工作再忙也要记得照顾自己的情绪哟!」

这种每次开启新一轮对话时 Call Back 的细节处理,确实让人眼前一亮。

不过,我们也找到了 AI 无法替代人类智慧的证明,我们尝试和小智玩海龟汤游戏,汤面是「妈妈买回来一个大西瓜,我吃了,第二天我死了。」 

小智推理出的答案是,西瓜可能有致命的细菌或者农药残留,不能否认其中有一定道理,但之后她似乎开始逐渐忘记海龟汤的游戏规则,居然反问我们还有什么具体细节,这个测试到此戛然而止。

 

「人情味」背后的技术支撑

据智谱在 CNCC 现场的发布介绍,AutoGLM 是基于智谱 GLM 大模型家族的新成员——GLM-4-Voice 情感语音模型。

熟悉智谱的朋友知道,今年初智谱推出第四代基座大模型 GLM-4 后,在 8 月的 KDD 2024 上又快速迭代升级了基座大模型 GLM-4-Plus,至此,大模型开始有了「眼睛」和「嘴巴」。

在语音上,8 月的智谱清言就已经可以实时视频通话。但 CNCC 发布的新成果 GLM-4-Voice 无论在底层技术还是语音输出效果上都更上一层楼。

作为端到端的语音模型,GLM-4-Voice 避免了传统的 「语音转文字再转语音」 级联方案过程中带来的信息损失和误差积累,拥有理论上更高的建模上限。

与传统的 ASR + LLM + TTS 的级联方案相比,端到端模型以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成。

具体来看,智谱基于语音识别(ASR)模型以有监督方式训练了音频 Tokenizer,能够在 12.5Hz(12.5 个音频 token)单码表的超低码率下准确保留语义信息,并包含语速,情感等副语言信息。

语音合成方面,则采用了 Flow Matching 模型流式从音频 token 合成音频,最低只需要 10 个 token 合成语音,最大限度降低对话延迟。 

 

而在预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,智谱将 Speech2Speech 任务解耦合为 Speech2Text(根据用户音频做出文本回复) 和 Text2Speech(根据文本回复和用户语音合成回复语音)两个任务,并设计两种预训练目标适配这两种任务形式:

 

图|GLM-4-Voice 预训练数据构造 

能实现富有情感的对话背后,也离不开  GLM-4-9B 在深入对话理解上的支持。

智谱 GLM-4-9B  模型的上下文从  128K  扩展到了 1M tokens,使得模型能同时处理 200 万字的输入,大概相当于  2  本红楼梦或者  125  篇论文的长度。

此次新发布的 GLM-4-Voice 则在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有了很强的音频理解和建模能力。


智谱对 AGI 的探索与思考

在大模型还没火起来之前,智谱团队就尝试过将其能掌握的所有中英文语料、图像、视频、语音等数据一起输入,参数规模甚至过万,但却发现:相较团队早期训练过的文本模型 GLM-10B 来说,万亿参数规模的多模态大模型反而在文本能力上有所下降。 

从人类智能的角度来看,五官是我们认识视觉最直接的介质,并且视觉、听觉与语言能力之间往往能相互增强。但在对 AI 多模态模型的探索中,结果却是相反:文本模态的智能水平并没有因为图像模态而增强,反而削弱。这个「非共识」的发现也影响了行业对 AGI 路径的思考。 

多模态是实现 AGI 的必经之路是业界共识。但是,多模态的研究要怎么展开?这其实是一个尚未形成共识的开放性问题,也是未来国产大模型需要继续思考的问题。

尽管 OpenAI 发布的 GPT-4V 与 GPT-4o、谷歌发布的 Gemini 让业内人员认为,多模态的发展应该朝着像海外 OpenAI 与 谷歌的技术路线去发展。但科学的怀疑、验证精神在多模态研究中仍不可或缺。

比如,目前文生图、文生视频或图生视频等多模态的研究,就没有与主流的基础文本推理大模型结合起来,不同模态之间的 Gap 还很远。如何将不同模态结合起来,也是一个亟待解决的问题。

根据 AI 科技评论对智谱过去三年的观察,智谱的 AGI 路径事实上是:先聚焦文本大模型的能力提升,但在 GLM-3、GLM-4 等基座大模型发布后,智谱很快就将图像、视觉、语音等提升了日程,并同时不忘迭代代码模型、视频生成模型等。

智谱不仅聚焦单一模态的单点能力提升(如 ChatGLM3),也注重双模态、多模态的结合——但无论从哪个角度来看,智谱版的「Her」都具备了比现有国产大模型公司更全面的模态能力。

根据智谱 CEO 张鹏的介绍,在智谱看来,人工智能的分级从大语言-多模态-使用工具-自学习,也可以分为 L1 到 L5 这五个等级。除了 L1 到 L3 这三块为大家共识的分级外,L4、L5 就体现了前文所说的「AI 自我学习」能力: 

从这个维度来看,智谱本次在 CNCC 发布的手机助手能帮我们现场点咖啡,已经是达到 L3 的工具使用阶段。

而且 CNCC 现场独家据悉,智谱在本月底将推出生成视频模型 CogVideoX 的升级版本 CogVideoX-Plus,张鹏透露的升级亮点是:60帧帧率、4K画质、10s时长、任意比例图生视频、运动稳定性大幅提升。 

智谱内部认为,目前我们距离 AGI 的道路只走了 42%。

他们根据大脑的能力,将 AGI 的技术维度分为了视觉、听觉、语言等多模态感知与理解能力;此外,还有 AI 模型的长短期记忆能力、深度思考与推理能力、情感与想象力等。

此外,作为人的身体指挥器官,大脑还能调动身体的各个部分协同运转,使用各种工具——而这个方向,就是目前具身智能、具身大脑所探讨追求的方向。

如果将大脑的能力区域划分为 AGI 的技术路线图,如下图所示,事实上目前的 AGI 科技树还有绝大部分没有被点亮。也就是说,在 42% 以外,智谱与当前包括 OpenAI 在内的其他大模型公司还有很长的路要走。

 

同时,当 AGI 参考人类大脑的能力画出如上技术路线分布图后,智谱的 AGI 研究也超越了追赶 OpenAI 的阶段。这也是一份技术指南,能够告诉大家:除了 GPT-o1 的推理能力,智谱还会发力其他的方向,如自我学习,模型指挥「肢体」执行工作任务等。

GPT-o1 体现的思维链从 2022 年开始,经历过从一两步推理到一致性推理、再到复杂多步推理的提升。从研究趋势上来看,多模态与推理都是实现 AGI 的必经之路,但无论是智谱 GLM 多模态家族、还是 GPT-o1,都体现出综合系统单点突破、循序渐进的第一研究原理。 

在追赶 AGI 的路上,我们应该乐观,但也要清楚认知目前所处的位置,不断追赶。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/whoq2ta3XsBVKxHF.html#comments Mon, 28 Oct 2024 10:29:00 +0800
Transformer能否推理引争议,DeepMind连夜更新论文开源数据集:Transformer真的很强 //m.drvow.com/category/ai/LaC2sBykR91B50lU.html DeepMind闷声干大事,悄悄训练了一个大小只有270M的Transformer模型,居然不需要搜索,就能实现大师级的下棋水平。

这几天的推特因为这篇2月份发布的论文吵得不可开交,DeepMind团队也赶紧放出了更新后的论文版本,开源了有关数据集和代码,对网上的争议做了回应。

最开始,有位网友分享了DeepMind的这项研究,并提出“Transformer也能用于逻辑任务”的观点,没想到却激起了一场关于Transformer能不能推理的争论。

先是顾全全果断转发表示赞同,“这表明Transformer具有推理和规划的能力。”

然而,这一观点很快遭到了激烈反驳,争论的火药味十足。

田渊栋直言,短时策略并不等于推理能力。他认为,“Transformer模型的评估基于闪电战模式(每局限时5-10分钟),这更依赖直觉和战术反应,而非传统的深度搜索和规划。”

田渊栋还指出,闪电战下机器人虽然Elo达2713,但未能展示出超越训练数据的能力。“此外,机器人在短时间内的闪电战Elo分数比人类选手要低,这可能说明它的表现更多依赖于模式匹配,而非真正的推理。”

很多反对者也指出,论文中明确提到,这种模型的表现仍然高度依赖于训练数据和架构规模。归根结底,它只是在进行统计匹配,而非真正的逻辑推理。

也有很多人认为,这实际上只是一种预测。虽然Transformer能够精准地计算和预测下一步行动,这看着像是在推理,但与人类推理并非一回事。

顾全全解释道,“推理的核心在于蕴涵(entailment)。”要进行推理,首先需要识别一组基本的命题或原子公式,然后再通过一系列推理规则来推导出结论。

Transformer实现推理的关键在于它是否能够学习推理规则,这些规则是推理的组成部分,但并不能构成完整的“推理”。

以往的研究表明,Transformer 能够学习各种“算法”或规则,例如线性回归(Linear Regression)、k 最近邻(k-Nearest Neighbors)和贝叶斯网络推理中的 Chow-Liu 算法。

这些算法虽然不是严格意义上的逻辑推理规则,但仍然是一种有逻辑的算法规则。顾全全认为,DeepMind这次的研究恰恰展示了Transformer学习推理规则上的潜力。

不过,他也坦言:“尽管大量实证研究表明Transformer可以有效地学习推理规则,但仍然需要在理论上得到严格证明。”

换句话说,目前我们只能从实验数据上看到模型的表现,而要真正确认Transformer能不能像人类一样推理,还需要更多理论研究。


算法到模型的通用方法

DeepMind这篇论文在推特引发的激烈讨论,不仅限于技术本身。

有位网友在深入研究论文细节后认为,这项研究展示了一个重要突破,即将任意概率算法提炼成神经模型的通用方法。

他还乐观地表示“我们正处于整个计算机科学从图灵机的起源开始重写的边缘。”

Gary Macus对此持怀疑态度,他在与论文作者交流后指出,论文中的Transformer模型虽然在标准国际象棋上取得了成功,但在更复杂的棋盘变体(如Fischer随机象棋)上表现不佳,也无法推广到更大的棋盘(如8x12)。这说明了模型在泛化能力上的局限性。

他还指出,这类模型的优秀表现往往局限于国际象棋这类封闭的环境,在更开放、更复杂的环境中会面临严峻挑战。

也有人不赞同这种说法,认为Gary Macus低估了神经网络的繁华能力。虽然模型的适用性不够广,但这种方法却是可以推广的。像MCTS(蒙特卡洛树搜索)这样的算法也可以被蒸馏成模型,这可能也适用于语言处理。

推特上关于这篇论文的争论愈演愈烈。DeepMind也于10月21日在arxiv上更新了论文,并推出了名为ChessBench的大规模数据集。

ChessBench数据集包含了1000万个国际象棋局面及其走法与价值注释,共计超过150亿个数据点,这些数据全部由最先进的国际象棋引擎Stockfish 16提供。

研究团队还开源了ChessBench数据集、模型权重以及所有训练和评估代码,方便学术界进行下一步研究。

更新的第二版论文里,也提到了“蒸馏”这件事。

研究人员表示,尽管可以通过监督学习将Stockfish的搜索算法的近似版本蒸馏到Transformer中,但完美的蒸馏仍然遥不可及。

这也反映了深度学习领域的一个核心问题:即使模型在某些特定领域(如象棋、围棋)表现出了卓越的性能,但它们仍然依赖于大量计算资源和规则化的训练环境。

像AlphaZero就是依靠强化学习,通过与自己反复对弈,最终超越了传统棋类引擎,一旦应用到更复杂、更少规则约束的环境,也难免暴露出缺乏泛化能力的问题。

DeepMind的这篇论文就提供了一条可行的路。

论文在结尾强调Transformer不应该只是单纯的统计模式识别器,而应该被当作是一种近似通用算法的强大技术。再结合Transformer模型在实验中展示的强泛化能力,也许可以被视作AI模型泛化问题的一种解法。


为什么DeepMind重回棋局研究?

也有网友发问,之前不是已经有模型实现过了大师级的下棋水平吗,为什么DeepMind还要再做一次?

其实在AI行业里早就有了一个共识:所有的应用都应该用AI大模型重做一遍。

因为AI技术的商业化落地始终是个难题,要对准具体的业务肯定是找现成的应用来得快。另外,用大模型重做已有的应用能够进一步挖掘其商业价值,个性化的用户体验能够增加用户粘性抢占更多的市场份额。

在市场的驱动下,微软和谷歌这样的大企业早就付诸行动并且颇有成效了。

微软往Office办公三件套引入了Copilot,实现了从文本生成到流程自动化的全面升级。像普通用户就可以通过提供文字提示或是Word文档让Copilot生成幻灯片,企业用户还可以直接生成一些简单的代码应用。

Google Workspace套件里集成的生成式AI也很实用,用户可以利用智能助手在Google Docs和Gmail中生成邮件、摘要等内容,减少重复劳动大大提高了工作效率。

而且这次研究的重要性不仅仅在于棋类AI的迭代,更在于它为AI推理和学习的未来提供了新方向。

回顾以往的棋类AI研究,博弈树一直是核心工具。

博弈树将每一个棋局状态表示为节点,每下一步棋则从一个节点移动到对应的子节点,通过穷举所有可能的步骤,构建出一个庞大的树状结构。

然而,棋类游戏的复杂性让这种全量搜索变得几乎不可行。

为了解决这个问题,约翰·麦卡锡(John McCarthy)提出了著名的α-β剪枝算法。

这种算法的核心在于,在绘制博弈树的同时进行计算评估,一旦某一分支的结果无法优于已有的最佳结果,就会立即“剪枝”,跳过这个分支的计算。这种方式有效减少了无效计算,大大提升了搜索效率。

1997年,IBM的Deep Blue利用α-β剪枝算法,并结合数百万场棋局的数据支持,成功实现了深度计算。最终,Deep Blue击败了国际象棋世界冠军加里·卡斯帕罗夫。

这是AI第一次在公开比赛中战胜顶级人类棋手,也是博弈树算法与启发式规则结合的巅峰。

2017年,DeepMind发布了AlphaZero,进一步突破了传统的博弈树模型。

与以往AI依赖人类知识库和启发式规则不同,AlphaZero完全抛弃了这些外部支持,仅通过自我对弈和通用强化学习算法,就在短时间内掌握了国际象棋、将棋和围棋的玩法。

这项突破性研究展示了AI自我优化的潜力:无需借助外部知识库,AI也能达到卓越水平。

这一次,DeepMind在棋类AI的探索上更进一步。与AlphaZero相比,Transformer模型不仅抛弃了人类知识库和启发式规则,甚至不再使用任何搜索算法,而是通过监督学习直接从包含1000万场国际象棋比赛的数据集中学习策略。

DeepMind训练了三种规模的Transformer模型,分别为9M、136M和270M参数,并根据预测目标(动作值、状态值或行为克隆)构建了一个预测器。动作值预测器用于生成策略,评估所有合法动作的预测值并选择期望动作值最大的动作。

实验结果显示,最大的270M参数模型在Lichess闪电战中达到了2895 Elo的分数,表明它已经具备了大师级的国际象棋策略。

(动作价值模型与Stockfish 16、Leela Chess Zero的变体、AlphaZero(有无蒙特卡洛树搜索)以及GPT-3.5-turbo-instruct的比较)

相比AlphaZero依赖深度搜索和自我对弈,这个模型的成功之处在于无需借助任何搜索算法,仅仅基于棋盘状态的学习也能达到大师级别的棋艺。并且该模型大幅降低了计算需求——甚至在部分任务中以八倍更少的浮点计算量取得与AlphaZero相当的成绩。

这不仅是技术上的突破,更暗示了Transformer模型在泛化和学习推理规则方面的巨大潜力。


小模型的里程碑

DeepMind这次的研究对LLM尤其是小参数模型来说,同样具有里程碑式的意义。

相信很多人都发现了,现在LLM的研究已经到了一个交叉点。

一部分研究者坚信“大即是好”,致力于开发性能强大的巨型模型;另一部分则选择“小而美”的方向,专注于小参数模型的优化和应用。

像Meta和苹果就是小模型赛道的坚定拥护者。

Meta推出的MobileLLM系列,将模型规模缩小至1B以下,并推出了125M和350M两个版本。

而一直专注于闭源开发的苹果,也在开源领域有所突破,发布了一系列开源模型OpenELM,参数规模集中在270M到3B之间。

270M这个数字是不是很熟悉?正是DeepMind这次使用的Transformer模型参数量。这两家公司都不约而同选择270M,绝非偶然。

与动辄数百亿参数的巨型模型相比,苹果的3B模型在LLM领域已算是“小型”。

然而,对于手机等移动设备而言,3B的模型依然太大。因此,270M成为绝佳选择——既能在移动设备上顺畅运行,又兼顾了模型性能。

类似的趋势也出现在大型模型领域。

很多主流大模型的参数设定为7B、13B或65B,其中7B尤其常见。原因在于7B的模型可以在单卡上部署,大大降低了应用的成本和门槛。

这也表明,无论是大模型还是小模型,研究的核心都在于如何实现商业落地。

行业趋势表明,轻量化正逐渐成为市场主流。相比巨型模型,小模型的优势十分明显:

  • 参数少、计算量小,推理速度更快;

  • 成本更低,适合更广泛的部署场景;

  • 对大部分企业而言,小模型的能力已经足以满足业务需求。

截至2021年,全球移动设备用户数量已达86亿,超过了地球总人口。如何满足如此庞大的移动用户需求,已经成为各大企业竞争的焦点。

比如,苹果的最新语音助手就内置了270M模型,支持离线语音识别和本地响应。谷歌的TinySpeech也为了能在移动设备上实现更加快速准确的语音识别功能,缩小了参数规模。

OpenAI也推出了ChatGPT Lite版本,在保证准确率的同时,通过减少参数量来降低计算资源的消耗,这使得用户能够在资源有限的设备上,享受到流畅的实时聊天和问答系统交互体验。

在与LLM有关的其他领域,也在积极推动轻量化战略,包括专注于高性能硬件的英伟达。

英伟达新推出的Jetson系列(如Jetson Nano和Jetson Orin Nano)就是专为嵌入式AI系统设计,将强大的算力嵌入体积小、能耗低的设备中,意在推动物联网和边缘设备的发展。

这也说明,小模型并非技术上的妥协,而是商业化的最优选择。未来更多的AI应用将逐步摆脱云端依赖,通过小模型在本地运行,推动“轻量级AI”进入日常生活。


Transformer“拟直觉”:AI是否能模仿人类思维?

这项研究还引发了一个有趣的哲学问题:AI是否正在向“直觉型思维”迈进?

传统的AI系统依赖于穷举式搜索和策略规划,但人类大师的棋艺往往依赖直觉与经验,而非纯粹的计算。

在闪电战模式中,DeepMind的模型能够在5-10分钟内完成棋局,依靠的是快速判断而非传统的穷举式搜索,这种决策模式看起来和人类的直觉非常相似。

但AI的策略始终还是来自对大量数据的学习,这和人类的“下意识反应”存在本质区别。AI的所谓直觉,更像是通过模式识别模拟人类的行为,不能真正等同于“理解”。

这种对人类思维的模拟行为也常见于其他AI领域。

拿下诺贝尔奖的AlphaFold就利用了生物序列与结构之间的复杂关系,模拟生物学家的推理过程,从而快速、准确地预测蛋白质结构。

英伟达用于训练和模拟机器人行为的Isaac Sim仿真平台,也是通过模拟真实世界中的物理环境,允许AI学习如何在动态环境中做出决策,类似于人类在复杂环境中的反应方式。

遗憾的是这些表现依然是基于训练数据,而非真正的认知理解。

DeepMind的Transformer模型展示了AI领域的一个重要趋势:从大模型走向轻量化、从搜索算法转向直接推理。在未来的AI应用中,效率与规模的平衡将是关键。Transformer的成功不仅改变了我们对AI的认知,也为AI如何在复杂环境中进行推理提供了新的思路。

雷峰网雷峰网


]]>
人工智能 //m.drvow.com/category/ai/LaC2sBykR91B50lU.html#comments Wed, 23 Oct 2024 10:23:00 +0800
谷歌计划将 Gemini 并入 Deepmind,下个月开始生效 //m.drvow.com/category/ai/vRFN20BY6SOAgq8i.html 刚刚,谷歌任命尼克·福克斯(Nick Fox) 接替普拉巴卡尔·拉加万(Prabhakar Raghavan )为搜索和广告主管,同时将 Gemini 团队转移到 DeepMind,整合了 AI 团队。

据彭博社报道,负责监督搜索引擎和广告产品的 Google 最高级别高管 Prabhakar Raghavan 在领导公司的核心赚钱业务四年后即将离职,被下调到首席技术专家的岗位。

接替 Raghavan 的是曾在他手下担任搜索代理的资深 Google 高管 Nick Fox。而Fox 自 2003 年以来一直是 Google 员工,近年来一直担任该公司 Assistant 产品的产品和设计副总裁。

除此之外,Google 的 Gemini 应用程序(包括 Google 的 AI 直接面向消费者的产品)团队将加入 AI 负责人 Demis Hassabis 领导的 Google DeepMind。

值得关注的是,过去半年中,Google 一直在整合其专注于 AI 的团队,寻求改进 Gemini 模型以挑战 OpenAI 和 Thropic 等公司。4 月,Google 将其模型、研究和负责的 AI 团队转移到了 DeepMind 部门。不久之后,又将 DeepMind 与公司内部的竞争对手研究部门 Google Brain 合并。

现在又把 Gemini 团队合并,不免让人想起 Hassabis 两个月前接受采访时的设想:“谷歌想创造第二个Transformer,还想把 AlphaGo 和 Gemini 强强联合。”

网友点评

有网友认为要想让 Google 在 AI 赛道上重振旗鼓,就应该将公司与 DeepMind 合并,并且让 Hassabis 担任首席 CEO。

也有网友感叹,高层变动确实可以看得出来 Google 在把重心往 AI 上转移,但后续对产品的影响是好是坏,仍然是个未知。

更有网友觉得这一切都是情理之中,因为 DeepMind 是个好团队,Gemini 的人才合并进来准没错!

还有网友开启夸夸模式:无论如何这都是个好消息,因为 DeepMind 是一个好公司!

Gemini 的演变:从 Bard 到多模态 AI 的崛起

在 2022 年 OpenAI 发布 ChatGPT 后,Google 意识到需要迅速响应市场变化,因此在 2023 年 3 月推出了 Bard,并在 5 月的 Google I/O 大会上进行了更广泛的宣传。

2023年12月,Bard 被正式重命名为 Gemini,标志着其技术的重大升级,Gemini1.0 诞生。1.0版本的 Gemini 被描述为一个多模态的大型语言模型(LLM),能够处理文本、图像、音频和视频等多种数据类型。

2024年2月,Google 又推出了拥有百万 token 超长上下文窗口的 Gemini 1.5 Pro。三个月后,Gemini 再次进化,1.5 Pro 的上下文长度翻倍,达到了200万token,同时也推出了轻量级的 Gemini 1.5 Flash。

Gemini 的主要成员包括:

首席执行官 Demis Hassabis :DeepMind的创始人,领导通用人工智能系统的开发,曾参与AlphaGo等项目。

首席科学家 Jeff Dean:Google早期员工之一,Google Brain的联合创始人,参与TensorFlow开发。

研究副总裁 Oriol Vinyals:前DeepMind深度学习团队负责人,带领AlphaStar项目。

联合技术负责人 Noam Shazeer:Transformer模型的核心作者,曾创办Character.AI,负责Gemini的技术方向。

首席研究科学家/主任 Andrew Dai:剑桥大学计算机本科和爱丁堡大学博士,负责Gemini的数据组领导。

首席工程师 Yuanzhong Xu:上海交通大学毕业,曾在Facebook工作,负责代码库并行工作。

安全组负责人 Jilin Chen:北京大学本科和硕士,明尼苏达大学博士,曾在多家研究机构工作。

而研发 Gemini AI 助手的 Google DeepMind 团队,则是谷歌在 2023 年将 DeepMind 与 Google Brain 合并而来的一个新部门,由 Demis Hassabis 担任首席执行官。

话说回来,Google 这次将 Gemini AI 助手应用团队移至 DeepMind,其实是为了更好地协调资源和研究方向。这样做不仅有助于提高 Gemini 的性能,还能增强 Google 在与竞争对手(如 OpenAI 和 Anthropic)的竞争力。

并且Demis Hassabis 也表示,这种合并将促进两个团队之间的协作,形成一个更为强大的“超级单元”,以推动下一代多模态 AI 模型的研发和崛起。

雷峰网AI 科技评论据知情人士透露,这次的架构整合还会选出一位新的部门 leader,目前安全组的竞争比较激烈。昨日凌晨, Google 还对这次部门整合召开了一次内部发布会,整合后需要做哪些具体变化目前还在商讨,但可以确定的是这个政策预计在下个月的15号开始执行。

]]>
人工智能 //m.drvow.com/category/ai/vRFN20BY6SOAgq8i.html#comments Mon, 21 Oct 2024 10:32:00 +0800
商汤徐立:未来核心战略在于无缝集成基础设施、人工智能模型和应用 //m.drvow.com/category/ai/t8RkJagLHOsCjtVx.html 恰逢商汤科技十周年庆典,“2024商汤十周年国际论坛:迈向AI 2.0共融新时代”在香港科学园成功举办。来自全球的行业领袖、政府代表、AI专家共聚于此,共同探讨AI行业的未来。活动上,商汤科技董事长兼首席执行官徐立表示,当下正处在AGI的转折点,在人工智能2.0时代,商汤的核心战略是无缝集成数字基础设施、人工智能模型和应用,集团将以此为基础,推动新一轮创新。 

商汤科技董事长兼首席执行官 徐立博士

这意味着商汤未来的目标是成为全面了解人工智能模型的领先基础设施提供商,同时也是以最有效的方式利用最佳基础设施的人工智能模型提供商。未来,商汤将更加专注,抓住机遇,确保公司保持敏捷,并为可持续增长做好准备。

徐立表示,当下大模型的快速发展很大程度上是由于整体基础设施水平的显著提高,使得通用AI模型成为可能。而商汤在所谓的AI 2.0时代到来之前,就已成功打造算力基础设施AI大装置SenseCore,并成功地将计算机视觉技术转化为实际应用,赋能智慧城市、智慧医疗、智能驾驶等诸多领域。随着AI的发展和应用越来越依赖于大模型和算力支持,商汤对人工智能2.0时代的核心战略是无缝集成数字基础设施、人工智能模型和应用,打造高质量、低成本、易获得的产品和服务,赋能AGI的长远未来。

徐立在活动中特别提到,“早在2014年商汤成立之时,我们的创始人汤晓鸥教授就强调要把技术带到日常生活中。汤老师不仅在研究上深有建树,同时也热切地希望和积极推动技术融入生活的不同场景,让我们更有能力去帮助客户和合作伙伴。”

商汤科技亚太区副总裁邹春慧在接受采访时表示,我们希望AI能够普惠大众,而亚太是一个由多元文化组成的地区,每个地方的文化,语言和用户习惯都有差异,商汤推出贴合本地需求的差异化大模型,深入了解当地社会、文化、语言运用,塑造满足当地用户和企业多元的需求,能更好地服务当地用户。当我们推出粤语大模型、泰语大模型时,都获得了当地市场的热烈反响。

在智慧城市领域,亚太许多国家和地区的管理者希望提升城市信息化建设,数字(智)化转型,通过大模型向市民提供服务,例如让居民准确了解证件办理流程,政策更新,生活信息等情况。我们的大模型结合当地的语言习惯,同时提供英文、普通话、粤语或其他小语种的服务,让C端用户快速获取信息。

在亚太地区,我们不但输出本地语言的模型或产品解决方案,也在人工智能基础设施、技术研究、数据管理、人才培养及商业运营等领域展开密切合作,推动当地人工智能技术领域的生态建设与产业发展。

商汤国际业务总裁黄继功接受采访时表示,2018年开始,商汤就已经着手开拓中东市场了,商汤明显感觉到从AI 1.0到2.0时代,之前是计算机视觉技术为主,现在大模型也逐渐进入客户视野。沙特和阿联酋这两个国家都对AI有积极需求,商汤从而有机会提供了应用层面的落地。尤其在文旅行业,各种场景都可以应用到AIGC技术,为终端用户提升体验。我们相信未来五年,中东市场还会持续扩大。一方面是因为中东市场本身消费能力强,另一方面也和当地居民的消费习惯有关。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/t8RkJagLHOsCjtVx.html#comments Fri, 18 Oct 2024 16:21:00 +0800
清程极智 CEO 汤雄超:训推一体机并非 AI Infra 的未来 //m.drvow.com/category/ai/mXROFSwEz47oIBzp.html 早在超算时代,清华大学高性能计算研究中心便一直是解决算力需求相关软件问题的行家。

“目前 AI Infra 赛道几家国内厂商中,只有我们有过十万台服务器的超大规模国产算力集群的使用和调优经验。”汤雄超向 AI 科技评论介绍道。

而“大规模”会是算力发展最难解的“题”——

从汤雄超观察来看,当前业内多有提及的不同品牌 GPU 异构混训,是芯片产能不足现状下的一种妥协,未来智算中心可能会回归同一型号 GPU 的架构以获得更高的效率,AI 大模型训练核心归根到底还是落点在大规模算力系统本身。

基于前述思考,去年年底,这支来自清华大学计算机系的团队创办了清程极智,汤雄超博士担任公司 CEO,翟季冬教授为公司首席科学家。

除了 AI 训练面临的挑战,成立之初,清程极智也看到了推理侧的机会。

在一段时期内,训推一体机是业内较为流行的产品形态。但在汤雄超的观点中,训推一体机是很难满足未来的 AI 业务全部需求的。

论及其中原因,他认为,“训练和推理两种业务对算力系统的需求区别较大,很难想象出有一个比较小的一体机能够承载训练的业务,现在大模型的预训练可能都是万卡以上的规模。”所以,清程极智选择为推理业务量身定制相应的软硬一体化算力系统。

同时,通过云端算力提供 MaaS 大模型推理服务也是清程极智选择的路径之一。

至于这条路会否和通用大模型公司产生竞争,汤雄超认为,大模型应用一定会起量,一个足够大的市场可以容下好几家同一细分领域里的厂商。

他还告诉 AI 科技评论,公司成立这半年多来,在商业化方面,清程极智已经陆续和多家芯片厂商、算力中心、AI 应用开发商以及基础模型预训练厂商达成了商业合作。

值得一提的是,云厂商也是清程极智的合作对象之一。

在汤雄超看来,云厂商过去解决的问题跟现在要解决的问题并不完全相同,甚至是相对的两个方向——

云厂商过往聚焦于资源池化和共享,而现阶段要解决的问题主要是分布式的资源合并,这方面的经验市场上还较为稀缺,而这恰好是清程极智团队的强项所在。

这段时日,汤雄超对国内芯片厂商的差异化也深有体会,他认为,从过往智能手机和新能源汽车两个行业的发展规律来看,之后国产芯片市场会有一定程度的收敛,但不会完全集中到一家,并且国产芯片的性价比超越海外产品也只是时间问题。

以下是 AI 科技评论与汤雄超的访谈实录,作者进行了不改原意的编辑整理:


壁垒在超大规模集群调优

AI 科技评论:你们为什么会想要在去年年底瞄准 AI Infra 这个赛道去创业呢?有什么契机吗?

汤雄超:去年底出来做 AI Infra 创业是因为我们认为这个领域和时机比较好。主要契机要从我们团队背景说起,目前我们团队 40 多人中 80% 都是研发,核心的技术负责人几乎都来自清华计算机系。清华大学高性能计算研究中心一直以来是做超算的,主要解决算力需求大的问题,之前主要服务于天气预报、气候模拟、石油勘探等。

随着人工智能的发展,我们发现 AI 相关问题也逐渐需要超大计算量解决,刚好我们做超算的经验都可以用来解决 AI 算力系统的问题,再加上我们非常看好 AI,长期来看,我们相信 AI 会给社会带来较大影响。所以从商业的角度上来说,我们做的事情还算比较有想象空间,这也很契合我们的技术背景。另外,也刚好赶上美国对中国的芯片制裁,从社会价值的角度上来讲,我们作为清华人去做面向国产算力系统的事情也非常有意义。

总得来说,我们当时选择这个赛道创业,是非常坚定看好市场机会的,并非拿着锤子找钉子。基本逻辑在于,AI 对算力的需求越来越大是共识,国内的智能算力从英伟达转向国产基本上也是确定的,而在这样一个一边增长一边转换的过程中,显然我们需要在国产算力生态上做很多事情,这也会带来许多商业上的机会。

汤雄超在清程极智办公室 受访者供图

AI 科技评论:国内目前有好几家厂商在布局 AI Infra 这条赛道,你们的壁垒体现在哪方面?

汤雄超:这个赛道上有很多友商,对我们而言并非负面因素。首先,市场大到足够容下很多家厂商,其次,既然有这么多人入局,也说明大家对这个领域的认可。

我们其中一个显著的技术壁垒在于超大规模集群的调优能力,现实中,这可能直接意味着算力中心是否用得起来,本身我们团队在大规模集群上面做过很多事情,所以我们和其他家的差异性优势,最核心的还是在于这一点,这件事是非常难做的。

据我所知,目前国内 AI Infra 赛道的厂商中,除了我们,没有团队有过十万台服务器的超大规模国产算力集群的使用和调优经验,哪怕是万卡、十万卡这样的超大规模训练,现在能做的团队都不多,所以这是我们非常重要的技术优势。实际上,除了各家都在做的推理优化之外,我们是可以做训练的,而且是超大规模的训练。

AI 科技评论:清程目前主要和哪些厂商有合作呢?

汤雄超:我们公司聚焦在 AI Infra,就是算力的基础软件系统,大家一般会把 Infra 比喻成一座桥梁,一端是硬件,另外一端是上层应用,我们做的就是把这两端连接起来,让大模型更好地运行在芯片上。

我们的客户也就主要来自于这两端,一方面是算力侧,包括芯片厂商以及算力中心的建设方和运营方。整体上来说,国产算力系统的软件生态和国外成熟的系统相比,还是有一定的差距的,我们做的就是帮芯片厂商补齐短板,真正发挥硬件的性能。

算力中心也是类似的情况,现在大模型所需要的算力规模很大,真正地把万卡甚至十万卡规模的集群用起来并不简单,我们帮算力中心把超大规模的集群给利用起来,从商业角度上来说,能够提升算力中心的市场竞争力,从社会角度来讲,相当于提升算力资产的整体利用率,减少资产闲置现象。

对于 AI 应用侧,我们提供的价值整体上来说就是大家比较熟悉的提速降本。目前我们用大模型回答问题或者画图,耗时还比较长,这给 AI 应用落地带来较大障碍。我们通过高性能的大模型推理引擎,在同样的硬件平台上把模型运行得更快,在一些情况下响应速度可能会有近百倍的提升。这样可以把模型运行时间缩短,一方面,用户体验可以改善,另外一方面,时间缩短了,AI 应用消耗的算力也会变少,算力成本随之降低。

另外,我们也有做基座大模型预训练的客户群体,模型预训练本身算力消耗大、周期长,通常训练一个大模型需要几个月时间和几千万的预算。我们能把训练的性能提升百分之几十,从而降低百万或千万的算力开销。一方面,大模型训练周期缩短后,模型迭代速度会变得更快。另一方面,按一般原本算力费用千万级来说,节省 50% 的算力成本会是非常大的一个数字。整体来看,现在我们的客户主要是芯片厂商、算力中心、上层做 AI 应用的公司以及做模型预训练的厂商。

AI 科技评论:和云厂会有合作或者竞争吗?

汤雄超:我们跟云厂相比是有自身优势的。在一些比较传统的文本类的大模型的预训练上,我们也和国内的云厂商有合作。

他们也有自己的团队,找我们合作本质上还是因为云厂过去要解决的问题跟现在要解决问题并不相同。之前他们也维护大规模的集群,但更多的是从资源池化和共享的角度去做的,就相当于把一块 GPU 卡切成很多份,同时服务很多请求和用户。

现在反过来我们要做的是合并的事情,就是让 1 万块或者 10 万块 GPU 共同为一个用户服务,去解决同一个问题。这部分经验即使在大厂内也是相当稀缺的,因为国内本来做大集群并行计算的人一直都比较少,再叠加上国产芯片问题,相关的储备就更稀缺了。

AI 科技评论:你们目前的融资情况如何了?

汤雄超:今年初我们完成了第一轮融资,预计年内会再完成新一轮。


围绕推理引擎的核心布局

AI 科技评论:模型推理目前也是清程的一个重点,你们的 MaaS 平台具体有什么样的布局?

汤雄超:我们 MaaS 平台首期推出的是文本对话,这方面除了像一般的 MaaS 平台推出的 10B 以内的模型之外,我们也提供了免费试用的 72B 的国产中文大模型,可以把它运行在国产算力平台上,成本控制到较低的水平,比用英伟达算力便宜很多,所以我们现在可以提供免费试用。

近期也上线了一个文生图的功能,完全兼容了国际上流行的 ComfyUI 界面,适合设计师这样的专业群体。

后续可能还会再加入其他的大模型服务能力,因为有很多模型的推理工作被广泛需要,AI 应用的市场发展很快,多模态需求也在变多,后续会上架视频生成等服务。

清程极智 MaaS 平台

AI 科技评论:您会觉得这种 MaaS 平台卖大模型 API 的方式,实际上是在和通用大模型公司竞争吗?

汤雄超:我觉得现在整个大模型行业内很难说做的业务是完全区分开的,有竞争是正常的,并且行业里玩家足够多,说明大家都觉得这样的事情值得做,也证明这个赛道的重要性是得到玩家以及背后投资人认可的。另外,我个人坚信大模型应用一定会起量,在一个足够大的市场里面,其实在同一个细分市场里面可以容得下好几家厂商。

对我们来说, MaaS 平台可以让更多有需求的人使用到清程的推理加速能力。并且,我们并不是要在 MaaS 模式上去击败通用大模型巨头公司,清程的能力也不仅局限在 MaaS 平台上,我们的产品交付形式也是很多样的,也包括一体机、推理引擎软件以及其他一些解决方案的交付。

AI 科技评论:您说的一体机是指训推一体机吗?

汤雄超:我们做的不是训练推理一体机。推理一体机我们是有做的,但训练的话,本质上看,它的算力需求不适合这种产品形态。

在我看来,训练和推理两种业务间的区别较大,很难想象出有一个比较小的一体机能够承载大的训练业务,现在大模型的预训练可能都是万卡以上的规模,目前只能在大规模的智算集群上完成。

我们做的是推理一体机,就是客户有需求,我们可以去帮他们选配一些高性价比的硬件,因为我们和很多国产芯片有合作,有时候比客户更清楚他们不同的大模型推理需求比较适合哪一款芯片的,我们也发现有不少客户在算力使用上不合理,比如,有的客户买了 A100,优势却发挥不出来,因为 A100 其实更适合拿来做训练,而不是推理。

AI 科技评论:你们 MaaS 平台上能选择英伟达和国产两种卡加速 Qwen2-72B-Instruct 的推理,主要是哪些卡?

汤雄超:英伟达我们是比较常规的推理卡,国产卡用的也是和英伟达推理卡对标的型号,用下来发现还不错。

虽然我们现在平台上写了英伟达和国产算力,但是从后续的规划来说,我们会把这部分隐藏掉。因为根据数据实测,在经过清程的系统优化后,国产算力能接近英伟达的性能,某些场景下还会更好些,所以之后我们也没必要特意区分算力平台,这本身也符合我们公司兼容和赋能多样化算力基座的想法。

AI 科技评论:清程的官网好像还有几个和推理引擎有关的服务暂未上线。

汤雄超:我们现在还在初创期,大部分精力都集中在研发和商业化上,官网整体上有些滞后性。推理引擎是我们比较核心的内容,我们推理引擎完全是自研的,它是一个高性能的系统软件,可以降低模型推理的延迟,或者提高模型的吞吐率,总之是提升性能,并且可以支持包括英伟达和国产在内的不同芯片。

因为市面上大部分开源框架都是基于英伟达做的,如果要用国产芯片的话,要么自己移植,要么就不用,这对用户来说比较难受。我们所提供的是可以兼容多款国产芯片的自研推理引擎,这是我们的软件,然后基于这个软件就是做 MaaS 平台和推理一体机。

具体来说就是,如果客户已经有机器了,那买我们的软件就行,如果没有机器,则有两种选择,一种是直接用我们的 MaaS 平台,另外一种不上云,要私有化部署的,我们提供推理一体机。


智算中心最终会回归同构

AI 科技评论:现在国产芯片厂商很多,异构混训的概念也在业内热议,你们想过做这块吗?

汤雄超:我们也在做异构混训的工作,但我们在过去的工作中观察到,采用不同品牌不同加速卡的 GPU 异构方案的集群,整体上来说效率和性价比没有比采用单一型号 GPU 的同构集群好,混合训练很难发挥硬件的底层算力性能。

从商业的角度来说,我倾向于认为异构混训是目前国产芯片产能不足情况下的妥协,过去的 HPC 行业,超算中心发展了这么多年,我们并没有观察到哪个超算集群会在里面放不同型号的加速卡,当然可以说全世界有成百上千个超算集群,各个集群用不同的卡,这个是可行的,但是每个集群内部通常都是同一款。

所以,我认为随着国产芯片产能的提升,最终智算中心也会回归到以往比较偏同构的基础架构里,因为单一方式可能是最高效的解决方案。整体上来说,在目前大规模并行训练的大课题下,异构混训比较容易解决,更难的问题还是落在大规模本身上。打个比方,10 张英伟达和 10 张华为混训同 10 万张英伟达训练相比,肯定是后者更难实现。

AI 科技评论:所以您觉得之后国内的 GPU 芯片厂商是有机会从分散走向整合的?

汤雄超:我们和国内好几家芯片厂商都有合作,包括沐曦、燧原、天数、摩尔线程等等,每一家都有相对的优势,各家芯片迭代速度也都很快,从长期来看的话,我认为可能会出现一定程度的集中和收敛,不过,国内可能也不太会出现美国市场那种一家独大的情况。

因为中美国市场确实是不一样的,从历史上发生过的其他行业故事来看,比如智能手机和新能源汽车,美国的手机和汽车其实就是那两家,国内确实都不是一家独大。中国市场从人口基数上来说会更大,也更有多样性,未来可能芯片厂商会有一定程度的收敛,但不一定会收敛到一家,最终还是会有好几家。

AI 科技评论:现阶段您在国内有比较看好的芯片厂商吗?

汤雄超:目前有两三家比较好,但国内芯片迭代很快,之后也不确定哪家性能会更强。

AI 科技评论:目前来看,您觉得 GPU 是算力最优解吗?

汤雄超:这个问题要看怎样去定义。GPU 已经发展到现阶段,能够沿着 GPU 已经开拓出来的道路往前,没必要再去走一条新路。但是说到底也还是要看上层应用的需求,包括后续 AI 算法的发展,如果 AI 算法发生了比较大的变革,以至于 GPU 架构不再适应其中的算力需求,那可能还会有新的芯片架构脱颖而出,成为新标准。

以前大家觉得手机这样的嵌入式设备的处理器是一个非常小的市场,但随着移动设备的发展,会发现之前占主流的 x86 架构慢慢地就被 Arm 架构赶上来。算力硬件本质上服务于上层应用需求,如果应用发生巨变的话,底层的算力也会受到影响。不过,从当前的大模型这种形态来说,我还是认可 GPU 或类 GPU 架构是较好的。

AI 科技评论:现在海外也涌现了许多做专用芯片的厂商,但国内还是以瞄准 GPU 为主,专用芯片少有几家,您觉得对于国内来说,专用芯片会是机会吗?

汤雄超:我认为专用芯片跟通用芯片的抉择国内外是一致的。当每一种上层应用变得非常重要的时候,大家比较直觉的做法就是去做专用芯片,这样可以在应用上取得优越的性能以及功耗方面的改进。但是因为上层应用迭代很快,大家也会希望有通用芯片能够保证不仅现在能用,未来也能用,两个路线很难说谁完全取代谁。整体上,我认为国内会存在专用与通用并存的情况。

AI 科技评论:CUDA 是英伟达的护城河,现在也有很多观点认为它其实是“泥潭式”的,您觉得就国内而言怎样去找到自己的护城河呢?

汤雄超:“泥潭式”护城河这个形容是准确的。而我觉得国内要找到护城河,还是得从国产算力的角度出发找寻突破点,要完全 Copy 一份 CUDA,打造 CUDA 2.0 非常困难,有没有必要去做也要打一个问号。因为我们做算力系统的建设本身是为了支撑上层应用的需求,如果为了复制 CUDA 而去复制是没有必要的,也不知道收益如何,但根据上层应用的需求去针对性做补全和提升的话,我们不需要把整套 CUDA 生态照搬过来,这种情况下有的放矢,要做的事情会少很多,国产算力系统也会有一些突破机会。

现在国内很多厂商在做 CUDA 兼容,如果产生的效果是把 CUDA 生态里已有的东西导入到国产算力生态,这件事情大家肯定都愿意去做,至于未来会不会出现兼容 CUDA 生态反过又增强 CUDA 生态的情况,目前还无法判断。雷峰网雷峰网

]]>
人工智能 //m.drvow.com/category/ai/mXROFSwEz47oIBzp.html#comments Wed, 16 Oct 2024 09:34:00 +0800
Anthropic首席执行官:人工智能如何让世界变得更美好 //m.drvow.com/category/ai/CV11wYAI5CqHNYHX.html 最近 Anthropic 的联合创始人兼首席执行官 Dario Amodei 发布了一篇万字长文,在推特上引爆了一场讨论。

Dario 在这篇长文里深入剖析了人工智能的未来如何让世界变得更美好,被不少人称赞为“近来对人工智能发展最理性、最深刻的分析之一”

在文章开头,Dario Amodei 就特别说明了,虽然他一直在关注人工智能风险,但这并不意味着他是人工智能末日论的支持者,恰恰相反,他很看好人工智能的积极潜力。

“我关注风险的主要原因之一是,它们是我们与我所看到的基本积极的未来之间的唯一障碍我认为大多数人都低估了人工智能的巨大优势,就像大多数人低估了风险的严重程度一样。

那为什么Dario 和 Anthropic 总在谈论风险与安全,却很少宣传人工智能的好处?

Dario 直言有以下四点原因:

  • 最大化杠杆:强大的市场力量能够保证人工智能发展带来的益处。另一方面,风险不是预先定好的,我们的行动可以极大地改变风险发生的可能性。

  • 避免让人觉得是宣传:很多公司大谈特谈人工智能的好处,很容易分散公众注意力,让人们忽略掉潜在的风险。并且,“花太多时间‘高谈阔论’对你的灵魂有害。”

  • 避免浮夸:很多公众人物和科技公司也喜欢在宣传人工智能时夸大自己的使命,就像先知带领他们的人民走向救赎一样。这种从宗教角度看待实用技术目标是很危险的。

  • 避免“科幻”包袱:当前一些关于人工智能未来的讨论过于“科幻化”,充满了未被阐明的技术假设和文化包袱,“读起来就像是狭隘亚文化的幻想,同时让大多数人感到反感。”

换言之,“上帝的归上帝,凯撒的归凯撒。”对于AI带来的经济利益的“世俗”部分,应该交给市场来完成;而能力越大,责任也越大,作为对人工智能更了解的从业者,更应该向公众提示当中的风险。

Dario 的这些想法也体现在了 Anthropic 对人工智能的透明度与可控性的执着追求。

这种坚持不无缘由:毕竟 Dario 从 OpenAI 离开正是因其对 OpenAI 在商业化上加速发展的理念存疑,Dario 更强调在构建强大的人工智能系统时需要更加严格的安全保障。

Dario 和其他几位 OpenAI 前员工创业时,也将 Anthropic 定位为更注重安全的 OpenAI 替代方案,将透明和可控置于首位。

OpenAI 联合创始人 John Schulman、 Durk Kingma 和前安全主管 Jan Leike 也因为认同这份理念加入了 Anthropic。

这份安全执念背后是 Dario 对人工智能潜力的深刻信念:人工智能能够将人类未来 50-100 年取得的进展压缩到 5-10 年。这也被他称为“压缩的 21 世纪”。

Dario 把未来 5-10 年内实现的人工智能定义为强大的人工智能,认为其能力将超越诺贝尔奖获得者,能够在多个领域(如数学、编程、写作等)表现出色。

强大的人工智能将拥有多种人机交互接口(文本、音频、视频等),以较快的速度吸收信息和生成结果,自主完成复杂任务。它还可以控制物理工具和设备,甚至可以设计自己的机器人。

Dario 预测,强大的人工智能可能在 2027 年实现大规模应用

关于技术进步,部分人持有两种极端观点:一种认为技术会迅速引发“奇点”,立刻解决所有问题,一种认为技术进步已经趋于饱和,而且优于人类的智能进展有限。

因此,Dario 借用经济学的观点,提出了智能的边际效应:当智能达到较高水平时,与智能互补的其他因素就会成为限制因素。他认为人们应该考虑在特定情况下其他生产要素如何与智能互补,并且可能成为限制因素。

在这一框架下,Dario 构想了 5-10 年内拥有强大的人工智能的未来蓝图。

首先是生物学领域,许多生物学家长期以来一直对人工智能和“大数据”在生物学中的价值持怀疑态度。但 Dario 认为人工智能并不只是分析数据的工具,它能执行、指导和改进生物学家所做的几乎所有事情。

Dario 指出,生物学进步往往依赖于某个重大发现。如果我们能拥有更有才华更有创造力的研究人员,这些发现的出现频率可以提高 10 倍或更多。

例如,人们在 80 年代就发现了 CRISPR 是细菌免疫系统中天然存在的组成部分,但花了 25 年才意识到它可以用于一般基因编辑。

人工智能能够把发现的速度提高 10 倍,但由于实验不可能一次成功,相关的硬件设施的更新速度也有限,人工智能不可能凭空把发现的速度提升至 100 倍。

Dario 认为未来人工智能能够帮助我们预防或治疗大部分疾病,包括传染病、癌症、阿尔茨海默病等,还可能让人们可以自由改变外貌、体重等,并极大地延长人类的寿命。

类似的加速效应也适用于神经科学、心理健康、经济等领域,不过 Dario 警告,人工智能不会主动促进民主和和平,而是需要我们作为个体行动者去推动这一结果

文章的最后,Dario 谈到了一个经典的问题,“有了人工智能做一切,人类还有什么意义呢?人类将如何在经济上生存?”

对此,Dario 表示认为意义主要来自人际关系和联系,而不是经济劳动

短期内,人工智能和人类之间会保持良性竞争的状态,人工智能的优秀工作表现实际上会催生一系列新的人类工作,用以补充和放大人工智能所擅长的领域。

长远来看,现有的经济格局将会被颠覆,到那时人们也许不需要参与经济劳动就能获得资源。

雷峰网

Opus 3.5 什么时候来?

在讨论文章内容的同时,也有很多网友提问 Opus 3.5 什么时候抬上来?大家等得花都谢了。

写得很好,所以为什么Opus 3.5还不发布!

根据过往经验,Claude 系列的更新频率大约为三到四个月。Claude 3 Haiku 于 3 月发布,Claude 3.5 Sonnet 则在 6 月底上线。

Dario 自己也说他的计划是每三个月左右推进一次前沿工作。说不定月底我们就能用上最新的 Claude 3.5 Opus 了。

插播一句,Dario 认为像 AGI 这种强大的人工智能最早可能会在 2026 年实现。

不过,Dario 构想的未来人工智能和 Claude 这样的大模型只是形式上类似,可能基于不同的架构,也可能涉及多个交互模型,还可能以不同的方式进行训练。

这不禁让人猜测,Claude 3.5 Opus 有没有可能会在多模态技术上发力,推出类似于 GPT-4 的图像识别功能?迟迟没有推出是不是因为有了类似 AGI 的重要改进?


人工智能如何让世界变得更美好

生物学与健康

生物学可能是科学进步最有可能直接、明确地改善人类生活质量的领域。

上个世纪,我们成功消灭了天花等古老疾病,但仍有许多疾病等待被攻克。生物科学不仅能治愈疾病,还能延长健康寿命、增强我们对身体的掌控力,并解决一些看似无解的健康问题。

然而,人工智能在生物学中的应用面临数据、现实世界速度和内在复杂性等挑战。这些因素相互关联,使得临床试验进展缓慢。

例如,细胞培养或化学反应可能需要数天到数周,而动物和人体实验则可能耗费数月或数年。此外,数据质量常常不高,因果关系模糊,令科学家们难以理解生物现象。

生物过程的复杂性使得精确干预变得困难。想象一下人类新陈代谢的生物化学图表,你就会明白这其中的挑战。再加上临床试验中官僚和监管的要求,进展往往受到拖延。

因此,许多生物学家对人工智能和大数据的有效性持怀疑态度。尽管过去 30 年取得了一些进展,但真正的突破却屈指可数。

例如,CRISPR 早在 80 年代就被发现,但花费了 25 年才得到应用。这表明科学界对有前景方向的支持不足。

我认为,对人工智能的悲观看法是一种误解。我想重申:我讨论的人工智能是用于执行、指导和改进生物学家几乎所有工作的。

生物学的进步往往源于少数重大突破,这些突破通常与新技术和测量工具相关。每年都会有约一项重大突破,这些突破推动了 50% 以上的生物学进展,使我们对生物过程的理解和控制得以提升。

我相信,强大的人工智能将大幅加速这些发现的速度,让我们在 5 到 10 年内实现 50 到 100 年的生物进步。虽然实验时间和序列依赖性等因素仍然存在,但大规模的并行研究可能会推动这一进程。尽管临床试验面临官僚主义,但严格的药物评估也促使进展加快。例如,新冠疫苗的批准速度就远快于传统药物。

最终,生物医学的成功部署记录相对较强。尽管药物开发过程复杂,但一旦成功,它们通常会被有效利用,使生物医学在技术领域具有独特优势。

综上所述,我的基本预测是,人工智能支持的生物学和医学将使我们能够将人类生物学家在未来 50-100 年取得的进展压缩到 5-10 年。我将其称为“压缩的 21 世纪”。

虽然预测强大的人工智能能做什么有难度,但我们可以参考 20 世纪的成就,来想象未来可能的进展。

以下是我们可能期待的变化:

  • 对抗传染病:在压缩的21世纪,我们有望有效预防和治疗几乎所有 17 种自然传染病。借助 mRNA 疫苗等技术,我们可能能根除传染病,当然,这也取决于贫困和不平等的问题。

  • 消除癌症:随着癌症死亡率每年下降 2%,我们可能在本世纪消灭大多数癌症。人工智能将帮助我们开发个性化的治疗方案,预计癌症的发病率和死亡率能大幅降低。

  • 预防遗传病:通过更好的胚胎筛选和 CRISPR 技术,我们将能够预防和治疗大多数遗传病,但对全身疾病的干预可能仍具挑战。

  • 阿尔茨海默病的突破:虽然该病因复杂,但通过人工智能,我们有望找到更好的治疗方法,甚至预防这种疾病。

  • 改善其他疾病的治疗:糖尿病、心脏病等疾病的治疗效果将大幅提升,许多疾病的死亡率已显著下降。

  • 生物自由的实现:个人将能更好地控制自己的生物特征,如体重和生育,这将使每个人都有机会选择自己的生活方式。

  • 人类寿命的延长:如果我们能找到减缓衰老的有效方法,预期寿命可能从75岁增加到150岁。这并非不可能,已有药物能显著延长某些动物的寿命。

如果这些预测在未来 7 到 12 年内实现,世界将会大变样。这将是人类的一次巨大胜利,消除长期以来困扰我们的疾病。未来的孩子们可能再也听不到关于癌症或阿尔茨海默病的故事,而是享有更高的生物自由和更长的寿命。

这些变化将对我们的社会产生深远影响,特别是在社会保障和医疗保健方面。若新技术得以广泛应用,未来的挑战可能会转向如何确保人人能享有这些成果。虽然生物学可能是人工智能成功加速的唯一领域,但即使如此,世界也会因此发生翻天覆地的变化。


神经科学与心理

在前一节中,我讨论了身体疾病和生物学,但没有提到神经科学和心理健康。

其实,神经科学是生物学的重要部分,心理健康对我们的生活影响更直接。数亿人因成瘾、抑郁等心理问题生活质量受到严重影响,还有数十亿人在面对轻度心理挑战。

改善这些问题不仅能提高健康,还能提升整体幸福感。

之前提到的生物学框架同样适用于神经科学。这个领域的进展往往依赖一些关键发现,比如光遗传学和 CLARITY 技术。人工智能有潜力加速这些进展,因此“5-10 年实现 100 年进展”的观点也适用神经科学。20 世纪,神经科学取得了显著进展,例如 20 世纪 50 年代人们明白了神经元如何放电,因此期待人工智能推动神经科学迅速发展是合理的。

此外,人工智能的一些知识可以助力神经科学。

可解释性就是一个重要例子,虽然生物神经元和人工神经元不同,但它们在“如何协同计算”的问题上相似。这种可解释性最近在小鼠大脑中得到了验证。

在人工神经网络上实验比在真实神经网络上简单,因此可解释性成为理解神经科学的重要工具。强大的人工智能可能比人类更有效地开发和应用这些工具。

同时,人工智能教给我们的训练方法可能会引发神经科学的革命。许多人关注的学习问题与我认为的不一样。简单的目标函数和大量数据可以驱动复杂行为,使我们更关注目标,而忽视细节。尽管我没有密切关注这一领域,但我觉得计算神经科学家还没有完全吸取这些教训。

我认为神经科学家应结合这些基本见解与人脑的独特性,寻找神经科学中的关键难题。尽管某些问题与人工智能有关,人工智能神经科学家可能更有效地利用这一思路,加速研究进展。

我认为人工智能将通过四个主要途径加速神经科学的进步,从而帮助治愈精神疾病和提升功能:

  • 传统生物学:人工智能将加速药物研发,这些药物能调节神经递质、影响情绪和认知。它还可能加快对精神疾病遗传基础的研究。

  • 细致的神经测量与干预:使用光遗传学和神经探针等技术,我们能测量和干预单个神经元的活动,从而改善神经科学的理解。

  • 先进的计算神经科学:现代人工智能的见解可以应用于复杂疾病的研究,帮助揭示精神病和情绪障碍的根本原因。

  • 行为干预:尽管我在讨论中没有深入,但精神病学和心理学已有很多行为干预方法,人工智能有潜力加速这些方法的发展,并帮助患者坚持治疗。

我猜测,即使不考虑人工智能,这四个途径的共同作用可能在未来 100 年内治愈或预防大多数精神疾病,可能会合理地完成在人工智能加速的 5-10 年内。具体来说,我认为:

  • 治愈大多数精神疾病:例如,创伤后应激障碍(PTSD)、抑郁症和成瘾等疾病可能通过这四个方向得到有效治疗。

  • 某些结构性问题仍然困难:例如,精神病患者的大脑结构差异可能使得某些条件更难治疗。

  • 有效的基因预防:精神疾病具有遗传性,人工智能可能帮助我们通过基因筛查预防疾病,尽管这涉及复杂的伦理问题。

  • 改善日常心理问题:我们日常面临的心理问题,比如焦虑和集中注意力困难,也可能得到解决。

  • 提升人类的体验:许多人渴望更深的创造力、同情心和满足感,人工智能有潜力改善我们的认知和情感能力。

虽然“思维上传”的概念常常被提及,但我认为这一想法面临巨大的技术和社会挑战,短期内难以实现。

总之,人工智能将极大改善精神健康,提升我们的认知和情感能力,为人类创造一个更加美好和人性化的未来。这不仅会影响个体,还可能改善社会中许多其他看似无关的议题。


经济发展与贫困

前两节讨论了新技术在治愈疾病和提升人类生活质量方面的潜力,但一个显而易见的问题是:“每个人都能享受到这些技术吗?”

开发治疗疾病的方法是一个方面,但要在全球范围内根除这些疾病则是另一个挑战。目前,许多健康干预措施尚未在全球普及,技术改进也同样如此。

许多地区的生活水平依然贫困。例如,撒哈拉以南非洲的人均 GDP 约为 2,000 美元,而美国则达到 75,000 美元。

如果人工智能只帮助发达国家,而对发展中国家贡献甚微,那将是一个严重的道德失败。因此,理想情况下,强大的人工智能应当帮助发展中国家追赶上发达国家的步伐。

我对人工智能能否有效解决不平等问题的信心没有对其发明基础技术的信心强。这是因为经济问题往往涉及许多复杂的人类因素,而技术创新则能更轻易地克服复杂性和数据不足的障碍。

即使在理论上,人工智能也无法解决“社会主义计算问题”,我对政府将经济政策托付于这样的实体持怀疑态度。

此外,如何让人们接受那些有效但可能令人怀疑的治疗方法,也是一个问题。

在发展中国家,腐败现象的普遍存在使情况更加复杂。腐败造成恶性循环,贫困加剧腐败,而腐败又导致更多贫困。因此,人工智能驱动的经济发展计划需要考虑到这些人类面临的挑战。

尽管如此,我仍然保持乐观。历史上已经有国家成功根除疾病,很多地方也从贫穷走向富裕,这表明这些决策的高智力回报。人工智能或许能够比现有做法更有效地解决这些问题。

针对性干预措施也许能避开人类的局限,人工智能应当关注这些方面。

最重要的是,我们必须努力去尝试。人工智能公司和发达国家的政策制定者需要确保发展中国家能够参与其中,这不仅是道德责任,也是我们集体努力的目标。虽然成功没有保证,但我们的行动可以带来改变。

在强大的人工智能诞生后的 5 到 10 年,我对发展中国家的未来有以下一些乐观的预测:

健康干预措施的普及

我认为,最有希望的领域是全球健康干预措施的广泛分发。

许多疾病已经通过集体努力得以消灭,比如天花和脊髓灰质炎的病例已降至极低水平。人工智能可以在这一过程中发挥重要作用,它能够更有效地进行疾病模型分析和优化物流配送。

希望人工智能能帮助提升健康慈善机构的效率,让更多人受益。新型疫苗的研发,比如针对疟疾的单针注射疫苗,正在简化疫苗分发的复杂性。

此外,通过释放经过基因改造的蚊子来消灭病原体的可能性也在增加。总体而言,我预计未来 5 到 10 年,发展中国家的健康状况将显著改善,甚至有可能超过一些发达国家。

经济增长的潜力

在经济方面,发展中国家有机会迅速追赶发达国家。

上世纪末,东亚一些国家实现了年均 10% 的 GDP 增长,成功弥补了与发达国家的差距。未来,人工智能或能帮助这些国家创造类似的经济奇迹。

通过实施有效的经济政策和发展关键产业,发展中国家的政府可以在尊重自决的前提下,吸收人工智能带来的增长红利。

许多健康干预措施的落实,将极大地推动生产力提升,进而促进经济增长。

此外,人工智能在非健康领域的应用,比如更高效的能源和运输技术,也将为发展中国家带来新的机遇。尽管面临挑战,经济增长率达到 20% 是一个可实现的目标。

粮食安全的改善

在农业领域,先进的作物技术,如更高效的肥料和农药,将帮助提高作物产量。基因工程的应用可以进一步推动这一进程,为发展中国家带来第二次绿色革命,减轻饥饿问题。

应对气候变化

发展中国家更易受到气候变化的影响,因此,人工智能在应对气候变化方面的技术进步,可能会帮助这些国家找到减少碳排放的方法,比如清洁能源和实验室培养的肉类。这不仅能缓解环境问题,还能助力经济发展。

国家内部的不平等

随着先进健康技术的出现,不平等现象可能会加剧,但我对发达国家的情况持乐观态度。市场机制通常会降低高成本技术的门槛,加上政治机构的响应能力,能更好地推动技术的普及。

不过,确保技术普惠是我们共同的责任。

选择退出的问题

发达国家和发展中国家都担心的一个问题是人们选择退出人工智能带来的福利,最终可能会出现糟糕的反馈循环。但历史表明,尽管存在反对声音,大多数人最终会接受有益的技术。因此,我们需要努力提高公众的科学素养,让他们理解人工智能的价值。

总的来说,我对人工智能能够为发展中国家带来生物学进步和经济增长持乐观态度。尽管面临挑战,我们仍需共同努力,推动这一进程,以便让每个人都能享受到技术发展的红利。


和平与治理

假设一切顺利:疾病、贫困和不平等显著减少,人类生活水平大幅提升。然而,这并不意味着痛苦消失,人类仍然面临彼此的威胁。

尽管技术和经济发展有助于促进民主与和平,但这种进步并不稳固,历史上经常出现倒退。例如,20世纪初人们认为战争已成过去,随后却经历了两次世界大战。

三十年前,弗朗西斯·福山预测自由民主将最终胜利,然而这一理想并未实现。

二十年前,美国政策制定者认为与中国的自由贸易会推动中国自由化,但结果却是我们面临一个复兴的独裁集团的挑战。

因此,了解人工智能如何影响和平、民主和自由显得尤为重要。

遗憾的是,我并不相信人工智能会自然而然地促进民主和和平,尽管我认为它在健康和减贫方面有积极作用。人类冲突往往对抗性强,人工智能可能同时服务于“好人”和“坏人”。尤其是,人工智能可能增强宣传和监视的能力,这些都是独裁者的工具。

因此,作为个体,我们必须努力推动人工智能朝着促进民主和人权的方向发展。这比关注国际不平等更为紧迫:自由民主的胜利并非理所当然,反而可能需要巨大的努力和牺牲。

这个问题可以分为两个部分:国际冲突和国家内部结构。

在国际层面,强大的人工智能出现时,民主国家在全球舞台上占据主导地位至关重要。

人工智能推动的威权主义令人忧虑,因此,民主国家需要制定条件,引导强大的人工智能进入世界,以避免被威权主义压倒并保护人权。

实现这一目标的最佳方式可能是“协约战略”,即民主国家联盟通过保护供应链、加快发展等手段增强实力。这种联盟可利用人工智能获得军事优势,并将其好处分配给更多国家,以换取对其民主战略的支持。目标是孤立对手,使其在谈判中处于劣势,从而放弃与民主国家的竞争。

如果能够做到这一点,民主国家将在全球舞台上处于领先地位,能够抵御独裁国家的破坏,并可能将人工智能的优势转化为持久力量。

这可能带来“永恒的 1991 年”,实现福山的梦想。但这需要私营人工智能公司与民主政府紧密合作。

即使一切顺利,国家内部的民主与专制斗争依然存在。虽然难以预测未来,我对人工智能促进民主持乐观态度。强大的人工智能环境下,民主政府可利用优势赢得信息战,反制独裁政权。通过全球信息渠道,民主国家能创造自由信息环境,限制独裁政权对信息的控制。

总体而言,生活质量的提升应能促进民主,历史上在某种程度上确实如此。

心理健康、福祉和教育的改善可能推动民主,因为这三者与对独裁的支持呈负相关。满足其他需求后,人们更希望自我表达,而民主正是自我表达的一种形式。相反,威权主义则因恐惧和仇恨而繁荣。

此外,信息流通有助于削弱独裁统治。未经审查的人工智能可能为个人提供工具,帮助推翻专制政权。专制政府往往通过剥夺人们的常识而生存,导致他们无法意识到真实问题。

我们还应考虑如何利用人工智能让民主国家更好,而不仅仅是防止独裁。尽管法律承诺人人平等,实践中仍存在不公。人工智能能否提高决策公正性?虽然人们担心它加剧歧视,但也应关注其增强民主的潜力。

法律的初衷是公正,但通常由有偏见的人来解释。人工智能可能是解决这一难题的钥匙,因为它能以可重复的方式进行模糊判断。我建议人工智能作为决策辅助工具,与人类协作,而非替代法官。这样的系统需透明,允许人们理解其训练过程并评估可能的偏见。

此外,人工智能可汇总公众意见,帮助寻找共识,解决冲突。知情的公民能更好地强化民主制度。在政府服务方面,人工智能能帮助人们获取健康福利和社会服务,以通俗易懂的方式理解法规,增强对民主治理的尊重。

尽管这些想法可能显得模糊,但我们应追求人工智能作为自由、个人权利和法律平等的保障者的愿景。在21世纪,人工智能支持的政体可以成为个人自由的有力保护者,成为全球向往的政府形式的灯塔。


工作与意义

即使我们在减少疾病、贫困和不平等方面取得了进展,自由民主成为主流形式,现有的民主国家也变得更好,但仍然面临一个重要问题:在人工智能如此先进的情况下,人类的存在意义何在?他们将如何生存?

这个问题比其他问题更复杂,主要因为它涉及社会组织的宏观问题,通常只能随着时间的推移自然而然地解决。历史上的狩猎采集社会可能会觉得,没有狩猎和相关仪式的生活毫无意义,而对我们如今的社会缺乏理解。

尽管如此,我仍想谈谈这个问题。认为人工智能做得更好就意味着人类的任务毫无意义,未必正确。大多数人并不是在任何领域都是最优秀的,但这并不妨碍他们找到价值。

人们喜欢参与那些并不创造经济价值的活动,比如玩游戏、游泳或与朋友聚会。

意义更多来自人际关系,而不是单纯的经济劳动。在后人工智能的世界中,追求复杂任务的成就感和竞争感依然存在。

然而,关于经济的问题更棘手。我们可能面临的挑战是,未来大多数人可能无法为高度依赖人工智能的经济做出有意义的贡献。

尽管短期内,比较优势可能会帮助人类保持相关性并提高生产力,但长期来看,人工智能的广泛应用可能会改变这一格局。

历史上,文明成功地经历了多次经济转型,例如从狩猎采集到农业、再到工业。未来我们可能需要新的解决方案,这些解决方案今天尚不可预见,可能包括普遍基本收入等方法。

或许经济模式会依赖于人工智能的判断,给予人类所需的资源,虽然这些想法还有待验证。

面对这些挑战,我们需要探索、试验并努力避免潜在的剥削和反乌托邦的局面。未来将需要更多的讨论和思考,才能找到合适的出路。


总结

在前面的讨论中,我描绘了一个美好的未来:如果人工智能发展顺利,世界将比现在更美好。然而,要实现这个愿景,需要很多勇敢的人共同努力。每个人,包括人工智能公司,都要积极参与,以防范风险、分享收益。

这是一个值得奋斗的目标。

如果在接下来的五到十年内,我们能战胜大多数疾病、推动人类自由和民主,帮助数十亿人摆脱贫困,那么每个人都会为这种变化感到震惊。我们不仅会惊叹于新技术带来的好处,更会为长久以来的理想逐步实现而感动。

在写作过程中,我意识到这个愿景相当激进,可能让许多人觉得荒谬,甚至有人不同意其中的价值观和政治选择。

但这个愿景也展现出一种迷人的可能性,仿佛不同的美好世界设想都在朝着同一个方向前进。

在 Iain M. Banks 的《文化》系列中,主角来自一个与我描述的原则类似的社会。他们在一个专制帝国中,通过复杂的战斗游戏决定领导权。主角以文化的价值观战胜皇帝,表明即使在竞争激烈的环境中,合作与同情依然是胜利的关键。

Scott Alexander 也提到,竞争往往会导致一个以同情与合作为基础的社会。

我相信,文化的价值观是一种成功的策略。这些价值观源自人们对公平、合作和自主权的共识,让我们能更容易形成团结的力量。大家都认同儿童不应因疾病而死,每个孩子都应该平等享有权利。在这个基础上,我们可以携手运用智慧实现这一目标。

人们普遍同意,惩罚那些不必要攻击或伤害他人的行为是合理的,并且这种一致性应该体现在法律和制度中。同时,个体对自己生活和选择的自主权也是显而易见的。

最终,这些直觉的逻辑推导将引领我们走向法治、民主和启蒙价值观。人工智能的出现为我们实现这些目标提供了机会,清晰了未来的方向。

尽管如此,它仍然是一种超然的美。我们有机会在实现这一目标方面发挥一些小作用。

雷峰网

]]>
人工智能 //m.drvow.com/category/ai/CV11wYAI5CqHNYHX.html#comments Tue, 15 Oct 2024 11:21:00 +0800