雷峰网 //m.drvow.com //m.drvow.com/resWeb/images/common/lp_logo.png 雷峰网 //m.drvow.com 2015 m.drvow.com All rights reserved. zh_cn Tue, 04 Feb 2025 09:58:14 +0800 北京大学-字节跳动成立“豆包大模型系统软件联合实验室”,聚焦AI系统软件关键技术问题 //m.drvow.com/category/academic/FcvYoTi8MQzPrtjv.html 12月12日,北京大学-字节跳动“豆包大模型系统软件联合实验室”签约仪式暨“面向大模型的智能化软件技术与生态”学术研讨会在北京大学英杰交流中心隆重举行。北京大学计算机学院院长胡振江、党委副书记魏朋、北京大学科技开发部副部长郑如青、字节跳动科研战略与学术合作负责人金小伟、字节跳动豆包大模型Foundation团队负责人项亮等出席活动。活动由联合实验室主任、北京大学计算机学院刘譞哲教授主持。

北京大学计算机学院院长胡振江教授在致辞中表示:“北京大学计算机学院软件研究团队是国际一流、国内领先的学术团队,曾获得过计算机领域首个国家技术发明一等奖、亚洲唯一的IEEE TCSE软件协同奖等荣誉。针对大模型给系统软件带来的挑战,刘譞哲教授团队与字节跳动豆包大模型团队前期开展了卓有成效的合作,合作发表多篇高质量论文,特别是对万卡规模GPU的大模型训练系统设计进行了公开介绍,作为学界已知的最早研究,对学术界和产业界都产生了重大影响。联合实验室的建立标志着双方合作走入更深、更精、更密切的新阶段。在基础研究方面,我们将聚焦大模型时代智能化软件基础科学和关键技术问题,特别是结合企业真实场景开展研究,加强原创性、引领性、关键性的科技攻关。在人才培养方面,我们将通过联合实验室打造高水平创新人才培养基地,构建产学研协同育人新模式,培养具有扎实理论功底和实践创新能力的复合型人才。”

北京大学计算机学院院长胡振江致辞

北京大学科技开发部郑如青副部长转达姚卫浩部长向联合实验室成立的热烈祝贺。她表示:“系统软件是人工智能发展的核心基础支撑。很高兴看到北京大学与字节跳动在长期合作基础上建立了联合实验室,这将进一步促进北京大学系统软件技术科研成果在大模型等人工智能重要场景中的应用转化,期待双方携手同力,研究真问题,真研究问题,产出更多有影响力的合作成果。科技开发部将继续发挥桥梁纽带作用,积极探索校企合作新模式,推动建立产学研用深度融合的创新生态,加快科技成果转化和产业化步伐。我们也期待通过与字节跳动的产学研协同,打造校企合作的示范样板,推动更多科技创新成果服务经济社会发展。”

北京大学科技开发部副部长郑如青致辞

字节跳动科研战略与学术合作负责人金小伟表示:“北京大学和字节跳动有长期的合作,特别是近年来在超大规模集群资源管理方面产生了很好的合作研究成果,并在豆包大模型的生产环境中上线应用。联合实验室的成立为双方的合作开启了新的篇章。未来,在技术研发方面,我们将以突破关键核心技术为目标,在模型架构、训练框架、推理优化等方面持续探索创新。在产业实践方面,豆包大模型丰富的应用场景和实践经验,能为基础研究提供真实的应用反馈。豆包大模型团队将与北大专家密切合作,共同突破大模型系统关键技术,推动大模型技术发展。”

字节跳动科研战略与学术合作负责人金小伟致辞

联合实验室主任刘譞哲教授回顾了联合实验室的成立背景和过程,指出系统软件是人工智能高效发展的基础支撑,联合实验室将充分发挥北大软件团队的基础研究优势与豆包大模型在基础设施和应用场景的优势,开展联合攻关,从源头和底层解决大模型系统软件关键技术问题,努力打造在学术界和产业界都能有重要影响力的成果;同时,在校企合作过程中,重视高端软件人才培养和产教融合。

联合实验室主任、北京大学计算机学院教授刘譞哲介绍实验室情况

北京大学计算机学院党委副书记魏朋老师主持了联合实验室的签约仪式和揭牌仪式,刘譞哲和项亮代表双方签署合作协议,胡振江院长、郑如青副部长、金小伟先生共同为联合实验室揭牌。

联合实验室揭牌仪式

在随后举行的“面向大模型的智能化软件技术与生态”学术研讨会上,由北京大学计算机学院金鑫研究员主持,杨仝研究员、研究生赵怡浩、吴秉阳、陈世茂分别作了学术报告。

北京大学计算机学院金鑫研究员主持学术研讨会

北京大学计算机学院杨仝研究员作学术报告

与会专家们一致认为,推动产学研深度融合对促进人工智能核心技术突破具有重要意义,此次联合实验室的成立是校企协同创新的重要里程碑,将依托双方优势,共同推进大模型系统软件的技术创新与应用发展。

关于北京大学-字节跳动豆包大模型系统软件联合实验室:联合实验室立足北京大学计算机学院在系统软件领域的研究积累,依托字节跳动在大模型应用和系统方面的实践优势,聚焦人工智能大模型系统软件研发。团队多名成员曾在SIGCOMM、NSDI等国际顶级会议发表成果,在训练和推理系统方面,有过丰富的大规模生产环境成功部署经验,为团队技术创新奠定了坚实基础。

关于豆包大模型团队:字节跳动豆包大模型团队成立于2023年,致力于开发业界先进的AI大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖深度学习、强化学习、LLM、语音、视觉、AI Infra、AI Safety 等。团队依托平台资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包 APP 已成为中国市场用户量最大的 AIGC 应用。


]]>
人工智能学术 //m.drvow.com/category/academic/FcvYoTi8MQzPrtjv.html#comments Fri, 13 Dec 2024 09:31:00 +0800
全球AI顶会 NeurIPS 2024温哥华开幕,中国校企上百篇论文被收录 //m.drvow.com/category/academic/BHsSTVLoch7Tbcjg.html 当地时间 12 月 10 日- 15 日,全球 AI 顶级会议 NeurIPS (神经信息处理系统大会)在加拿大温哥华举办,这一顶会涵盖了机器学习、深度学习、神经网络等多个研究方向。

官方数据显示, NeurIPS 2024 共收到 15671 篇有效论文投稿。投稿量创下新高,论文录取率为 25.8%,相比去年略有下降,来自中国的被收录的论文则很可观。公开数据显示,中国人民大学、字节跳动、蚂蚁集团、腾讯等中国高校和互联网企业均分别有数十篇论文被NeurIPS 2024收录。

蚂蚁集团被 NeurIPS 2024 收录了20篇论文,其中有一篇为Spotlight(特别关注)。按往年数据估算,NeurIPS 的 Spotlight 论文录取率约为 3%。

被 Spotlight 的论文《MKGL:掌握一门三元组构成的语言》,引入一个叫 KGL的新知识图谱语言,以探究大语言模型(LLM)和知识图谱(KG)的融合。KGL 这一新语言能够让一个句子精确地由一个实体名词开始、一个关系动词连接,再以另一个实体名词结尾。实验结果显示,LLM 通过利用实时知识图谱上下文检索和文本嵌入增强,高效提升其对 KGL 词汇的理解,已经做到能够熟练掌握 KGL,在知识图谱补全等任务上相较于传统方法有显著提升。

根据论文摘要显示,蚂蚁集团20 篇论文的研究领域主要集中在提升 AI的经济性、可信性和效率上,这也是该企业重投 AI 的重点攻坚方向。

比如论文《重新审视显存和通信成本对大语言模型高效数据并行训练的影响》针对大语言模型(LLM)分布式训练的速度与效率问题,提出了一组新的基础策略,一个名为 PaRO 的部分冗余优化器,通过更精细的分片策略以适配不同的训练场景,加速 LLM 的训练。实验结果表明,PaRO 在 LLM 的一些训练场景下速度比 ZeRO-3 最快提高到 266 %。此外,PaRO-CC 也可以单独使用在模型并行策略中,且获得了17%的训练速度提升。

在 NeurIPS 2024 上,蚂蚁集团还受邀举办一场研讨会,围绕“强化学习优化、可信模型构建及视觉语言模型应用探索”等议题,深入研讨知识增强的大语言模型在行业垂直领域的前沿技术与发展趋势。来自清华大学、香港浸会大学、墨尔本大学、蚂蚁技术研究院的学者和研究员将在研讨会上进行主题报告分享。

据了解,加速 AI 在行业垂直领域的落地应用,亦是蚂蚁集团重投 AI 的重点攻坚方向,或者说,聚焦提升AI的经济性、可信性和效率,就是为了加速AI在行业垂直领域,尤其在金融、医疗、遥感等严谨产业中的落地应用。

2024•Inclusion外滩大会发布的《AI产业实践六大趋势》指出,大模型在医疗、金融等专业领域应用涌现,能促进垂直行业生产力提升、数据价值释放,同时也成为大模型技术加速发展的“探照灯”。

值得注意的是,在 NeurIPS 这一级别的国际顶级学术会议上,来自国内高校、科技企业、互联网公司的论文不但在数量上持续突破,在质量上也有飞跃式进展,被收录为Spotlight、Oral、Highlight、Best Paper提名的论文越来越多。期待中国的产学界继续发力与合力,勇登这波 AI 浪潮之巅。

 


]]>
人工智能学术 //m.drvow.com/category/academic/BHsSTVLoch7Tbcjg.html#comments Wed, 11 Dec 2024 14:04:00 +0800
新瓜不断!2024NeurIPS最佳论文,花落字节起诉的实习生 //m.drvow.com/category/academic/aL9PlmQulNJPfEFg.html 时隔两个月,字节模型遭攻击事件又有新后续。

今年10月份,字节商业化内部模型商业化内部模型训练遭实习生攻击一事闹得满城风雨,后这位名为田柯宇的实习生便被开除并被要求赔偿字节的侵权损失800万元及合理支出2万元。

本以为这个瓜会以字节的“雷霆手段”告一段落,没想到就在刚刚,事件迎来了大扭转。田柯宇和字节合作的论文竟然被人工智能顶级会议 NIPS 被评为了 Best Paper。

网友们也是纷纷下场吃瓜:

有人感叹:有点小说那意思了,昨日的我你爱答不理,今日的我你高攀不起。

也有人劝字节及时止损,抓紧请“老师”回家。

更有人支持田柯宇直接下场创业。

不过也不乏理智的网友:优秀永远也不能成为作恶的通行证。

字节「雷霆手段」始末

两个多月前,网上流传出一则消息,“字节大模型训练被实习生入侵,注入了破坏代码,导致其训练成果不可靠,可能需要重新训练。据称遭到入侵的代码注入了8000多张卡,带来的损失可能超过千万美元。”

10月19日,官方发布公告对这件事进行了澄清,确有商业化技术团队实习生发生严重违纪行为,涉事实习生已于2024年8月被公司辞退,并将其行为同步给行业联盟和所在学校,交由校方处理。

紧接着11月5日,字节还专门发布了面向内部全员的《企业纪律与职业道德委员会通报》,对这件事件进行了更详细地披露。

通报提到,2024年6月至7月,集团商业产品与技术部门前实习员工田某某,因对团队资源分配不满,通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务,造成资源损耗。字节方已与其解除实习协议,同步阳光诚信联盟及企业反舞弊联盟,并同步至其就读学校处理。

AI科技评论了解到,这名实习生本科毕业于北京航空航天大学软件学院,研究生就读于北京大学,师从王立威教授。研究兴趣为深度学习的优化与算法。自2019年起,他在商汤和字节跳动实习研究,具体包括超参数优化、强化学习算法、自监督的新型算法。

而就在事件处理期间,他却多次对外否认,声称当时攻击训练任务的人不是自己,而是其他的实习生,甚至还报警称自己遭到了造谣。

这一举动直接惹怒的老东家字节,直接一纸诉状把他告上法庭,要求其索赔公司的侵权损失800万元及合理支出2万元。

然而让人感到抽象的是,而时至今日,田柯宇的领英主页上还明晃晃的写着几个大字:勿信谣勿传谣

「作恶者」搞出大新闻

12月4日凌晨,田柯宇获得 Best Paper 的消息在网上不胫而走。

AI科技评论第一时间去核实了信源的可靠性,确认田柯宇的论文确实是被 NeurIPS 评为了 Best Paper,并且早在2023年,田柯宇的一项工作就曾被ICLR评选为Spotlight论文。

在这篇 Best Paper 中,田柯宇和其所在团队首次提出了一种新的图像生成框架,这个框架在图像合成的质量、多样性、数据效率和推理速度方面首次超越了强大的扩散模型,并且具有很好的扩展性和零样本任务泛化能力,并且这个项目已经在Github上积累了4.4k多颗星。

人工智能超级顶会 NeurIPS

让田柯宇又火了一把的 NeurIPS,是被称为「人工智能超级顶会」的存在。

NeurIPS全称为神经信息处理系统大会,是机器学习领域公认的顶级会议,与ICML(国际机器学习会议)和ICLR(国际学习表征会议)齐名,被认为是难度最大、水平最高、影响力最强的会议之一。在中国计算机学会的国际学术会议排名中,NeurIPS被列为人工智能领域的A类会议。

除此之外,雷峰网还了解到,NeurIPS的最佳论文奖评选标准也非常严格,NeurIPS 2024共收到15671篇有效论文投稿,比去年增长了27%,但最终接收率低于2023年,仅有25.8%。

而那些获得NeurIPS最佳论文奖的研究者,往往代表了神经科学和人工智能领域的前沿成就,他们的工作不仅在学术界产生重大影响,也在工业界引起广泛关注,成为引领研究趋势的关键力量。

最佳论文奖之外,NeurIPS另外一个重磅奖项为时间检验奖(Test-of-Time Award),颁发给那些在NeurIPS会议上发表的论文,这些论文在10年后仍然显示出深远的影响和持久的价值。今年有两篇论文获得这一奖项,分别为Ilya Sutskever的Seq2Seq和Ian Goodfellow的生成对抗网络GAN。

至于字节会如何应对这件事,还是一言不发?我们拭目以待。

获奖地址:https://neurips.cc/virtual/2024/poster/94115

论文地址:https://arxiv.org/abs/2404.02905

项目开源地址:https://github.com/FoundationVision/VAR


]]>
人工智能学术 //m.drvow.com/category/academic/aL9PlmQulNJPfEFg.html#comments Wed, 04 Dec 2024 14:31:00 +0800
开源全家桶又添一“元”,腾讯混元大模型公布最新进展 //m.drvow.com/category/academic/tYqALxTucTBiKBhJ.html 刚刚,腾讯混元大模型公布最新进展:正式上线视频生成能力,这是继文生文、文生图、3D生成之后的又一新里程碑。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。

“用户只需要输入一段描述,即可生成视频,”腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。

通过腾讯元宝APP-AI应用-AI视频即可使用该功能(前期需申请)

在与国内外多个顶尖模型的评测对比显示,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色。

腾讯混元视频生成大模型制作出的视频画质很逼真,内容也与提示词高度一致,确保画面的流畅性,减少形变,甚至在提示词是 emoji 表情的情况下,也可以稳定输出。

例如,在处理冲浪、舞蹈等包含大幅度动作的场景时,该模型能够生成流畅且合理的动作镜头,物体形变现象得到有效控制;在处理光影反射时,它能够基本遵循物理规律,如在镜面或照镜子的场景中,能够实现镜内外动作的一致性。此外,该模型还能在保持画面主角不变的情况下自动切换镜头,这是许多其他模型所不具备的高级功能。

视频由腾讯混元视频生成,提示词:200mm长焦镜头,对准一只停在栏杆上的海鸥。羽毛的纹理清晰可辨,前景的木栏杆温柔虚化。远处的落日和海平面融化成金红色的光影

视频由腾讯混元视频生成,提示词:暴风雪中,一列蒸汽火车在崎岖山间穿行,黑烟从车头直冲云霄,车厢在皑皑白雪中留下深邃轨迹,镜头以侧面追踪,捕捉机械巨兽破开风雪的磅礴气势,白雾与蒸汽交织成壮丽画卷,电影氛围,远景

视频由腾讯混元视频生成,提示词:一个隐藏的瀑布流入清澈的池塘,周围是高大的树木和绿色植物。阳光穿过树叶,在下面的岩石和水面上形成斑点。逼真,茂密森林中的宁静瀑布,宁静、阳光明媚的日子,中景

视频由腾讯混元视频生成,提示词:一位戴着复古飞行护目镜的机械师,半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻,零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍,袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟,齿轮间冒出缕缕蒸汽,工作台上散落着铜管、发条和老式图纸。

它采用了与Sora相似的DiT架构,并在此基础上进行了多项优化。混元的视频生成模型通过引入新一代的文本编码器,显著增强了对语义的理解和遵循能力,这使得它在处理多主体场景时能够更加精确地执行指令并呈现细节;此外,该模型还采用了统一的全注意力机制,这不仅让视频帧之间的过渡更加自然,还实现了在保持主体一致性的前提下进行多视角切换;最后,混元通过采用先进的图像视频混合VAE技术(3D变分编码器),在细节捕捉上取得了显著进步,特别是在处理小尺寸人脸和快速运动镜头等复杂场景时表现尤为突出。

目前,腾讯宣布开源该视频生成大模型已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力,加速行业创新步伐。

据雷峰网了解,从年初以来,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。

]]>
人工智能学术 //m.drvow.com/category/academic/tYqALxTucTBiKBhJ.html#comments Wed, 04 Dec 2024 14:19:00 +0800
对话|从背景到技术储备:深入解析建“十万卡集群”的必要性 //m.drvow.com/category/academic/7uN0g7kkUUJA7O00.html 前不久,马斯克旗下的xAI122天建成十万卡集群,也让外界意识到算力集群对AI的重要性。(雷峰网雷峰网雷峰网)

之前坊间还流传一句话:服务器集群的规模越大,其训练出来的人工智能表现就越出色。


在这波浪潮之下,全球科技巨头纷纷投入巨资建设高性能AI计算集群,以提升AI算法的效率和能力。谷歌推出了其AI Platform,依托多模态生成式AI模型Gemini,大幅提升了在文本、图像、音频和视频处理上的能力。微软的Azure AI Compute Cluster整合了最新AI技术,为开发者提供了从数据处理到模型训练的全方位支持。(添加微信Who123start,解锁独家科技内幕和行业趣闻)


作为国内最早推出大模型之一的百度,也展现出其强大的创新能力。11月6日,在百度智能云举办的百舸媒体沙龙,深入探讨“十万卡集群”的技术创新、实施过程及其对AI行业的推动作用,并邀请百度杰出系统架构师、百度AI计算部负责人王雁鹏在现场做了分享和交流。


以下是媒体与三位嘉宾在会上的对谈实录,雷峰网在不改变原意的情况下做了编辑和调整:

 

Q:百舸的客户群是哪些?重点的行业客户是否之前有一些成功案例可以来分享?

 

A:我们的客户主要分为两类。一类是大模型创企,他们需要万卡规模的计算能力,因而对快速建设和成本控制有较高的需求。这类客户虽然数量较少,但其需求非常明确;

另一类是典型的互联网客户,他们的需求规模通常在千卡到5000卡之间。这些客户包括教育行业的公司。

 

这些互联网客户的主要需求是利用他们大量的自有数据进行后期训练(Post Train),以适应各种场景和优化,从而构建他们的数据飞轮。目前,这些训练需求依然是我们的主要业务,而推理需求相对较少。这也解释了为什么业界对AI算力落地效果仍存疑虑。预计在今年或明年,算力需求仍将以训练为主,而推理和SFT(小规模微调)的长尾客户将会增多,但总体资源需求仍低于头部客户。

 

Q:百舸客户的主要需求和痛点是什么?我们是如何解决的?

 

A:各类客户的需求其实有很多共通之处,我们可以一层层来分析。

1.       基础设施层面:这些客户首先需要一个强大的网络硬件互联架构。企业在尝试自行搭建大规模集群时,常常会遇到网络上的难题。我们的任务是为他们提供更好的网络硬件互联架构,使他们能够成功搭建一个大规模的计算集群。

2.       系统稳定性:没有经验的客户在自行搭建系统时,常会遇到有效训练时间过低的问题。这些稳定性问题是客户面临的第二大难题,我们需要帮助他们提高系统的可靠性和有效训练时间。

3.       加速框架:在提供加速框架方面,我们帮助客户优化并行策略,提升性能。通过更好的框架,我们能显著提升计算速度,解决加速问题。

4.       资源利用率:客户购买大量资源后,需要有效利用这些资源。他们可能既有推理任务又有训练任务,最初可能是为训练任务购买资源,但随后也需要利用这些资源进行推理。我们通过任务混合部署,提升资源利用率,确保资源能够被高效利用。

 

Q:您刚才花很大篇幅讲跨地域网络问题,能否举例说明实际效果?

 

A: 跨网络问题主要涉及两个方面:一是当进行十万卡规模的部署时,确实需要跨地域的支持;二是我们云服务的能力。举例来说,我们可以在云上两个机房同时部署计算任务,但客户在使用时完全感知不到差异。例如,即使客户使用的是5000卡的规模,我们在不同地点分配资源,但使用体验依然一致,这是我们的一大优势。

 

Q:面对不同客户需求,如1000到5000卡的规模,如何确保任务级别的混合调度的效率提升?

 

A: 混合调度我们已经做了许多工作,实质上是通过混合集群实现不同特征的工作负载的混合。

例如,推理任务有波峰波谷,波峰时使用的资源更多,波谷时使用较少;而训练任务则需要固定数量的计算卡(如1000卡),如果资源不足,比如仅有990卡,任务将无法运行。

为了解决这些问题,我们提供了一个非常灵活的队列机制,将业务视为虚拟队列,并配置优先级策略。这些队列根据实际情况动态调整资源分配,当资源不再需要时,可以被其他队列的任务抢占,从而提高资源利用率。此外,我们的框架能够自动重新分配并行策略。例如,一个需要1000卡的任务,在资源不足时(如仅有900卡),能够调整并行策略以继续运行,从而确保任务的连续性和有效性。

 

Q: 请详细聊一下Checkpoint环节,大家有不同的策略,可能有些效果更好,有些则影响训练有效时间和成本,我们在这方面是怎么做的?

 

A: 原来的Checkpoint策略是隔一段时间创建一个Checkpoint,在故障发生后恢复。但是,这种方法的缺点是,如果每小时创建一次Checkpoint,出现故障时通常会浪费一半的时间,即30分钟。因此,我们希望Checkpoint越密集越好,但这也带来新的问题。

最初的Checkpoint策略需要停止训练,将数据写入存储,这会耗费大量时间,因为存储带宽有限。当时停下来写Checkpoint需要几分钟,这显然无法接受,尤其在Checkpoint频繁时。

第一阶段:改进为异步Checkpoint,训练过程不中断,先将数据复制到内存,然后异步写入存储。这样可以缩短Checkpoint时间,从原来的两小时一次缩短到每30分钟一次。但依然存在瓶颈,如存储带宽限制。

第二阶段:引入触发式Checkpoint。在正常情况下不创建Checkpoint,只有在故障发生时才创建。很多GPU故障不会导致数据丢失,可以在故障点恢复数据并存储。这种方法在大多数情况下有效(95%以上),仅在传统Checkpoint保留的情况下无回退和浪费。


]]>
人工智能学术 //m.drvow.com/category/academic/7uN0g7kkUUJA7O00.html#comments Mon, 25 Nov 2024 18:28:00 +0800
对话|应用来了,百度云的企业级大模型应用如何在产业落地? //m.drvow.com/category/academic/vWkNNq8HewOcTQ8K.html

当AI赛道来到下半场,如何真正借助大模型引领各行各业发展创新,成为头部互联网企业的必争之地。(雷峰网雷峰网雷峰网)

放眼全球,企业对大模型的需求日益增加,这不仅因为其强大的数据处理和分析能力,更因为其在实际应用中的出色表现。大模型通过预训练大量数据,提升了模型对内容的理解力和生成力,面向行业,无论是在市场营销、办公提效,还是客户服务等方面,如何将更好的将大模型进行业务场景化落地,始终是企业关心的核心问题。

百度作为全球领先的技术公司,率先推出了文心大模型等系列大规模预训练模型,这些模型通过整合海量数据和知识,成为多个应用场景的技术基础。

今天,百度的文心大模型在金融、医疗健康、旅游、专业咨询服务、内容创作与AI作画方面的应用均展示了其在跨模态、跨语言情景下的深度语义理解与生成能力,以及在搜索问答、内容创作生成、智能办公等众多领域的应用潜力。

在其自主研发的百舸AI算力平台,更是通过对底层硬件资源的优化,提高了模型的运行效率和资源利用率,帮助企业更高效地进行大模型的开发和部署。

尽管AI大模型已经B端爆发,为各行各业带来巨大价值,但在下游行业的大模型落地中,仍面临一系列相关场景挑战。比如投入成本大于可见收益、应用效果不达预期、以及后续模型效果退化等问题屡屡出现。

11月6日,百度智能云举办百度世界大会AI应用媒体沙龙,特此分享百度TO B市场的企业级应用产品的落地效果,并邀请百度智能云技术委员会主席孙珂、百度智能云数字人产品部总经理张裕翔、百度智能云智能客服与智能内容产品部总经理张红光等三位专业人士在现场做了分享和交流。

以下是媒体与三位嘉宾在会上的对谈实录,雷峰网在不改变原意的情况下做了编辑和调整:

01用户正向反馈,百度智能云“客悦”帮助企业节省运营成本

Q:关于百度智能云客服客悦这款产品的用户反馈如何?

张红光:过去智能客服无法感知到用户情绪,比如说复杂的多主语问题,但现在客悦有能力去解决这些问题,通过语音引擎(ASR/TTS)来识别和表达用户语音,专门适配电话场景、定义沟通场景和回答方式,并对通话数据进行结构化分析和标签打标,提升业务洞察能力,最关键的是,能在一定程度上减少转人工率,节省了企业的运营成本。

张红光:这次我们在世界大会推出的大模型智能外呼,还能够帮助企业节省人力成本。这是因为有很多企业在做线索筛查和联系用户时,80%时间都是在拨打一些无效电话,大模型智能外呼可以替代人工重复性工作进行初筛,甚至还可以洞察出某些高意向用户,转人工跟进进一步沟通。并且与用户沟通过程中能够保持拟人、友好的交互,这些都是大模型加持下的智能客服,给客户带来的新的产品体验。

Q:针对不同行业的落地应用,百度有哪些定制化?如何降低定制化工作的成本以达到最优状态?

张红光:以智能客服客悦的市场经验来看,目前大部分应用还是在一个场景里横向满足用户需求,定制化主要体现在企业使用的过程当中,比如作为一个客服,既要跟CRM、销售管理流程贯穿,还要在数据收集系统里,所以就需要对接不同的系统,这就需要定制化的工作。

张裕翔:以百度智能云的数字人为例,提升它的应用集成效率速度,就能降低数字人在不同端的训练能力和开发成本。比如过去最早做定制项目可能30%是数字人相关,70%和用户相关,关注的是系统要如何融合打通的问题。但现在转变过来,整个业务里70%-80%都是跟数字人效果能力强相关的,比如怎么在一个视频里去优化数字人的动作等,这背后都是源于客户对于大模型认知的转变,客户开始更加关注应用场景的落地价值。

目前百度智能云在标准SaaS场景应用中,也会更侧重于大场景上的通用能力,比如数字人视频,虽然很难将教师视频、医疗视频,甚至一些非常大的场景做的非常细致,但在整个数字人的生成合成层面是可以做到最优的。

02解析数字人的应用场景,以及定制化解决方案

Q:站在数字人角度,现在更被大家所接受或者大家愿意应用的是2D还是3D?

张裕翔:整体来看,头部企业客户喜欢用3D,中小客户和广泛用户喜欢用2D,这也跟客户的使用场景相关。

比如,在一些科技类企业,要做金融报告的解读和对外宣传时,会倾向于使用3D形象,包括在一些文旅、地方科技馆的服务场景,也会使用3D形象多一些,因为3D形象更具备科技未来感,能够从互动感受上带来更新颖的体验。

Q:针对SMB客户和KA客户,如何定制化解决2D跟3D的数字人的产品形态?

张裕翔:其实差别并不大,因为基础应用场景无非是视频、对话、直播这三个场景,虽然从技术角度看,数字人视频一对多异步渲染、数字人对话是一对一的实时渲染、数字人直播是一对多的实时渲染,但是其实从底层能力的角度来看是几乎一样的,无非是驱动人像技术及其算法模型应用上略有差别。

比如要解决2D形象如何拍视频的问题,让动作呈现出更多样性,突破原来的拍摄内容。理想情况就是用自己的形象拍一张照片或者一个视频,通过授权后,无论是在出席发布会或者做讲解视频等场景下,都可以把形象做出来,这就是未来理想化的一个状态。

3D层面则相对简单一些,因为3D本身在游戏场景中就包含了动作系统和语言系统,但问题在于,如何让普通人以更低的成本,或者像企业级应用那样,实现高指向性和准确性的驱动,这是目前正在解决的调优问题。

03解放双手,文心快码如何助力程序员

Q:文心快码往外推的时候,程序员对文心快码的信任度高吗?

孙珂:其实从内部的测试来看,一开始推广的时候程序员也会有排斥心理,但随着他的使用频率增强,逐渐会感受到对工具的依赖性也在慢慢变高,就会发现他的代码生成量占比和采纳率在往上涨。

整体来看,程序员群体对新技术接受度还蛮高,但他们关注的点不是信任与否,而是产品本身能否跟程序员做一些交互上设计。

Q:如果要将文心快码推广到市场,中间会不会经历所谓的教育用户过程?

孙珂:其实这个过程我认为不是教化逻辑,更多是互相成长,如果仔细观察就能发现,在市面上有非常多的代码辅助类产品,但却有三个不同的区别,一个是比较常见的用IDE加plugin的一种形态,跟程序员进行一个陪伴式的编程;另外是稍微接管多一些,在IDE里面会帮你尝试做更自动化的编程尝试;还有一些很激进的厂商或创企,它会直接迈到所谓Out coder的过程,从PRD开始自动生成。

因此,整个过程其实是逐步根据当前应用基于大模型,针对程序员需求的一些解法逐渐进步,而最终大家都会趋同都会走到那个平衡点上。

Q:文心快码目前在哪些行业应用成熟?

孙珂:首先是金融行业,特别是银行、证券等对代码类的工具需求非常多,第二是泛科技或者泛互联网行业,这些新兴企业也应用比较广泛。

第三是传统的软件开发,最后一个则是制造业,包括一些汽车行业、工业行业等。

Q:站在基础设施角度,这次我们产品升级带来哪些差异化优势?

孙珂:基于一个统一的底层架构具有诸多优势,其中之一在于我们的模型服务。

无论是大模型还是传统的AI模型,如何运行这些模型并提供一个稳定的接口,以保证其吞吐量,包括如何对这些模型进行优化是一个重要的问题。百度智能云千帆这样一个PaaS平台在应用之下为我们提供了完整的相关服务,包括模型效果、推理性能等系列工作,千帆平台都提前为我们做好了,这极大地提升了我们产品的研发效率。

其二,还需要适配底层的硬件资源和基础中间件。目前可能有几十种底层的硬件配置方案,要想让应用程序高效地适配所有这些配置,是一项非常复杂的工作。如果每个应用程序都需要直接适配各种底层硬件配置,那么复杂度的数量将是一个天文数字。

但在我们的底层基础设施百舸平台上,无论是公有云还是私有化部署的环境下,都可以屏蔽底层硬件相关的适配工作,让我们可以更聚焦产品本身的工作。因此,对于我们开发应用而言,实际上只需要关注一个平台即可,而且只需要关注一套效果。

这对我们整个上层应用的蓬勃发展和提升效率都是非常有帮助的。

]]>
人工智能学术 //m.drvow.com/category/academic/vWkNNq8HewOcTQ8K.html#comments Wed, 13 Nov 2024 17:48:00 +0800
当AI浪潮开始走务实之道:夸克的进阶之路 //m.drvow.com/category/academic/BuCCMCOIJ0AwSwA6.html “一般而言,相较于豆包、kimi,用户会比较容易接受夸克从搜索引擎到 AI 助理的形态转变。“(雷峰网雷峰网雷峰网)


“因为前者是让用户直接去理解 AI 助理,这对于普通用户来说挺难的”。资深产品专家孔辛对雷峰网解释道。


之所以难,恰恰是源于用户对于固定路径的依赖性,简单来说,用户可以接受传统搜索引擎中嵌入AI技能,但却需要相当长时间去适应一款全新的AI功能产品。


比如以谷歌、百度、夸克等为主的传统搜索引擎,都是选择将AI集成至自身搜索引擎之中,并未推出相关新品,既能发挥自身庞大数据库价值,又能通过入口抢占用户心智。

 

这也是为什么我们想要在AI时代中,聊一聊夸克产品的原因。

 

作为一款搜索引擎,它在一众老玩家面前是一个后起之秀,作为一名AI助手,它又能凭借产品设计和功能形态与同行其他产品一较高下。(欢迎添加微信Who123start,畅聊科技新动态,讲述最新圈内故事,添加好友请备注)


01好看好用页面干净,颜值和功能并存才是王道

据雷峰网多方了解,市面上的 AI 搜索产品之间的差距并不大。

 

由于答案都是基于 RAG 生成的结果,底层数据库的细微差距,可能就会导致 AI 搜索产品的“偏科”。

 

一个 AI 搜索产品,可能在某个问题上产品表现好,但换一个问题,产出的答案或许又难以令人满意。

 

发挥不稳定,也就导致在当下,市场上还没有一款“顶尖”的产品,可以完全超出其他同类的竞品。

 

相对来说,作为老牌搜索巨头,百度的 AI 搜索在精准度更胜一筹;而以夸克为代表的“新生力量”,在产品设计上做了很多细节层面的设计。

 

一位夸克资深用户黄洋所说,自己关注AI搜索就看中两个点,第一,页面纯净,第二,快速找到问题答案,而夸克是他在六年前就已经特别看好的产品。

 

“怎么说呢,当时一打开就觉得,没有铺天盖地的广告和信息流展示,还蛮清新的。”

 

如今的夸克在页面干净的基础上,将大模型与AI搜索相结合,只要用户输入需求,夸克就能明确识别真实意图,返回相匹配结果。


从夸克的设计能够看出,先通过抢占用户习惯,第一时间推出纯净版搜索页面,让用户尝到甜头后,其他产品就很难再次模仿和超越。其次,夸克PC端用三栏式设计,更清晰地展现生成式回答和网页信源等,一来增加AI回答的可信度,二来便于信息浏览。

比如在Bing和夸克上分别搜索“2024年脱口秀冠军付航的表现如何”,夸克的搜索就会根据文档总结,从而生成一篇类似于点评式的小作文,尽量从更多角度解析同一个问题,而且每一段分析背后都会标明出处,这一点倒是很像论文引用格式的方法。

而到了 AI 健康咨询这个细分场景,人们有一个理想的未来:如果身体不舒服,人们不必事事去挂号看病,只要精准输入症状,配上强大的 AI 搜索能力,完全可以解决日常生活中的大部分健康问题。

然而,AI 再智能,也无法“感同身受”,无法完全洞察用户的完整需求。

所以,在 AI 和用户中间,需要产品设计的巧思在中间衔接,让用户能掌握使用 AI 的能力、更好地用上 AI 的信息服务。

当输入病症问题后,搜索结果中出现了 AIGC 内容和夸克健康助手的入口,这一步可以让用户自行对照判断病症。比如输入“眩晕症如何缓解”就会得到不同病理角度的回复,相对来说信息更加全面和精准。

再次输入症状“坐着忽然开始头晕是怎么回事”,答案的补充栏里就会出现时间和发病期间的身体感受,力图更细致的还原用户的患病过程。用户先描述症状,再根据系统的提示一点点地完善——这种方式,就是力求模拟医生问诊的过程。


一般病人即使是用“说”的方式,也很难精准、清晰地自述病症,大多还需要医生的引导,而换成文字输入,问诊的难度就更高了。

 

通过这种“循循善诱”的方式,患者也自然能在夸克上获得更准确的诊断。

 

这种方式,虽然早在其他产品上有所应用,但在大模型产品上却是初次登场。这种产品设计巧思的借鉴,正是 AI 产品可以和同类竞品拉开差距的关键。(欢迎添加微信Who123start,畅聊科技新动态,讲述最新圈内故事,添加好友请备注)

02做AI时代的瑞士军刀,而非“漂亮的花瓶”

在电影《2001太空漫游》的尾声中,唯一剩下的宇航员大卫跟人工智能计算机HAL9000展开殊死搏斗,终于制服了他。

 

回归现实中,从目前来看,人类处在掌控人工智能技术的那一端。

 

这让我想起前不久凤凰网《旅途》中的一个片段,正是讲述技术是如何服务于人类的。

 

黄老师是河北涿州某高职的高三语文教师,患有视网膜色素变性疾病,这种疾病随时都有致盲的风险。

 

为了继续给学生们代课,不耽误高三学子的前程,黄老师决定继续留在讲台上,一直到高考结束。

 

当要给同学们解答试卷的时候,由于黄老师看不见试卷,所以就需要通过某种技术方式,先把题目听一遍。

 

但找人朗读题目给黄老师听并不现实,所以只能借助于夸克App里的扫描功能,将试题拍下来保存,再通过音频播放等一系列环节,最后才能够成功解答试卷。

其实这就是一个很典型的科技服务于人类生活的案例。

 

今天看夸克的功能矩阵,会发现,夸克比起一个专业的“锤子”、“螺丝刀”,更像一个万能的“瑞士军刀”,十八般武艺功能不少,乍看上去让人眼花缭乱。

 

为什么要把产品做成这样的形态?夸克有自己的想法。

 

比如,一个用户搜索“怎么拍证件照”,目的往往不只是获取相应的知识,而是要自己获得一份合乎标准的证件照片。

 

于是,夸克就做了“拍证件照”的功能,直接给用户自拍证件照的能力,让用户可以自己解决自己的问题。

 

如果能一步到位,为什么还要用户自己动手?无论如何,从用户的角度出发,这是夸克的产品哲学。

 

比如在教育领域,孩子大量的算数题需要检查,家长做起来相当费时费力,想到就挠头,夸克做了口算检查的功能,拍一下作业就能检查,省下家长不少精力;

 

而孩子到了中学,碰上复杂的几何、代数问题,让很多家长都不得不“缴械投降”,夸克做了扫题答疑的功能,同样还是把题目拍下来,就能生成详细的题目讲解,甚至还辅有视频,扫题结果也能输出成 PDF 再进行打印;

 

此外,夸克最新升级的“AI搜题”产品,能够辅助搜到各类新题和难题,并通过AI分步骤进行题目讲解,甚至可以进行随时的进一步提问。

 

新颖、有趣的功能做了不少,而在上月,夸克又对 PC 客户端进行了全面升级,赋予了它“系统级全场景AI”的强大能力。

 

简单来说,这意味着厂商们正有意识地,将 AI 技术无缝整合到用户的整个电脑使用过程中。

 

无论是在桌面处理文件、浏览网页,还是在编辑文档时,用户都可以通过快捷键、选中文字、截屏、右键菜单或浏览器插件等多种便捷方式,随时调用夸克的AI功能,实现智能搜索、高效写作和信息智能总结等操作。

其实,这几年用户对AI的要求也越来越高,不止要做的对,还要做得好。

 

据雷峰网了解,夸克团队内部会基于媒体的口碑调研来制作报告,为业务发展提供数据支持,甚至会细致到某个特定功能的操作层面。

 

所以我们更倾向于将夸克的AI产品视为一款“瑞士军刀”,因为它能够针对不同的应用场景提供多样解决方案。

 

站在公司角度来看,夸克有一个非常适合生存和打磨产品的环境。

 

这便不得不提及阿里巴巴在去年公布的首批战略级创新业务,分别是:1688、闲鱼、钉钉和夸克,它们被统称为“阿里四小龙”。

 

而不同其他大厂产品的是,夸克一直保持自己的节奏,而AI大模型时代的到来,反而让夸克拥有了弯道超车的机会。(欢迎添加微信Who123start,畅聊科技新动态,讲述最新圈内故事,添加好友请备注)

03为什么大厂都在瞄准AI搜索?


在众多AI应用下,AI搜索引擎是许多互联网“老炮儿”发力的阵地。

 

从微软的 New Bing、到谷歌的Bard和Gemini,传统搜索厂商已经打得难分伯仲,另一边SearchGPT、Perplexity也迅速挤进AI搜索赛道之中。


同样,国内互联网这边也在暗暗较量,月之暗面推出kimi、百度AI、360AI搜索、阿里夸克最近也推出超级搜索框,宣称能够实现一站式AI服务。


为什么大厂全都瞄准了AI搜索赛道?答案便是用户离不开搜索。


无论是Web1.0时代还是如今的移动互联网,用户上网最多的动作就是打开搜索框,输入问题找到答案。最初,用户的搜索流程是,搜索——筛选(缩小范围)——找到满意答案——点击链接查看,但伴随需求次数的增多,用户的搜索过程变得更加精细和分散。


比如会在第一次搜索结果中找到新的需求,会根据已有查询词和搜索结果,不断理解和加深自己的搜索意图,不断激发用户发现新的搜索目标。


但传统搜索往往有不少缺点:第一,信息广告流太多,正确信息难以捕捉。


如果一个用户想要搜索办理签证的电话,页面就会推送旅游团的报名电话,很难判断搜索结果的可信度和准确性,导致查看问题答案时往往需要在多个链接之间进行跳转,甚至一个页面要向下划好几次才能翻完,反而增加用户搜索时间。


第二,大量不相关结果多余,复杂问题很难得到满意答案。


如果是搜索“放假几天”这类简单的问题,传统搜索完全能够满足需求,但如果提升问题质量,涉及到专业领域名词,检索信息的时间和成本精力等就会变长。


一位手机交互设计师对雷峰网表示,在一些较垂直的领域,搜索人因工程与交互设计交叉领域相关的问题,很多时候都找不到答案,需要自己去挑选和点击阅读判别真伪。


第三,传统搜索的工具属性日趋弱化。过去用户是搜完就离开,但现在用户会根据浏览到的内容信息搜索后做停留,与其说是工具属性,不如说是用户想获取更多内容,从搜索结果中获取更多服务。


比如我们在抖音中搜索相关穿搭,或者是在小红书中搜索相关知识点,有时就会弹出商业详情页引发下一步购买行为,但过去在传统搜索顶多是给用户提供购买的网址链接。

因此AI搜索产品的出现,既是符合用户搜索习惯下涌现的新工具,也是技术层对模型能力再优化的体现。(欢迎添加微信Who123start,畅聊科技新动态,讲述最新圈内故事,添加好友请备注)

04结语

看过市面上大厂的几乎每个AI产品之后,不少人不得不提出这一个问题:到底什么,才是所谓“超级 AI 产品”?


回看去年的 AI 赛道,厂商们都在“卷”大模型,以期为 AI 产品打开一片天空。


事实上,AI 产品就像一辆整装的汽车。驱动了汽车的,是提供动力的发动机——而对于 AI 产品来说,大模型当然是“发动机”。


然而,卷了这么长时间,各家厂商的同级别大模型,差距却没能拉得多大。


竞逐至今,还没有一家的大模型能被称作“超级 AI”,进而一统江山;不同的模型,甚至长板和短板都长得差不多。


当然,大模型在具体问题和领域上有表现差距,但这样的差距,在 C 端用户中间的观感差异到底有多大?


就如同对一个想要买车的一般人来说,发动机之间,百公里加速差的这一秒两秒,并不是大多数消费者更关注的要素。


但归根结底,汽车不只是发动机。除此以外,消费者关注的点还有很多很多:从外形到内饰,再到车机、甚至皮座椅,都可能成为影响消费决策的关键因素。


对于 AI 产品来说也是一样——除了大模型之外,产品功能的安排、用户体验的设计、生态矩阵的建构......种种要素、细节齐备,才能真正地跑出来。当下的时代,没有“超级 AI”,只有“超级产品”。 

(欢迎添加微信Who123start,畅聊科技新动态,讲述最新圈内故事,添加好友请备注)


]]>
人工智能学术 //m.drvow.com/category/academic/BuCCMCOIJ0AwSwA6.html#comments Wed, 06 Nov 2024 14:33:00 +0800
西湖大学发布 “AI 科学家” Nova,效果相比SOTA提升2.5倍 //m.drvow.com/category/academic/qOPzP8oTNBwSZCnP.html 还记得今年夏天让众多科研工作者“瑟瑟发抖”的 AI scientist 吗?

彼时的它,作为一个由谷歌Transformer 论文作者 Llion Jones 和前谷歌研究人员 David Ha 共同创立的全自动科学研究平台,从提出研究设想、检查创新程度,再到设计实验、编写程序、再GPU上执行实验并收集结果,到最后完成论文的撰写,一气呵成,让不少科研工作者早早就有了“事业危机感”。 此外,该项目还获得了New Enterprise Associates、Khosla Ventures、Lux Capital等多家全球知名投资机构以及NVIDIA等产业投资人的投资,进一步推动了其技术突破和市场化落地。

而这阵科学家“失业风”刚刮走没多久,又一位国产“AI科学家” Nova 便横空出世。

Nova 能够生成大量突破性的科学Idea,在创新性、价值性、可行性等方面可以媲美甚至超过人类科学家。

历史证明,突破性的Idea具有开启新技术纪元的潜力——比如Transformer的出现引领了波澜壮阔的AGI时代,ImageNet极大地加速了深度学习的发展,而最近的诺贝尔奖授予了几位AI领域的科学家,也标志着AI发展史上的一个重要转折点。如今,Nova正站在这样的历史节点上,以2.5倍于AI scientist的Idea生成能力,迅速在科研领域掀起新一轮风暴。直观地说,当AI scientist还在思考第2个Idea时,Nova已经提出了5个高质量的创新Idea,每一个都有可能成为开启未来科技新纪元的钥匙。

这个“妙 idea 连珠”的  Nova 大模型,是由西湖大学蓝振忠团队联合浙江大学、电子科技大学等多所高校研发的。

而他们的出发点,就是解决现代科研工作中的一个难题:我要做什么?

他们希望大模型可以迅速阅读最新的Paper,帮助科研工作者提取其中的关键信息,根据提取的信息,生成多个高质量的 Idea。涉及到跨领域的知识,大模型也可以轻松完成。人类科学家只需要根据模型生成的内容进行判断,大大节省了科研的时间,从而提升科研的效率。

蓝振忠说:“我身边的科学家,包括我自己做科研这么多年了,有一个特别明显的感受,就是我们虽然做着最前沿的最具探索性的事情,但实际组织工作的方式却是非常传统的,甚至像是手工作坊。”

“正因如此,Nova的诞生不仅仅是一个技术突破,更像是科研领域的一场革命,将极大地加速科研创新的过程。Nove模型的发布,只是团队迈出的第一步,后续将持续发力:

1)从0到1:先让模型在单个学科、领域实现创新,快速验证算法和模型效果,把基建和底子打好,让模型成为一个可以给科学家使用的产品。

2)从1到10:进一步拓展模型的横向能力,成为多学科的创新专家,不仅能生成创新的科学Idea,而且能自动执行验证,最终发表科研论文。

3)终极目标:让模型能够自驱地进行科学探索、商业创新,让模型推进人类的科学突破与产业提升。

妙 idea 连珠

而 Nova 的实力也并不是纸上谈兵,研究团队为了评估Nova模型的综合性能,分别从质量、多样性、新颖性三个方面对其进行了全面评估。

他们先是利用Claude-3 Sonnet作为裁判按照瑞士制锦标赛(Swiss System Tournament)对各个方法产生的idea的质量进行评估。结果显示,Nova方法生成的想法在质量上显著高于其他方法,有619和2521个想法得分为5和4,远超过其他最新的方法。

多样性方面,研究团队通过计算idea之间的相似度来对生成的idea来进行去重。实验中,随着生成的想法数量的增加,Nova 模型可以通过迭代规划和搜索不断产生新的想法。在非重复百分比方面,Nova 的表现明显优于其他方法,超过80%的想法都是不重复的。

最终,团队为了探索文章提出的方法对持续生成新的idea的影响,还进一步通过消融实验证明了该方法能持续生成新颖的非重复的idea。

实验中,当不采用文章提出的规划搜索方法时,迭代三次中的独特想法数量(44.1)与迭代两次 (42.4) 相比不再增加。这表明,如果没有规划搜索,仅依靠基于种子想法的检索会限制获取有价值的外部知识以进行创新。当规划和检索都被删除时,由于没有引入外部知识,独特新颖想法的数量在迭代两次后略有增加(从25.3增加到 30.6),在迭代三次的时候相比迭代两次则停滞不前(从30.6增加到31.35)。

除此之外,他们还找来了10位专家(包括对应领域的博士,博后以及资深教授),对生成idea在Overall(整体),Novelty(新颖性),Feasibility(可行性),Effectiveness(有效性)进行全面的评估。

最终研究人员发现在人工评估中,Nova 在整体质量和新颖性方面均获得了最高分。Nova贡献了前4个想法的 37.5%,是四种方法中最高的。此外,Nova 在最差的 4个想法中所占比例非常低,在整体质量方面仅占17.53%。在新颖性评估中也观察到了类似的模式。

研究团队透露,当他们将得到的结果拿给身边的科学家看,一众科学家都不敢相信这是AI创作的!

Nova如何给科学家“整迷糊”

Nova模型之所以能让科学家都“恍惚”,是因为它引入了一种增强的规划和搜索方法,用于提升大语言模型的能力:

迭代规划:Nova模型通过迭代的方式制定搜索计划,旨在识别能够增强当前想法新颖性和多样性的文献。这种规划过程使得模型能够不断优化生成的想法。

除了迭代规划外,Nova还有其他的方法来辅助提升模型的创新性,包括:

外部知识检索:Nova模型结合了外部知识检索机制,通过获取相关文献来丰富生成的想法。这一过程利用了最新的研究成果,确保生成的想法与当前科学前沿保持一致。

检索增强生成:使用了检索增强生成的方法,结合了检索到的信息与生成模型的内部知识,以提高生成内容的质量和相关性。

自我反思机制:为了防止生成的想法出现幻觉,模型利用了自我检查、自我批评和反思等机制,确保生成的想法逻辑合理且符合实际。

多源种子想法生成:Nova模型通过多种科学发现方法生成初始种子想法,确保生成的想法具有多样性和创新性。

综合以上方法,当Nova拿到一篇文章后,就能自动化的去想如何提出好的idea来提升当前文章里提到的方法。

比如,下面的idea是当团队把微软的Research Agent原始paper作为输入得到的优化方法,它能自动分析当前方法没有接入实时的数据流的缺陷,并提出方案去解决这个问题,具有较强的创新性。

同时还能分析引入一个实时的反馈机制和自适应的研究框架能进一步提升该方法的效果,这些都是一些实实在在可以研究和发表的idea,科学家想不“迷糊”都难:

制造“AI科学家”的科学家

西湖大学团队领导人蓝振忠,是Google轻量级大模型“ALBERT”(学术引用量约8000)的第一作者,《麻省理工科技评论》评选的2021年度亚太地区“35岁以下科技创新35人”,前Google人工智能科学家。

目前为西湖大学博士生导师,深度学习实验室创办人及负责人,西湖心辰创始人。

此外,他共同推出了对标GLUE的中文大模型评价基准ChineseGLUE(后简称为CLUE),广受业界欢迎。他还带领团队研发了侧重情感感知的西湖大模型和国内首个辅助心理咨询的AI咨询师“小天”。

而西湖心辰推出的多模态通用大模型:西湖大模型,也具备长期记忆、情感感知和主动聊天等卓越的能力。

雷峰网据悉,他曾说:“让AI自驱的进化,推进我们人类的科学突破与产业提升。”

AI可以代替人类科学家产生突破性的科学Idea吗?最后,我们再抛出这个问题。至于这个问题的答案,或许就像追逐地平线一般,每当以为接近之时,它却又在更远的地方等待,留给我们的,是永恒的追求与思考。

“但追逐的脚步不会停止。”

论文地址:https://arxiv.org/abs/2410.14255


]]>
人工智能学术 //m.drvow.com/category/academic/qOPzP8oTNBwSZCnP.html#comments Wed, 23 Oct 2024 15:44:00 +0800
AI 发现16万种新RNA病毒成果登上《Cell》后,我们和阿里云算法专家贺勇聊了聊 //m.drvow.com/category/academic/DoEk2gbL0zOj3OTJ.html 近期,AI for Science 领域的惊喜不断,持续在物理、化学、生物领域开花结果。

不仅诺贝尔物理和化学奖双双颁给 AI 领域的科学家,阿里云与中山大学的科研也带来了RNA病毒寻找的突破,国际顶级学术期刊《Cell》收录了这一研究论文。

《基于人工智能探索和记录隐藏的RNA病毒世界》论文提出深度学习模型"LucaProt",用于快速准确判别RNA病毒,颠覆传统病毒发现方法。LucaProt基于Transformer框架与大模型技术,结合蛋白质序列与结构特征,在测试中展现出高准确性与特异性。通过引入蛋白质结构性信息,模型在外部验证集上达到97.4%召回率及0.023%假阳性率,检测速度仅需几百毫秒至几秒,远超经典方法的几天至几周。

研究团队利用云计算与AI技术发现超16万种新RNA病毒,是已知种类的近30倍,深化了对RNA病毒多样性和演化历史的认知,并带来病毒学新发现。

论文的作者团队横跨了生物学领域与 AI,是传统学科与 AI 前沿技术双方人才的高效联合。阿里云飞天实验室算法专家贺勇与中山大学医学院侯新博士,为论文共同第一作者。论文共同通讯作者为中山大学施莽教授,阿里云生物计算研究总监李兆融,和悉尼大学全球知名病毒学家 Edward Holmes。

(阿里云和中山大学团队,右二贺勇、右三李兆融、右四施莽、左四侯新)

作为论文共同一作,贺勇表示:“基于AI+病毒学的新研究框架刷新了人类对病毒圈的认识,随着这种认识的不断完善,有助于人类对未来可能发生的大流行进行预警,以及进一步推动RNA病毒疫苗的研发。”

AI for Science 探索,更需要“AI+云计算”的多面支持。近几年,AI 技术助推学术发展上,阿里云已与全球超过70所高校开展学术合作,累计支持合作高校发表100 余篇高水平论文,共同申请近70项发明专利。

在 AI for Science领域,阿里云与中山大学、浙江大学等国内知名高校共同开展病毒学、药物学、生物学等方向的科研课题,在生命科学领域已发表核酸和蛋白质统一基础模型-LucaOne、RNA病毒发现-LucaProt、磷循环蛋白家族识别-LucaPCycle 等研究成果,其中多项成果由贺勇主导参与。

为探寻这次科研成果背后的 AI 逻辑,雷峰网旗下的 AI 科技评论专访了阿里云飞天实验室算法专家贺勇。贺勇老师分享了科研成果的经验、AI for Science 的洞见。以下是访谈实录,限于篇幅,雷峰网进行了不改原意的编辑:

可标准化的 RNA 病毒寻找,AI 大展身手

AI 科技评论:是否有预期到这次研究成果的突破?

贺勇:我们起初是抱着试一试的态度,目标是找新病毒,能不能发到顶刊,取决于最终的研究成果。找RNA病毒的方法,已经有一套传统固定的方法了,其过程已经可以标准化,但过程还很繁琐与复杂,我们就想着尝试用 AI 的方法来处理寻找 RNA 病毒的问题。当然也需要一定的效果直觉,十年的AI实践经验让我觉得这个问题AI能够取得不错的效果。

AI 科技评论:AI 的方法具备哪些优势?

贺勇:传统的方法需要有很多人工迭代的过程,需要人去查看确认、结果筛选、验证,是相当复杂的过程,专家参与的工作较多。我们使用了最新的第三代深度学习技术,基于Transformer架构,基于生物领域的大模型构建了LucaProt,对RNA病毒的复制酶序列进行表征,基于该表征进行RNA病毒鉴定。

AI 的方法就是端到端,把中间很多人工过程直接省略了。生物数据与通俗意义上的文本和图像其实不太一样,一般人是无法直接阅读的,要借助很多生物的工具才能辨认。AI 的好处在于,有了相关数据就可以自动去发现里面的一些隐含信息,识别隐含信息更利于发现病毒,所以使用 AI 的效果就非常好。

我们训练的模型LucaProt,只要输入一个序列,就能判断其是否是RNA病毒,而不需要复杂的生信过程,或者传统生物方法的过程。我们有一个独立测试数据集来测试这个模型的效果泛化性,发现效果很好。通过全球大规模推理,经过生物实验的验证,用 AI 的方法发现了超16万种新RNA病毒。

AI 科技评论:相较于 LucaOne 模型,LocaProt 有哪些技术突破?

贺勇:LucaOne是一个生物基础大模型,无差别对核酸与蛋白质进行表征。LocaProt是生物大模型的表征能力,针对特定任务(如寻找新病毒)进行优化的模型。LucaOne提供强大的基础表征,而LocaProt则解决具体的下游任务。

AI 科技评论:这次研究中如何处理生物与AI的跨学科隔阂?

贺勇:我们团队在医疗和生物方面有一定的基础,但直接对话生物学家仍有困难。阿里云生物计算研究总监李兆融作为中间角色,加速了双方理解。交叉学科,桥梁的作用是不可替代的。

AI 科技评论:这个过程中遇到的主要瓶颈是什么?

贺勇:最大的瓶颈是生物学知识门槛。我们需要不断学习生物知识,以全局思维处理生物问题。此外,生物学数据的校验和处理也面临挑战。

AI 科技评论:如何解决这些瓶颈?

贺勇:我们呼唤复合型人才,即具备计算机和生物学双重背景的人才。同时,与交叉学科的学院合作可能更得心应手,因为双方能互补解决问题。

AI for Science 仍处于早期识别阶段

AI 科技评论:AI for Science 的方法可以抽象成什么模式?

贺勇:AI的方法可以抽象为以下模式:首先分析数据与面对的科学问题的特性,然后基于这些特性设置专门的模块,利用现有技术进行优化改造或提出新的模型架构以适应问题,接着进行效果评估和模型迭代,最后进行科学新发现与挖掘。

AI 科技评论:如何衡量一个项目是否适合用 AI 解决?

贺勇:我们会评估传统方法的成熟度、对问题的理解门槛以及AI可能带来的效果。同时,深入了解问题背后的规律是关键,有规律可循的问题AI往往能取得好效果。

AI 科技评论:您认为 AI for Science 在生物学领域具备哪些优势?

贺勇:AI for Science在生物学领域的优势主要体现在三个方面:一是生物数据的开放性和丰富性,特别是高质量数据的可获得性,比如美国国家生物技术中心会把开放的数据经过由全球范围内的科学家组成的校验组去人工校验,经过人工校验之后就变成了高质量数据且全世界可以获取;二是计算资源的不断增强与成本下降;三是技术迁移的便利性,如生物序列与文本序列具有的相似性,使得与语言模型技术可以无缝迁移至生物学领域。

AI 科技评论:最近也是诺奖的物理跟化学都颁给了AI,您这次的研究成果也为病毒学带来的突破,您对 AI for Science 发展有哪些看法?

贺勇:AI for Science虽然仍处于起步阶段,但已经成为了解决科学问题的一种非常重要的手段与研究方法。它之所以受欢迎,是因为科学中有许多待解问题。现阶段,需要将科学问题进行抽象,形式化定义成输入输出、有数据支撑、可计算的问题,AI 可以更好的解决。

在生物学中,AI刚开始发展,目前处于第一阶段,比如识别生物序列的功能、病毒序列鉴定、来源及其感染性等,相当于文本或图像领域的读懂与阶段,尚未达到生成式的第二阶段。诺贝尔化学奖得主 David Baker 所做的蛋白质生成研究,想要什么功能蛋白质,就用 AI 的方法生成一个,现在效果还不是很好。

未来,在生物医疗领域,AI将逐渐进入生成式阶段,如生成抗体或小分子药物等。然而,目前 AI for Science 仍处于认识世界的阶段,离改造世界还有一定距离。但前景是光明的,只是所处的阶段的问题。

AI 科技评论:要达到AI for Science改造世界的阶段,需要哪些条件?

贺勇:要达到 AI for Science 改造世界的阶段,需要三个条件:一是更多精细化的数据积累,特别是治疗疾病和制药的数据。二是大模型架构的变革,以适应生物学信息的空间分子结构,目前的主流架构 Transformer 是基于序列的。但生物学的信息本身不是一个序列,是一个分空间分子结构,所以还是无法完全获取全部信息,存在信息损失。三是基础设施的跟进,如算力、显卡等需要重构与之匹配。这些条件在自然科学领域使用AI时都是通用的。

AI 科技评论:您对 AI for Science 的未来发展有何担忧?

贺勇:目前AI仍有诸多局限性,特别是它无法解决一些精细和微小变化的问题。AI仍依赖大量数据,还无法真正像科研人员那样进行创新和改变。此外,生物学实验中的手艺活和实操技术也是目前阶段,AI无法替代的。

AI for Science,阿里在路上

AI 科技评论:您为何选择深耕 AI for Science 领域?

贺勇:我受性格驱使,喜欢解决问题。我拥有计算机和AI背景,希望用这些技能去解决科学界的具体问题,探索AI在科学领域的潜力。

AI 科技评论:阿里云在生命科学领域的三款大模型均已开源,是基于怎样的考虑呢?

贺勇:阿里云开源这三款大模型主要是为了让更多人使用,推动生物学细分领域的基础通用模型完善。同时,开源有助于模型进一步优化,并降低使用者数据训练的成本。

AI 科技评论:阿里在与高校合作 AI for Science 时有哪些优势?

贺勇:阿里具备显著的算力优势,同时拥有支持有意义项目的文化基因。此外,阿里云、达摩院与高校有长期合作经验,建立了深厚的信任关系。

AI 科技评论:与 AI 技术高校合作时有何感受?

贺勇:AI 的加入能加速传统学科科研的速度,实现颠覆性的提速。但传统学科有自身的发展节奏,需要双方共同适应与推进。

AI 科技评论:后面的研发规划是什么?

贺勇:我们继续对现有基础的模型大模型 LucaOne 进行迭代,解决更多潜在的问题,并与合作团队深化合作,来解决更多的科学问题。目前仍专注于生物领域,未来可能向下游临床和制药方向发展。


]]>
人工智能学术 //m.drvow.com/category/academic/DoEk2gbL0zOj3OTJ.html#comments Tue, 15 Oct 2024 15:18:00 +0800
Yoshua Bengio、姚期智、张亚勤:AI安全是“全球公共产品”,全球合作刻不容缓 //m.drvow.com/category/academic/Y9p96oGL5To13mkB.html

AI安全国际对话发起人,从左到右依次是Stuart Russell,姚期智,Yoshua Bengio,张亚勤

雷峰网消息,九月五日至八日,全球顶尖的人工智能(AI)科学家汇聚威尼斯,共同呼吁各国政府和研究人员联手应对AI可能带来的灾难性风险。图灵奖得主Yoshua Bengio、姚期智教授,清华大学讲席教授张亚勤、加州大学伯克利分校教授Stuart Russell等多位计算机科学领域的领军人物,一道出席了由AI安全国际论坛(Safe AI Forum)和博古睿研究院共同举办的第三届国际AI安全对话(International Dialogues on AI Safety)。

图灵奖得主Yoshua Bengio

图灵奖得主姚期智

在为期三天的会议中,与会科学家们共同达成了一份具有重要意义的共识声明,其核心观点强调了AI安全作为“全球公共产品”的重要性,建议各国应将AI安全纳入学术与技术合作的核心领域。

共识指出,人工智能系统的滥用或失控可能给全人类带来灾难性后果。然而,我们尚未开发出必要的科学手段来管控和保障对高级智能的使用。由于人工智能带来的风险具有全球性,我们必须将人工智能安全视为全球公共产品,并为实现这些风险的全球治理而努力。我们必须未雨绸缪,齐心防范任何随时可能出现的灾难性风险。国际社会的初步积极举措表明,即使在紧张的地缘政治局势下,在人工智能安全和治理方面开展合作也是可以实现的。然而,各国需要在现有的努力上迈出更大步伐。

清华大学讲席教授张亚勤

北京智源人工智能研究院创始主席张宏江,与即任约翰·霍普金斯大学教授Gillian Hadfield


共识认为,作为第一步,各国应设立有能力在其境内监测和应对人工智能事故与灾难性风险的部门。各国监管部门应协同合作,制定应对重大人工智能事故与灾难性风险的全球应急计划。长远来看,各国应建立国际监管机制,以防止出现可能带来全球灾难性风险的模型。

为了应对可能到来的由高级人工智能系统引发的灾难性风险,科学家呼吁,国际社会应考虑启动以下三项工作程序:


  • 应急准备协议与制度

通过这一机制,各国的安全监管部门可召集会议,合作制定并承诺实施模型注册和披露制度、事故报告机制、预警触发点及应急预案。

  • 安全保障体系

当模型的能力超过特定阈值时,要求开发者为模型的安全性提供高度可信的论证。对于高性能的人工智能系统,随着它们的广泛应用,部署后的监控也将成为保障体系的关键组成部分。这些安全保障措施应接受独立审计。

  • 全球人工智能安全和验证的独立研究

应通过技术开发,使各国能够确认开发者以及其他国家提出的与人工智能安全相关的声明是真实有效的。为了确保研究的独立性,这项研究应在全球范围内进行,并由多个国家的政府和慈善机构共同资助。


清华大学国际安全与战略中心主任傅莹,清华大学人工智能国际治理研究院院长薛澜, 中国科学院自动化研究所类脑智能研究中心副主任曾毅远程参与了讨论。

在会议的第二天,科学家们与政策制定者、前国家元首及其他领域的专家进行了深入讨论,参会者包括前爱尔兰总统Mary Robinson,卡内基国际和平基金会主席Mariano-Florentino (Tino) Cuéllar,欧盟人工智能标准CEN-CENELEC JTC 21主席Sebastian Hallensleben。面对人工智能技术的快速发展,专家们一致认为,尽快实施这些提案至关重要。此次声明将呈交给多国政策制定者,并在会议中探讨了国际社会应如何协同合作,实现这一目标的战略路径。

欧盟人工智能标准CEN-CENELEC JTC 21主席Sebastian Hallensleben

此次会议为全球AI安全领域注入了新的动力,也为未来AI治理架构的完善指明了方向。


点击阅读AI安全国际对话威尼斯共识全文


-- 相关信息 --


AI安全国际对话

AI安全国际对话旨在汇集全球科学家共同合作,减轻人工智能带来的风险。此次对话由博古睿研究院和AI安全国际论坛联合举办。


AI安全国际论坛

AI安全国际论坛是一个专注于推动全球行动与合作以减少极端人工智能风险的501(c)3非营利组织,成立于2023年10月。除了促成国际人工智能安全对话外,我们还进行独立研究,并为其他专注于国际人工智能安全合作的项目提供咨询服务。


博古睿研究院

博古睿研究院致力于通过促进批判性分析和全球合作,为21世纪的政治、经济和社会制度提供指导。研究院汇集了来自不同文化的顶尖思想家,共同探讨当代的根本性问题,目标是对全球社会产生持久影响。


雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/Y9p96oGL5To13mkB.html#comments Wed, 18 Sep 2024 10:44:00 +0800
讲座预约 | AI4S 的前世今生:大语言模型与提示学习在科技研发中的应用与潜力丨GAIR Live //m.drvow.com/category/academic/xHeSZfuGAqz2peH7.html 尽管人工智能驱动科学研究(AI4S)是最近几年才逐步火热的一个话题,但在某些科研领域如生物信息学,早在上个世纪90年代,随着人类基因组计划的实施,生物信息学迎来了一个“数据大爆炸”的时代,从那时起,生物信息学领域研究者就开始尝试使用人工智能技术来助力科研工作,直至今天。

在过去几年中,大模型技术作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。在生物信息学、材料科学、药物发现等领域,大模型技术正在发挥着越来越重要的作用。

而当我们展望未来时,大模型技术将在科研发现领域扮演何种角色?它们将如何进一步联动,推动科研发现的效率和创新性,使其更加智能、高效,并更好地服务于人类社会?

为了深入剖析这一话题,雷峰网将于9月12日(周四)早上9:00,举办一场主题为「大语言模型与提示学习在科技研发中的应用与潜力」的线上圆桌论坛。

本次论坛荣幸邀请到了:美国密苏里大学电子工程和计算机科学系的校董讲座教授许东、西弗吉尼亚大学微生物学、免疫学和细胞生物学系助理教授胡钢清、硅谷基金TSVC联合创始人夏淳、LifeMine 首席数据官Linhua Yu,将分享他们的深刻见解和最新研究成果。

(扫描海报二维码预约观看此次线上论坛或添加直播小助手微信,小助手将邀请您进入圆桌论坛交流群,实时交流与提问。)

在这场论坛中,我们将深入探讨以下几个核心议题:

人工智能技术在科研中的进展: 人工智能技术是如何促进科研的?在过去二十余年中,人工智能技术在科研领域的应用经历了哪些里程碑的发展,哪些科研团队在将人工智能技术应用于科研中并取得了显著成就?

大模型技术的兴起与科研发现的融合: 在生物信息学和生物医学信息学领域,有哪些应用大模型和提示学习技术的主要方法?大模型技术在生物信息学、材料科学、药物发现等领域有哪些成功的应用案例,存在什么优势和局限性?

大模型和提示学习在科研发现中的实际应用:大规模数据训练的基础模型与基于提示的学习相结合为在科研领域的应用提供了什么样的机会?我们可以如何更好如何利用大模型和提示学习等技术,提升科研发现的效率和创新性?

未来趋势与挑战: 随着技术的不断进步,大模型与提示学习将面临哪些新的挑战和机遇?我们面临哪些技术难题,又是如何一一克服的?我们应该如何更好利用这些变化,助力科研发现?


1

嘉宾介绍

许东

许东教授是美国密苏里大学电子工程和计算机科学系的校董讲座教授,同时担任Christopher S. Bond生命科学中心研究员。

许东教授在北京大学获得本科与硕士学位,于1995年在伊利诺伊大学获得博士学位。他在美国国家癌症研究所做了两年博后工作,此后在橡树岭国家实验室做了六年研究工作,一直到2003年加入密苏里大学,从2007-2016年,他担任该校计算机科学系的系主任。

许东教授的研究主要集中在生物信息学方面,包括机器学习在生物信息学的应用,蛋白质结构预测,蛋白质定位预测,蛋白质翻译后修饰的识别,单细胞数据的分析,还有植物、微生物和癌症的计算机模拟研究,生物信息系统,以及机器学习在中医里的应用。

他的蛋白结构预测工作获得2001 年R&D 100大奖。许东教授目前已发表500多篇论文,他是美国科学促进会(AAAS)会士和美国医学和生物工程研究院(AIMBE)会士。

胡钢清

胡钢清博士于2009年毕业于北京大学,获得生物信息学和基因组学博士学位。毕业后,他加入了美国国立卫生研究院国家心肺血液研究所担任博士后(Post-Doc Fellow),并于2013年晋升为研究科学家(Staff Scientist)。

2019年夏天,胡博士加入西弗吉尼亚大学微生物学、免疫学和细胞生物学系,担任助理教授并负责管理西弗吉尼亚大学生物信息学核心设施(Bioinformatics Core Facility)。

他最近的研究集中在解码血癌药物耐药性的表观遗传机制,以及大型语言模型机器人(ChatGPT)在生物信息学和生物医学信息学中的创新使用。他已发表了超过100篇学术论文。

夏淳

夏淳博士是清华大学无线电学士,计算机硕士,美国伊利诺大学计算机博士。硅谷基金TSVC联合创始人,2010年以来所投的200多个种子轮项目中已产出Zoom等9家独角兽科技公司和5家上市公司,拥有种子轮投中独角兽的业界最佳业绩。

投资领域包括芯片设计、互联网/物联网、云计算/边缘计算、大数据、人工智能、智能制造、区块链、生成媒体与社群经济等。曾在清华大学首创逆向创新,任清华大学创+逆向创新示范中心主任,实践市场倒逼技术的逆向科技产业化。在硅谷创办过三家高科技公司。曾任Sun Microsystems首席架构师,为云计算技术奠基者之一。清华企业家协会TEEC创会会员及首任北美分会主席。

于利华

于利华拥有波士顿大学生物医学工程博士学位,师从 Temple Smith 博士,并拥有中国北京清华大学生物医学工程硕士和学士学位。

她目前担任 LifeMine 的首席数据官,在从靶标识别到转化医学、数据科学和早期临床开发等药物发现方面拥有丰富的经验。Lihua 在研发过程中整合和应用数据科学,与所有职能部门合作推动平台和产品线向前发展。

Lihua 此前曾在 FogPharma 工作,负责领导数据科学职能部门,并共同领导公司的发现平台和新靶标。在加入  FogPharma之前,Lihua 曾在 H3 工作,最历任生物信息学主管、首席数据科学官和总裁。在加入 H3 之前,Lihua 曾担任阿斯利康美国肿瘤学公司的癌症生物信息学负责人。



2
讲座信息

主题: 大语言模型与提示学习在科技研发中的应用与潜力

时间: 9月12日(周四),北京时间 9:00-11:00

观看方式:「雷峰网」视频号 与「AI科技评论」视频号同步直播

参考资料:

1,Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT

https://gairdao.com/doi/10.1142/S2972335324500054

2,《密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR》//m.drvow.com/category/academic/bt28wbKQtZa1E2Ei.html



3
IJAIRR正在邀约论文和专题

《国际人工智能与机器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。

作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。

如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。

如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。

如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。

IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。

联系人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg

关于期刊创刊主编等更多信息,可点击

https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

关于GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:

https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为:

https://gairdao.com/journals/ijairr


]]>
人工智能学术 //m.drvow.com/category/academic/xHeSZfuGAqz2peH7.html#comments Thu, 12 Sep 2024 09:25:00 +0800
讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live //m.drvow.com/category/academic/LIDBB9a7RccQTex0.html 站在科技创新的浪潮之巅,我们见证了人工智能领域的巨大飞跃,尤其是大模型技术与强化学习中的结合和突破性应用,正在引领我们进入一个全新的智能时代。

在过去几年中,强化学习作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。在自动驾驶、游戏AI、机器人控制等领域,强化学习的身影无处不在,它们正逐步成为我们生活中不可分割的一部分。

而当我们展望未来时,大模型技术将在强化学习领域扮演何种角色?它们将如何进一步联动,推动强化学习和大模型技术的发展,使其更加智能、高效,并更好地服务于人类社会?

这些问题不仅激发了科技界的无限遐想,也引领着我们不断探索和前进。随着大模型技术的不断进步,我们有理由相信,未来的强化学习将更加贴近人类的需求,成为我们生活中更加紧密的合作伙伴。

为了深入剖析这一话题,雷峰网将于8月28日(周三)晚间8点~10点,举办一场主题为「大模型时代的强化学习」的线上圆桌论坛。

本次论坛荣幸邀请到了:新加坡南洋理工大学校长讲席教授,人工智能系主任安波教授、南京大学人工智能学院俞扬教授、天津大学智能与计算学部、华为诺亚决策推理实验室主任郝建业副教授、清华大学交叉信息研究院许华哲助理教授,将分享他们的深刻见解和最新研究成果。

在这场论坛中,我们将深入探讨以下几个核心议题:

全球视野下的突破: 在国内外,哪些学术团队和工业团队在强化学习领域取得了显著成就?他们的研究成果如何推动了这一领域的发展?

大模型的融合与创新: 如何利用大模型技术提升强化学习的效率和智能性?在这一过程中,我们面临哪些技术难题,又是如何一一克服的?

强化学习的实际应用: 强化学习技术在自动驾驶、游戏AI、机器人控制等领域有哪些成功的应用案例?这些应用如何改变了我们的生活?

未来趋势与挑战: 随着技术的不断进步,强化学习将面临哪些新的挑战和机遇?我们应该如何准备迎接这些变化?

技术与伦理的平衡: 在强化学习技术快速发展的同时,我们应该如何确保技术的伦理性和可持续性?

添加策划人 岑峰 微信(微信号:8019788),备注“姓名+职位”,即可邀请进入专家群,实时交流与提问。

嘉宾介绍

安波,南洋理工大学计算机科学与工程学院校长讲习教授、人工智能系主任

安波博士现任南洋理工大学计算机科学与工程学院校长讲席教授、人工智能系主任,人工智能研究院联席院长。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习及优化。他是国际人工智能顶级期刊 AIJ、JAIR、JAAMAS 等副主编,有 150 余篇论文发表在人工智能领域的国际顶级会议 AAMAS、IJCAI、AAAI、ICAPS、KDD、UAI、EC、WWW、ICLR、NeurIPS、ICML,先后多次获得会议杰出论文奖,在国际评测比赛中也屡获佳绩。他在人工智能领域内有重要影响力和专业认可度,2018 年入选 IEEE Intelligent Systems 杂志评选的“AI’s 10 to watch”。他将担任IJCAI’27的程序委员会主席。

俞扬,南京大学人工智能学院教授

俞扬博士现任南京大学人工智能学院教授,博士生导师。主要研究领域为人工智能、机器学习、强化学习、演化学习。共同出版专著《Evolutionary Learning: Advances in Theories and Algorithms》(2019)及其中文版本《演化学习:理论与算法进展》(2021)。在Artificial Intelligence、TPAMI、TKDE、TNNLS、NeurIPS、ICML、IJCAI、AAAI、KDD等人工智能、机器学习和数据挖掘国际顶级期刊和顶级会议发表多篇论文,研究成果获得DAI'23 Best Paper、IDEAL'16 Best Paper、KDD'12 Best Poster、GECCO'11 Best Theory Paper、PAKDD'08 Best Paper等论文奖,获得ICAPS'21 L2RPN with Trust冠军、OpenAI RetroContest 2018冠军、PAKDD’06数据挖掘竞赛冠军等竞赛奖。

郝建业,华为诺亚决策与推理实验室主任,天津大学智算学部副教授

郝建业博士,华为诺亚决策推理实验室主任,天津大学智算学部副教授。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。 主持国家科技部2030人工智能重大项目课题、基金委人工智能重大培育项目、国防科技创新重点项目课题等项目10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。

许华哲,清华大学交叉信息研究院助理教授

许华哲博士现任清华大学交叉信息研究院助理教授,博士后就读于斯坦福大学,博士毕业于加州大学伯克利分校。其研究领域是具身人工智能(Embodied AI)的理论、算法与应用,具体研究方向包括深度强化学习、机器人学、基于感知的控制(Sensorimotor)等。其科研围绕具身人工智能的关键环节,系统性地研究了视觉深度强化学习在决策中的理论、模仿学习中的算法设计和高维视觉预测中的模型和应用,对解决具身人工智能领域中数据效率低和泛化能力弱等核心问题做出多项贡献。其发表顶级会议论文四十余篇,代表性工作曾被MIT Tech Review,Stanford HAI等媒体报道。


讲座信息

主题: 大模型时代的强化学习

时间: 8月28日(周三),北京时间20:00-22:00

观看方式:「雷峰网」视频号 与 「AI科技评论」 视频号同步直播

参考资料:

1,TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning

https://gairdao.com/doi/10.1142/S2972335324500042

2,《对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR》https://mp.weixin.qq.com/s/85TOawIFQ6uZaGXR4Y2RCA


IJAIRR正在邀约论文和专题

《International Journal of Artificial Intelligence and Robotics Research》(简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社(WSP)联合出版的国际学术期刊。

作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。

如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。

如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。

如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。

IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。

联系人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg

关于期刊创刊主编等更多信息,可点击  https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

关于雷峰网(公众号:雷峰网)、GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:

https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为:

https://gairdao.com/journals/ijairr

]]>
人工智能学术 //m.drvow.com/category/academic/LIDBB9a7RccQTex0.html#comments Fri, 23 Aug 2024 11:43:00 +0800
密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR //m.drvow.com/category/academic/bt28wbKQtZa1E2Ei.html

自ChatGPT在2022年横空出世,人工智能领域便迎来了一场新的革命。大语言模型(LLMs)以其卓越的文本处理能力,迅速成为研究者和开发者的新宠。随着这些模型的崛起,如何与它们有效交互的问题也日益凸显,提示词(Prompt)的概念逐渐成为研究的热点。

但什么是提示词?在早期的计算机交互中,提示词是指在提示符(如MS Dos的C:>或Python的>>>)左侧,用户输入以激发系统做出响应的指令。而在大模型的语境中,提示词则是一种引导性的语句或问题,它犹如魔法咒语,激发着大语言模型的潜能,引导它们按照我们的指令生成文本、回答问题或执行任务。

在与大语言模型的互动中,提示词就像是一把打开知识宝库的钥匙。它不仅是一座沟通的桥梁,更是挖掘语言模型深层潜力的工具。ChatGPT的创始人Sam Altman将提示词工程(Prompt Engineering)视为一种用自然语言编程的黑科技,认为这是一种能够带来高回报的技能。

能否让ChatGPT或其他大语言模型给出满意的答案,很大程度上取决于你如何巧妙地使用提示词。随着人工智能生成内容(AIGC)时代的到来,提示词的价值和重要性愈发凸显。

然而,Prompt技术的复杂性远超我们的想象。早期的研究者们在探索Prompt技术时,仿佛是在进行一场炼金术式的探索,充满了不确定性和偶然性。他们通过不断尝试不同的提示词,试图找到能够激发大语言模型最佳表现的“魔法咒语”。这种方法虽然在某些情况下能够奏效,但却缺乏系统性和可复制性。

为了让Prompt技术更进一步,它必须经历一场“从炼金术到化学”的系统发展过程。这意味着我们需要将Prompt技术从一种基于经验的技艺,转变为一门基于科学原理的工程学科。这需要对现有的Prompt技术进行深入的分析和总结,建立起一套完整的理论体系和方法论。

例如:不同的提示词是如何影响大语言模型的理解和生成的?在不同的应用场景下,应该以什么样的原则,去设计和优化提示词?近日,相关论文之一《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》,上线期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。

该论文聚焦于大语言模型在生物信息学领域的应用,主要研究了如何利用大型语言模型(如ChatGPT)来挖掘基因关系,并提出了一种迭代提示优化技术来提高预测基因关系的准确性。论文为生物信息学研究者使用ChatGPT改善工作流程、提高工作效率提供了一种新的思路。

借论文上线,密苏里大学哥伦比亚分校计算机系许东教授向雷峰网-AI科技评论分享了人工智能大型模型在生命科学领域的影响,以及他对如何更好地将大型语言模型应用于生物信息学研究的思考。

论文链接:https://gairdao.com/doi/10.1142/S2972335324500054

论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500054&area=0000000000000001


生物信息学:迎接第二次繁荣期

回望上个世纪90年代,那是一个被形象地称为生物信息学研究的“寒武纪”时期。人类基因组计划的启动、全球蛋白质结构预测竞赛的举办,以及生物学信息量的爆炸性增长,加之信息技术的跨时代发展,共同为生物信息学带来了第一次黄金时代,使其成为当时的前沿学科之一。如今,随着人工智能技术的突破,特别是AI大模型在生物信息学中的应用,我们有望迎来生物信息学的第二个繁荣期。

许东教授正是上世纪90年代生物信息学黄金期的亲历者之一。他指出,在生命科学领域,人工智能大型模型的应用已经变得日益广泛,其应用主要集中在以下几个方面:

蛋白质模型:通过利用蛋白质序列训练出的大模型,可以进行各种蛋白质预测任务,包括新蛋白质的设计;

单细胞模型:单细胞数据量巨大,通常一个单细胞实验就涉及数千到数百万个细胞。基于单细胞转录组数据训练的大模型,能够进行大规模的单细胞数据分析;

医学多模态模型:通过整合医学文本(如病历、医生笔记)、图像和其他检查报告等多种数据类型,训练出的大模型,可以用于医学数据分析;

除了上述三个主要领域外,其他如核酸定位、蛋白质与DNA/RNA的相互作用等方面,也有研究者在开发相应的大模型。这些应用场景能够辅助生物信息学家以更快、更精确的方式处理生物信息学问题,从而提升研究效率并降低成本。

然而,尽管AI大模型在生物信息学领域的应用已经取得了一定的进展,但大模型在生物信息学领域的应用目前仍处于早期发展阶段,并存在着许多挑战。首先遇到的一个问题是,AI大模型需要大量高质量的生物信息学数据,但这些数据的质量和完整性可能存在问题;同时目前AI大模型的解释性和可解释性可能存在问题,“幻觉”的存在严重影响着研究的可靠性。

如何解决上述问题,让AI大模型在生物信息学研究中发挥更大作用?许东告诉雷峰网-AI科技评论,Prompt技术为生物信息学领域提供了一种灵活且易于实施的方法,尤其在数据资源有限的情况下,Prompt技术仍可能成为主流方法之一。


用提示学习提升AI模型的精准度

在机器学习领域,将Prompt从“基于经验”转变为“基于科学原理”的做法被称为“提示学习”。聊天机器人之所以在很大程度上依赖于提示,是因为ChatGPT的预训练模型中存在大量知识,为了更好地利用这些知识和能力,OpenAI采用了基于人类反馈强化学习(RLHF)方法,通过人类输入来“比对”语言从而达到人机交互的目的。因此,必须仔细设计聊天机器人的提示,以获得有价值、准确和稳健的响应。

提示学习的核心在于将用户输入的文本转化为特定的提示(prompt)格式。这一过程通常包括两种模式:第一种是自编码模式,采用文本中间占位符的自然语言模板,让大模型在指定占位符让生成答案文本。第二种是自回归模式,给大模型提供问题与背景信息,让大模型自由发挥生成答案文本。这些方法实质上是为预训练语言模型设计任务,包括输入模板、标签样式以及模型输出与标签的对应关系。

论文的研究正是在此基础上,将自回归模式的提示学习用于复杂的生物信息学场景中,并利用迭代提示优化、思维链等技术,通过与ChatGPT的交互,逐步优化提示,以提高预测基因关系的准确性。

(利用 GPT 模型进行基因关系挖掘的迭代提示细化框架。该方法利用 GPT-4 的高级逻辑能力来自主改进提示,并利用 GPT-3.5 的低成本和高速进行初始基于事实的查询处理。)

这项工作的关键点之一是元提示设计(Meta-Prompt Design):元提示为对话机器人设定角色,提示来指导GPT-4进行提示优化,增强回答的专业性。元提示包含具体指令,如改变角色、省略细节等,以提高提示的有效性。

另一关键点则是迭代优化技术的引入,利用GPT-4的能力进行迭代提示优化。首先使用GPT-3.5生成基因关系提示,然后评估这些提示的效果(如F-1分数、精确度和召回率);将预测结果与实际数据(如KEGG数据库)进行比较,识别错误和不足,然后将这些反馈信息用于进一步优化提示;最后将优化后的模型应用于KEGG Pathway Database进行基准测试,以验证其在解析复杂基因关系和疾病相关途径方面的有效性。

此外,论文还引入了思维链(Chain-of-Thought)和思维树(Tree-of-Thought)策略,引导ChatGPT进行更深入的逻辑推理,提高答案的准确性和深度;同时将复杂问题分解为更易于管理的子问题序列,逐步引导ChatGPT构建更完整的答案,这种方法特别适用于复杂的基因关系网络构建。

实验结果表明,通过迭代提示优化技术,ChatGPT在预测基因关系方面的准确性显著提高。特别是在复杂基因关系和疾病相关途径的解析中,展示了其潜力和有效性。


生物信息学研究的新动力

“Prompt技术在生物信息学领域具有显著的优势。”许东告诉AI科技评论,首先,Prompt技术的数据需求低,不需要大量的数据即可进行训练,因此在小数据集上表现出色。这对于生物信息学领域尤为重要,因为许多生物医学数据集规模有限;其次,由于是在大型预训练模型的基础上进行操作,Prompt技术易于实施和应用;最后,生物信息学中许多问题本质上是小数据问题,Prompt技术因此具有广泛的应用前景和场景。

在解释迭代提示优化技术如何有效解决大型语言模型中的“幻觉”问题时,许东认为,不仅仅是大型语言模型,人类自身在某些情况下也会出现类似的“幻觉”现象。例如,人们可能会错误地回忆某些事件的细节,这并非有意误导,而是记忆出现了偏差。

大型语言模型的“幻觉”原因大致可分为三类:1)误解用户问题;2)训练数据的混淆导致生成回答时出现混淆;3)缺乏反思能力,未能有效识别和纠正自身的错误。而迭代提示优化技术正是针对这三类原因对症下药,通过迭代优化,模型能够更准确地理解用户的问题和提示,减少误解;同时增强知识概括,有助于模型更好地概括和区分训练数据中的知识,避免信息混淆;最后,迭代优化使模型具备更强的、类似于人类的思考过程自我反思能力,能够识别并改进生成的回答。

与传统方法相比,迭代提示优化技术通过模拟人类的学习和思考过程,使模型在处理复杂问题时更为高效和协调。这种方法比传统的基于规则的系统更具灵活性和适应性,能够处理更广泛的任务和数据类型。因此,通过这种方法,大型语言模型在生成回答时的准确性和可靠性得到了显著提升,减少了“幻觉”现象的发生,从而在生物信息学等领域展现出更大的应用潜力。

许东同时还表示,尽管Prompt技术的应用前景广阔,但其自身也存在一定的局限性,如高度依赖于训练数据的质量和代表性、泛化能力受限等,同时在论文中许东也提到,模型的性能波动和对训练数据的敏感性表明需要进一步的优化和迭代策略。未来的工作可能包括模型定制、更先进的迭代提示算法开发以及在更广泛的研究问题中评估方法的有效性。

“虽然并非所有问题都适合这种方法,但可能相当比例的问题,可能通过大模型和Prompt技术得到更准确的解决方案。”谈及Prompt技术在生物信息学领域的未来潜力,许东充满信心。“大模型在很多领域还有着很大的优化空间,例如现在缺乏专门的生物信息学的大模型,而随着大模型的发展,Prompt技术将在这些模型上发挥更大的作用。”


]]>
人工智能学术 //m.drvow.com/category/academic/bt28wbKQtZa1E2Ei.html#comments Sun, 28 Jul 2024 09:58:00 +0800
对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR //m.drvow.com/category/academic/5iquAGqsZcuWy7PS.html

对人类越是简单的问题,大语言模型反而越难以做好?

尽管现在的大模型已经有能力冲击数学竞赛级别的题目,但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测,出现这种错误的原因可能是由于大模型以token的方式来理解文字,当9.11被拆成“9”、“.”和“11”三部分时,11确实比9大。

大语言模型(LLMs)在处理复杂问题时表现出色,但在一些看似简单的问题上却可能遇到困难——这种现象并不是因为模型本身的复杂性,而是由于模型与特定环境或任务之间的知识不对齐。此外,LLMs在生成文本时依赖于预测下一个单词的概率,这种机制可能导致它们生成与人类常识不符的结果。这是因为现有的模型通常侧重于语言的统计特性,而不是深入理解人类的价值观和偏好。

随着大语言模型的能力不断增强,人们对其可能带来的伦理风险和对人类的潜在威胁的担忧也在增加。LLMs可能会传播其训练数据中的有害信息,如偏见、歧视和有害内容。它们还可能泄露训练数据中的私密和敏感信息,或生成误导性或虚假信息。随着这些Agent越来越多地融入我们的日常生活,任何未对齐的行为都可能导致不可预见的后果。

因此,推动大语言模型对齐技术的研究和突破变得尤为重要。这包括开发新的算法和技术,例如通过将强化学习(RL)与大型语言模型(LLMs)结合,这也是当前AI研究的热门方向之一,这种方法的核心在于通过与环境的交互来不断学习和调整模型的行为,使其更好地适应人类的直觉和逻辑。

近日,相关论文之一《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》,上线期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。该论文提出了一个名为TWOSOME的框架,旨在通过强化学习(RL)将大型语言模型(LLMs)与具身环境(embodied environments)对齐,以解决决策任务。

与OpenAI等公司使用的基于人类反馈的强化学习(RLHF)技术不同,本论文提出了一个新颖的在线框架TWOSOME,使用RL让LLMs作为决策代理与环境进行有效交互和对齐,无需预先准备的数据集或对环境的先验知识。

从实验结果看,TWOSOME在样本效率和性能方面显著优于传统RL方法PPO和提示调整方法SayCan,这一结果在Overcooked和VirtualHome环境中得到了验证。此外,TWOSOME还在八个新的未见任务中测试了其泛化能力,发现其能够成功地将学到的技能转移到不同的任务中。

“要想实现通用人工智能,就不能仅仅依赖人类标注数据,而是需要智能体自发地和环境进行交互。”在谈及强化学习与大语言模型结合研究的意义时,安波教授如是说。

借对该论文的讨论,安波教授向雷峰网-AI科技评论分享了对大语言模型部署在动态环境中进行交互的思考,以及该论文的研究过程。

论文链接:https://gairdao.com/doi/10.1142/S2972335324500042

论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500042&area=0000000000000001


“合法才合理”


雷峰网-AI科技评论:强化学习与大语言模型融合是近一年来的热门研究领域,您能介绍下这一领域的主要研究方向和进展吗?

安波:强化学习与大语言模型的结合主要有两个方向:基于人类反馈的强化学习(RLHF)和传统强化学习。RLHF通过学习人类偏好来对齐价值观,已经成为大型语言模型训练流程中不可或缺的一部分,是目前强化学习与大语言模型结合的最热门的方向。

传统强化学习则依赖环境奖励,让智能体能够自发地在和各种环境不断交互中自主学习策略。目前受限于模型能力和环境的适配性,直接将大语言模型部署在动态环境中进行交互和策略提升的研究较少。TWOSOME框架就是为了试图填补大语言模型与动态环境直接交互的空白的一次探索。

AI科技评论:您能否介绍TWOSOME框架的设计思想灵感来源?

安波:我们注意到,尽管现在的大语言模型在常规问答中表现出色,但决策任务上却常常表现不佳。这主要是因为这些模型缺乏与环境的对齐——它们不熟悉环境中的可执行动作,也不了解环境的动态变化,导致其经常给出一些看似合理其实离题甚远的回答。

与此同时,强化学习因为学习的是环境中的奖励信号,能够和环境始终保持对齐,但其挑战在于如何有效引入先验知识以辅助探索。因此,我们设计了TWOSOME框架,旨在将强化学习与大型语言模型相结合,利用强化学习帮助模型与环境对齐,同时利用模型的先验知识提高探索效率。

此外,虽然利用强化学习训练语言模型以学习人类偏好已经是一个成熟且热门的研究方向,但让语言模型直接与环境交互以学习的研究还相对缺乏。本质上人类的偏好和环境的反馈都是一种奖励信息,用来指引模型更新的方向,所以理论上我们应该能够对RLHF框架进行修改将大语言模型直接部署到动态环境中,通过在线交互的方式不断提升大语言模型自身的策略和能力。

AI科技评论:在现有的技术背景下,这项研究解决了哪些关键问题?

安波:这项研究主要是解决了如何用强化学习让大语言模型通过与动态环境交互的方式提升自己能力的问题。这其中又具体细分为:

1)如何让能力较弱的大语言模型能够稳定输出环境中可执行的合法动作;

2)如何利用大语言模型学习到的海量知识指引智能体在环境中高效探索;

3)如何设计一套高效的pipeline让模型根据环境中的奖励信号进行参数更新最后找到最优策略。

AI科技评论:OpenAI的InstructGPT同样也利用了强化学习框架来优化策略,提高语言模型与人类意图的对齐度问题,TWOSOME在方法论上有何不同?

安波:InstructGPT采用的是RLHF技术,它首先先通过学习人类标注的方式获取一个奖励模型(reward model),然后再利用这个模型的奖励信息去更新语言模型。这个过程通常需要多次迭代,先训练reward model再更新模型参数。相比之下,TWOSOME更注重让大模型直接和环境去交互,利用环境中已有的奖励信号,省去了额外训练奖励模型的步骤,使得TWOSOME能够进行在线训练。

此外,RLHF主要用于生成任务,其生成的答案更多关注好坏而非对错。而TWOSOME则需要在环境中实际执行动作,这就要求我们必须确保智能体的动作是合法的。只有先合法,动作才会合理,因此,TWOSOME不是简单地让大模型通过问答问题的方式去生成动作,而是通过查询大模型中有效动作的生成概率,并以此作为智能体的行为策略,从而确保每次交互都是合法的。这种方法提高了智能体与环境互动的有效性和准确性。


更高效、更稳定


AI科技评论:TWOSOME在训练架构上有哪些创新之处?

安波:传统RLHF需要同时维护4个模型,包括Reward Model, Actor Model(行为模型,即大模型本身),Critic mode和Reference model,对显卡显存要求很高。

TWOMSOME创造性地引入LoRA(低秩适配器)更新冻结的大模型,使其本身来作为行为模型,同时,在大模型的基础上增加全连接层作为评价模型。这种设计使得行为模型和评价模型的更新互不干扰,提高了训练的稳定性。更重要的是,整个训练过程中只需要在显存中维护一个大模型,显著提升了内存使用效率,使得我们所有的实验都可以在一张40GB显存的A100 GPU上顺利完成。

AI科技评论:TWOSOME框架通过直接与环境交互来加速学习和迭代,您能否谈谈这种方法在实际研究中的应用效果?

安波:TWOSOME框架直接与环境交互并从中学习并不是为了减少对大规模预训练数据集的依赖,而是在预训练和指令跟随训练的基础上进一步优化。强化学习往往是在监督学习达到瓶颈之后帮助模型突破上限的方法,很多时候我们并不知道如何完成任务以及如何更加高效地完成任务,这就需要通过强化学习和环境不断交互的方式去探索去学习,这通常需要比监督学习大2个数量级以上的数据。

TWOSOME的创新之处在于,它结合了大模型的先验知识,提高了采样效率,使得模型能够更快地收敛。这种方法不是一种简单的效率提升,而是一种突破现有模型性能上限的策略。与传统的强化学习相比,TWOSOME通过更有效的数据利用,帮助模型在复杂任务中实现更快的学习速度和更好的性能表现。

AI科技评论:TWOSOME框架的效率优势可能对未来AI研究的方法论和工作流程产生哪些影响?

安波:TWOSOME的框架为众多计算资源不充分的小型实验室进行强化学习和大语言模型相结合的研究提供了可能。在此之前,780M的语言模型需要8X A100 80G才能运行试验进行相关研究。

AI科技评论:能否详细说明TWOSOME框架中的动作提示规范化方法,以及它如何提升策略的稳定性和鲁棒性?

安波:在TWOSOME中,我们通过查询大模型来确定环境中有效动作的生成概率,并以此作为智能体的行为策略。然而,我们发现直接将动作中每个token的概率连乘起来作为整个动作的概率,会导致一个明显的问题:动作越长,其联合概率通常越低。这是因为每个token的概率都小于1,一些合理的长动作可能会被不合理地低估,最后的概率不如一些不合理的短动作。

为了解决这个问题,我们引入了动作提示规范化(Action Prompt Normalization)。最初,我们尝试了基于token级别的规范化,即利用动作中每个token概率的几何平均值来计算动作的概率。这种方法虽然缓解了动作长度不一导致的概率失衡问题,但我们发现它可能会过度正则化由多个token组成的单词。

例如“tomato”由“tom”和“ato ”2个token组成,在当前语境下,ato几乎是和tom绑定在一起出现的,tom后面几乎一定是跟着ato,如果将它们视为独立,会导致整个tomato乃至整个动作的被过度正则化,会错误地提高其概率。

  

(Twosome基于单词级别的规范化方法)

因此,我们提出了基于单词级别的规范化方法(Word-level Normalization),这种方法将一个单词中所有的token的概率连乘,计算单词层面的几何平均值,而不是token层面的。这不仅避免了过度正则化的问题,还使得动作提示更加合理。与不进行规范化或仅进行token级别规范化相比,单词级别规范化在提高策略稳定性和加速收敛方面表现更佳。


“要超越人类就要和环境交互”


AI科技评论:您如何看待TWOSOME框架在处理未见过的任务或环境时的泛化表现?这种能力如何影响模型在现实世界应用的潜力?

安波:传统强化学习训练的智能体会过拟合在训练的任务上,很难拥有泛化能力,与大语言模型的结合赋予其较强的泛化能力同样令我们惊讶,我们认为这代表TWOSOME具有较好的可拓展性,能够高效地在各种任务和环境中提升自身的能力。

AI科技评论:考虑到TWOSOME框架的泛化能力,您认为未来可能在哪些新的应用方向或领域得以应用,它如何解决这些领域特有的挑战?

安波:TWOSOME探索了一种如何让大语言模型和环境交互不断提升自身能力的方法,同时也是一种如何为强化学习智能体引入先验信息帮助探索的一种方法。

我们相信要想实现通用人工智能,仅仅依赖人类标注数据是不够的,因为那样最多只能达到与人类相同的水平,要想超过人类水平就需要智能体自发地和环境进行交互,TWOSOME就是在这个方向的一次尝试和探索,它同时能够帮助大模型在机器人或者互联网以及操作系统中和环境交互综合提升自身的能力,也能够帮助以往的强化学习智能体在具身智能、AI4Science等方向上更高效地探索,并且有更好的可解释性。


]]>
人工智能学术 //m.drvow.com/category/academic/5iquAGqsZcuWy7PS.html#comments Thu, 18 Jul 2024 10:09:00 +0800
新加坡国立大学赖载兴教授专访:用混沌边缘改善神经网络,与上帝掷骰子 | IJAIRR //m.drvow.com/category/academic/ZkO13SBNFKTwbxsC.html

2021年,诺贝尓奖委员会决定将物理奖颁发给复杂系统研究领域、以乔治·帕里西(George Parisi)为首三位科学家。当时不仅物理学界,许多计算神经科学家或理论机器学习学者表达了对帕里西的祝贺和感激,认为他的理论成果极大地推动了神经网络理论研究这一跨学科领域的蓬勃发展。

在新加坡国立大学,Choy Heng Lai(赖载兴)教授便是这一波复杂系统与神经网络跨学科研究风潮的代表人物之一。赖教授的学术生涯,始于对物理学的热爱和对未知的好奇。上个世纪70年代在芝加哥大学求学期间,他深入研究了粒子现象学和场论,探索了弱相互作用模型构建时期的标准模型;在哥本哈根的尼尔斯玻尔研究所,他进一步拓展了自己的学术视野,从量子色动力学的角度研究了电子-正电子湮灭过程中的多喷流结构。这一研究不仅加深了他对物理学的理解,更激发了他对复杂系统的浓厚兴趣。

加入新加坡国立大学后,赖教授面临着一个全新的学术环境。远离实验信息中心的他,开始转向粒子物理学的其他领域,探索强子相互作用的几何图像、经典规范场理论和量子场理论。然而,他逐渐意识到,还原论方法并不足以充分解释集体性质和复杂行为的涌现。这一认识,促使他开始探索非线性动力学和混沌,逐步进入复杂网络和更广泛的复杂系统研究领域。

在此过程中,赖教授及其团队在《人工智能与机器人研究国际期刊》(IJAIRR)的最新研究——《Asymptotic edge of chaos as guiding principle for neural network training》——成为了深度学习领域的一个创新之举。这项研究首次尝试将混沌边缘(edge of chaos)的概念应用于神经网络训练,提出了一种新的训练原则,即在混沌边缘,深度学习模型能够展现出最佳的泛化性能。这一发现不仅是对深度学习理论的贡献,也为未来的训练策略指明了方向。

借此契机,赖教授向AI科技评论介绍了该论文的研究过程,以及混沌研究中存在的感悟。

论文链接:https://gairdao.com/doi/10.1142/S2972335323500011

论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335323500011&area=0000000000000001

混沌边缘:神经网络训练的新思路


“混沌”是“秩序”的反义词,是随机混乱,是不可预测的“蝴蝶效应”;混沌边缘源自复杂系统理论,并描绘了一种处于有序与混沌之间的动态平衡状态。这一理论基础不仅在物理学、生物学等多个学科中展现出其深远的影响,也在神经网络和人工智能的研究中揭示了其独特的价值。

神经网络本质上是复杂的非线性动力学系统,它们展现出的混沌特性赋予了它们独特的信息处理能力。正是这种与混沌紧密相连的本质,使得混沌神经网络被视为模拟现实世界复杂计算任务的智能信息处理系统之一。在神经科学领域,有研究表明,大脑在某些操作点上可能接近混沌边缘,这样的状态被认为能够优化信息处理和学习能力。不同于当前主流人工智能研究试图用一种简单的数学方法来理解人工智能模型,混沌边缘的概念不仅启示了一种新的思考方式,而且为我们理解大脑如何处理复杂信息提供了一个强有力的理论工具。

混沌边缘原理表明,在有序与混沌之间的动态平衡状态可以促进信息的最大化处理。在神经网络中,这意味着网络能够在保持足够稳定性的同时,对输入数据进行高效的信息编码和处理。这种平衡状态为理解网络内部的决策过程提供了一个窗口,因为网络在混沌边缘的操作可能伴随着更加明显和可追踪的动态模式。

赖教授这项研究的核心,在于如何将混沌边缘的理论转化为实际的神经网络训练策略。赖教授及其团队选择了一种常用的训练算法和正则化过程,展示了如何根据这一理论原则来设置训练超参数,而不是依赖传统的反复试验或基于启发式的方法。他们提出了一种“半解析”方法来确定最佳的权重衰减强度,这种方法需要对基础解析方程进行一定的校准,以估计维持模型在混沌边缘的最佳权重衰减强度。


与上帝掷骰子


赖教授的研究不仅仅在探索混沌边缘对于优化神经网络性能的潜力,而且还着重于提高人工智能系统的可解释性。在人工智能领域,尤其是深度学习模型,通常被认为是“黑箱”,因为它们的决策过程缺乏透明度。然而,赖教授研究中使用的混沌边缘原理,提供了一种可能的途径来增强模型的可解释性。

通过赖教授的“半解析”方法,研究人员能够更精确地控制神经网络的权重衰减,从而维持网络在混沌边缘的最佳状态。这种方法不仅有助于提升网络的泛化能力,还可能揭示网络如何通过权重的调整来响应不同的输入数据。因此,混沌边缘原理的应用为理解神经网络的决策机制提供了一种新的视角,有助于我们解释和预测模型的行为。

此外,赖教授的研究还指出,通过适当的正则化,可以推动模型向有序状态转移,从而实现更好的性能。这种正则化方法,如权重衰减,通过惩罚过大的权重值来防止模型过拟合,同时保持模型的复杂性和表达能力。这种方法的引入,为解释模型的行为提供了更多的线索,因为正则化项直接影响了模型的决策边界和敏感度。

正如一句话所言:问题不在于上帝是否掷骰子,而在于如何掷骰子。赖教授的研究,不仅在理论上具有创新性,更在实践中显示出巨大的潜力。这一原则也适用于高度复杂的模型和任务,或许这一研究的潜在应用,有望影响未来的神经网络训练策略,帮助我们了解“如何掷骰子”。

在这篇文章中,我们将深入探讨赖教授的这项创新研究,从其理论基础到实践应用,从团队合作到研究挑战,我们将一一呈现。以下为雷峰网-AI科技评论与赖教授的采访实录,AI科技评论做了不修改原意的编辑:

一、论文解读

AI科技评论: 您的最新论文《Asymptotic edge of chaos as guiding principle for neural network training》探讨了混沌边缘在神经网络训练中的作用。您能为我们解读一下这项研究的创新点吗?

(论文截图。来源:IJAIRR)

赖载兴: 这项研究我们早期发现(https://arxiv.org/abs/1909.05176) 的首次应用尝试,即深度学习模型在接近混沌边缘时具有最佳泛化性能。然后,我们被激励在实践中应用这种“混乱边缘”原则。我们选择关注一种常用的训练算法和正则化过程,以证明人们可以根据这一理论原理来设置训练超参数,而不是像通常那样进行反复试验或基于启发式方法。

雷峰网-AI科技评论: 您是如何将经典的 Sherrington-Kirkpatrick 模型与神经网络训练过程中的动力系统联系起来的?

赖载兴: 谢林顿-柯克帕特里克自旋玻璃模型(SK 模型)【注1】已被物理学家用来理解神经网络。我们的贡献是将现代神经网络训练过程进一步映射到SK模型相图上,并进一步将训练超参数与物理动力学过程联系起来,以便可以清楚地理解每个参数在有序混沌过渡过程中的作用。

雷峰网-AI科技评论: 论文提到了一种设置最佳权重衰减强度的“半解析”方法。您能详细说明一下这个方法是如何工作的以及它对提高模型性能的意义吗?

赖载兴:  “半解析”意思是因为它需要对基础解析方程进行一定的校准。为了估计将模型维持在混沌边缘的最佳权重衰减强度,我们需要知道它与其他训练超参数之间的数学关系。虽然它们之间的函数依赖性可以通过分析得出,但方程中的某些常数需要根据经验进行校准。本质上,通过“设置”这个最佳权重衰减强度,模型将不断探索学习数据模式的最佳权重配置,从而实现最佳测试精度。

雷峰网-AI科技评论:您如何看待这一研究在深度学习理论和实践中的潜在应用?它将如何影响未来的神经网络训练策略?

赖载兴: 我们认为这是使用“混沌边缘”【注2】作为增强深度学习模型训练原则的第一个概念验证。虽然我们在简单的训练任务上选择了一个简单的模型,但我们预计这一原则也适用于高度复杂的模型和任务,尽管控制混沌边缘的确切实现可能会有所不同。

雷峰网-AI科技评论:团队在研究过程中遇到的主要挑战是什么,如何解决的?另外,您认为目前的研究差距和优化计划是什么?

赖载兴: 研究过程中有很多失败的尝试。我们研究了模型和训练机制的许多不同变体,但大未能提供清晰的洞见或因过于复杂而难以分析。但所有这些失败都帮助我们对理论图景和深度学习训练动态有了更深入的了解,其中不少发现令人振奋。

此外,我们面临的另一个挑战是如何将跨学科的研究成果传达给特定领域的专家,尤其是计算机科学家。物理学家与计算机科学家在研究人工智能时可能采用截然不同的视角和方法,有时甚至显得格格不入。然而,这种跨学科的交流极大地促进了我们向他们学习,从而显著提升了我们的研究质量。

我们之间的一个研究差距可能是,目前的人工智能研究依赖简单的数学方程来理解人工智能模型,隐含地希望在解释它时能达到一些简单性。然而,人工智能似乎利用的是复杂性而不是简单性,这种隐含的“简单性”假设可能会阻碍理解人工智能深入理解的进展。工智能深入理解的进展。

雷峰网-AI科技评论:全球范围内,有哪些顶尖研究团队正在开展与您类似的项目?

赖载兴: 除了人工智能之外,复杂性科学中也有“混沌边缘”的相关研究。他们中的许多人研究生物网络和分布式水库计算机网络(Reservoir Computer Networks)。著名的包括印第安纳大学伯明根分校的约翰·贝格斯(John Beggs)、宾夕法尼亚大学的丹尼·S·巴塞特(Dani S. Bassett)。

二.领域洞见

雷峰网-AI科技评论:您认为当前机器学习和深度学习领域面临的最大挑战是什么?您的研究如何帮助应对这些挑战?

赖载兴: 最大的挑战可能是可解释性,这样模型就可以用来完成艰巨的任务。我们研究中使用的混沌边缘原理可以作为提高人工智能可解释性的理论基础。

雷峰网-AI科技评论:您能否介绍一下本研究的应用前景和潜在挑战?

赖载兴: 我们的研究是概念验证的第一步,表明利用复杂系统科学中的原理可以帮助创建更好的人工智能模型。从长远来看,它可以带来更好、更复杂的训练算法或模型架构。然而,由于大型语言模型等最先进的模型非常庞大且复杂,因此实现更好的人工智能模型非常具有挑战性。

雷峰网-AI科技评论: 您如何看待量子信息科学和复杂系统研究在未来技术发展中的作用?他们将如何推动跨学科创新?

赖载兴: 量子信息科学正沿着一条不可阻挡的轨迹迅速发展,这不仅得益于它巨大的潜力,更源于它对量子技术革新的驱动作用。随着我们对量子世界的认识日益加深,对通信、计算和安全等领域的高级功能需求不断增长,探索量子领域已成为一个合乎逻辑的下一步。制造量子设备是一个复杂的过程,它要求精密的工程技巧和跨学科知识的融合。量子信息科学有潜力成为连接多个前沿创新的关键纽带。

复杂系统科学正逐渐被视为一种普遍的方法论和思考框架,而不仅仅是特定领域的知识。它已经渗透并融入了众多学科包括物理、化学、生物医学、工程,乃至社会科学、经济学、物流等领域,以及城市动力学、弹性和可持续性问题。这些问题的解决不再局限于传统学科的视角,而是需要跨学科的协作和贡献。随着复杂性思维成为研究的常态,“复杂性科学”这个术语在未来很可能会从我们的词汇中消失。

三、学术背景及展望

雷峰网-AI科技评论:您能简单介绍一下您的个人背景和学术历程吗?您是如何从粒子现象学和场论过渡到非线性动态系统、量子混沌和复杂系统的?

赖载兴: 我1971 年至 1978 年间在芝加哥大学完成了本科至博士的学习, 我的博士论文是关于(反)中微子诱导的二μ子的产生,这项研究为弱相互作用模型构建时期提供了对标准模型的深入和及时评估。随后,在我哥本哈根的尼尔斯玻尔研究所,我深入研究了量子色动力学下的电子-正电子湮灭过程。

加入新加坡国立大学后,我面临了与实验信息中心距离较远的挑战,这促使我转向粒子物理学的其他理论领域,包括强子相互作用、经典与量子规范场理论。我被整体论所吸引,认为还原论方法不能完全解释复杂系统的集体行为。我的研究逐步从非线性动力学和混沌理论扩展到复杂网络和系统,这是一段充满发现的物理学之旅。

雷峰网-AI科技评论:在学术传承方面,您在物理学方面有科学根源,在教育方面,您推动了新加坡国立大学计算科学的发展。您过去的经历如何塑造您的专业技能和研究视角?它与本研究有何关系?

赖载兴: 在我看来,求知欲是学者最宝贵的品质,它驱使我们超越自己的专业领域,对新的问题保持好奇,欣赏并吸收他人的创新思维和方法,以及用自己学科的原则和概念来构建问题和挑战。我在芝加哥大学接受的跨学科教育,涵盖物理、人文、社会科学以及生物和化学,为我日后在新加坡国立大学的多元教育发展中打下了坚实的基础。无论是建立计算科学项目、转型物理系研究方向,还是参与创立耶鲁-新加坡国立大学学院,这些经历都丰富了我的教育背景和科学视野。

最近,我将研究领域扩展到了机器学习物理学,这一转变源自对深度学习基本原理的深入思考。在物理学中,我们习惯于通过对称性或最优化原则(如最小作用原理、熵最大化等)来理解现象。如果我们将深度学习视为一个动态过程,我会关注在这个过程中哪些量被最小化或最大化,以及这些过程背后的机制是什么。这种探索在某种程度上是第一波神经网络浪潮中物理学家工作的延续,并有助于我们在深度学习领域实现更高的可解释性和可重复性。

雷峰网-AI科技评论:您能分享一下您目前的一些研究方向或正在进行的项目吗?

赖载兴: 我的同事(Feng Ling, Chen Kan, 和一些研究生)目前正在进行城市动力学问题的概念框架和应用开发,包括城市韧性(临界点、预警信号、预测……)、城市环境中的疫情传播,以及社交网络上的信息传播和控制(包括错误信息)。这项工作是在新加坡国立大学城市框架下进行的。

我参与的另一个方向是新加坡的AI for Science倡议,希望能够利用新加坡已建立的科学界社群来推动人工智能的应用,并可能为理解人工智能过程的机制和动态提供反馈。

雷峰网-AI科技评论: 最后,您对科学和教育有哪些个人哲学或信念?这些对您的研究和职业有何影响?

赖载兴:  我的朋友阿图尔·埃克特(Artur Ekert)是量子技术中心的首任主任,他在所有电子邮件中都引用了一句话:“做你喜欢的事,喜欢你所做的事”。我非常赞同这句话。我个人认为,成为一名科学家是一种特权,你可以追随自己的热情,将学习和探索视作生活方式,而非单纯的“工作”。换言之,你从事研究是源于你的激情和兴趣;教学是希望分享知识的喜悦;承担学术管理,是因为对所属机构有深厚的归属感和责任感。自己的学术生涯能如此充实,尽管这可能带有些许理想化色彩。不幸的是(也许?!),现代学术界越来越重视研究成果作为成功的唯一标准,这可能会改变年轻学者对学术成就的认识和满足感。

注1:谢林顿-柯克帕特里克(Sherrington-Kirkpatrick,简称SK)自旋玻璃模型是一个物理学中的简化模型,涉及到大量元素之间的复杂相互作用,用数学语言来描述,在一种被称为自旋玻璃特殊的磁性材料所包含的中随机分布、完全无序的小磁铁之间非常复杂和混乱的磁场模式,以及这些小磁铁如何在这个混乱的网络中找到一种平衡状态。简而言之,SK模型是一个探索复杂系统中秩序与混乱相互作用的重要工具,这个模型也在研究大脑神经元如何协同工作时提供了洞见。

注2:"混沌边缘"(Edge of Chaos)是一个描述系统动态行为的术语,它指的是一种特殊状态,其中系统的行为既不是完全有序的,也不是完全无序的。这个概念在复杂系统理论中非常重要,因为它通常与系统的高适应性和信息处理能力相关联。在人工智能和机器学习中,研究者尝试利用混沌边缘的概念来设计更智能、更能适应新情况的算法。


]]>
人工智能学术 //m.drvow.com/category/academic/ZkO13SBNFKTwbxsC.html#comments Tue, 02 Jul 2024 09:33:00 +0800
该怎么让机器人吃下大模型?丨GAIR live //m.drvow.com/category/academic/CEmQJXB2CrsR1yvM.html

大模型技术横空出世,无疑让机器人技术再次成为研究和产业界的焦点。

这一技术的核心优势在于,其卓越的数据处理和模式识别能力。通过深度学习与神经网络技术的不断优化,大模型能够高效地处理和分析庞大的数据集。

这意味着,机器人可以在更短的时间内学习新技能,更快地适应新任务,甚至能够在没有明确编程的情况下自主解决问题。不仅如此,在大模型的助力下,机器人的感知能力变得更加精准,这无疑将极大地拓展其应用领域,并增强其在复杂环境中的适应性和灵活性。

然而,大模型技术的发展同样带来了挑战。如何确保机器人的决策过程透明、可解释;如何让机器人真正融入开放式服务场景,这些都是亟待解决的技术难题。

最近,雷峰网举办的「大模型时代,机器人的技术革新与场景落地」线上圆桌论坛,汇集了南佛罗里达大学的孙宇教授、武汉大学的李淼教授、逐际动力的张巍博士、优必选科技的庞建新博士等产研界精英。

他们的见解覆盖了从理论研究到实际应用,从硬件设计到软件算法,从感知技术到任务规划,为我们提供了一个全面而深入的视角,以洞察这一领域的最新发展和未来趋势。

孙宇教授,从机器人学的角度出发,强调端到端方法在机器人学中的挑战性,尤其是在运动规划和执行方面,真正的端到端控制尚未实现。同时他也指出,AI 大模型如 GPT-4 和 CLIP ,在机器人感知和知识应用方面显著减少了研发时间和精力,使得 Demo 制作相对容易。但关键是,机器人技术的真正落地和产品的可靠性仍是一个巨大挑战。

李淼教授,他重点关注机器人规划和执行层面,提出了利用大型语言模型来简化任务表达的可能性。同时他也指出,目前机器人领域缺乏类似于特斯拉 FSD 的统一模型,尽管数据驱动方法在机器人领域被认为是关键,但目前尚未得出明确的结论,即仅仅通过收集足够的数据就能解决所有问题。

张巍教授,他讨论了端到端方法和分层方法的优劣,强调端到端方法不仅仅是架构问题,更是训练流程。他认为,未来机器人的发展可能会采用类似 ChatGPT 背后的 MOE 模型,由多个专家的小模型组成,通过 agent 连接。同时他也指出,大语言模型在决策层面上有所帮助,但对于具体的运动控制,仍然面临挑战。

庞建新博士,是从 AI 领域转向机器人研究的杰出代表,他强调,AI 大模型在机器人领域最有价值的部分,是知识推理能力和挖掘事物关系的能力。同时,他提出了整合大脑、小脑与机器人本体之间的工作,以及如何将新型传感器有效利用到机器人系统中的问题。

以下为本次圆桌对话全文(经编辑):

01 嘉宾介绍

孙宇:欢迎大家齐聚线上,也感谢雷峰网的组织。我相信大家和我一样,都对接下来大模型+机器人的讨论充满期待。在开始之前,请大家介绍下自己。

李淼:大家好!我是李淼。我本硕毕业于华中科技大学机械工程专业,博士有幸在瑞士洛桑联邦理工学院(EPFL)与 Aude Billard 教授共事,致力于机器人技术,特别是模仿学习领域的研究。

这与我们今天的讨论主题息息相关。

在本科阶段,我的研究重点偏向于建模和规划。随着时间的推移,尤其是在攻读博士学位期间,我开始转向数据驱动的研究方法。在这一时期,我还与孙宇教授就抓取(grasping)领域的多个问题进行了深入讨论。

2016年之后,我选择回国并尝试创业。我们的目标是打造一个机器人操作系统,旨在整合机器人的设计、感知、规划和执行过程。尽管当时的整合主要集中在传统的软件层面,以及使工业软件的 API 更加易于使用,但这一工作我们坚持了许多年,并最终在多个场景中实现了落地应用。

同年,我也加入了武汉大学,并在工业科学研究院领导了一个机器人实验室。

我们专注于将机器人模仿学习应用于不同场景,尤其是在工业和医疗领域。在这个过程中,我们逐渐意识到,机器人任务规划这一高层次的问题缺乏明确的定义。我们通常称之为TAMP(Task and Motion Planning),即将任务规划、任务和运动规划混合在一起。但在实际应用中,我们发现很多任务难以用具体的方式描述,这带来了不小的挑战。

随着大型语言模型的出现,我们开始思考:为何非要在向量空间中规划任务呢?例如“拾取与放置”任务,或者在抓取过程中,只需提供坐标,就能很好地解释任务。但在现实世界中,用口语描述任务可能会更简单。因此,我们开始将实验室的部分工作与大型语言模型相结合,从感知、规划到控制,这一领域的进展非常迅速。

我们的工作仍在进行中,每天都有新的发现和学习。

张巍:大家好!我是张巍。我在中科大完成了自动化专业的本科学习,之后在美国继续深造并从事教学工作十余年。2019年,我选择回国,并全职加入了南方科技大学。

目前,我在南方科技大学担任教职,我的实验室叫机器人控制与学习实验室(CLEAR LAB),全称为 Control & Learning for Robotics and Autonomy,关注机器人控制理论与学习算法方面的研究。

我早期的研究重点是最优控制和运动规划,随着机器人硬件的成熟,机器人领域的研究点日益增多,我的研究重点放在人形机器人,涵盖了感知、规划、控制以及强化学习等多个相关领域。

逐际动力成立于2022年,我是创始人,主要从事通用机器人的研发,目前的重点在于人形机器人的开发,同时也有四轮足。

庞建新:大家好!我是庞建新,来自优必选科技。我的学术和职业道路可能与在座的各位有所不同。

我在中科大攻读了电子信息工程的本科学位,那时我就已经开始涉足人工智能相关的工作。我的本科毕业设计专注于语音信号处理,包括早期的语音识别技术。在中科大继续深造期间,我选择了计算机视觉作为我的硕士和博士研究方向,从事图像处理和分析的研究。

从本科时代起,我就一直致力于探索如何将AI技术与硬件相结合。

在硬件性能有限的情况下,例如频率仅为66兆赫兹的处理器上,我尝试运行语音相关技术。在研究视觉技术时,我也在思考如何让视觉算法在低算力硬件上运行。

在我开始职业生涯时,我加入了一家外企,继续探索如何将视觉算法应用于低算力硬件。我记得非常清楚,我们曾尝试在只有100兆赫兹处理器的数码相机中实现复杂的算法。在深度学习技术广泛应用之前,我致力于开发小型算法,解决实际问题。

2011年,我加入了中国科学院深圳先进技术研究院,开始探索如何将人工智能技术与机器人技术相结合。

我们团队孵化了多个与机器人相关的项目,并与腾讯合作,推出了全球较早的基于云的桌面交互式机器人产品。2011年,我们的产品发布后,受到了极大的关注。随后,我们继续开发面向交互的智能机器人产品。

2015年初,我加入了优必选科技。那时公司还处于初创阶段,研发团队仅有十几人,刚拿到A轮融资不久。

所以那时我加入优必选科技后,与CTO熊友军博士一起负责整个公司的研发工作,并建立了优必选研究院。我们还规划了人形机器人的整体布局,成为国内最早从事人形机器人研发的企业之一。我们也努力推动产业化进程,从最初的小型人形机器人开始,到大型人形机器人的研发和应用落地。

在这个过程中,我得以将软硬件结合的能力、人工智能技术应用于机器人技术。同时,我也学习了许多新知识,包括机器人控制、运动规划等。

我认为,现在的机器人和大型模型研究已经不再局限于单一领域,而是涉及多个领域的知识。例如,大型语言模型已经从基础的语言知识扩展到多个领域,覆盖了从感知、理解、任务拆解和规划等多个层面,已经不再是单一技术。

在当前阶段,我认为既有挑战也富有研究价值。我们团队在优必选科技已经完成了多轮机器人的研发,并探索了如何将各种技术应用于机器人之上。

我们遇到了很多挑战,但现在我们有了新方向,无论是在感知、规划还是控制方面,新技术的出现都将为人形机器人产业的发展带来巨大变化,希望继续抓住这个机遇。

孙宇:优必选科技自2016年起就开始研发人形机器人了,对吧?

庞建新:优必选实际从2012年成立以来就投入人形机器人核心技术以及产品的研发。2016年,我们推出了大型人形机器人Walker的原型机。2018年,我们在CES展(国际消费类电子产品展览会)上首次发布了第一代Walker;到了2019年,我们推出了第二代Walker;2021年我们推出了Walker X;2023年我们研发了工业版人形机器人Walker S。到目前一共是五次迭代。

孙宇:那么,您能介绍一下优必选科技目前的人形机器人发展到了什么程度吗?你们主要面向哪些应用场景?

庞建新:优必选科技在人形机器人领域的研究经历了多个阶段。最初,我们的人形机器人更多用在服务场景,如导览接待、教育科普等。但从2022年开始,我们开始认识到,在工业制造场景中,人形机器人可能有更大的应用潜力,有可能比商用服务场景更早实现落地。因此从去年至今,我们的重点放在了探索人形机器人在智能制造场景中的应用落地。今年年初,Walker S就在蔚来汽车总装车间进行实训。这是全球首个人形机器人在汽车工厂流水线与人类协作完成汽车装配及质量检查作业的尝试。

02 全球视野下的突破

孙宇:非常感谢各位的分享。我们刚才讨论了AI和机器人领域的发展,特别是大语言模型和基础模型的出现,极大地提升了 AI 的能力。这似乎预示着机器人技术再次成为研究和产业界的焦点,因为人们开始认识到 AI 的能力已经能够让机器人执行一些非常重要的任务,比如服务机器人和工业机器人。

我认为我们可以利用各自的背景和平时观察到的趋势,为观众介绍一些在国内外学术界和工业界在机器人方向上取得的显著成就,以及这些成就对整个领域发展的推动作用。

李淼:在当前自媒体高度发达的时代,我们经常会在雷峰网等平台上看到关于人形机器人、AI 等相关领域的最新动态。这些内容通过各种渠道广泛传播,让我们对这一领域有了更深入的了解。

对于我个人而言,我关注的是机器人领域的周期性发展,这是一个循环往复的过程,非常有趣。

回顾庞建新博士之前提到的通用与专用机器人的话题,我记得在2011年参加 IROS 会议(国际智能机器人与系统大会)时,我们讨论过所谓的灵巧手(dexterous hand)的问题。

当时,许多人认为灵巧手并没有实际应用价值。我记得 Matei,也就是 GraspIt 软件(https://graspit-simulator.github.io/)的创作者,曾说过一句著名的话:两指夹钳(Gripper)可以解决人类社会95%的问题,剩下的问题即使有灵巧手也难以解决。

然而,十年后的今天,社会的观点发生了巨大变化。人们开始认识到,拥有类似人类的灵巧手,尤其是具有高度灵活性的灵巧手,将会改变很多事情。

在2010年至2015年期间,我尝试了许多种灵巧手,相信孙宇教授也有类似的经历。我们使用过Barrett Hand、 Allegro Hand 、Shadow Hand 、iCub Hand 等,但它们的功能在当时受到了硬件和仿真算法的很大限制。

现在,人们可能会过分强调人形机器人与大模型结合的优势,而忽略了最底层的根本问题,例如在grasping 的Contact(接触)方面从未被提及。

第二点,我们看到大模型本质上带来了什么改变?它改变了我们对任务表达的理解。

传统的机器人任务表达往往简化为轨迹、pick and place 或者 force / impedance control 等形式,但任务表达本身并没有一个清晰的定义。随着大语言模型的引入,我们可以将自然语言这一维度加入到任务表达中。

然而,如果我们回顾历史,早在2010年,人们就已经使用知识图谱等工具进行任务表达。在欧盟,过去我参与了两个相对知名的项目:RoboEarth 和 RoboHow。

RoboEarth 的目标是将网上的知识整理成一步步的指令,供机器人执行。

RoboHow 则是2014年欧盟机器人项目的佼佼者,它将网上的视频、人的视觉强化学习、Wikipedia的知识整合到一个庞大的知识引擎中,进行基于逻辑的推理。

今天的大语言模型从更高的维度、更大的数据维度整合了这些知识。我们期待这次能够在任务表达上实现重大突破。

孙宇:这确实引发了一个问题,灵巧手究竟能有什么用处?

我们当时讨论了手内操作(in-hand manipulation)的重要性。如果没有手指,就无法实现手内操作。因此,当时确实存在一些不确定性,人们不清楚这些手在实际应用中能达到什么样的程度。但是,这种研究是逐步推进的,李淼老师的观点非常正确。

张巍:首先,我依然认为两指夹持器(2-finger Gripper)能够完成许多任务。这个观点至今仍然成立。

正如我们所见,斯坦福大学的炒菜机器人Mobile Aloha ,尽管只是一个两指夹持器,但它已经能够完成许多工作。只不过,它还不能自主地完成这些任务。从夹持器的角度来看,我认为两指夹持器确实能够做很多事情。

我想补充一下刚才的讨论,提到了大模型和当前机器人技术的浪潮,以及这些浪潮中的代表性工作。我认为,大家都像获得了一个新工具,虽然对这个工具还不太理解,但它带来了新的希望。目前我们还谈不上取得了什么成就,我更倾向于像李淼老师那样回顾历史,而不是只关注现在流量高的工作。

当然,现在有很多引人注目的工作,比如谷歌的 Code as Policies,还有李飞飞等学者的 Vox Poser,以及前段时间非常火爆的 Mobile Aloha 。这些工作吸引了很多人的关注,让人们对操作和大模型结合的可能性有了新的希望和思考。不过,从本质上讲,这些进展可能都不太实质。

我个人比较喜欢的是 diffusion policy,这是去年 RSS 会议(Robotics: Science and Systems)上的一个工作。

我之前在阅读李淼老师的一些采访时也提到过这些讨论,我认为这是非常好的工作。关于如何使用生成模型进行模仿学习,这为我们提供了新的思考方向。

但我更想讨论的是,从具身智能和人形机器人的交叉领域来看,有几种不同的切入点进入这个领域:

一种是AI领域的人士,他们认为 AI 找到了一个新的应用场景,即人工智能的一个新载体;

另一种是我们这些早期从事机器人学的人,我们看到AI提供了新的工具。

这两个角度是不同的。我们真正从事的是机器人学,而不是因为大模型的出现才转向机器人学。当大模型或其他新工具出现时,我们发现可能有新的方法可以解决以前难以解决的问题。

从人形机器人的角度来看,我在这个领域研究的时间相对较长,与庞建新博士等学者有过交流甚至合作。从这个角度来看,我认为确实有一些非常重要的历史性成就。虽然这些成就可能不是现在最受媒体关注的,但我还是想和大家分享一些我认为比较关键的实质性进展。

对于人形机器人,我并不认为它的开发是一项难以逾越的挑战。它本质上是一个极其复杂的工程项目,关键在于硬件系统和软件算法之间需要紧密耦合并进行迭代。

难点在于,我们无法预先知晓硬件的性能如何,硬件本身的开发已经是一项艰巨的任务,而我们也无法确定其性能是否达标。同样,控制算法的优劣也无法提前判断,我们需要一个优秀的平台来验证这些算法。

这两个要素相互依赖,却往往难以同步发展,就像左脚和右脚的步伐总是需要交替迭代。

这导致在2012年之前,硬件资源极其匮乏,没有足够的时间和机会去迭代和完善软件算法。因此,那时我们使用的都是非常基础的算法。

直到2012年,随着 DARPA Robotics Challenge(DRC)等项目的推进,以及 Atlas、Cassie等力控机器人的发展,我们开始看到了硬件的发展,这使得软件算法得以逐步向模型预测控制(Model Predictive Control, MPC)等更高级的控制框架靠拢。这样的硬件迭代为整个领域奠定了基础,为软件开发提供了一个更为坚实的框架。

随后,从2022年开始,包括特斯拉做人形机器人,硬件的大量统计数据开始出现。

这个过程中,我认为最关键的两个工作。

一个是 Patrick Wensing 在MIT的工作,也就是他在2017年发表在TRO的关于QDD的论文(Quasi-Direct-Drive,准直驱关节)。

这种准直驱关节设计虽非最完美的方案,但它极大地推动了整个行业的发展,现在,许多双足机器人都采用了QDD方案。这种硬件的可用性至关重要,而且大家可以迅速收敛到很多算法的迭代,这个是至关重要的。

另外, Patrick Wensing 和他的学生2018年发表在IROS上的关于 Convex MPC 的论文也值得一提。这篇论文后来成为了 MIT 开源项目的一部分,为软件算法的迭代提供了重要的起点。

现如今,四足或双足式机器人的控制变得可能,吸引了更多人加入到这个领域,逐渐形成了现在的社区,并推动了像reinforcement learning 这样的工具的发展。

这一成就不仅在当时是一个标志性的进展,而且对后续的研究和发展产生了深远的影响。

庞建新:我的研究起点是AI和视觉感知。在我看来,尤其是大型模型出现之后,有几个层面对我影响颇深。

首先是多模态感知技术。

过去我们开发的许多机器人在决策方面面临一个重大问题:如何整合各种信息?

虽然我们编写了大量的规则,但是从视觉感知到语音感知,获取的信息往往是孤立的,难以将多维度信息真正融合起来。

随着大模型的出现,我们有可能将环境信息、历史信息、上下文信息、语音信息,甚至个性化属性等各类信息整合起来,以帮助机器人进行统一的决策。这使得机器人具备了一种综合感知外部环境的能力,类似于人类的多维度感知,这对机器人而言极为重要。

这是一个实际的进步,例如VoxPoser这一工作让我感到非常兴奋。通过人的干预,机器人能够处理之前未处理过的任务,这大大提升了机器人的智能水平。这为我们提供了一个很好的思路,即如何利用大型模型中的推理和知识逻辑。

我特别关注的第二个层面是运动规划。

无论是通过学习驱动(数据驱动)的方式,或者是模型驱动的方式,归根到底是如何去做运动?

过去,我们已经进行了许多基于模型的运动规划工作,但我想提出一个问题:为什么我们需要采用数据驱动或学习的方式来进行规划?

目标是实现大脑、小脑与机器人本体之间的真正连接。

传统上,研究大脑的是一个团队,研究小脑的是另一个团队,而电机和硬件的开发则由第三组人负责。这些团队之间的工作往往是孤立的,缺乏有效的整合。我认为,我们需要解决的一个问题:包括如何将这些孤立的系统整合起来。

尽管目前人形机器人系统已经取得了一定的进展,但我们的控制系统、决策制定、任务规划以及运动控制等方面都还有待完善。整个系统目前还处于一种拼凑状态,我们需要找到一种方法,可能是基于学习或数据驱动的方法,来将这些系统串联起来,形成一个连贯的主线。

在当前阶段的人形机器人发展中,我们见证了众多新型传感器的涌现。这些传感器包括力觉传感器(比如一维力还是六维力传感器)、惯性传感器,以及皮肤般的触觉传感器等等。

关键在于,我们如何有效地利用这些传感器,使它们与机器人的运动控制、决策制定、任务规划和动作规划有机地结合起来。这是一个极具研究价值的领域。

比如说,触觉在许多应用中都至关重要,无论是在抓取、安全还是人机交互方面。然而,目前我们尚未能够建立起触觉与控制之间的高效系统。

作为从企业角度出发的研究者,特别是从计算机视觉领域转向机器人学的人,我倾向于从系统的角度来思考问题。我更喜欢从整体上考虑如何将各个部分有效地连接起来,而不是仅仅关注单一的技术或方法。

孙宇:非常感谢您对多模态特性的讨论,这确实是一个至关重要的领域。随着像 CLIP 这样的模型的出现,我们现在能够更有效地将不同类型的模型和信号融合到一个统一的表示空间中。

这些模型能够将来自不同源的信息,如声音、视频以及其他传感器信号,甚至是触觉信号,整合到一个统一的嵌入空间中。这种能力对于机器人的运动和服务器方面的应用是非常有价值的。

CLIP 模型的出现似乎在许多实验室激发了对多模态研究的兴趣。这些研究不仅关注声音和视觉信号的结合,还探索了如何整合其他类型的传感器数据,如触觉等。这确实是一个挑战,因为机器人领域的硬件正在迅速发展,新的传感器不断涌现。

人类的感觉能力是相对稳定的,从出生到现在,甚至几千年前,我们的感觉方式并没有太大变化。然而,机器人的硬件和传感器技术变化迅速,今天使用的传感器可能明天就会被新的技术所取代。

这意味着我们今天收集的数据可能在未来变得无用,因为与新的传感器相关的数据可能会使旧数据过时。因此,我们需要不断地收集新的数据来适应这些变化,这是一个非常有趣的挑战,也是这个领域独特的研究课题。

03 从理论到实践

孙宇:如何从零开始构建并部署一套高效的机器人软硬件系统?在这一过程中,我们面临哪些技术难题,又是如何一一克服的?

李淼:实际上,我并没有完整地构建过一个人形机器人。最近,我们才开始了一个月的项目,在湖北,我们获得了湖北省一个重大项目的支持,目标是构建一个具有高爆发动力模态的人形机器人。

在整个设计过程中,我们始终围绕着机器人系统的概念进行。无论是人形机器人、四足机器人,还是工业中使用的抓取工作站,本质上它们都是机器人系统。

作为机器人系统,其核心是完成给定的任务要求。我们如何设计一个更有效或更优化的系统来满足这些任务需求?这与 Matt Mason 对机器人的一般定义相呼应,即机器人是为了实现特定任务而设计的系统。

根据系统理论,一个系统由三个主要要素组成:目的或功能、元素(包括传感器等)、以及元素之间的连接。

如果我们将这个问题抽象化,那么输入就是所有传感器的数据,输出则是电机的动作。传感器和电机之间的连接通过各种结构设计来实现。

无论是汽车、哪吒还是人形机器人,都是同样的原则。

但挑战来自于工程实践中的权衡,以及在科学问题上的有效选择。

例如,在当前的人形机器人中,如何选择最优的传感器组合?

如果我们不考虑预算或任务要求,理论上是越多越好。我在最初进行示范学习时也有同样的困惑:为什么我们只使用一个力传感器而不是十个?或者在每个部位都使用触觉传感器?这样任务信息不是更丰富吗,我对任务的理解不是更深入吗?那么学习出的结果肯定会更好。为什么只使用一个?

比如只用一个位置传感器或只用一个视觉传感器?在人形机器人上也是如此,到底多少个传感器是最合适的?或者说,是否存在一个最合适的数量?

我认为,这取决于人形机器人的具体工作目标。

例如,在某些场景中,可能根本不需要视觉传感器。

在工业场景下,如果每个物体的位置都是固定的,那么为什么还需要视觉呢?我只需要专注于执行任务即可。

因此,这又回到了我们之前讨论的专用与通用的悖论。

人形机器人是否是工业中最好的解决方案?我对此一直持怀疑态度。我认为它可能不是最终的解决方案。

在工业上,可能更强调的是专属性、分工和协作的概念。在具体设计上,我们在感知层面可能已经做了很多工作,涉及到算法层面的问题,如何选择传感器,以及在规划层面的探讨,包括我们之后可能还会讨论的规划和执行层面的问题。

从我的角度来看,目前我们最缺乏的是设计层面的创新。

当我们给定一个任务,比如让机器人在家做饭,什么样的机器人设计才是最优的?我们是否应该选择人形机器人、轮式机器人,或者是安装在厨房墙上的机器人,又或者是能在家里飞来飞去的机器人?

目前还没有明确的答案。

我们往往只是基于个人喜好,认为人形机器人看起来不错,于是就模仿或借鉴现有的设计,稍微改进性能,制作出一个能运行的原型。但这种做法实际上并没有太大意义。

我们应该深入思考更根本的问题,如何通过学习和进化来实现最优设计?能否像生物进化一样,仅给定环境和演变规律,让机器人自然演化出最适合的形式?在我之前教授的一门机器人课程中,有学生提出了这样的观点,这让我感到非常震惊。

以手为例,不同的手可能适用于不同的任务,比如搬运大石头或绣花。从同一对无指手出发,它们是否会根据任务的不同而演化成完全不同的夹持器?这是目前设计中让所有人困惑的问题。大多数人在某种程度上都在进行复制和粘贴,而不是深入考虑任务对设计的影响。我们认为这是一个重要且困难的问题。

另一个我们在设计中考虑的问题是触觉传感器。在触觉传感器的设计中,一个重要的部分是如何选择合适的敏感材料。

我们通常基于现有材料的性质进行选择,如果它们有效,我们就使用它们。但这并不一定是最好的选择。我们需要什么样的灵敏度?我们需要什么样的敏感度曲线?我们能否通过这样的曲线,利用AI的方法,找到最适合我们功能需求的材料?我们发现,这一点正是最传统且最稀缺的领域之一。

如何有效地将数据驱动的方法引入到传统系统设计中,尤其是在硬件设计方面,这是我一直在探索和合作的方向。这也是我目前感到困惑的地方。

孙宇:确实,每年的ICRA(国际机器人与自动化会议)和IROS(国际智能机器人系统会议)上,都有许多关于硬件设计的论文。近年来,一些实验室开始利用强化学习或其他学习技术来进行优化,以产生更为优化的机械手设计。

然而,我还没有看到有人根据实际需求来决定传感器的选择。我看到了一些关于材料的研究,但是如何根据需求来选择最合适的传感器,这一点似乎还没有得到足够的关注。

这是一个值得进一步探讨的领域,我们期待未来能看到更多相关的研究和创新。

李淼:我注意到宋舒然团队曾经采用优化方法来设计指尖表面,这是与传感器设计较为相关的一个实践案例。然而,对于更广泛的、系统层面的传感器设计,尤其是涉及到材料科学方面的,似乎还没有太多的进展。

孙宇:确实如此,目前的研究和开发主要集中在传感器的具体布局,例如光电传感器的放置位置,或者机械臂关节中透镜的设计等。

张巍:关于从零开始构建机器人软件系统,我非常赞同李淼老师刚才的观点。

我认为,机器人本质上是由一系列关节连接而成的。因此,构建机器人系统的关键首先在于理解这些关节。

关节内部包含了许多复杂的机制,如电机、本体传感器等,这些都是控制关节运动的基础。每个关节都可以视为机器人最小的运动单元,它提供两种基本功能:

一是提供运动,即关节转动的角度;二是在腿式机器人中,关节更多地被视为提供力的单元,能够快速响应给定的扭矩要求。

因此,构建系统的首要步骤是深入了解这些核心功能和组件,然后精通关节的设计,以达到极致的性能要求。这是构建机器人的第一步。

接下来,无论我们设计的是什么样的机器人,本质上都是通过结构件连接起来的一系列关节。在这些关节中,我们布置传感器,并进行运动控制。在我看来,运动控制本质上是关于所有关节的协同工作。每个关节提供独立的运动单元,而整个系统需要这些关节之间的协同。

目前,运动控制技术已经相对成熟,许多库和工具都已经非常完善,计算速度也很快。过去,运动控制是一个相当复杂的问题,但现在,我们主要关注的是如何让关节之间的协同工作更加流畅稳定,以及如何通过运动控制器来实现这一点。

早期的机器人通常采用离线编程或示教编程的方式,事先规划好动作,然后在工业环境中重复执行,这种方式不需要与环境进行交互,因此相对成熟。

然而,最具挑战性的部分是运动不能事先被编程固定,而需要根据实时感知的环境情况来决定如何响应。这是AI可以发挥重要作用的前沿领域。

近年来,AI在姿态识别、抓取识别等方面取得了显著进展,能够实时处理非预设的任务。而大型语言模型则在场景语义理解和规划方面取得了进展。技术突破的难点在于后期的感知和规划。

对于早期工程的技术难点,我认为主要集中在关节的内部设计上。如果要给出建议,我的原则是,如果你不确定自己是否有能力从零开始构建,那么最好不要自己做。最好是购买市场上已有的成熟产品。如果实在没有合适的选择,再考虑按照前面提到的方法自行开发。从头开始构建整个系统是一个漫长且复杂的过程,需要跨团队的协作。

在讨论机器人技术落地的过程中,我们不得不面对一个现实:打造一个稳定可靠的机器人极具挑战性。

实际上,将机器人从概念转变为实际应用的过程充满了困难,这种挑战之大,以至于许多人对机器人技术的落地持谨慎态度。

他们认为机器人技术难以实现商业化应用,这种观点并非完全没有道理。

我认为,这并非技术本身的局限,而是目标设定的问题。关键在于,我们是否能够准确识别成熟技术的边界。许多问题本质上属于探索性质,正如我们今天讨论的内容,大部分都属于探索范畴。探索是发散的,我们无法预知最终能否找到解决方案。

制作一个 Demo 相对容易,但要实现技术的真正落地则难度极大,两者之间的差距可能非常巨大,你可能需要投入绝大多数精力来提高产品最后的可靠性。制作一个Demo可能只需要一次成功,但产品需要持续稳定地提供功能。这两者之间的区别非常明显。

Demo在学术界可以就是一个可接受的结果,而在产品界,它只是一个起点。这是我们需要理解的基本逻辑。

孙宇:确实如此,我们每年举办的 Robotic Grasping and Manipulation Competition,就能清楚地展示出论文中提到的成功率在实际应用中的表现。

你可以看到,实际中的表现与论文中描述的百分比之间存在哪些差异。在竞赛中,许多实验室还需要搭建各种灯光环境,这些环境在实际应用中可能并不那么可靠,这些现象非常有趣。

庞建新:这个问题确实非常有趣。正如张老师和李淼老师刚才所讨论的,答案已经相当明确:不建议从零开始打造任意类型的人形机器人。

因为机器人与其他产品有所不同,它需要多个领域的专家共同协作才能成功研发出来。

正如我们之前提到的关节技术,它本身就不简单。然后还有本体控制、上层感知,以及各种电子器件和传感器。处理器也可能涉及多个,有的偏重AI,有的偏重控制。

所以,正如两位老师所建议的,尽量不要从零开始制作一个人形机器人,因为这需要一个跨领域的专家团队才能完成这项工作。

这也恰恰是人形机器人的魅力所在,它是一个高效的跨领域专家团队共同完成的项目。

无论你是否有一个明确的目标,或者你只是想复现当前人形机器人的水平,无论你的目标是面向某个工业场景还是服务场景,实际上你需要面对的问题都是类似的。

无论是硬件问题、软件问题、AI问题还是传感器问题,解决这些复杂系统的挑战都是不可避免的,因此这并不适合单一领域的专家或小团队来承担。

可能会有一些聚焦某一个领域的尝试,比如专注于控制部分,那么可能会通过外部合作的方式来获取相应的硬件。

如果是一个专注于硬件的团队,那么可能会寻找一些专注于 AI 的团队来进行合作。

这是基于我自己的理解,也是我多年来从事机器人研发工作的一点小体会。

孙宇:关于团队组建,您能否大致估计一下,一个致力于研发人形机器人的团队需要多少人力?比如在中国一些知名的公司,资金和人才都不是问题。那么,这样的团队应该由哪些方面的人才组成?需要多少人才能做好这方面的工作?

庞建新:我认为现在的问题不是资金的问题,也不是人力的问题。从全球范围来看,成功研发过人形机器人的团队有多少?

人形机器人的研究投入是比较大的,国内很多高校受到科研经费的限制,如果没有经费支持,就无法进行持续研究。最近这一两年,一些高校才开始获得这方面的投入。

当然,在美国,研发人形机器人的团队也不多,获得政府资金支持的团队更是少数。欧洲除了几个知名的团队外,全球真正从事人形机器人研发的团队并不多。

我认为现阶段不是投入多少资金就能成功研发出人形机器人的问题。如果再过五年或十年,我们积累了足够的人才,硬件技术开始收敛,标准化,各种模块也逐渐成熟,那时制造人形机器人的门槛可能会降低。但到目前为止,制造一台样机的团队仍然不容易,做一台软硬件都可靠的人形机器人就更难了。

孙宇:明白了,非常感谢。从产业界的角度来看,这个挑战有多大?

庞建新:制作一个Demo可能只需要找到各个领域的一两个专家,再加上几个工程师,就可以完成。但如果要面向实际应用场景,做到可靠和稳定,那还有很长的路要走。

04 AI大模型的利弊

孙宇:接下来,让我们继续讨论大家刚才提到的AI大模型或者是基础模型(foundation model)的最近进展。特别是GPT-4、CLIP 等模型的出现,它们在感知(perception)和知识(knowledge)方面的应用,大大减少了研发所需的时间和精力。

大家可能对这些模型在不同领域的应用已经相当熟悉。能否分享一下您对这方面的理解和感受?

特别是哪些大模型对机器人学领域尤为重要,无论是在感知、决策,还是人机交互方面,大家认为目前还缺少哪些元素,以及未来需要在哪些方面进行提升?

李淼:我们团队的研究中,我们主要关注的是规划和执行层面,而在感知方面的工作相对较少。在实际应用过程中,我们倾向于将语言大模型视为任务推理和表达的工具。通过它,我们可以将复杂的任务分解为一系列子任务或子目标。在今年5月份的 ICRA(国际机器人与自动化会议)上的相关研讨会上,我们将与香港中文大学的团队合作,探讨这一主题。

我们将大任务拆分为多个子任务或子目标,在子任务层面,我们使用视觉语言模型来识别对应的物体状态。在这个过程中,我们结合了传统的规划语言,如PDDL,试图构建一个逻辑树。基本上,我们分为三层:任务规划层、子任务规划层,以及底层的执行和控制。

在子任务规划层,我们会使用VR、机器学习等技术。

在执行和控制方面,我们会逐渐采用所谓的缺陷策略(deficient policy),尤其是在执行具体任务,如拿起苹果或咖啡的轨迹规划上。

早期我们可能更多地依赖于演示学习和 GMM 来表达轨迹。但现在我们发现,在社交学习中,为了更好的泛化性能和与 VR 的结合,我们逐渐采用缺陷策略,因为 GMM 需要将轨迹表达为向量空间,而我们无法仅通过图像直接得出关键角度。

在一些特定场景下,如使用机器人进行超声检查或力控打磨过程中,我们会将力觉、触觉等信息引入到缺陷策略中,以执行任务。

目前我们所缺乏的,本质上是希望有一个统一的模型,类似于特斯拉的FSD。左侧是所有传感器的输入,右侧是电机的输出,输入和输出非常具体。我们希望一个网络能够完全实现端到端的功能。

但目前在机器人领域,我们还无法做到这一点。我们只能在一些非常小的任务中实现端到端的网络,但在泛化到更广泛的任务时,我们发现这是不可行的。

这可能仍然是一个数据问题,就像在自动驾驶领域一样。但在机器人领域,尽管主流观点倾向于认为数据是关键,但我们尚未得出明确的结论,即仅仅通过收集足够的数据就能解决所有问题。

然而,目前大型研究团队和创业公司都在朝着这个方向努力,寻求创造更经济高效的数据采集方法。例如,使用 Aloha 等方法可以低成本地进行演示或仿真,甚至通过动作捕捉技术来收集数据,这些都是为了高效地采集大量数据。

在模型层面,我们可能更多地尝试将自动驾驶领域的逻辑适配到机器人中,提出了所谓的基础模型(mediplation foundation model),包括操作、导航和感知的基础模型,并试图将它们整合应用到机器人中。在实际测试中,我们也可能会逐步将自动驾驶领域的计算能力转移到机器人领域。

我们观察到,在规划层面,大模型的使用依赖于更强大的计算芯片,可能达到每秒10次的频率。在运动规划层面,使用VIM技术可能将计算频率提升至每秒百次。而在最底层,如运动控制、模型预测控制(MPC)或力控制,甚至包括机械臂的稳定性,我们可能需要达到每秒500到1000次的频率。总体而言,我们仍然会遵循传统的分层控制策略。

但是否能够开发出一种网络,能够同时实现规划、执行和控制这三个层面的功能?

正如我们从 OpenAI 发布的 Figure 人形机器人的视频中看到的,其中仍然存在“行为选择”的问题。

Figure 视频展示:https://www.bilibili.com/video/BV16u4m1M7bL/

这一层的选择机制令人困惑,不确定是从神经网络中自动进行选择,还是在不同层之间会有一个链接层来进行选择。

我相信,在不久的将来,可能在今年年底之前,机器人领域的整体路线将有一个非常明确的答案,即端到端的方法是否能够解决机器人领域的所有问题。

这可能是所有想要进入这个领域的人需要快速决定的问题:要么专注于端到端的解决方案,要么专注于其中的某一个特定点,如上层的任务规划、中间的运动规划,或底层的传统控制。最终,所有这些都将融入到一个更大的网络中,形成一个通用的 pipeline 。

孙宇:端到端的方法确实颇具挑战性。在机器人学中,端到端通常是指从视觉输入开始,例如图像识别抓取点。

但实际上,这并不是完全的端到端,因为最终还需要运动规划的参与。因为你需要进行碰撞检测、避障和运动规划。如何让夹持器正确地抓取物体,以及如何控制夹持器的开合,实际上并没有实现真正的端到端。

李淼:关于这个问题,我想补充一点。在我读博士期间,我们收集了大量的关于阻抗控制(impedance control)的数据。我自己收集了大约 40 万个不同的抓取样本,并使用数据驱动的方法制作了一个非常好的控制器。

但后来我意识到,在抓取任务中,我们可能需要的数据量还不够。

如果我们能够收集到足够多的数据,比如 100 亿个抓取样本,那么所有我们之前讨论的碰撞检测、手指约束,甚至包括更传统的摩擦约束(friction core)以及力控制(force control)等,这些约束本质上都会在我们收集的大规模数据集中隐含地包含进去。

这样,我们就有可能实现真正的端到端控制。这只是一个假设,我提出来与大家分享和讨论。

张巍:在讨论大模型与机器人结合的话题时,我认为主要有两种思路:一种是端到端的方法,另一种是分层的方法。

端到端的代表是 RT 系列,它们通过在厨房环境中使用机器人收集数据,最终希望能够实现直接的控制。

然而,目前来看,端到端方法的扩展仍然是一个挑战。

至于分层方法,最近Figure的人形机器人展示出了三层结构,虽然具体的分层数量可能因人而异,但基本思路是相似的。这不一定非得是三层,也可能是四层,或者两层,这取决于具体情况。

我想分享几个观点:

首先,端到端方法不应该被视为一个黑箱或者仅仅是架构的问题,它更是一个训练流程。

人们喜欢端到端方法,并不仅仅是因为它由神经网络构成,而是因为它能够通过数据驱动的方式减少对规则的假设,从而训练起整个架构。

我们构建的大多数架构,包括特斯拉所使用的,所谓的端到端方法,其实只是流程中的一部分,许多模块都是事先经过验证的。例如,transformer 和一些 Bird's-Eye-View (BEV)等,这些都是经过深入理解的组件,并不是纯粹未知的黑箱操作。这是一个我想要强调的方面。

至于使用什么样的模型,我认为这是一个见仁见智的问题。

我同意李淼老师之前的观点,我们也使用缺陷策略和大模型进行任务分解,以及模型学习进行技能训练。这些流程其实大同小异。

我想稍微分享一下,关于模型的底层逻辑,到底什么是模型?大模型好还是小模型好?

实际上,ChatGPT 背后的核心是 MOE(Mixture of Experts),它并不是一个单一的巨大网络,而是由专家网络连接而成,通过一些 机制让每个专家发挥其特定优势。我认为未来机器人的发展也会类似,MOE 形式的模型来完成整体任务。

让我们回到模型的底层逻辑。所谓的大模型,主要指的是大型语言模型,但无论模型大小,关键在于它们是否有用。

我们经常上课给学生讲的第一句话:All models are wrong, but some are useful.(所有的模型都是错误的,但有些是有用的)

我们使用模型,主要看它们对我们的应用是否有用。

模型的本质是对数据和观察现象的压缩,这种压缩是否对你的应用有损害,决定了模型的正确性。

例如,我屋里的空调,我可以用一个简单的一阶动态系统模型来描述,这很简单,这是我对应用的压缩。同时,我也可以将所有分子的运动都描述出来,以了解精确的物理分布。在这种情况下,数据量会非常大。哪种模型更好,取决于是否能够压缩和描述这些数据。

如果你没有牛顿定律,这些数据你都得记下来,否则你无法将它们联系起来。现在我们不需要记住所有数据,只要知道物理定律就可以了。物理定律是运动的基础模型,而语言的基础模型是概率网络,即大型语言模型。

语言无法压缩到更低维度的空间,我们目前找到了一种通过大型语言模型来刻画的方式,但这并不一定是最好的方法。

因此,大型语言模型对语言、逻辑甚至视觉这类离散数据非常有用。它们大大帮助我们进行人机交互和任务理解规划。但是,如果要让机器人执行任务,特别是与物理世界的交互,目前大型语言模型的帮助还是有限的。

具体来说,大型语言模型可能在决策层面上有所帮助,但对于具体的运动控制,它仍然面临挑战。

总的来说,我更倾向于认为 MOE 的方式在机器人领域可能更有用,就像 ChatGPT 一样,它由多个专家的小模型组成,通过一个 agent 的概念将它们连接起来。这可能是未来机器人发展的一个方向。

孙宇:非常好的分享。确实,这两种方法各有其优势。人类大脑的结构也为我们提供了一个类比,正如庞博士之前提到的,大脑和小脑协同工作,各自承担不同的功能。

同样地,神经网络的结构也可能不会是单一的,它们可能会根据功能的不同而有所区别。

一种网络可能负责处理运动相关的信息,而另一种则处理更高层次的抽象知识。

这两种网络在结构和功能上都是不同的。这种结构多样性在神经网络设计中是非常有价值的,因为它允许我们针对特定任务优化网络,从而提高整体性能。

庞建新:关于 AI 大模型的利弊,我想分享一下我自己的看法。

我认为,在 AI 大模型中,对于机器人领域最有价值的部分之一是,如何有效地挖掘模型中蕴含的知识、推理能力,以及挖掘事物之间关系的能力。

这对于机器人的感知和决策至关重要,因为如果机器人缺乏这种能力,就意味着它失去了自主性。这种能力取决于机器人对外部环境、人物、事件之间逻辑关系的理解。

首先,我们需要探讨如何挖掘这种能力。

这种能力并不完全取决于挖掘一个多么大的模型,而是要考虑与场景相关的数据。我们需要构建一个有效的模型,无论是通过调整大模型的参数,还是专门为这个场景构建一个小模型,使其具备这种能力。这样,机器人就能在特定场景下具备真正的感知能力,并实现主动交互。

这是我们所说的机器人真正的“感知能力”,能够实现主动的交互。

正如李淼老师之前提到的,如果给机器人一个指令去做饭,但还需要人的指导,那么我们如何让机器人自己能够去做饭呢?它需要外部环境的感知能力,来了解当前的时间状态和做饭的具体步骤。这就需要大模型的能力,我们认为大模型具备这样的潜力,能够让机器人具备主动感知和交互的能力。

另一部分是与人类运动控制和运动智能相关。

其实人类的很多运动是无意识的。这部分是为什么我们要考虑使用基于数据的方法,因为我们找不到足够好的数学模型来表达这些运动。

例如,在双足行走的传统方法中,我们使用的是一个简化的物理模型,因为我们找不到与人类行走匹配的数学模型。这时,我们可能会引入数据驱动的模型。

这些模型与基于知识的模型是不同的。基于知识的模型需要很多专家知识和广泛的显性知识,而面向运动的数据驱动的模型可能涉及的是隐性知识。这种隐性的知识可以通过构建仿真环境或真实环境的数据融合进行训练来获得。但这个模型能否直接应用到物理世界中又是另一个问题。

我们知道,人形机器人的物理结构,无论是机械部分还是控制部分,与数字世界中的模型之间总是存在很大差异。那么如何将数据驱动的模型应用到物理世界中,这是一个巨大的挑战。

具体来说,人形机器人可以定义为三大能力:

1,移动能力。

移动能力在很多情况下主要依赖于感知技术,但它并不完全与感知紧密相关。

例如,保持地面平衡主要依赖于力觉反馈或者机器人自身的运动平衡控制智能。机器人的视觉感知可能仅用于识别并避开障碍,如悬崖或杂物。

2,操作能力。

我始终认为操作部分有可能实现真正的端到端控制。我们可以将操作视为一种刚体运动,或者是基于反馈的运动。这种方法有助于避免许多对感知精度要求很高相关的问题,使得操作过程更加类似于人类的机制。

尽管我们人类的视觉感知系统无法精确定位物体的绝对位置,我们却能够相对精确地感知两个物体之间的相对位置。同样的,现在机器人有类似的问题,能够感知到物体之间的相对位置,通过大量的学习和数据驱动的方法,基于视觉感知作为反馈,我们可以实现端到端的抓取。

此外,在实现端到端控制的过程中,我们可能并不总是直接控制电机。如果直接控制电机,可能会与硬件紧密耦合,这不利于模型的泛化。因此,我可能会选择将这个过程分解为两个模型的融合。

正如张巍老师所提到的,多个模型的组合并不意味着它不是端到端的,这只是为了解决硬件配合的问题,将其分解实现。

3,适应能力。

我们需要处理不同传感器的输入和适配不同硬件。因为其特殊构型,人形机器人未必是处理单一任务效率最高的。为了适应现实环境,人形机器人有许多通用化的设计,它在不同环境和多任务中的平均效率可能是最优的。

我们的目标是在特定场景中实现效率最优。这就要求我们的模型具有泛化性,不仅要适应不同的环境,还要适配不同的硬件构型。

例如,在工业场景中,我们不一定需要五指手,也许二指或三指手就能提高手的可靠性和耐用性。因此,我们可以采用分层的方式来满足场景适配、硬件适配或任务适配的需求。

大模型为我们提供了许多可能性,但同时也带来了许多问题。

首先是成本问题。

在机器人上运行多个模型会增加成本。我们需要考虑如何整合这些模型,同时保证经济性。我们可能需要专用的硬件设备,或者考虑运营成本。对于一些需要大量知识的复杂任务,我们可能需要更大的模型,而这些模型可能无法在本地运行,需要部署在云端,都涉及成本问题。

其次是效率问题。

在使用 ChatGPT 等工具时,我们发现很少一次就能成功完成任务,通常需要多次尝试和调整输入。这也是机器人应用中需要避免或解决的问题。在大模型中,尤其是生成式的大模型使用中,这是一个天然存在的挑战。

第三个问题是关于机器人使用生成式大模型在交互过程中可能出现的幻觉问题。

在机器人与人交互时,可能会产生一些错误的认知或理解。然而,对于用户来说,机器人本身并不知道这些幻觉的存在。因此,如何解决信息对齐问题来消除幻觉,确保机器人的执行既可靠又有效,同时保障安全。

这三个挑战是机器人在实际应用过程中必须面对和解决的。

孙宇:非常感谢庞博士的分享。的确,现在大语言模型和其他模型在传统 AI 领域的应用已经相当广泛。在这些应用中,并不要求模型始终正确无误。但在机器人学领域,情况就有所不同了。

庞建新:是的,我对大模型的应用进行了分类,分为两类业务,这是我个人的分类,可能不完全准确:

一类是“非严肃应用”,在这些应用中,错误是可以接受的,可以通过人的反馈进行纠正。

例如,让机器人画图或写诗,甚至总结论文,这些都是可以接受的应用场景。

但在“严肃场景”中,比如金融风险控制或关键交互决策,我们就需要非常谨慎,确保信息的准确对齐。在这些领域,确保输出信息的可靠,成为了一个重要的挑战。

05 技术与现实碰撞

目前的AI技术仍然受限于特定场景,而实现真正的泛化和通用人工智能(AGI)仍然是一个挑战。如何使机器人能够真正走进开放式服务场景的挑战?倒推企业和学术界应该如何协作?

孙宇:不同的应用场景有不同的要求。我们已经从更高层次的角度讨论了很多内容。现在我们从一个更具体的角度来看待这个问题。

在当前的机器人领域,还面临着哪些重大挑战,需要哪些技术的进一步提升?请大家说一些具体的例子。

对于想要进入机器人领域的研究者来说,哪些领域已经准备好落地,不再需要进行研究?而哪些领域我们认为目前还不够成熟,可能需要给其他研究者一些方向性的建议?这些挑战在什么情况下可能得到解决?或者有没有对未来某个时间点的预测?

从做饭的角度来看,我认为最开始的是知识表示,然后是运动规划,接着是控制,最后是执行。以及还有一个问题,那就是错误处理。

无论是机器人还是人,在做饭的过程中总会犯一些错误,特别是对于刚开始没有经过良好训练的人来说,进入厨房做饭犯错误是非常正常的。那么,我们应该如何来处理这些错误?

李淼:结合当前的需求来看,我曾经与港中文的陈翡合作过许多炒菜的例子,包括在 Aude Billard 教授的实验室也进行过许多不消耗资源的项目,比如从冰箱取出食材进行烹饪。

在上层规划这一层面,因为主要是在仿真器中进行,所以成果主要取决于任务分割的好坏,而这并不涉及太多的破坏性。

我认为,任务分割的好坏没有客观的标准,但随着ChatGPT等技术的发展,将大任务分解为小任务的能力已经相对成熟。

进一步到具体执行层面,我们首先需要感知,例如厨房中的工具位置、刀具和食物的位置。在烹饪过程中,我们需要知道食物的状态,比如它的味道。在感知层面,尤其是视觉感知,我认为已经相当成熟,因为它主要涉及遮挡和光线问题。随着视觉相关竞赛研究的进展,这一领域逐渐变得成熟。

然而,在多模态感知方面,除了视觉,还可能包括嗅觉、味觉等。在烹饪过程中,我们不能仅凭颜色判断食物的好坏。尤其在具体烹饪时,可能需要监测火焰温度或食物的熟度,这些无法仅靠视觉来判断。

在这一层,除了视觉以外的感知层面,目前研究的人还较少,还没有人将嗅觉或味觉集成到机器人的大模型中,或者这方面的传感器尚未明确。

再往后,就是规划和执行层面。

在执行层面,涉及具体操作和与物理世界的接触时,成熟度并不高。接触和非接触过程中的建模非常困难,尤其是实际操作中,比如抓取时,手指移动一毫米可能导致完全不同的结果。

在涉及严格接触的操作,尤其是所谓的灵巧操作时,目前还远未准备好。无论是从硬件、感知还是执行层面,都存在许多挑战。我认为,要让机器人的这种操作走进我们的日常生活,目前成熟度可能只有20%~30%,无论是控制、硬件还是算法、传感器等方面,都还有很长的路要走。这是我个人的粗略估计。

孙宇:感谢分享。物理接触或者物理交互是一个相当具有挑战性且尚未成熟的领域。我个人感觉,以1毫米为例,给我的感觉,似乎表明抓取或者物理接触本身是一个非连续的过程。我不知道这种感觉对不对,请张巍教授分享一下。

张巍:基本上我同意这个观点,并且我想稍微补充一些细节。关于什么是“ready”的领域,我们可以大致将其分为三层。

第一层是规划(planning),这包括了很多内容,如人机交互、任务规划等。规划层面指的是机器人能够通过想到就能完成的任务,不需要实际动作,只需要规划出要做什么,大概怎么走,这些不需要真实的运动过程。

第二层是每个单元的动作或者原始动作(motion),涉及到接触物体、改变物体的姿态等。例如炒菜过程中的各种动作,与接触相关的这一层目前是发展中的。

第三层,即整个运动控制底层与硬件的耦合,这一层相对来说比较成熟。

大模型或者多模态感知对上层规划和中间的动作执行都有帮助,它们都是必需的。目前感知部分,尤其是那些需要计划的感知任务,大模型可以提供一定的帮助,但在我看来,这些仍然是非常不成熟的,特别是涉及到接触或保持接触的感知任务,这一步相对比较困难。

我认为模仿学习在数据足够多、任务足够简单的情况下可能会有一定的效果,但在任务复杂且泛化要求高的情况下,这也是未来值得期待的一个研究聚合点。

孙宇:张老师,你刚才所提及的,最初期的两个层次似乎尚未完全准备就绪,对吧?我指的是从知识层面到运动规划这一阶段,也就是最基础的高层次知识。

张巍:确实,我在描述上层结构时并未过分详细。你提到的从知识到运动规划这一部分,我认为相对来说问题要简单一些。运动规划方面的问题也相对容易处理。

但是,当涉及到任务规划和分配,以及进一步拆解工作时,我认为这些都是属于大型模型中 agent 的一部分。大型模型本身的 agent 功能,比如帮我回复一封电子邮件或者安排一次旅行,这些任务要准确无误地完成还是有挑战的。

至于机器人智能体(Robot agent)的发展,我认为还有一段路要走,才能对外推广。

当你将任务拆解到动作层面,比如我要过去拿起一个手柄,整个运动规划方面,我认为相对来说问题要简单一些。我们可以看到如何解决这个问题,只要避免碰撞就可以了。

如果规划的目的是为了避免碰撞,那么规划就相对容易;如果是为了实现接触,那就复杂了。

孙宇:事实上,我们之前也认为在开放环境中寻找任务是非常具有挑战性的。但是自从引入了GPT-4 之后,我们发现有许多方法可以有效地提取任务,或者构建一个局部知识图谱。

通过这两种方法的结合,我们能够使任务执行变得非常可靠。我们有信心能够将准确度提升到 90% 以上。那么,整个任务的执行就不会有问题。

如果你给出 100 个大型任务,其中 9个任务将会被完全正确地分解。只有在 10% 的情况下,可能在分解过程中的某一步会出现问题。

即使在大多数家庭环境中,这样的准确度也是可以接受的。因为在操作过程中,如果机器人发现某一步骤不正确,它可以自我纠正并重新执行。所以我认为这部分的工作是非常有价值的。

张巍:您刚才提到的任务分解正确率。如果在执行一个子任务时出现了错误,比如我想要煎鸡蛋,但机器人却不小心打翻了。这种情况是在您所说的 90% 的准确率之内,还是属于另一种情况?这涉及到任务的泛化能力。

孙宇:是的,这种情况属于失败恢复(failure recovery),这是我们目前正在努力解决的问题,而且这不包括在90% 的准确率之内。

90%的准确率是指,比如有一个简单的食谱,比如说今天早上想吃煎牛排或者煎蛋卷,你告诉机器人整个任务,它能够将任务分解为从冰箱取出鸡蛋、放置位置、搅拌等十几到二十个步骤,并且能够 100% 正确执行。

如果有一步不正确,在机器人实际执行过程中,它可能会发现问题并不容易解决,这时就会重新触发任务的再生,从而确保任务能够顺利完成。

庞建新:技术与现实之间存在着不小的差距。

我认为,第一个显著的分歧尤其在于通用人工智能(AGI)方面。

毫无疑问,当前的AI与AGI之间还有很长的距离。这意味着,在开放场景下,基于知识驱动的方法并不十分有效,因为我们无法实现完全的泛化。要真正实现泛化,我们需要解决两个主要问题:第一,实现 AGI;第二,我们需要更先进的硬件。

前者是指,当前机器人硬件与尚未达到 AGI 的 AI 的结合,这主要用于解决特定问题。

例如处理结构化或半结构化环境下的特定任务,在有限环境或半结构化环境下执行有限任务,我们认为这在当前已经具备了可行性。尽管仍需在传感器、系统工程等多方面进行改进,但这些主要是工程问题,而非理论上的挑战。

另外,我们是否拥有足够先进的硬件。

例如,我们可能会需要超越传统的电机驱动方案,因为电机在功能密度和能量密度上有其天然的限制,可能会有新的机械构型出现。

再算上AGI的加持,我们的开放场景本质上将不再仅仅是处理结构化任务,而是在执行这些任务的过程中处理异常情况。

例如,如何处理突然出现的障碍物或失败的情况?如何通过多次尝试学习并掌握某种能力?我认为这两个阶段是我们未来发展的关键。

回到当前的现实情况,实际上在感知层面,我们也面临着巨大的挑战。

我在感知方面的研究较多,但目前的感知技术主要还是基于二维的。然而,当机器人在移动或操作过程中,我们还需要解决的是三维感知问题。

目前,要让 3D 感知技术在我们的机器人本体上有效应用,或者在稍微泛化的任务中发挥作用,仍然是一个挑战。例如,最简单的情况,如何处理透明或反光物体?当然,这可能需要多个传感器,通过多视觉传感器融合来实现。

再举一个例子,前几天我参加了一个具身智能的讨论会。他们提到了一个对人类来说非常简单,但对于机器人却颇具挑战的场景:如何端有水的杯子?水是流体,会晃动,无论如何都会晃动。你如何确保在倒水时不溅出杯子?在移动过程中又如何保证水不溅出?

这对人类来说可能是自然而然的事情,不需要经过大脑思考,小脑就可以基于触觉反馈进行自然的运动,感知到重心的变化等。

然而,这一部分恰恰是机器人目前尚未解决的问题。目前所有的感知和控制大多基于视觉或触觉感知,但这些传感器并没有我们想象的那么有效。它们与我们的控制模型之间还没有建立起有效的关系,这也限制了许多可能性的发展。

我们通常将这类问题归结为:算法在特定场景下的应用。

以端水这个简单的任务为例,我相信目前大多数机器人要成功完成这项任务还相当困难。这个任务虽然听起来简单,但其实质涉及到从感知到控制,再到决策,甚至还包括视觉感知等多个层面,是一个非常复杂的挑战。

这里我想强调的一个观点是:目前机器人还面临的一个重大挑战在于整个系统的不完整性。我们尚未构建出一个完整且可靠的机器人系统。如果我们能够有效地整合各种模块,实现它们之间的信息传递和控制转换,那么很多问题可能可以迎刃而解。

因此,回到我的理解,我们企业需要做的工作实际上是如何在学术界的成果基础上构建这样一套系统,逐步实现传感器与系统之间的标准化,然后在场景和技术的双重推动下,使各个模块能够相互连接。

我之前提到过一个观点:我们现在需要解决的是感知与控制的融合问题,也就是如何将感知和控制结合成一个完整的系统。目前这两者仍然是割裂的。

例如,我们的AI大脑和小脑之间的连接和数据传递,哪些数据能够将它们连接起来,形成一个完整的系统?

当然,我们也看到了当前的现状,在结构化或半结构化环境下,一些任务已经具备了基本的应用落地可能性。

孙宇:非常感谢。我认为有一个方面非常有趣,那就是无人驾驶技术之所以能够迅速发展,主要是因为它的输入输出都已经标准化了。无论是传感器还是执行器,都是一套相对标准化的系统。虽然有些无人驾驶使用雷达,有些不使用,有些使用摄像头,有些使用各种不同的设备,但整体上的差异还是相对较少的。至于视觉行为其实更少,它基本上是在一个三维空间中进行操作,这个维度相对较小。

但如果你看看人形机器人或其他类型的机器人,它们的操作空间维度就多得多。而且传感器的稳定性也不尽相同。

今天的系统可能增加了一个触觉传感器,明天的系统可能引入了新的视觉效果,或者红外线传感器,或者其他类型的传感器。

这些传感器的安装位置也各不相同,有的安装在手上,有的可能安装在其他位置。这就导致了系统的复杂性。

此外,电机的动态特性也各不相同。

因此,总的来说,人形机器人系统或类似的系统比无人驾驶系统要复杂得多。

06 畅想和协作

孙宇:在AI+机器人领域,未来几年可能会出现哪些颠覆性的技术变革?或者认为有哪些方向是大家应该注意的?

李淼:因为我一直在从事抓取方面的研究,包括你提到的 IROS 挑战赛,我也连续参加了好几次,积累了一些经验。

我们普遍认为,在人形手部这个研究方向上,尽管目前许多人在模仿 Optimus 进行硬件设计,但我们一直在思考这个问题:以往我们在进行抓取规划时,可能更多地关注接触层面。但在所有抓取任务中,我们实际上更应该建立一个更加通用和统一的接触层面解决方案,而不是仅限于特定手部的。

我们应该努力构建一个更大、更统一的系统,从感知到接触层面,涵盖抓取规划的全面数据集或基准。我认为这可能是我们这个领域,特别是在未来五年内解决操纵问题时,需要努力实现的目标。

这个过程有点像在自动驾驶中,至少需要在路上划出车道线。如果没有车道线,那么自动驾驶的问题就会相对复杂化,没有任何规则可循。

因此,我认为可以借此机会呼吁,在后续的学术交流或与供应商的讨论中,尝试构建一个紧凑、丰富、多彩的大一统数据集。我认为这将是非常必要的一步。

张巍:关于开放性的建议或者说个人体会,我想具体谈一谈。

目前,AI与机器人结合的研究方向无疑是一个充满潜力且至关重要的领域,未来的发展前景令人期待。鉴于目前从事这一研究的人数,我认为这个领域仍然非常活跃,充满了创新的可能性。

然而,无论是在学术界还是工业界,我认为有一个需要明确的问题,那就是定位不清。有时候,学术界的人在做工程,而公司里的人在做学术研究,这种现象相当普遍。

大家共同的产品是一个 Demo ,它既不是一个产品的起点,也不属于学术研究。

我希望从我个人的角度,无论是在我的团队还是我们所在的公司中,我们都应该明确自己的定位:我们是企业还是学术机构?企业应该做什么,学术机构应该做什么?

此外,我们当前研究的问题是技术落地和产品化的问题,还是技术探索的问题?这一点也需要弄清楚。

我注意到,这种现象已经存在很长时间,包括我的学生在内,他们认为如果某个领域的 Demo 已经有人做过,那么这个领域似乎就要走到尽头了。

但我认为,这些酷炫的 Demo,我称之为“莱特兄弟时刻”,它们只是科研工作的开始。

别人看到一个令人印象深刻的 Demo,可能会觉得机器人领域已经没有什么可做的了,但事实上,如何设计飞行器、真正理解空气动力学、进行实际测试等深层次的工作,才是科研的真正开始。

这些令人惊叹的视频或 Demo,实际上是科研工作的起点。

孙宇:确实我们经常在各种场合看到一些令人印象深刻的Demo。

Demo 本身往往不会告诉你背后团队做了哪些调整工作,而且Demo是处在一种受控的、确定性的环境中。

比如 OpenAI 在舞台展示的一个 Demo,场景被设置在家庭环境中,舞台上面放了一个苹果,有人问:“有什么可以吃的?”

那种情况下只有一个苹果,机器人只能拿给他一个苹果。

但如果这个人说:“我不想吃苹果,你能给我一个橙子吗?”这时我就不知道机器人会怎么做。

或者如果有人说:“我不想吃皮,你能帮我把皮剥了吗?”

我不知道OpenAI的机器人是否能够完成这些事情。

很多时候,一些看起来很酷的 Demo 可能会产生一定的误导性。但在工业界,我们可能也需要意识到,有些东西其实还没有完全准备好。

庞建新:我分享一下我的想法。多年来,我一直致力于人工智能技术与人、机器人的融合研究。在此期间,我也有幸与一些学术机构,包括张巍老师等进行过合作。

我一直期望能够促进学术界、工业界之间的深入互动。这种互动不应仅仅局限于特定课题或项目,而是希望学术界的老师们能与工业界的同行们一起,基于某些实际场景共同探讨科学问题。

我们可以明确分工,共同解决当前工业界和学术界面临的问题。工业界的同仁们也非常愿意提供相应的环境和场景,以便大家共同探讨。这是我向大家发出的倡议。

孙宇:感谢各位的分享和参与。确实,工业界与学术界的交流能够带来许多有趣且具有挑战性的问题。在实际应用中,我们可以发现许多尚未解决的资源问题,而工业界也能从学术界获得新的灵感,了解哪些理念可以落地实施,以及研究的真正难点所在。

由于时间关系,我们今天的讨论就到这里结束。

非常感谢各位嘉宾在本次圆桌论坛中的精彩分享。同时,也感谢雷峰网提供这样一个平台,让大家有机会交流各种观点,特别是关于当前热点话题——AI与机器人技术的多角度洞察和心得体会。

希望我们的讨论,能够对观众以及未来观看视频的朋友们有所帮助,并期待这些交流能够促成一些实际的合作。

本文作者 吴彤 长期关注人工智能、生命科学和科技一线工作者,习惯系统完整记录科技的每一次进步,欢迎同道微信交流:icedaguniang

]]>
人工智能学术 //m.drvow.com/category/academic/CEmQJXB2CrsR1yvM.html#comments Tue, 16 Apr 2024 18:09:00 +0800
专访腾讯AI Lab姚建华、杨帆:腾讯 AI Lab 为何瞄准单细胞蛋白质组学? //m.drvow.com/category/academic/XAOjt0ZWrjcDF5pU.html 在生物医学研究的前沿领域,“单细胞蛋白质组学”是怎样的存在?

用一个比喻来说,它就像一把钥匙,能够开启细胞内部世界的大门,让我们得以窥见细胞如何通过蛋白质的相互作用来执行生命活动。

这一研究领域的突破,不仅能够推动科学界对生命过程的理解,也为精准医疗的实现奠定了基础。

近期,腾讯的 AI Lab,无疑成为了这一前沿研究领域率先“揭开英雄榜 ”的那个研究机构。

3月20日,腾讯 AI Lab 的 3 篇蛋白质组论文正式入选国际顶级学术期刊。论文分别在数据库、AI 建模、AI 辅助临床三个角度提出了全新的研究方案,为人类从根本上阐释生命提供了重要技术参考。

《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》,被生物信息学领域数据库方面的的权威期刊 Nucleic Acids Research收录。


《 scPROTEIN: a versatile deep graph contrastive learning framework for single-cell proteomics embedding》,被Nature旗下的方法学期刊Nature Methods收录。


《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》,被Nature旗下机器学习专业期刊 Nature Machine Intelligence 所收录。

借此契机,雷峰网近期对话腾讯 AI Lab 科学家姚建华和研究员杨帆,他们是三篇论文的共同作者。在访谈中,他们深入阐述了这些论文背后的技术突破、应用价值和未来的研究规划。

他们解释道,这三篇论文的创新之处在于,它们首次为单细胞蛋白质组提供了全面的数据知识库和系统的AI分析方法。

论文一中建立的 SPDB 数据库,通过标准化处理不同来源的单细胞蛋白质组学数据,使得数据易于比较和分析,是目前全球数据量最大、覆盖技术和数据集最为广泛的单细胞蛋白质数据库。

论文二中的 scPROTEIN 框架,针对单细胞蛋白组数据的特殊性提出了解决方案,能够处理数据中的不确定性、缺失值、批次效应和噪声问题。为基于单细胞蛋白质组的肿瘤发生发展机制研究、药物靶点发现和肿瘤早筛和微环境研究提供重要的AI辅助作用。

第三篇论文中提出的 scpDeconv 方法,是一种全新的反卷积方法,能够从“组织蛋白质组”数据中挖掘出特定细胞类型比例,为肿瘤辅诊和预后分析提供了新的视角,是三篇论文中与临床应用最为贴近的一项成果。

姚建华,作为腾讯 AI Lab 的 AI 医疗首席科学家,补充道:

“AlphaFold 在蛋白质结构领域取得了令人瞩目的成就,它主要关注单个蛋白质的结构和功能,或几个蛋白质之间的相互作用。

而我们的研究则聚焦于细胞内所有蛋白质的表达模式,这些信息反映了整个细胞的状态和微环境,使我们的工作更加贴近临床应用和疾病机制的探索。”

值得一提的是,当我们在讨论论文成果的同时,一个更深远的议题逐渐浮现:成立于2016年的腾讯 AI Lab,是否有能力在接下来的五年中,引领生命科学领域的未来发展?

这个问题不仅考验着实验室的科研实力,也反映出科技公司在生物医学领域的影响力和责任。如今的腾讯 AI Lab,走的每一步都比以往更受关注。

以下为对话(经编辑):

数据、建模、应用,「三管齐下」

雷峰网:首先请两位介绍下,三篇论文的创新点,简要介绍技术实现形式,应用价值,以及对单细胞蛋白质组学这一研究领域的贡献(比如最适合哪些人/机构使用)。

杨帆:单细胞测序技术已经取得了飞速发展,尽管单细胞转录组相关的测序技术和计算方法已经相当成熟,但转录水平与蛋白质水平的相关性通常低于 50% 。在单细胞层面,这种相关性更低。

因此,只有通过研究蛋白质组,我们才能深入理解生命活动和疾病的本质。

单细胞蛋白质组测序技术也在不断进步,技术革新层出不穷,并受到了国际顶级期刊如 Nature Methods 的关注和报道。特别是以 SCOPE-MS(Single-Cell Proteomics by Mass Spectrometry)、nanoPOTS (nanodroplet processing in one pot for trace samples) 为代表的基于质谱的蛋白质测序技术,能够检测到单细胞中数千种蛋白质的存在。这比以往基于抗体的单细胞蛋白质组测序技术有了显著的提升。

然而,这些数据的复杂性,使得专门针对单细胞蛋白质组数据的AI计算方法相对缺乏。

正是基于这一背景,我们的三篇论文围绕单细胞蛋白质组数据分析进行了深入研究。我们首次为单细胞蛋白质组提供了一套系统的 AI 分析方法和数据知识库。

其中,第一篇论文收集了目前世界上最全面的、不同来源、不同测序技术、不同物种的单细胞蛋白质组数据,并进行了标准化处理和系统性评估。

第二篇论文基于迁移学习技术,从单细胞蛋白质组数据中推断组织蛋白质组中的细胞比例;

第三篇论文则采用对比学习方法对单细胞蛋白质组进行表征;

我们的计算方法通过实验验证,明显优于直接应用单细胞转录组的方法。这些方法已经开源,并配备了详尽的使用说明,可供全球范围内的研究人员使用。

我们的算法特别适合那些从事单细胞蛋白质组数据生成的团队,他们可以直接应用我们的技术进行细胞级别的数据分析和下游应用。

对于临床医学专家而言,他们可以利用我们的反卷积算法分析公开的TCGA或CPTAC等蛋白质组数据库,或者基于自己收集的临床组织样本,以深入理解肿瘤微环境,辅助疾病机制的研究和诊断预测。

此外,我们的数据库允许生物学家和医学工作者在线探索他们感兴趣的蛋白质或细胞类型,观察这些蛋白质在不同细胞类型中的变化规律,从而支持他们在特定蛋白质研究方向上的研究。

雷峰网:因为三篇论文成果都是集中在单细胞蛋白质组学领域,探讨了如何通过不同的计算方法和数据库资源来分析和理解单细胞水平上的蛋白质表达数据。那么,在此之前你们做了哪些工作?在三篇论文成果出来后,紧接着有哪些研究计划?

杨帆:在此之前,我们团队已经进行了大量工作,包括医学多模态数据分析、疾病预测以及精准医疗等领域的研究。同时,我们也在单细胞转录组和空间组学等生命科学基础计算领域进行了深入探索,并在多个AI顶级会议和期刊上发表了相关论文。

因此,我们在医学、生命科学、精准医疗和数据分析等领域积累了丰富的经验。

举个例子:

我们在预训练语言模型尚未广泛应用于单细胞数据分析领域时,就意识到预训练模型在自然语言处理(NLP)领域已经取得了巨大成功。当时,单细胞数据分析主要依赖于简单的机器学习方法,并且常常需要针对每个数据集进行手工处理,这限制了模型的泛化能力。

针对这一问题,我们在 2021 年启动了一个项目,设计了一种基于单细胞数据的大规模预训练语言模型,名为scBERT。我们根据单细胞数据的特性,开发了基因嵌入(gene embedding)和表达嵌入(expression embedding),使得这些数据能够被 Transformer 这种先进的计算模型处理和识别。

我们首次引入了 BERT 这种预训练和微调的范式,从而充分利用了当时尚未充分利用的大规模单细胞数据进行预训练,显著提升了模型的泛化性和处理跨批次、跨数据集数据的能力。

这一成果发表在了 Nature Machine Intelligence上,开启了单细胞大模型研究的新篇章。

在这三篇论文发表之后,我们计划更加聚焦于重大科学问题的研究,并注重其临床应用和转化。我们将进一步整合多组学数据和蛋白质大模型,赋能更多的应用场景。

姚建华:我可以补充一些背景信息。

众所周知,生物体内的核心法则是中心法则,即 DNA、RNA 和蛋白质之间的关系。

DNA 携带遗传信息,通过转录成为 RNA,形成转录组。

而RNA进一步翻译成蛋白质,即蛋白质组。

我们的研究工作正是基于这一原理。基因测序技术的发展历程显示,DNA 测序是相对容易的部分,而 RNA 和蛋白质的测序难度逐渐增加,因为它们需要更复杂的扩增和测量技术。

从上个世纪 70 年代开始,人类基因组测序技术已经经历了几代的发展。

最初,人类主要关注 DNA 信息的测序。大约 10 年前,单细胞技术开始兴起,最初主要集中在 RNA 信息的测序。而单细胞蛋白质组学则是最近五六年才开始发展的新兴技术。

我们的研究工作也是沿着这一脉络逐步推进的,从较简单的数据开始,逐步过渡到更复杂的数据分析。

例如,我们之前的工作 scBERT 主要针对转录组数据进行分析。而现在,我们进一步研究蛋白质组数据,这是一个更为复杂和具有挑战性的领域。随着数据难度的增加,对算法和计算能力的要求也越来越高。我们的研究正是在这一背景下不断进步和发展的。

雷峰网:总体从技术层面来说,论文一提供了一个数据资源库,论文二和论文三则分别提出了新的深度学习框架来处理不同类型的数据分析问题。论文二侧重于通过图学习处理单细胞蛋白质组数据,而论文三侧重于使用域对抗神经网络进行细胞类型比例的解卷积。

不知道我这样理解是否正确,请两位再介绍下三篇论文的联系与区别。以及,全球范围内,还有哪些课题组或企业在做类似的工作?

杨帆:您的理解非常准确。

数据资源库是算法研究的基石,我们深知AI算法的发展离不开数据的支撑。在单细胞蛋白组学领域,数据的准确表征是进行下游应用的关键。

掌握了单细胞蛋白组数据后,我们能够详细了解每种细胞类型在细胞内蛋白质表达的模式。

基于这些数据,结合AI算法,我们可以进一步推断组织蛋白组中细胞类型的比例,这对于理解肿瘤微环境至关重要。

目前,临床上已有大量基于组织蛋白组的数据,这些数据通常来源于肿瘤患者癌组织及其周围正常组织的样本,通过质谱技术获得的是多种细胞类型混合后的蛋白质表达平均水平。

我们的反卷积算法能够精确推断出不同细胞类型的比例,使全球研究者能够从公开数据集中挖掘出有关细胞比例的信息,从而更好地理解肿瘤微环境。

此外,即使在无法进行单细胞蛋白组测序的临床情况下,我们的算法也能提供一种解决方案,帮助理解细胞微环境,从而辅助临床进行疾病预后和预测。

这三篇论文可以视为一个整体,其中数据资源库为基底,上面有两个不同角度的AI应用,如同一棵大树上结出的两个果实。

据我们所知,目前全球范围内尚无其他团队或企业开展与我们完全相同的工作。其他机构主要在进行单细胞转录组或蛋白质结构的研究,这些研究当然也很重要,但我们的工作填补了单细胞蛋白组学领域的一个空白,具有创新性和前瞻性,未来必将吸引更多研究聚焦于此领域。

姚建华:正如杨帆所提到的,蛋白质结构在AI领域中,尤其是 AlphaFold 这样的技术最为人所熟知。

AlphaFold 主要分析的是单个蛋白质的结构,例如蛋白质的折叠方式或几个蛋白质之间的相互作用,它关注的是单个蛋白质的三维结构,以及其功能和对人体细胞的作用。

而我们的研究则是从另一个角度出发,分析细胞内所有蛋白质的表达模式。

我们知道,人体有数以亿计的蛋白质,即使是单个细胞内也有成千上万的蛋白质。我们的目标是分析这些蛋白质之间的相互作用和表达模式,这些信息反映了整个细胞的状态和微环境。

通过蛋白质组或转录组等组学数据,我们可以更全面地理解细胞的微环境和疾病产生的原因,这对于临床治疗和疾病机制的研究具有重要意义。

与 AlphaFold 等关注单个蛋白质结构的技术相比,我们的研究更侧重于整个细胞和微环境的系统性分析,这使得我们的工作更接近临床应用和疾病机制的探索。

雷峰网:虽然是三个论文成果,但其实是在一个研究项目之中的吗(因为研究是顺着数据库、AI建模、AI辅助临床三个层面逐一展开)?三篇论文的作者团队在专业背景上有何区分?整体来说,从立项到出论文成果,持续时间多久?

杨帆:这三篇论文是在同一个大的研究方向下自然展开的。主要作者包括我和姚老师。

此外,我们的团队还包括来自不同领域的合作者,如生物信息学和 AI 机器学习领域的专家,以及校企联合培养的学生。

腾讯 AI Lab 作为一个跨学科的平台,为跨学科AI应用提供了丰富的土壤。实验室汇集了 数百位顶尖科学家,这为我们的研究提供了强大的支持。

在 AI Lab,我们有来自生物信息学领域的研究员,他们从生物医学问题出发,收集数据并定义研究问题。

在模型研发阶段,尤其是面对原创性研究中的新问题和挑战时,我们需要AI技术的创新。在这方面,我们有AI领域世界顶级的科学家与我们合作,共同应对图模型、可信 AI 以及迁移学习等领域的挑战。

正是在 AI Lab 这样一个充满世界级专家、紧密交流和跨学科合作的环境中,我们才能够激发出创新的火花,并推动一系列跨学科AI应用研究的发展。

我们的实验室主任张正友老师和AI医疗首席科学家姚建华博士,分别是 IEEE Fellow 和 AIMBE Fellow,ACM fellow,是世界知名的学术领袖。在他们的指导和把关下,我们的研究员在进行科研和创新时更加自信和从容。

一般来说,我们的项目从启动到成果发表大约需要一年到一年半的时间。

雷峰网:杨帆博士,您的背景和经历是怎样的?同时请问姚建华老师,如今腾讯 AI lab 的工作者在专业背景上有何共性?

杨帆:我是清华大学的博士毕业生,在博士期间主要从事临床组学分析的研究。自2016年起,我开始接触人工智能领域。博士毕业后,我加入了腾讯随后在 AI Lab 做研究,至今已近六年。在这里,我相当于又完成了一个 AI 领域的博士学位,进行了广泛的AI研究。

我感觉自己的知识结构像是“T”字型。

一方面,在组学生物数据分析领域有深入的研究和超过十年的经验;

另一方面,在AI领域,包括多模态研究、医学影像、临床文本数据处理、图模型、深度学习等多个方面都有所涉猎,并发表了相关论文。

这种“一专多能”的背景使我在跨学科领域,如 AI for Science ,能够提出独特的见解和研究方向。

姚建华:我们团队确实需要这样的跨学科人才。正如杨帆所提到的,AI Lab 涵盖了人工智能、机器学习、语音识别、多模态等多个研究方向。我们特别注重生命科学领域的人工智能应用,因此团队中的许多研究员都具备 AI 和生物学的双重背景。

只有通过这样的交叉合作,才能真正推动这一领域的发展。我们也经常与其他专注于人工智能的团队进行技术上的交流和探讨,共同促进科学的进步。

三篇论文逐一追问:好在哪、不足在哪、给谁用

|论文一:《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》

链接:https://academic.oup.com/nar/article/52/D1/D562/7416372

该论文已入选生物信息学领域数据库方面专业期刊 Nucleic Acids Research


雷峰网:SPDB 如何整合不同来源和技术的单细胞蛋白质组学数据?团队在数据库设计和实施过程中遇到的主要挑战及解决方案。还有哪些研究不足和优化计划?

杨帆:SPDB旨在为不同技术类型的单细胞蛋白组学数据提供一个专门的数据处理框架。

我们通过在统一的环境中对来自不同基础来源的数据进行标准化处理和分析,使得用户能够在一个平台上对比和探索不同技术来源的数据。

为了确保数据集的独立性和可靠性,SPDB 并没有直接整合不同来源的数据集,而是提供了对单个数据集的独立探索功能,以及对同一蛋白质在不同数据集中的对比探索。

在SPDB数据库建设的初期,我们面临的一大挑战是:如何处理和分析一些我们之前未曾接触过的数据类型。

例如质谱蛋白质组数据,以及这些原始数据的处理程度和存储格式的多样性。

我们通过广泛阅读相关文献,并详细研究每个数据集的源文献中关于数据处理的描述,为每个数据集制定了针对性的数据处理步骤,从而确保了数据的准确性和可靠性。

目前,SPDB 的一个不足之处在于:缺乏在线工具供用户直接使用。未来,我们计划将研究团队开发的相关算法集成到SPDB平台上,以便用户能够更方便地使用这些工具。

此外,SPDB 目前还没有提供蛋白质对应的基因表达信息,即转录组数据。因此,我们的后续工作将包括为蛋白质表达提供相应的基因表达数据,以便于用户进行更全面的对比展示和分析。

SPDB数据库 概述图

雷峰网:在我的理解,这应该是这一工作的最大贡献,是收集了大量数据,还对这些数据进行了标准化处理,使得不同来源的数据可以放在一起比较和分析。这就好比把不同语言的书籍翻译成同一种语言,让读者更容易理解。为什么当下这种工作成为必要?

杨帆:您的理解非常准确。我们构建这个数据库的初衷,是因为单细胞转录组和空间组学领域的研究已经日益成熟,积累了大量的数据。

市场上也存在一些对单细胞转录组和空间组数据进行整合和统计的数据库,这些数据库不仅为生物学家和临床工作者提供了探索和发现的工具,也为生物信息学研究者提供了基于标准化数据进行算法开发的平台。

由于许多研究者更倾向于使用已经处理好的标准化数据进行开发,而并非所有人都具备从大量分散的原始生物学文献中提取数据的经验或知识,我们的论文和工作的目标就是为单细胞蛋白组学领域做出贡献。

我们希望通过标准化的数据,让更多的AI研究者和生物信息学工作者能够看到单细胞蛋白组学数据的潜力,并在此基础上进行算法的研发和创新。

这就像是为整个单细胞蛋白组学研究社区提供了一片沃土,让更多创新得以孕育。

此外,这个数据库也为那些日常工作繁忙、非生物信息学专长的生物科学工作者和医疗工作者提供了便利。有了这个实用的工具,他们可以从单细胞蛋白组学的角度获得新的启示和发现,即使这不是他们的主要研究领域。

姚建华:建立这样一个数据库的工作量非常巨大,数据分散在各个地方。所以这种工作其实非常适合像我们这样资源相对充足的公司来开展。

尤其是在大模型时代,数据的重要性愈发凸显。

以前训练一个模型可能只需要几十万、几百万的数据,但现在训练一个大型模型可能需要数亿的数据量。

我们的数据库已经收集了 3 亿个细胞的数据,这样的数据量才有可能支撑大型模型的训练。我们将持续更新数据库,随着新数据的加入,我们希望这个数据库能够真正为整个领域的发展做出贡献。


|论文二:《 scPROTEIN: a versatile deep graph contrastive learning framework for single-cell proteomics embedding》

链接:https://www.nature.com/articles/s41592-024-02214-9

已入选 Nature 旗下方法学专业期刊 Nature Methods 

雷峰网:我的理解是,scPROTEIN 是一种新型的数据分析框架,它能够处理和分析单细胞蛋白质组数据。这就好比我们有了一台超级显微镜,不仅能够看到细胞,还能够看到它们内部的蛋白质如何互动。创新之处在于它能够解决数据中的不确定性、缺失值、批次效应和噪声问题,这些都是以往研究中的难题。

为什么要这么做?还有哪些研究不足,应对办法?

杨帆:scPROTEIN 框架的开发是为了解决单细胞蛋白组数据分析中的独特挑战。

在单细胞蛋白组的测定过程中,从细胞分离、裂解、蛋白质提取,到通过质谱技术进行肽段检测,每一个步骤都可能引入不确定性和噪声。

例如,样本制备的差异、标记策略的不同、质谱仪的状态变化,以及肽段在质谱仪中的离子化和检测过程,都可能导致批次效应和数据中的噪声问题。

此外,与单细胞转录组数据不同,单细胞蛋白组信号无法通过扩增来增强,只能依靠质谱技术的灵敏度来检测微量蛋白。

现有的许多单细胞转录组数据分析方法,并未充分考虑单细胞蛋白组数据的特殊性,直接应用这些方法效果并不理想。

因此,我们提出了 scPROTEIN 框架,它不仅考虑了单细胞蛋白组数据的层次结构,还采用了基于可信度的方法来估计肽段测定的不确定性,并通过图对比学习进行表征和去噪,有效解决了数据中的复杂问题。

经过下游任务的充分验证,scPROTEIN 的性能显著优于现有的单细胞蛋白组数据分析方法和直接套用单细胞转录组的方法。

姚建华:我们的算法实际上提供了一种“数据增强”功能,能够有效去除数据中的噪声和批次效应,使得数据分析更为一致和准确。

此外,我们还提出了一种数据编码的 embedding 方法,这在某种程度上起到了“数据降维”的作用。

正如许多大型模型如 Transformer 和 GPT 所做的那样,通过 embedding ,我们可以将复杂的蛋白质信息以一种高效的方式表示出来。

这种方法不仅能够帮助我们提取数据中的核心信息,还能够揭示不同蛋白质之间的关系,为单细胞蛋白组数据分析提供了一种全新的视角和工具。

雷峰网:其他现有的单细胞数据分析工具,为什么差强人意?

杨帆:正如我们之前提到的,scPROTEIN 框架是专门为解决单细胞蛋白组数据所面临的挑战而设计的。现有的大多数单细胞数据分析工具,并没有专门针对单细胞蛋白组数据的特性。例如数据的层次结构和测量不确定性等,进行优化。

scPROTEIN 框架则完全针对单细胞蛋白组数据的特有问题进行了算法开发,因此能够有效解决这些数据特有的问题。

姚建华:目前而言,几乎没有其他方法专门针对单细胞蛋白组分析。这项技术非常前沿,相关数据也相对稀缺,很少有研究能够收集到如此多的单细胞蛋白组数据。

此外,分析这些数据本身也存在很大的难度,因为数据量大且复杂。

在我们开始这个项目的时候,市场上还没有专门针对单细胞蛋白组的分析工具,大部分工作都是集中在单细胞转录组上。

我们预计在未来几年,研究者们将会更多地关注蛋白质组学,因此我们在这方面的工作实际上是领先一步,提前进行了探索和开发。


|论文三:《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》

链接:https://www.nature.com/articles/s42256-023-00737-y

已被Nature旗下机器学习专业期刊 Nature Machine Intelligence 所收录

雷峰网:我理解的是,这篇论文的一大亮点:提出了一种新的基于深度学习的解卷积方法(命名为scpDeconv),专门针对蛋白质组数据,获取其中的肿瘤微环境信息。

能否介绍一下scpDeconv在临床诊断和治疗中的应用前景和潜在挑战。scpDeconv方法在实际应用中可能遇到哪些问题,以及是否有解决方案。

杨帆:scpDeconv 的临床应用前景非常广阔。如我们之前提到的,该方法可以挖掘组织样本中的细胞比例信息,从而反映肿瘤微环境的状况。

例如,在我们的研究中,对黑色素瘤样本进行 scpDeconv 分析后,我们发现不同细胞类型比例的患者预后存在显著差异。

这种分析可以作为一种辅助诊断工具,帮助医生预测疾病预后,是精准医疗的一个重要应用场景。

然而,scpDeconv 的潜在挑战在于:单细胞蛋白质组数据的覆盖范围可能不够广泛,包括细胞类型和组织类型。

为了克服这一挑战,我们需要与进行单细胞蛋白质组测序的实验室合作,共同贡献更多的公开数据,以便进行更准确的分析。

姚建华:“组织蛋白质组”分析相对容易进行,因为它基于的是整个组织样本,包括了成千上万个细胞的蛋白质总和,而“单细胞蛋白质组”分析则需要对每个细胞单独进行测量,难度和成本都显著增加。

目前,临床上主要进行的是组织蛋白质组分析,因为成本较低,技术相对成熟。

我们的 scpDeconv 方法,能够从组织蛋白质组数据中解析出细胞类型的异质性,从而提供类似于单细胞分析的结果,尽管可能不如单细胞数据那么精确,但至少能够揭示组织中细胞组成的信息。

这样的技术使得临床医生能够利用现有的数据获得更多的诊断信息,帮助更准确地进行疾病诊断和治疗决策,实现精准医疗的目标。

如何对得起大厂AI lab 的名号?

雷峰网:最后,请说一下,腾讯 AI Lab 在单细胞蛋白质组学领域的未来研究计划。

杨帆:我抛砖引玉,分享一下我们的未来规划。

首先,我们将贯彻和落实我们实验室主任张正友博士的指导思想,更加聚焦于解决世界级的重大科学问题,并在 AI for Science 领域实现 AI Lab 的使命——在学术界产生影响,在工业界创造产出。

我们的研究方向与腾讯公司的“科技向善”愿景相契合。未来,我们将继续利用现有基础,整合单细胞多组学和蛋白质大模型,推动临床应用研究,并致力于产出具有世界影响力的原创AI应用研究成果。

姚建华:我们的工作重点是利用人工智能技术解决实际问题和科学挑战。

作为 AI Lab,我们的优势在于资源的相对丰富性和研究的聚焦性。与高校相比,公司的环境允许我们集中力量进行大规模的研究项目。

此外,公司的组织结构也使得不同领域的研究员能够协同合作,共同推进同一项目。虽然高校的研究环境更为自由,但我们这里的研究可以更加集中和深入。

我们的目标是聚焦于最前沿的课题和方向,解决最具挑战性的问题,以此形成强大的影响力。

我们将继续在单细胞蛋白质组学领域深耕,不仅推动科学的发展,也为临床应用提供创新的解决方案。我们期待通过这些努力,为整个领域带来积极的变化,并为社会做出更大的贡献。

雷峰网:我了解到,腾讯 AI Lab 也在探索脑科学等领域,这是否意味着我们未来可能会看到更多相关成果?

姚建华:我们目前的重点还是集中在生命科学的一些基础问题上,如蛋白质和基因组学等领域。

我们确实进行了一些大脑相关的研究,但主要是为了探索大脑的本质。例如,去年我们进行了大脑图谱的研究,这更偏向于脑科学的基础研究。

我们试图通过蛋白质组学和基因组学的信息来区分不同类型的神经元,并理解它们是如何相互联系和作用的。这样的研究有助于我们深入理解大脑的机制。

通过我们的AI算法分析基因组学和蛋白质组学数据,我们帮助神经科学家对不同脑细胞进行分类,并描绘它们在大脑中的空间位置。这样的大脑图谱研究是神经科学研究的基础。

当然,要真正深入到脑图谱的研究,最终还需要回到基因和蛋白质的层面。我们的目标是支持更高层次的科学研究。

雷峰网:那么三篇论文成果之后,还有关于临床应用和成果转化的规划吗?

姚建华:目前,我们更侧重于研究成果的产出,因为工业产出往往需要更多的资源和工程团队。

我们现阶段主要致力于解决一些基础科学问题。当然,随着技术积累到一定程度,我们可能会通过与其他团队合作或寻找合作伙伴来实现这些技术的落地和产业化。

我们的目标是先在科研领域取得突破,为未来的工业应用打下坚实的基础。

本文作者 吴彤 长期关注人工智能、生命科学和科技一线工作者,习惯系统完整记录科技的每一次进步,欢迎同道微信交流:icedaguniang  

]]>
人工智能学术 //m.drvow.com/category/academic/XAOjt0ZWrjcDF5pU.html#comments Wed, 10 Apr 2024 14:20:00 +0800
专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live //m.drvow.com/category/academic/cZqjSFxbKXj5MSQz.html 在科技日新月异的今天,手语识别作为一种新兴的跨学科研究领域,正逐渐走进公众视野。

近期,我们邀请了上海大学的方昱春教授,这位在计算机视觉和手语研究领域深耕多年的资深专家,与我们分享了她如何将计算机视觉技术与手语研究相融合,开辟出一片新的研究天地。

方教授的研究重点在于利用计算机视觉技术(CV)探索手语识别,特别是通过深度学习方法来求解这一复杂而神奇的自然语言交流形式。目前她和团队已经在多模数据采集、孤立词识别、连续手语识别以及人体姿态建模等四个方向上开展了研究。

实际上,方教授的学术研究始于人脸识别,随着时间的推移,她的研究兴趣逐渐扩展到手语识别这一领域。

2003年,她在中科院自动化所获得博士学位,之后前往法国国立信息与自动化研究院做博士后,从事图像检索研究。虽然手语研究并非她最初的研究重点,但在2005年加入上海大学后,方教授逐渐将研究重心转向了手语领域。

特别是在2017年,她协助本校手语语言学专家倪兰教授筹建面向人工智能研究的手语数据库,并在2018年获得上海市科委项目支持,正式开展手语识别研究。

在方教授看来,手语研究不仅是技术探索的过程,更是深入理解人类认知智能机制的重要途径。她指出:“手语作为一种自然语言,尽管其发展历史相对较短,但它所蕴含的关于语言发展和认知机制的信息是极其珍贵的。”

如今,方教授的研究不仅关注于手语的理论研究,更致力于解决手语在实际场景中的应用问题,为聋人群体在应急、医疗和购物等实际场景中提供数字化技术支持。方教授和团队正在开发的应用程序和小程序,正是这一目标的具体实践。

此外,她也指出,随着大型语言模型等前沿科技的发展,手语识别研究将面临新的机遇和挑战。她的团队正在积极探索结合计算机视觉和自然语言处理的方法,以期在手语研究领域取得更多突破。

以下为对话(经编辑):

01  计算机视觉学者做起手语识别

雷峰网:方教授,我注意到您是计算机视觉(CV)出身,手语研究在您的研究工作中所占比重在逐年增加,能具体介绍下您是如何把两者集合起来的吗?

方昱春:简单来说,计算机视觉和手语的结合,形成了“手语识别”这一研究方向。

手语识别研究是数据驱动的,而手语数据的获取和标注相对复杂。之所以我涉足这一领域,是因为倪兰老师参与了国家和上海的科研活动,希望将人工智能技术应用于手语研究,这促使我开始着手语数据的采集和研究规划。

在搭建手语识别系统时,还有另一种技术路线--基于传感设备(如数据手套和位置跟踪器)的系统。穿戴式设备如数据手套也曾是主流手语识别研究方向。

随着深度学习在人脸识别应用上的成功,手语识别研究也逐渐向机器学习和计算机视觉结合的方向发展。

目前,我的研究小组跟踪了计算机视觉领域的主流方法,正在以深度学习方法为主来处理手语识别问题,后续研究计划更加关注手语语言学交叉学科问题的探索。

我和团队已经探索了四个主要方向,包括多模态数据采集、孤立词识别、连续手语识别,以及人体姿态建模和AI生成技术应用于手语研究。

在连续手语识别方面,我想强调的一点是,我们试图建模手语运动的多模态特性,比如头部、面部、双手和躯干之间的空间关系和运动关系,以实现对手语更深入的理解。这是我们团队过去几年一直在努力的方向。

随着人工智能生成内容技术的发展,我们开始尝试了一些手语的计算生成研究,这部分工作还处于初级阶段。

雷峰网:手语识别这一研究领域过去很少人关注,国内在这方面大致经历了怎样的发展阶段?

方昱春:计算机视觉的手语识别研究经历了20年左右的发展,随着深度学习技术的发展,基于机器学习和计算机视觉的手语识别才开始蓬勃发展,近两年里手语识别研究的规模迅速增长。

我是在2005年加入上海大学,在2017年才开始规划手语研究,2018年开始正式投入到手语研究中。2017年,我协助倪兰老师筹备数据建设,这年对上海大学手语研究来说是一个重要的里程碑,倪兰教授建立了“中国手语及聋人研究中心”,非常有魄力。

雷峰网:您认为手语识别研究的长远目标是什么?

方昱春:手语作为一种自然语言,蕴含着人类的认知智能机制。与文字语言或口语相比,手语形成的历史相对较短,这使得手语成为研究语言发展和认知机制的宝贵研究对象。

从理论角度来看,我们希望能够更深入地理解这些机制。

而从应用角度来说,我们的目标是解决手语在实际场景中的应用问题,比如在应急、医疗和购物等场景中,为聋人社区提供数字化的技术支持。我们正在尝试开发应用程序和小程序,来实现这些目标。

雷峰网:方教授,手语研究现在是您研究工作的主要部分吗?对您招生方面有何影响?

方昱春:手语研究是我目前研究的主要任务之一,自从开始着手语项目以来,我投入的精力和资源都在不断增长。

在招收研究生方面,我们也非常希望有跨学科背景的学生加入,比如语言学和机器学习的双重背景,但找到这样的综合型人才非常困难。

幸运的是,上海大学有倪老师这样在手语语言学领域有着深厚积累的专家,未来,我和倪老师计划合作指导学生,培养具有交叉学科背景的复合性人才,这一目标对学生的职业发展和人生规划将非常有价值。

02 数据是手语识别研究的最大瓶颈

雷峰网:我最近对田英利教授的手语研究进行了专访,您可能已经看过了。田教授的研究专注于美国手语,并开发了一个实时手语语法错误识别系统。这个系统旨在为手语学习者提供即时反馈,并有望在未来提高精确度后,集成到手机或电脑中,以便将聋哑人的手语翻译给听力正常的人。请问您在这方面的研究是否有相似之处或存在差异?

方昱春:从我个人的角度来说,我对手语研究还是一个新手,我们实验了从计算机视觉角度研究手语的基本方法,我认为这些方法在应用上是具有实用价值的,对未来的理论研究也特别有帮助。

我和倪老师在讨论上海大学未来的手语研究规划时,了解到田英利教授开展了手语研究,于是我决定联系她,促进不同手语研究之间的交流。虽然我们研究的手语语种、可能不同,但背后的机理是可以互相借鉴的,我们可以通过比较美国手语和中国手语来互相验证。

实际上,我最初进行手语研究时,也是从孤立词的识别开始,使用的是美国手语(ASL)的数据集。正如我之前提到的,数据驱动的研究离不开数据。在我们自己的数据准备就绪之前,我们主要依赖开源数据集。

那么,无论是美国手语还是中国手语,实际上在不同地区之间,手语的表现形式还是有所不同的,就像方言一样,会有变化。

目前,中国科学技术大学、西安电子科技大学、中国科学院计算所和自动化所,是国内开展手语识别非常有代表性的研究机构。团队之间的合作沟通一定是有益的,如推动数据库共享等。

雷峰网:手语也有“方言”之分,目前您使用的手语数据集,是否主要来自于上海一带所使用的?

方昱春:我们目前在上海进行的手语研究还处于比较基础的阶段,比如数据的分割和预处理,还没有深入到识别层面。

我们算法研究使用的数据集叫做“中国手语识别数据集”(CSL),这是由中国科学技术大学的研究团队建立的。

目前国家层面和政策层面为了帮助聋人群体,做了很多语言推广工作,通过制定新的标准来推广手语。

虽然对于我们这些不打手语的外行人来说,不能辨识不同地区的手语方言,但是关于手语的这种地域差异,还有很多问题需要研究。

雷峰网:国内目前也有中科大、西电、中科院等几支手语识别的领先团队,所使用的手语数据是否针对特定地区?

方昱春:是的,这几所单位开展手语识别研究,都具备丰厚的积累。针对特定的手语方言的研究还非常少。

上海的手语语言学发展较为先进,倪老师和上海的聋人群体建立了长期的联系,并开展了实际合作。

从计算机视觉研究的角度来看,我们更多地使用德国的凤凰(PHOENIX)数据集,因为德国的手语数据集上做出来的标杆算法较多,我们希望了解自己的算法达到了什么程度。德国的标杆数据集开源较多,因此大家都愿意使用它来验证自己方法的进步。

雷峰网:使用德国手语数据集进行研究会有语言不通的问题吗?这对我们的研究方法有影响吗?

方昱春:从计算机视觉的角度来看,使用德国或其他国家手语数据集是没有问题的,方法是有通用性的。视频中包含的主要是上半身的多模态运动,这些信号对我们来说都是一样的。尽管如此,从语言学的角度来看,不同语言的手语确实存在差异,因为它们属于不同的语系。

雷峰网:在开发数字人进行手语应用时,您是否遇到了一些挑战,比如聋人群体可能无法理解数字人使用的手语,或者不同企业开发的数字人在手语表达上可能出现同质化的问题?

方昱春:首先,我们面临的最大挑战是手语数据的缺乏。

我们会选择使用德国凤凰(PHOENIX)数据集,因为它将场景限定在天气预报上,问题因场景限定而简化,他们提供公共研究的开源数据量很大,他们的团队开展了语言学家和计算机科学专家的合作,是一个很好的模式。

第二个挑战是,手语语言学专家和语言学专业人员的缺乏。

上大大学手语识别研究,有幸能获得倪兰老师的指导。

如果仅从计算机视觉的角度解决手语识别问题,不了解手语语言的特点,不了解聋人的语言特点,所开发出来的算法或模型会脱离实际应用的需求。

田英利教授的工作就是一个跨学科合作的典范,她结合了语言学和计算机视觉技术,我认为她的交叉应用选点非常新颖。倪老师也非常赞赏田教授的工作,并特意推荐给我们上海大学团队参考。

雷峰网:我们也非常关注前沿科技对您工作的影响,比如去年推出的ChatGPT和今年的Sora,它们在自然语言处理方面取得了显著成就。这些模型背后的设计理念和技术路径,对您做手语识别研究有何启示?

方昱春:我们团队也一直在关注大语言模型的发展。我们正在计划利用学校新建的大型GPU集群,开展更多大语言模型相关的研究。

在结合计算机视觉(CV)和自然语言处理(NLP)方面,在中科大团队将自然语言理解技术应用于手语识别研究的启发,我们团队近期也提出了一个解决方案,取得了显著的效果。

雷峰网:我们注意到,大模型的出现让很多人希望建立一个全球或国家通用的手语大模型。但这确实面临挑战,尤其是数据获取困难。手语数据通常包含上半身,涉及肖像权和隐私问题。您是否主要使用倪兰教授收集的数据库进行数据研究?

方昱春:为了妥善使用数据,确实需要健全隐私保护机制。我们团队在数据采集和使用方面,都严格遵守隐私保护的约束。

手语理解数据集面临的最大的挑战在于数据标注问题。当采集到孤立词或连续手语句的视频后,可以进行什么程度的标注?目前,文字形式自然语言的自动分词已非常成熟。但是,要将手语视频分解成音韵要素,自动处理难度非常高,人工标注工作量会非常大。

在接下来的线上圆桌讨论中,我希望和大家一起探讨手语识别领域的数据之困。


本文作者吴彤,欢迎添加微信(icedaguniang),交流认知,互通有无。


|GAIR live 圆桌预告

3月18日,北京时间20:00-22:00,雷峰网将举办主题为「AI+手语识别,技术革新与应用前景」的线上圆桌论坛。

本次论坛嘉宾有,美国纽约城市大学田英利教授、上海交通大学自动化系苏剑波教授、上海大学计算机工程与科学学院方昱春教授、上海大学文学院倪兰教授,共同分享他们的见解和研究成果。

“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的 CCF-GAIR 大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live 作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

|手语相关资料

1,《专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA

2,《Multi-Modal Multi-Channel American Sign Language Recognition 》https://gairdao.com/doi/10.1142/S2972335324500017


|IJAIRR正在邀约论文和专题

《国际人工智能与机器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。

作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。

我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。

(1)“如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。

(2)如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。

(3)如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。

IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。

联系人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg

关于期刊创刊主编等更多信息,可点击

https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

关于雷峰网、GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为:https://gairdao.com/journals/ijairr


]]>
人工智能学术 //m.drvow.com/category/academic/cZqjSFxbKXj5MSQz.html#comments Mon, 18 Mar 2024 14:42:00 +0800
对话上交苏剑波教授:直面手语的「方言」多样性与系统「通用性」挑战|GAIR live //m.drvow.com/category/academic/D0lT0JSTfUt9CWHK.html 作为上海交通大学自动化系的资深教授,苏剑波坚守着一条科研信条:研究工作需源源不断地注入活力。

他曾阐释这一理念:“一个研究者在踏入某一科学领域时,应选取一个能够长期深耕、并随着理论及技术进步而能不断更新研究内容的主题,这才是研究者始终能保持学术活力的根本原因。”

苏教授的研究领域覆盖了智能机器人理论与技术、多传感器信息与智能融合、机器学习与人机交互等科学研究持续的热点领域。在这些领域中,手语作为人类交流的基本方式,始终是苏教授想赋予机器人的技能之一,并成为他将理论知识与实践应用相结合的重要体现。

为何要格外关注手语?苏教授指出,“手语不仅是聋/哑人群体沟通的重要工具,也是人类信息表达的一种常见和高效的方式。”他强调,手语的国际性和多样性是研究的核心,因为不同地区和国家的手语存在明显差异,甚至包含方言差异。

目前,苏教授及其团队专注于手语识别和情绪识别两大技术领域,他们通过视频捕捉和分析,深入探讨静态与动态手语的表达方式及其在不同情境下的变化。终极目标是开发出能够精准解读聋哑人手语/手势及正常人的手势,并将其转化为文字或语言系统。这一技术不仅能够促进与正常人的沟通,也蕴含着巨大的商业潜力。

与此同时,苏教授坦言,手语语料库的匮乏是当前研究面临的一大挑战。因此,他们的研究主要集中在国内聋哑人使用的标准化手语上,而方言手语的研究是第二阶段的目标。

苏教授的学术追求不止于理论研究,近年来,他积极将科研成果转化为实际应用。

2016年,他依托上海交通大学智能机器人系统与技术研究中心,创立了上海灵至科技有限公司,该公司专注于提供人工智能技术解决方案,开发智能机器人、智慧家居、车载自动驾驶软件等产品。2019年,灵至科技的核心团队又联合成立了上海追求人工智能科技有限公司,进一步深化拓展已开发的人机交互技术和产品,为全球残障人士提供专门化的人工智能解决方案。

谈及手语识别产品方面的规划,苏教授表示,目前产品已在特定场景如银行、医院和政府部门中得到了初步的应用,正需扩展更多的应用场景。

近期在与雷峰网-AI科技评论的对话中,苏剑波教授从计算机视觉角度梳理了手语研究中的关键问题,也分享了对手语识别领域众团队的发展建议。

3月18日(周一)20:00-22:00,雷峰网将举办主题为「AI+手语识别,技术革新与应用前景」的线上圆桌论坛,届时苏教授将分享更多前沿观察。

以下为对话(经编辑):

手语也有“方言”之分,系统“通用性”难保证

雷峰网:苏教授,您是自动化出身,怎么看待手语这个细分研究方向和应用价值?

苏剑波:我开始手语研究最初是出于关注正常人使用手势来表达情绪的尝试,随后扩展到聋哑人群体的沟通需求。

手语的特点是具有国际性和多样性,不同地区和国家的手语存在差异,甚至还有方言之分。但从本质上看,手语是人类信息表达的一种方式,因此理解和研究手语的多样性和标准化问题至关重要。此外,手势识别与手语识别有很大区别。

让机器理解聋哑人的手势,并将这些手势转换成文字或语言,以便让正常人理解。反之亦然,当正常人说话时,机器也能转换成手语将信息传达给聋哑人,实现双方的沟通。

这项工作自2016年开始,但实际上,相关的研究工作要更早。大约是在2010年左右,开始涉及机器人识别人类手势并理解人类情绪的研究。

雷峰网:能再详细解释一下在手语识别这项技术吗,也就是CV技术如何参与到手语研究中?

苏剑波:我们主要专注于两大类技术:手语识别和情绪识别。这些技术基本上都是基于视频的。计算机或机器人通过摄像机捕捉人的手势/手语视频,再分析视频中的手势/手语的含义。

举个例子,手语分为静态手语和动态手语,还涉及到方言和国际化的问题。手指伸/缩或手掌张/闭状态属于静态手语,而表达“不行”或“过来”等手指和/或手臂的动作则属于动态手语。我们从视频采集出发,研究静态和动态手语的表达方式,以及它们在不同情境下的表达差异。

我们目前主要针对国内聋哑人使用的标准化手语进行研究,并未涉及太多方言,主要是受限于语料库的不足及语料采集的差异化。

雷峰网:国内正在推广中国通用手语,会使得以后的手语识别研究难度变小吗?

苏剑波:中国通用手语在实际推广和执行过程中还会遇到一些挑战的。

这是因为聋哑人群体也存在地域性差异,他们可能并不熟悉通用手语。这与许多偏远地区的人们听不懂普通话的情况类似,他们可能将普通话视为另一种方言。

手语同样如此,同一个手势在不同地区可能表达不同的意义,使得制定统一标准变得复杂。

国家已经尝试过多次推广通用手语,但效果并不显著。如果某个地方的聋哑人不遵循这些规则,或者他们已经有了自己约定俗成的手语交流方式,我们又能如何呢?我们不能指责他们的交流方式不正确。

这样来看,推广标准化手语的难度可能比推广普通话要大得多。

但即便如此,我们的最终梦想还是能在开发出一个能够识别标准化手语的系统的基础上,充分利用机器智能生成和进化的自学习特点,完成识别具有地区和个人特色的手语识别系统,特别是那些与政府部门交流时常用的手语。

我们希望能够为聋哑人提供个性化的实时翻译,比如在政府办事窗口,通过计算机系统将他们的手语翻译成文字,同时也为聋哑学校的老师提供培训。

目前,我们的目标是实现对日常使用的大约2000个手语词汇的识别,其中最常用的大约500个词汇,我们的识别准确率可以达到90%以上。对于这500个词汇以外的不太常用的词汇,识别率会因采集的角度、光照、背景等有所下降,可能需要多次手势才能提高识别的准确率。

雷峰网:数据是打造手语识别系统的第一步,这个过程中,您亲身经历过哪些困难?

苏剑波:确实,数据的缺乏是一个主要问题。因为除了要精准捕捉聋哑人手语动作,还要考虑到肖像权和隐私权的问题,这无疑增加了研究的复杂性。

其次,与聋哑人合作拍摄视频时可能会遇到问题,比如他们可能会感到不适或生气。有时候,即使我们有最好的意图,也可能难以解释清楚我们的研究目的,这可能导致一些误解和冲突。

但无论如何,这项工作必须继续进行,因为我们的目标是通过人工智能和技术赋能,打破人与人之间交流的障碍,特别是帮助残疾人与政府部门等机构进行有效沟通,帮助他们的意愿能最准确地为他人所知和理解。

手语识别专用的算法与模型尚未出现

雷峰网:目前手语识别领域的算法和模型,是借鉴了许多其他领域的成果,还是专门针对手语研究开发的?

苏剑波:在算法创新方面,我们确实借鉴了许多其他领域的成果。

例如,我们使用的卷积神经网络等工具,和特征完备化等基础算法,包括隐马尔可夫模型等,都是在语音识别和人脸识别等领域已经尝试并证明有效的技术。

到目前为止,我还没有发现有专门针对手语识别领域的技术,我们目前使用的都是通用的模式识别工具。所以说,手语识别领域的研究进展相对于其他更活跃的模式识别领域,还有一定的差距。

我们的工作主要集中在寻找能够准确代表和区分不同手型或手势的更鲁棒的特征。这是模式识别领域的通用目标,无论是人脸识别还是语音识别,都需要找到能够精确描述特定含义的特征集合。

然而,手语识别面临的挑战在于,手势的含义可能会因为光照、角度、速度等各种因素的影响而发生变化,存在多种干扰。我们的工作关键在于能够针对滤除这些不同的干扰因素,找到最能准确代表特定手势的鲁棒稳定的特征。

雷峰网:ChatGPT、Sora等大型语言模型在自然语言处理(NLP)领域取得了显著成就。这些模型背后的设计理念和技术路径,对手语识别研究有何启示?

苏剑波:确实,这些模型的设计理念和技术路径对我们的研究是有启发的,但遗憾的是,这些模型的具体实现细节往往不公开。

这在AI领域并不罕见,许多团队在开发先进技术时,出于商业竞争的考虑,会选择保留关键信息。

例如,机器人领域的波士顿动力公司,他们的机器人技术和各种机器人原型系统发展迅速,但他们很少在国际会议或学术刊物上公开具体的、真实的研究技术路线。我们只能从他们的产品表现来推测可能的技术实现方式。

国内在手语识别领域相对于国外确实存在一定的差距。例如,聋哑学校非常希望引入这些技术,但由于疫情等因素的影响,相关项目曾被迫暂停,这个过程相当曲折。

此外,技术进步可能会对某些职业造成冲击,这可能导致一些行业从业者对人工智能技术的接受度不高。尽管他们认识到人工智能的潜力,但从生存的角度出发,他们可能并不希望人工智能取代他们的工作。这种心态在实际合作中可能会成为障碍。

雷峰网:我们观察到,在国内外的大型赛事如亚运会、残运会期间,许多公司推出了他们自己的手语数字人。其中一些公司所使用的手语数据由一两家公司自行采集后出售的,导致不同公司开发的数字人产品同质化,缺乏突破,而且有聋哑人反馈无法看懂这些数字人打出的手语。您怎么看这个现象?

苏剑波:这个问题非常关键。如果一个旨在为聋哑人服务的产品,连目标用户群体都无法理解,那么它的服务价值就大打折扣了。目前我们缺乏一个国家权威机构来鉴定这些成果的有效性,或者提供服务的权威性认证。至于服务的实际效果,很少人去深究聋人同胞的满意度。

雷峰网:最后想请问您,因为您在上交有自己的课题团队,还孵化了两家公司(母公司“灵至科技”、以及专门打造手语产品的“上海追求”),那么您今年在手语识别方面有什么规划?

苏剑波:我和团队的重点是提高机器识别手语的准确率,并尽可能扩大语料库和应用场景。

从学术角度出发,机器对手语的识别,不过是手语特征被机器表达和计算的准确度和效率。我们鼓励博士生和硕士生进行创新研究,寻找能够更精准、有效、快速地表达手语蕴含的主体人意图的可计算的、完备且正交的手势特征集合。我们希望我们的工作不仅能在国内产生影响,也能为国际同行提供借鉴,帮助他们在自己的领域或语言体系中应用我们的研究成果。

我们的目标是建立行业内公认的标准,这是我们努力的方向。

目前国内从事手语识别的团队正在增多,在这一发展势头下,我们需要提前确立统一的测试场景,来验证手语识别系统的实用效果,否则很难真正认可其研究价值。此外,还要考虑到聋人群体的实际需求和接受程度,保证这些研究的应用价值。

从公司角度来说,我们希望能够将我们的技术应用到实际产品中,进行测试和验证。目前我们产品的应用程度有限,在银行、医院和政府部门等特定场景下,我们的产品可以发挥作用。我们希望未来能够达到一个更广泛的应用水平,但目前还很难说能做到什么程度,我们只能继续努力。

至于产品的应用区域,由于我们在上海,所以语料和数据标注可能更倾向于江浙沪一带的方言。这可能导致我们的产品在这些地区的医院等场景中应用得更多。我们希望未来能够扩大应用范围,更好地服务于更广泛的聋人同胞。

同时,我们也热切期待有更多资本能理解手语识别目前从公益性向市场化发展的初级阶段属性,而义无反顾地介入,以加速手语研究和产品开发的进程,为具有中国特色的人工智能产业的发展注入新的活力。

本文作者吴彤,欢迎添加微信(icedaguniang),交流认知,互通有无。


|GAIR live 圆桌预告

3月18日,北京时间20:00-22:00,雷峰网将举办主题为「AI+手语识别,技术革新与应用前景」的线上圆桌论坛。

本次论坛嘉宾有,美国纽约城市大学田英利教授、上海交通大学自动化系苏剑波教授、上海大学计算机工程与科学学院方昱春教授、上海大学文学院倪兰教授,共同分享他们的见解和研究成果。

“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

|手语相关资料

1,《专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA

2,《Multi-Modal Multi-Channel American Sign Language Recognition https://gairdao.com/doi/10.1142/S2972335324500017


|IJAIRR正在邀约论文和专题

《国际人工智能与机器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。

作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。

我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。

(1)“如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。

(2)如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。

(3)如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。


IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。

联系人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg

关于期刊创刊主编等更多信息,可点击

https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

关于雷峰网、GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为:https://gairdao.com/journals/ijairr


]]>
人工智能学术 //m.drvow.com/category/academic/D0lT0JSTfUt9CWHK.html#comments Fri, 15 Mar 2024 17:20:00 +0800
对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR //m.drvow.com/category/academic/llbrWzIUVFePw3JO.html

现代化社会,哪些工作场景最需要机器人的帮助?

在工业领域,有著名的机器人“四大家族”——发那科、ABB、安川、库卡,经过百余年的发展技术越发成熟,在工业场景已经得到深入而广泛的应用。

相比之下,生活场景中的服务型机器人历史则短得多。

例如在餐饮场景,烹饪过程的标准化程度远远不如工厂流水线,这为烹饪机器人的研发带来了很大难度,在烹饪流程、烹饪方式、火候控制等环节,存在着诸多难题。

直到近年来这一方向才逐渐有所发展。

在2022年举办的北京冬奥会上,烹饪机器人已经进入智慧餐厅,烹饪中餐、西餐的各种菜品。

根据国外调研组织Market Research Future 发布的报告,2022年~2026年间,全球机器人烹饪设备的市场规模将成长至超1亿美元,年复合增长率近20%。

南佛罗里达大学计算机科学与工程系教授孙宇多年来一直致力于机器人领域相关研究,早在2015年便已开始尝试将知识图谱应用于机器人任务规划。

大模型技术出现之后,为人机的协同交互带来了巨大的影响。

虽然与小语言模型的模型架构和与训练目标类似,但大语言模型在大幅度扩展了模型大小、预训练数据和总计算量(扩大倍数)后,不但能够更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本,还展现出了一项全新的特征:涌现。

涌现为大语言模型带来的几种最具代表性的能力——上下文学习、指令遵循、循序渐进的推理等,使其在机器人研究发挥出更大的作用,大语言模型开始成为机器人任务规划研究中的一项重要工具。

自去年以来,孙宇教授开始尝试将大语言模型应用在烹饪机器人任务规划之中。

近期,相关论文之一《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability,上线初创期刊《人工智能与机器人研究国际期刊》(IJAIRR)。

借此契机,孙宇教授向雷峰网介绍了该论文的研究过程,以及烹饪机器人研究中存在的难题。

论文链接:

https://gairdao.com/doi/10.1142/S2972335324500029

https://www.worldscientific.com/doi/10.1142/S2972335324500029


基于知识网络的机器人任务规划

机器人任务规划即根据机器人的能力、任务需求及环境条件等因素,为其制定一系列详细的行动方案,使其在复杂的环境中,高效、安全、准确地完成任务。

在这一过程中,有许多复杂的因素需要考虑。

例如,机器人的移动路径需要适应工作环境中障碍物的分布,以避免碰撞;

任务执行的时间与顺序需要根据实际情况进行优化;

在交互方式上,还需要保证机器人的行为与指令易于理解等等。

早在2015年,孙宇教授及其团队就开始将知识网络在机器人任务规划之中,基于网络进行烹饪领域相关知识的采集和整合,指导机器人执行烹饪任务。

南佛罗里达大学孙宇教授

研究中使用的知识网络,正是由孙宇教授所带领的机器人概念和行为实验室(RPAL)所发明的面向功能对象网络(Functional Object-Oriented Network,简称 FOON)。

这是一个存储功能对象和操作信息的中心知识网络系统,可以通过处理在线视频、文本获取功能对象和操作信息。

经过一定的标注和矫正,这个知识网络可以很可靠的提供各种烹饪任务规划树。如果要求的烹饪任务的功能单元(functional unit)是FOON里有的,FOON可以给出100%正确和高效的任务规划树。

如果要求的烹饪任务的功能单元是FOON里没有的,但很相像,这个知识网络可以给出非常可靠高效的任务规划树。

但是如果要求的烹饪功能单元与FOON里功能单元没有任何相关,FOON就很可能给出错误的规划树。因为知识网络是封闭的,机器人无法无限延展超出知识网络范围的内容。

直到大语言模型的出现,为这项研究带来了新的转机。


如何规划一个知识库中完全不存在的任务?

烹饪机器人如何才能生成一个知识库中不存在的任务?

随着大模型技术的发展,自去年以来,孙宇教授及其学生Sadman Sakib博士开始尝试使用大语言模型技术(LLM)进行机器人任务规划。

Sadman Sakib博士

在自然语言处理、任务规划和执行以及人机交互等方面,GPT-4展现出强大的能力。

论文中以烹饪任务为例进行了介绍。

在接收到用户关于烹饪某样食物的指令后,传统的机器人规划方法通常只会生成一个任务计划,而该论文通过GPT-4这一语言模型的提示工程,生成了多个不同的高级任务规划,并以任务树的形式进行展现。

这些任务树为机器人提供了多种可能的执行方案,不同方案的资源需求、并行时间、风险各有不同。

利用Graph Merger(图形合并器)将这些任务树合并成一个统一网络后,再通过比较和分析剔除其中不可靠的组件,例如执行成本过高的节点,再将筛选出的正确、有效的组件进行集成,最终形成一个最优的解决方案,极大地提高了规划的准确性与整体任务执行的效率。

由于机器人无法直接执行高级任务计划,GPT-4还需要扮演翻译者的角色,将这一高级任务计划从自然语言的形式转化为低级的PDDL计划,用PDDL语言来描述并求解规划任务,使人类可以理解的语言转换为机器人可以理解的指令。

例如,当烹饪机器人收到“制作一碗包括胡萝卜、卷心菜和豆子的面条”这一任务后,GPT-4生成了多个高级任务计划,并将其合并、筛选得到一个最优的任务树,将其转化为PDDL计划,把这项工作分解成“拿起瓶子”、“将油葱瓶子中倒进锅里”等动作序列,再由机器人执行。

值得一提的是,孙宇团队通过研究表明,合并食谱可以通过让食谱共享信息并学习多样化的子任务方法,从而发现创新的烹饪方法。

于是研究团队创建了多个食谱及其对应的任务树,并合并为一个网络后,成功将不同食谱中的烹饪步骤和技巧融合在一起,形成了新的烹饪流程。

这些融合后的任务树不仅展示了烹饪任务的多样性,还揭示了不同子任务之间的潜在联系和互补性,构建出了一个更为丰富和复杂的烹饪网络。

“也就是说,有了这个网络,不仅能实现传统菜肴的制作,还能够创造出更加新颖、独特的菜品,为烹饪艺术注入了新的活力。”

孙宇教授指出,对这项研究进一步优化后,将开发出更加高效和智能的烹饪机器人或系统。


大语言模型与知识网络的相互补充

孙宇教授从事机器人领域的研究已二十余年。在USF,孙宇教授带领的机器人概念和行为实验室(RPAL)多年来围绕机器臂抓取和操作、人机交互、医学影像及虚拟现实、机器触觉及力学传感控制等诸多方向进行了大量研究。

后来在机器人任务规划研究中得到大量应用的FOON这一成果,就是出自RPAL。

孙宇教授与RPAL实验室成员合照

大语言模型和知识网络FOON有天然的互补性。以GPT-4为代表的大语言模型,虽然能够从开放的网络环境中学习各种任务规划,但产生的规划却未经把关,无法保证其正确性。

而有FOON里整合的任务规划树是经过人工标注和验证过100%正确的,但是它是有限的和不完全的。

所以可以用大语言模型来产生多个不保证正确的任务树,然后用FOON的结构特点来合并这些任务树,消除不正确的功能单元,由别的树或FOON里正确的功能单元所取代,来提高正确率。

此外,该研究具有很好的泛化能力,并不局限于烹饪场景,只需调整少量组件或不调整组件,即可为许多不同工作场景中的机器人找到最优计划。

孙宇教授指出,当前的机器人任务规划研究中仍旧存在许多挑战。

当机器人遇到任务规划或运动规划错误、系统故障等情况时,可能会导致任务失败,如何使机器人任务失败后自助纠正计划错误是一项至关重要的课题。

团队未来的研究将进一步关注环境反馈的影响,尝试使机器人借助视觉系统与GPT-4准确地识别与更新环境状态,从而减少或避免机器人纠正计划错误时的人为干预,使其自主应对任务失败的情况。雷峰网雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/llbrWzIUVFePw3JO.html#comments Fri, 15 Mar 2024 16:03:00 +0800
讲座预约 | 四位专家大论道 :AI+手语识别,技术革新与应用前景|GAIR live //m.drvow.com/category/academic/vFwKal1J8qkohbN0.html 在这个充满创新的时代,技术正以前所未有的速度改变我们的生活。

然而,对于那些生活在无声世界中的听障和聋哑人士来说,沟通的障碍依然存在。

幸运的是,手语识别技术的出现,为打破这一障碍带来了希望。这项技术不仅仅是一项科研成果,它更是一座桥梁,连接着听障人士与社会的沟通。

想象一下,如果你的智能手机能够理解并翻译手语,那么与听障朋友的交流将变得多么自然。在医院里,医生通过手语识别系统与听障患者沟通,诊断和治疗将更加顺畅。

这些场景,正是手语识别技术所承诺的未来,但走向现实并非易事。

在这场研讨会上,我们将探讨以下几个重要问题:

全球视野下的突破:在国内外,哪些学术团队和工业团队在手语识别领域取得了显著成就?他们的研究成果如何推动了这一领域的发展?

  • 从理论到实践:如何从零开始构建并部署一套高效的手语识别系统?在这一过程中,我们面临哪些技术难题,又是如何一一克服的?

  • AI的启示:ChatGPT、Sora等大型语言模型在自然语言处理(NLP)领域取得了显著成就。这些模型背后的设计理念和技术路径,对手语识别研究有何启示?

  • 技术与现实的碰撞:从技术研究走向实际应用,我们可能会遇到哪些现实困难?如何将手语识别技术更好地融入到听障人士的日常生活中?

  • 跨学科的融合:手语识别技术的发展需要计算机视觉、机器学习、自然语言处理等多个学科的知识。这些学科如何相互协作,共同推动手语识别技术的进步?

  • 伦理与隐私:在开发和部署手语识别系统时,如何确保听障人士的隐私得到保护?我们如何在技术创新与伦理道德之间找到平衡?

为了深入探讨这些问题,雷峰网将在3月18日 晚8点~10点,举办主题为「AI+手语识别,技术革新与应用前景」的线上圆桌论坛。

本次论坛嘉宾有,美国纽约城市大学田英利教授、上海交通大学自动化系苏剑波教授、上海大学计算机工程与科学学院方昱春教授、上海大学文学院倪兰教授,共同分享他们的见解和研究成果。

这不仅是一场关于技术的研讨会,更是一次关于人文关怀和社会责任的交流。我们期待你的参与,一起见证并推动手语识别技术的发展,为构建一个更加包容和无障碍的社会贡献力量。

嘉宾介绍

田英利,美国纽约城市大学教授,IEEE / IAPR / AAIA Fellow

田英利,纽约市立大学电气工程系和研究生中心计算机科学系的特聘教授。目前研究重点是计算机视觉、机器学习、人工智能、辅助技术、医学成像分析和遥感技术。

本科毕业于天津大学精密仪器与光电工程专业,硕士毕业于天津大学热物理工程专业,1996年获香港中文大学电机工程博士学位。在卡内基梅隆大学机器人研究所工作期间,她的面部表情自动分析和数据库开发研究获得了“FG2019时间测试奖”。随后加入 IBM T. J. Watson研究中心并领导视频分析团队。

自2008年加入CCNY以来,她一直专注于计算机视觉和机器学习等技术帮助老年人、视障、听障等特殊人群。

苏剑波,上海交通大学自动化系教授

苏剑波,上海交通大学自动化系教授,研究领域是智能机器人理论与技术,多传感器信息融合,机器学习与人机交互,多机器人协调等。

1985年考入上海交通大学,1992年在中国科学院自动化所国家模式识别实验室获得硕士学位,1995年在东南大学获得博士学位,1997年中国科学院自动化所复杂系统与控制实验室博士后流动站出站后进入上海交通大学工作。2000年起被聘为上海交通大学自动化系教授。

2016年,依托上交智能机器人系统与技术研究中心,苏剑波成立了上海灵至科技有限公司,开发涉及智享生活、智能机器人、车载自动驾驶软件等,产品覆盖住宅、酒店、公租房、街区、医院、药厂、汽车制造等应用领域。2019年,灵至科技又联合成立了上海追求人工智能科技有限公司,专注于为全球7亿残障人士提供人工智能解决方案。

倪兰,上海大学文学院教授

倪兰,毕业于复旦大学语言学与应用语言学专业,是中国大陆培养的第一位手语语言学方向博士。研究领域为手语语言学、现代汉语语法、语言类型学等。

现任上海大学文学院副院长,上海大学中国手语及聋人研究中心主任,国家语言文字推广基地(上海大学)副主任,全国语言文字标准化技术委员会委员,国家手语和盲文工作专家组成员,中国语文现代化学会理事,上海市语言文字工作者协会理事,中国残疾人事业发展研究会残疾人健康管理专业委员会常委委员,残疾人事业发展研究会会员,上海语文学会会员。

主持国家社科基金、教育部人文社科、国家语委、中国残联、上海市语委、上海市残联等十余项国家和省部级科研项目。在《当代修辞学》《语言科学》《语言研究集刊》《中国翻译》《上海翻译》《语言政策与规划研究》《中国特殊教育》《残疾人研究》《中国社会科学报》,Language Policy等刊物发表二十余篇学术论文,多次参与撰写国家语委系列皮书报告,出版一部学术专著和两套教材。

方昱春,上海大学计算机工程与科学学院教授

方昱春,上海大学计算机工程与科学学院教授,研究领域包括机器学习、模式识别、计算机视觉、生物特征识别和人工智能应用。

2003年获中国科学院自动化研究所模式识别与智能系统专业博士学位。2003-2004在法国国立信息与自动化研究院从事博士后工作。2005年至今在上海大学从事教学科研工作。

担任IEEE Shanghai WIE Affinity Group主席,中国计算机学会计算机视觉专委会委员、中国图像图形学会视觉大数据专委会委员。近年里,开展了人工智能和手语语言学、甲骨学、考古学、艺术设计学方向的交叉学科研究。研究了面向手语理解的多源视觉信息协同学习理论和技术,从数据集构建、手语孤立词识别、连续手语识别和手语视频生成四个方面探索自动手语理解的技术与应用。


讲座信息

主题:AI+手语识别,技术革新与应用前景

参考资料:

1,《Multi-Modal Multi-Channel American Sign Language Recognition》

https://gairdao.com/doi/10.1142/S2972335324500017 

2,《专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语》

https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA

时间:3月18日,北京时间20:00-22:00 

观看方式:「雷峰网」视频号 与 「AI科技评论」 视频号同步直播加入专家群:添加策划人 吴彤 微信(微信号:icedaguniang),备注“姓名+职位”,即可邀请进入专家群,观看此次线上论坛,实时交流与提问。

IJAIRR正在邀约论文和专题

《国际人工智能与机器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。

作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。

我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。

(1)“如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。

(2)如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。

(3)如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。

IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。


联系人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg

关于期刊创刊主编等更多信息,可点击

https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

关于雷峰网、GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为:https://gairdao.com/journals/ijairr

]]>
人工智能学术 //m.drvow.com/category/academic/vFwKal1J8qkohbN0.html#comments Fri, 15 Mar 2024 09:46:00 +0800
专访上海大学倪兰教授:语言学与手语识别技术的融合突破,解锁交流障碍|GAIR live //m.drvow.com/category/academic/XkHByria5kG8YCyM.html 在语言学的广阔天地中,手语研究曾是一片未被充分开垦的荒地。

上海大学的倪兰教授,作为中国大陆培养的第一位「手语语言学」方向博士,在谈到自己选择手语方向时仍忍不住感慨,“往前推二十年,语言学界几乎无人涉足这一领域。”

然而,时光流转至今,这一领域的现状是否得到了改善?

二十年后的今天,尽管在这一领域人们的认识有了很大的进步,也有一些研究者开始从事手语相关研究,但比起语言学的其他方向,手语语言学仍然面临着诸多问题和挑战。

在2023年4月天津理工大学举办的手语信息化会议上,倪兰教授作为语言学界的代表之一,感受到了这一领域的发展与局限。

她指出,在一众与会者中,除了极少数学者外,大多数参与者都来自计算机科学和通信技术领域。这也意味着,尽管手语技术的研究取得了一定的进展,但对手语作为一门语言的深入理解仍然不足。

大多数的信息科学的研究人员利用计算机视觉技术进行了多年的手语识别研究,但遗憾的是,可能很多人并未真正意识到:手语是一种和有声语言同样的自然语言。

最近几年很多科技公司推出的“手语数字人”试图为听障人士提供实时信息服务,但当流量盛宴结束,这些技术是否能融入日常生活、研发公司能否保留技术团队、听障群体是否真正接受这种翻译方式、以及这些技术是否通过了国家权威机构的技术有效性鉴定,这些深层次问题却鲜有人问津。

当技术热潮逐渐冷却,人们再次审视手语识别的核心问题。

倪兰教授认为,过去人们普遍认为只要理解单个手势的含义就能解决手语识别问题,但当AI和数字人出现后,机械地将汉语词汇翻译成手语,听障群体却难以理解机器自动生成的手语。

倪兰教授比喻说:“就像外国人学习中文,如果他们按照英语的句法结构来组织汉语词汇,那么他们说的汉语可能会让人难以理解。同样,手语也需要遵循其自身的语法结构”。

在技术开发方面,倪兰教授认为,手语识别的核心问题在于手语的内部结构,包括语音构造、构词方式和句法结构。

她指出,手语的语法结构问题,尤其是如何将手语表达转换为相同概念的句子结构,是研究的核心。她的研究团队正在努力解决这些问题,以提高手语识别的准确性。

在与计算机科学家的合作方面,倪兰教授提出了两个关键问题:如何利用技术手段处理长篇语料,以及如何实现标准样本的标注。这样的合作将有助于提高手语研究的效率,为计算机视觉技术在手语识别领域的应用提供充足的数据支持。

近期在与雷峰网-AI科技评论的对话中,倪兰教授从语言学视角梳理了手语研究中的关键问题,也讲述了如何与计算机视觉专家开展手语识别系统的合作开发。

以下为对话(经编辑):

手语语言学研究一度无人涉足

AI科技评论:倪教授,如今“手语语言研究者”已经成了您的一个重要身份,但我想知道,您为何选择做手语研究,最开始遇到过哪些难题?

倪兰:在2000年左右,国内对手语语言学这一边缘领域的研究认可度并不高。当时手语的研究主要是由特殊教育领域的专家进行,他们关注的是如何教授聋生通过手语学习汉语,语言学界几乎无人涉足这一领域。

我的导师龚群虎教授在新加坡做博士后期间,注意到国外一些大学语言学系常常会有几位专家专注于手语研究。由于他自己也会一些手语,他开始特别关注这一领域,并在此期间搜集了大量相关文献资料。

2002年,龚群虎教授被引进到复旦大学时,将这些资料和想法带到了国内。

2003年,我开始攻读博士学位,导师询问我是否愿意从事手语研究。当时我对此并不熟悉,但我愿意尝试,所以导师就给了我一本美国语言学家写的书,名为《Sign Language(手语)》。

这本书基于是1970年代加州大学圣迭戈分校和索尔克研究所一批学者针对手语的实验工作而进行的研究,他们原本是希望探讨聋人在没有语言的情况下是否仍具有思维能力。他们以聋人和听人为研究对象,发现聋人不仅具有思维,而且拥有自己的语言——手语,这一发现激发了一批研究者对手语的研究兴趣。

我在阅读这本书后也感到非常兴奋,尽管当时国内没有这方面的深入研究,中文研究资料也非常匮乏,但我发现手语研究与我之前从事的现代汉语语法研究有很多相似之处,手语研究中的许多问题也是汉语研究需要面临的问题,所以从那时开始我对手语研究产生了浓厚的兴趣。

AI科技评论:我留意到您是中国大陆培养的第一位「手语语言学」方向博士,博士期间在手语领域做了哪些工作?

倪兰:博士期间我向导师表达了意愿,希望能专注于手语的语法研究。因为特教专业已经在手语词汇研究方面做了很多工作,而在语法和手语的“语音”(尽管手语没有声音,但在语言学意义上可以被视为一种“语音”)方面,研究还相对较少。

从2003年开始,我跟随导师进行研究,直到2007年毕业时,完成了中国大陆第一篇关于手语动词的博士论文。

当时,香港中文大学也在进行手语研究,邓慧兰教授带领的团队极大推动了香港手语研究的发展。我2007年从复旦大学毕业时,国内的手语研究领域争议还颇多,有人认为手语不过是一种辅助工具,缺乏系统的语法结构,不能算作一种真正的语言。由于懂得手语的学者寥寥无几,这一领域的研究并未得到广泛认可。因此,我并没有以手语研究的身份应聘任何高校,而是凭借我之前的汉语教学经验,成为了上海大学国际交流学院的一名语言教师。

后来,我有机会被派往国外工作,发现很多国家,包括我所工作的土耳其等国家,都有专门的手语研究者。2010年,中国残联和国家语委在北京师范大学成立了国家盲文和手语研究中心。它标志着手语、盲文研究开始受到更加广泛的关注,这也是我国手语研究的一个重要转折点。2012年,我和导师共同申请了一个国家社科重大项目,专注于中国手语数据库的建设。作为句法子课题的负责人,负责长篇数据采集和相关数据分析工作,目前建立的手语数据库存放在复旦大学。

AI科技评论:后来是怎么把手语工作带到了上海大学?

倪兰:参与中国手语数据库这个国家社科重大项目的工作后,我向上海大学文学院提出了成立一个手语研究中心的想法。2017年,“中国手语及聋人研究中心”在上海大学成立。这是中国综合性大学中首个专注于手语研究的校级研究机构。中心致力于开展手语和聋人的科学研究以及国家通用手语的推广工作,我担任了研究中心主任。

中国手语(CSL)是一个广泛的概念,它可以包括国家通用手语和中国各地方手语。

2018年,经上海市语委推荐我们以特殊人群语言文字研究为特色申报了教育部、国家语委的“国家语言文字推广基地”,2019年底、2020年初,我们获批成为“上海市语言文字推广基地”和“国家语言文字推广基地”。这个过程的每一步都来之不易,记得我们当时在申报答辩时,有专家提问为何一定要以国家语言文字推广基地的形式来进行相关研究。我回答,特殊人群的语言文字使用虽然涉及的人群相对较少,但相关研究需要得到国家和社会各界的认可和支持,以及制度、经费保障,否则难以长期持续。

2017年,“中国手语及聋人研究中心”在上海大学成立,倪兰教授(右一)


当语言学背景学者参与技术开发

AI科技评论:上海大学对手语研究是很支持的,这很难得。国内还有哪些手语语言学研究团队?

倪兰:上海大学对于一些特色研究方向还是非常支持的,我们的研究中心设在文学院中文系,但我们有很多交叉研究,分布在计算机工程与科学学院、通信学院、社会学院、新闻学院、电影学院、外语学院等。

目前,包括复旦大学、华东师范大学、厦门大学等在内的许多外语界的老师也开始进入手语研究这一领域。当时我在复旦的师弟师妹们毕业后也分别进入不同的学校,如北京师范大学、上海外国语大学、上海师范大学、燕山大学和鲁东大学等,他们在各自的岗位上继续着手语研究。

总的来说,在国外,手语语言学研究已经是一个相对成熟的研究领域。在国内,手语研究仍然被视为一个特殊的研究方向。但我相信,随着时间的推移,手语研究将得到更广泛的认可和发展。

AI科技评论:手语语言学研究是一个方向,但国内关于手语的研究文章主要集中在计算机领域。现在您会和计算机视觉专家合作开发手语识别系统吗?

倪兰:确实存在这样的现象。从2003年开始,我们着手进行手语语言学研究项目时,发现计算机领域开展手语识别研究有不少机构,如哈尔滨工业大学、中国科学技术大学和中国科学院等都有相关研究团队,他们的研究主要集中在手语识别上,特别是孤立手势的识别。

语言数据调查和分析,是语言学研究的基本方法,也是语言学理论研究的基础。手语语言学者的研究主要是调查和描写手语的实际使用情况,研究手语内部结构规律,语言的发展变化,以及与有声语言的联系和区别等。

AI科技评论:实地调查,意思是建设语料库吗?这对CV学者来说如获珍宝吧?

倪兰:语料库建设是语言学的一种重要研究方法。对于语言学研究者来说,语料库是进行语言研究的重要基础,是观察语言现象的重要来源。手语语言学研究的核心目标是通过语料来分析手语内部结构,建设手语语料库是我们进行研究的基础工作。

境外很多研究机构,包括香港、台湾地区都有公开发布的手语数据库,但中国大陆目前还没有公开发布的相关手语数据库。2017年,我们承担了国家语委和上海语委的手语信息化项目,2018年,完成了部分数据采集和数据库建设的初步工作,并在年底举办了研讨会。当时我们邀请了国内计算机领域做图像识别的专家,对我们的数据库提出很多建议。目前,我们的语料库已经收集了8万多条数据,其中包括国家通用手语词汇,以及许多手势的地方变体,即同一个手势的多种打法。未来我们希望将全国的地方手语数据都纳入这个语料库,成为中国手语研究的一个重要的数据来源。

在采集手语数据时,国际上的通行做法是,听人不能直接参与调查,因为他们的参与可能会影响聋人自然地使用手语。因此,我们需要培养一批懂语言调查的聋人研究者,让他们深度参与语料库建设项目。在过去几年中,我们在上海建立了一支团队,包括年轻的和年纪较大的聋人,他们帮助我们采集数据,并参与各类手语项目。

手语语料库的建设是一项社会性和系统性的工作,它需要各类人员的参与和合作。这个过程不仅是为了收集数据,也是为了培养聋人社群中的研究者。如果没有来自这个群体的研究者,很难获得有价值的数据,也很难得到聋人群体的广泛认同。

AI科技评论:手语跨学科合作是合作哪些方面,遇到过哪些挑战性问题?

倪兰:与计算机专业背景的专家合作,我们希望通过语言学视角观察到的规律和原则来辅助计算机视觉技术识别手语动作和意义。

目前的图像识别和语言识别技术可以在不清楚语言内部结构的情况下,通过大量数据集训练让机器自动学习并得出结果。但在小样本数据情况下,提供关键数据的标注可能会有助于减少误差,提高识别的准确率。

手语识别技术发展的挑战可能在于目前我们还无法提供大规模的标注数据。

国内一些科技公司研发手语数字人所依据的数据具有很大的同质性,缺乏突破。在这一领域要实现大的突破,需要有规范化、标准化,并且应用场景丰富、准确性高的标注数据,这是我们未来工作的一个重要方向。

手语数据库建设由于肖像权、知识产权保护等问题,对外公开发布也是一个巨大挑战。如何保证数据公开不会被他人滥用,如何设置权限来保护这些数据,同时确保它们能够广泛用于科学研究和教学。

AI科技评论:我知道手语作为一种视觉表现力极强的语言,其面部表情和头部动作对于整个意义的表达至关重要,但如果涉及到肖像问题,会有合适的数据公开方式吗,也就是说与“手语计算”领域的合作是不是更难?

倪兰:在参加国际会议时,我们了解到一些处理方法,比如对眼睛部分打马赛克,但这样做会丢失重要的语义信息,如眼睛开合、皱眉等,这些都是手语理解中不可或缺的表情要素,一旦这些部分被模糊处理,就很难准确传达手语的意义。

在数据采集中,除了基本的手势词汇,我们还采集了长篇语料,我们的学生正在对这些数据进行标注,目前我们使用的是单机版的标注方式。未来,我们希望能够将其发展为网络版,以便更多人可以共同参与标注。

AI科技评论:我们非常关注这些前沿技术是否您的手语跨学科研究有影响,包括去年推出的大型语言模型ChatGPT,以及今年的文生视频模型Sora。这些人工智能的最新进展,您和团队有接触吗?

倪兰:我们一直在密切关注信息技术领域的快速发展,也鼓励学生尝试使用这些技术,了解相关的性能。这些技术从有声语言角度看,在语言结构和精细度方面已经取得了令人难以置信的效果。但在手语领域,我还没有看到特别出色的应用。

在美国,除了纽约城市大学,还有宾夕法尼亚大学也在进行手语识别方面的相关研究。圣地亚哥的索尔克研究所、芝加哥大学、加劳德特大学等研究机构也是手语语言学研究的重要阵地,他们在语言本体研究方面做了大量工作。

AI科技评论:最后想请问您,最希望得到计算机科学家的哪些支持?

倪兰:计算机科学家需要手语语言学的标注语料,同时语言学也希望信息科学能够为语言学研究提供技术支持,如语料的切分和机器的自动标注。除此之外,两个领域的研究者需要共同探讨哪些标注有助于手语识别和合成技术的发展,这些方面有可能也是我们人类识别语义、理解语言、使用语言的重要标记。

在本次对话中,倪教授还分享了手语语言学研究,如何为计算机视觉技术在捕捉和分析手语动作时提供理论指导。欢迎同道添加本文作者吴彤微信(icedaguniang )交流。


|GAIR live 圆桌预告

3月18日晚8点~10点,雷峰网将举办主题为「AI+手语识别,技术革新与应用前景」的线上圆桌论坛。

本次论坛嘉宾有,美国纽约城市大学田英利教授、上海交通大学自动化系苏剑波教授、上海大学计算机工程与科学学院方昱春教授、上海大学文学院倪兰教授,共同分享他们的见解和研究成果。

“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

|手语相关资料

1,《专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA

2,《Multi-Modal Multi-Channel American Sign Language Recognition https://gairdao.com/doi/10.1142/S2972335324500017


|IJAIRR正在邀约论文和专题

《国际人工智能与机器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。

作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。

我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。

(1)“如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。

(2)如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。

(3)如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。

IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。


联系人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg

关于期刊创刊主编等更多信息,可点击:https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

关于雷峰网、GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为:https://gairdao.com/journals/ijairr

]]>
人工智能学术 //m.drvow.com/category/academic/XkHByria5kG8YCyM.html#comments Thu, 14 Mar 2024 10:00:00 +0800
专访GAIR研究院院长朱晓蕊:以Web3技术为引擎,推动「去中心化科学期刊」的新时代 //m.drvow.com/category/academic/vBkVqpLGAeEDEsfE.html 作为一名创投背景的学术带头人,朱晓蕊刚刚迎来她的47岁人生。

从学术成就看,1977年出生的朱晓蕊,先后在1998年和2000年取得哈尔滨工业大学学士和硕士学位,2006年,她在美国犹他大学获得博士学位,具有机电一体化和机械工程多重背景;学成归来后,朱晓蕊进入哈尔滨工业大学(深圳)任教,2011年被破格评为博士生导师,2014年被评为正教授。

在她担任哈工大教授的14年中,作为项目负责人主持了不少国家级项目,总经费超过千万,并多次参与组织了机器人领域的全球顶级学术会议,曾被IEEE评价为“机器人领域的杰出女性”。

从创投成就看,她是“全球无人机霸主”大疆前首席科学家、“港股激光雷达第一股”速腾聚创首席科学家、机器人公司大道智创的联合创始人和投资人、自主驾驶导航技术研发商一清创新的创始股东。一拿资金二拿技术,走出了一条“导师+学生”的独角兽孵化之路。

但业内少有人知的是,朱晓蕊还是中国科技媒体雷峰网创始人林军的另一半。两人于2011年在深圳成立雷峰网,五年后联合高文院士、徐扬生院士等人共同发起国内第一个具有全球视野的大型AI论坛——全球人工智能与机器人大会(GAIR)。

作为历届大会的组委会主席或程序主席,朱晓蕊所积攒的人脉图谱被再次释放。她曾定下嘉宾邀请的三条准则:

一是国内在某个研究方向上的知名院士、

二是海外包括华人在内的某一领域的领军人士、

三是在以科技创新为特色,有很强学术背景的大公司任职的知名科学家。

她表示,“以前,学术界、工业界、投资界各自为营,大部分人觉得这三个领域是完全分开的。但在我们的会上,这三界的融合一定要成为大会一个新看点。”

科技圈内用一句话总结朱晓蕊:不会创业的教授不是好的投资人,技术出身的她善于联手一众学术界、产业界、投资界人士,投身中国硬科技产业化的历史进程。

新加坡GAIR研究院院长朱晓蕊博士

2023年,除了教授、投资人、联合创始人之外,朱晓蕊有了第四个身份--学术期刊创刊主编--《人工智能与机器人研究国际期刊》(IJAIRR)。

IJAIRR是全球第一本聚焦在人工智能(AI)、机器人(R)以及基础科学研究领域(R)的跨学科国际学术期刊。延续以往思路,这本期刊将重点关注来自产学研各界的研究进展,并且入选该期刊的优秀作者,将会受邀在GAIR大会上作主题演讲。

但不同于其他期刊,“鼓励互动”是IJAIRR最大的特点,即以“去中心化科学”为核心理念,采用激励方式提倡科学家公开分享和讨论他们的研究。

期刊主页链接:https://gairdao.com/journals/ijairr

近日,经科学论证、严格评审、扎实筹备,首期五篇论文已上线。借此契机,雷峰网对话朱晓蕊教授,深入探讨了她的人生经历、创刊历程,以及简要介绍首期收录论文。

揭秘创刊心路

Q:朱老师,首先请您讲一讲,作为一名有产学研投背景,参与组织过多届大型科技峰会的女性科学家,为何在现在这个时间点决定创办一本学术期刊?

朱晓蕊:我在2021年就有创立一本“人工智能+机器人+基础科学”聚焦交叉学科的国际期刊的想法,并在2022年下半年开始筹备。当时我先联系了新加坡世界科技出版集团的董事会主席潘国驹教授。

这个出版社是他一手创立,如今已经成为亚洲最大的科学出版社之一。这是我们首次正式合作,但我很早就对他们的学术出版和期刊有所了解,潘国驹教授非常认可和支持我,便向我推荐了他们出版社的总经理李志伟博士。

紧接着我开始选择联合主编人选,联系长期从事人工智能、机器人或基础科学等跨学科研究的学者。

我与孙宇教授认识多年,他在机器人抓取研究领域表现出色,过去几年曾来GAIR大会做过演讲,效果很好,还担任过大会的session chair,因此是联合主编的理想人选之一。但我希望在期刊的研究方向上拥有多样化的团队。

人工智能与医学结合是一个有趣的领域,并通过朋友的介绍联系到了在这个领域造诣颇深的许东教授。在讨论后,许东教授认为该期刊在定位上独特,没有其他类似的刊物,便很爽快地答应了作为联合主编的邀请。而且在后续过程中他非常有热情,我们一起讨论了期刊的运作模式。

人工智能与机器人研究国际期刊(IJAIRR)成立仪式,李志伟、孙宇、朱晓蕊、许东

更为关键的是,许东和孙宇两位教授在过去的职业生涯中,曾经担任过许多顶级期刊的编辑,他们对期刊的运作有丰富的经验,知道如何管理和运营一个期刊。这是我们能顺利做同一件事的重要原因。

Q:能介绍下《人工智能与机器人研究国际期刊》(IJAIRR)吗,包括这本期刊的定位和面向对象?

朱晓蕊:这本期刊虽然在新加坡创立,而且合作出版社的董事会主席潘国驹是华侨领袖,联合主编们也是华人背景,但我们的期刊并不是专门面向华人。

可以理解为,这是一个由华人科学家组织的,面向人工智能、机器人及基础科学研究的交叉领域的期刊,但我们的目标是成为一个全球性的平台,吸引来自不同国家和地区的科学家参与投稿和阅读。

为了具有全球影响力,期刊的编委成员应该具有多样性,覆盖不同的地域和国家,以反映全球范围内的科学研究。而且期刊在新加坡成立也会放大这种国际优势。新加坡作为一个连接亚洲、欧洲和北美的重要门户,具有独特的地理位置优势。

我希望通过在新加坡设立期刊,吸引更多的国际科学家和读者参与进来,展现多种文化和研究背景的视角。未来IJAIRR期刊与GAIR大会是相辅相成的关系,优秀的期刊作者会邀请到大会做演讲和宣传,也有助于促进全球范围内的学术交流和合作。

Q:这个期刊和雷峰网GAIR大会有何联系?从雷峰网2011年成立,到2016年创办GAIR大会,一直到2023年成立GAIR研究院,创办期刊,背后是怎样的演变发展逻辑?

朱晓蕊:雷峰网最初以智能手机及其生态为重点,随着时间的推移,其关注领域逐渐扩展到更广泛的深科技领域。

2016年,雷峰网创办了GAIR全球人工智能与机器人大会,目的是促进学术界、产业界、投资界以及地方政府的交流与合作,推动产学研的深度融合。因为过去它们之间存在明显的隔阂和边界。

学术界往往专注于自己的学术研究,工业界则关注产品研发和升级,而地方政府则关注宏观政策和产业规划。这种隔阂和边界的存在,导致三方之间的交流和碰撞机会很少。

比如学术界的人所做的研究原来只需要得到同行的认可,边界就到这了。但是你把这些东西拿给工业界的人看,给政府做宏观政策的人看,他们是什么想法、他们认不认可这个东西、或者是从他们的角度对你有些什么样的建议。

工业界的人也是一样的。尤其是在中国工业界,以前大家自主研发的东西并不太多,后面慢慢地随着整个产业去做升级,工业界的人发现原来那种粗放的方式已经不能奏效了,必须要有自主研发,因此会第一时间想到要跟学术界形成对接。

为了把整个产业升级的生态链条搭建起来,雷峰网在2016年举办了GAIR大会,旨在搭建一个学术界、产业界、投资界和政府之间的交流平台。可以说这是一个各界双向奔赴的过程。2023年GAIR研究院的成立,是在GAIR大会基础上进一步深化这种跨界合作,通过各种方式将会议内容的精华部分沉淀下来。

会议结束后,讨论和交流的内容往往很难被保存和延续。因此,我们决定创建一个在线的社区和一本高质量期刊,以便更好地将会议中的讨论和交流内容进行整理和保存。这样可以促进学术交流和合作,并使更多的学者能够分享他们的研究成果。

Q:为什么这件事是你来做?在您自己此前求学和博导经历中,您和产业界、投资界的互动就比较多了,而且还鼓励学生去创办公司,所以从你个人来说,什么触动了你去做“桥梁”的工作?

朱晓蕊:我是2006年底博士毕业从美国回来的,2007年正式开始在哈工大深圳研究生院做老师,正好是深圳市产业转型的关键时期。当时,深圳市主要是以低端制造业为主,而政府希望将其转向高端产业。

深圳市政府希望通过建设大学城来吸引优秀的高校和学生,以推动产业升级,所以最早才有了哈工大、北大、清华三个学校的深圳研究生院(没有本科)。

我当时也是因为这个事情,在深圳开始了我做老师的生涯。2002年哈工大与深圳共建成立研究生院,由于成立初期全职老师的数量相对较少,实验室的研究方向有限,而每位研究生必须从头到尾完成一项研究课题才能达到毕业要求。

尽管深圳市有产业升级的需求,但当时拥有研发的企业并不多,于是我开始考虑如何让学生参与到更有意义的项目中,而不是仅仅去企业里做一些重复性的低端技术工作。

因此,我那时候鼓励学生在完成基础课程学业后创办公司,将前沿课题转化为创业项目。通过这种方式,学生可以在创业过程中完成毕业论文,又能为产业升级做出贡献。

这个过程中,我加深了对工业界的了解,也促使我梳理出一种学术研究与产业实践结合的模式。过去我们在学校实验室里做了很多东西,但往往被浪费掉了,很多研究成果被搁置,没有进一步地转化为应用。

尤其是我们偏工程的一些学科,做出来的很多研究成果差不多就是 3 到 5 年的生命周期。也就是说,如果这3 到 5 年之内,你这个成果没有去更进一步地转化成应用,很大可能就会过时了。

所以当时大概5年左右我会换一个新的课题方向。因此学校的教授们可以引领研究方向,去找产业界里的漏洞、短板、长期需要升级的地方,然后把后续的产业转化机会交给有兴趣有能力的学生,这在某种程度上也是一种传承。

总的来说,我认为与产业界的紧密合作和鼓励学生创业是将研究成果转化为实际应用的重要途径,同时需要不断地更新研究方向,保持研究的时效性和价值。

Q:为什么要创办一本囊括了AI、机器人和基础科学的交叉研究的期刊,这与您自身的研究方向有关吗?朱晓蕊:我本科就读于哈尔滨工业大学(哈工大),在大三时选择进入了学校新成立的“机电一体化系”,属于最早成立的一个交叉学科的系,哈工大机器人研究所当时就隶属于这个系。这个研究所是学校的重要研究机构之一,机器人研究所的成立标志着学校对机器人技术这一前沿领域的重视,现在基本上算是机器人领域的“黄埔军校”了,许多从事机器人研究的学者和专家都与该研究所有关联。

我当时是考研第一名顺利进入了机器人研究所读硕士,在那里对机器人研究领域产生了浓厚的兴趣,并在博士阶段去了美国犹他大学做进一步深入研究。

随着机器人技术的发展,我意识到机器人不仅仅需要关注身体部分(机器人的物理结构),还需要关注大脑部分(即智能决策和感知能力),即人工智能。因此,我在博士后半程开始偏重于机器人+AI方向的研究。等到我自己开始独立做研究的时候,基本上都是在往机器人与 AI 这个交叉方向去做。

我当时以做“感知定位技术“开始,感知技术是机器人+AI方向的一个重要分支,涉及理解周围环境,包括视觉、听觉、触觉等。我认为,将机器人与人工智能相结合是一个具有挑战性和前景的领域,希望通过自己的努力,为这个领域做出更多的贡献,我们现在创办的这本期刊重点关注之一便是机器人学与人工智能领域的紧密结合。

这本期刊关注的另外一个重点是AI或机器人和基础科学的交叉研究,这块是我自己很感兴趣但是时间精力所限没有机会开展的跨学科研究方向,也是引领未来的研究方向。

我相信人工智能与机器人技术将成为未来人类社会的基础设施。

一方面,更多的基础科学研究会在人工智能与机器人的赋能下取得范式转移层面的理论突破和应用进展。另外一方面,人工智能与机器人研究的进展也将受益于与不同基础科学的合作,包括数学、物理、生物学、心理学、语言学等。这种相互影响、相互成就才是跨学科研究的魅力所在。

Q:首期上线的五篇论文,能介绍它们各自的特点和研究领域,以及你们的筛选评审过程吗?

朱晓蕊:首期论文非常重要,希望为后面投稿的作者们提供有益的启示和借鉴。所以最终入选的论文来自不同国家和地区,包括美国、新加坡和中国,展现了期刊的国际性。同时,这些论文也代表了AI、机器人、基础科学领域的跨学科研究成果,符合期刊的定位要求。

我分别来简单介绍一下IJAIRR首期发表的五篇文章:

Bud Mishra教授的论文《AI, Thinking Machines and A Vast Active Living Intelligent System》

Bud教授来自美国纽约大学,是该校Courant数学研究所,Tandon工程学院和医学院的教授,以及西奈山医学院和冷泉港实验室的客座教授,同时也是我们期刊的编委会荣誉顾问。

他长期从事生物信息学研究,所以他从生物学的一些概念类比过来,探讨了生物学启发的AI研究,提出了一种超前的观点性文章。我称之为"Biology-inspired AI",即,该文章创新性地从生物学的维度思考和畅想人工智能的未来,利用信息不对称性博弈论的工具去分析和讨论未来人工智能时代人和智能机器共生的可能性。

论文全文链接:

https://gairdao.com/doi/10.1142/S2972335323020015

田英利教授团队的文章《Multi-Modal Multi-Channel American Sign Language Recognition》

田教授来自美国纽约城市大学,2000年前后曾在卡内基梅隆大学机器人研究所进行博士后研究工作,师从当今计算机视觉和机器人领域巨擘金出武雄(Takeo  Kanade)教授,曾在 IBM T. J. Watson 研究中心领导视频分析团队,是工业界走向学术界的重要女性代表。

她的这一论文涉及研究AI在语言学领域的应用(AI for Linguistics),提出了一个基于机器学习的多流框架,用于从RGB-D视频中实时识别美国手语(ASL)手动手势和非手动手势(面部和头部运动)。具体方法是基于3D卷积神经网络(3DCNN),通过融合来自多个通道(RGB、深度、运动和骨骼关节)的多模态特征,包括手势、面部表情和身体姿势。

论文全文链接:

https://gairdao.com/doi/10.1142/S2972335324500017

Ling Feng教授团队的《Asymptotic edge of chaos as guiding principle for neural network training》

Ling Feng教授来自新加坡高性能计算研究所,利用数学方法研究AI,试图解决AI的“黑箱”问题,即AI决策过程的可解释性和理论指导。

论文全文链接:

https://gairdao.com/doi/10.1142/S2972335323500011

周伯文教授团队的文章《Generative AI for Complex Scenarios: Language Models are Sequence Processors》

周伯文教授拥有丰富的前沿研究经历与业界经验,曾任IBM Research人工智能基础研究院院长、IBM Watson Group首席科学家、IBM杰出工程师、京东集团高级副总裁、集团技术委员会主席、云与AI总裁,2022年从产业界回到学术圈。

本篇论文中,他从宏观框架层面讨论人工智能应用从解决狭义问题到导航复杂的现实场景的范式转变。因为如今以GPT-4为代表的大型语言模型(LLMs),已经超越了语言处理的传统界限,在理解和生成精妙文本方面表现出了非凡的能力。这篇涉及AI 和机器人的交叉研究,也是一篇观点类论文。

论文全文链接:

https://gairdao.com/doi/10.1142/S2972335324010014

孙宇教授团队的文章《Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》

孙宇教授来自美国南佛罗里达大学计算机科学与工程系,主要研究领域为机器人、智能系统、医疗健康应用。他的这篇论文也是AI 和机器人的交叉研究,但不同于周伯文教授,他讨论了如何将AI中的大型语言模型应用于机器人的任务规划,这是一个具体的场景应用研究。

论文全文链接:

https://gairdao.com/doi/10.1142/S2972335324500029

总之,首期发表的五篇文章涵盖了AI与生物学、语言学、数学以及机器人学的交叉研究,不仅关注AI的具体应用场景,还探讨了AI的理论基础和可解释性,以及研究范式探讨。而且同行评审是学术期刊中非常重要的一环,可以确保论文的质量和学术价值。

在我们的编委会成员中,已经有Prof Bud Mishra 、Prof. Dr.-Ing. Tamim Asfour 、Prof I-Ming Chen 、ProfessorZhidong Wang等5位编委会荣誉顾问,以及15位来自全球各地的编辑,他们会根据文章的研究领域和内容,再选择合适的同行评审者。以确保评审过程的公正性和准确性。

具体可看:

https://www.worldscientific.com/page/ijairr/editorial-board

Q:在这本期刊的运营方式上,您提到了“去中心化科学”“Web3技术支持”两个词,这对期刊发展有何影响?

朱晓蕊:这是针对学术界长期存在的“学术中心化”而提出的一种解决方法,旨在打破学术思想的不流动性桎梏,促进学术交流和创新。我们会利用Web 3技术提供的工具来支持未来在线学术社区的运作。

因为Web 3技术的核心特点是去中心化,这意味着数据和信息的控制权不再集中在单一的实体手中,而是分散在网络的各个节点。这种模式有助于促进开放和透明的学术交流。

一个好的学术社区平台是能够促进科学生产资料的流通,包括论文、数据库、实验视频、算法原始代码等。(平台为 gairdao.com ,目前还在建设中,将在2024年3月开放测试)帮助学者们将他们的研究成果推广到更广泛的受众,而不仅仅是发表在期刊上后就被淹没。这样的平台可以鼓励更多的学术交流和反馈,让学者们能够看到他们的工作被实际应用和复现,从而获得同行的认可和进一步的改进建议。

就像社交媒体上的互动一样,学者们可以在平台上分享他们的进展,得到同行的点赞和评论。这种互动不仅能够提升研究的可见度,还能够促进学术界的民主化,让研究者们能够直接从同行那里获得反馈,而不是仅仅依赖于有限的同行评审过程。更重要的是,对于公开分享他们研究并参与社区建设的人,我们会提供相应的经济回报,形成一个良性循环。

这里就会用到Web3工具中的经济功能。未来社区将会有不同级别的活动,以激励学者们在不同层面上参与平台上的交流和合作。总的来说,我设想的去中心化学术社区平台,将有助于促进知识的开放共享,提高研究的透明度和可复现性,同时也为学者们提供了一个更加活跃和互动的学术交流环境。

我们从过去的GAIR大会到现在的期刊和在线社区,都是为了形成一个完整的学术交流平台,服务于在该领域的所有人。

Q:最后,请您说说后续期刊的上线进程,以及对期刊的寄语。

朱晓蕊:我们计划在每三个月左右发布一期,每年发布四期,也就是每年的3月、6月、9月、12月。除了学术界,期刊还鼓励企业界学者和专家投稿,尤其是那些在企业内部研究院从事AIR研究的学者。

由于AIR领域发展迅速,许多企业都在进行相关研究以保持竞争力。通过期刊这个平台,企业界和学术界可以更好地交流和合作,共同推动AIR领域的发展和创新。

最后,我想说,《人工智能与机器人研究国际期刊》(IJAIRR)是人工智能与机器人(AIR)领域,第一本专注于人工智能、机器人技术和基础科学相结合的跨学科研究的科学期刊。

欢迎投递IJAIRR期刊,我们真诚地希望你能从阅读文章中得到启发,同时,我们也欢迎更多前沿科研人员加入编委团队  ijairr@wspc.com 希望这本期刊尽力做到最好!

首期论文已上线

论文一

题目:《Multi-Modal Multi-Channel American Sign Language Recognition》

作者:Elahe Vahdani、Longlong Jing、Matt Huenerfauth、Yingli Tian(田英利)

摘要:In this paper, we propose a machine learning-based multi-stream framework to recognize American Sign Language (ASL) manual signs and non-manual gestures (face and head movements) in real-time from RGB-D videos. Our approach is based on 3D Convolutional Neural Networks (3DCNN) by fusing multimodal features including hand gestures, facial expressions, and body poses from multiple channels (RGB, depth, motion, and skeleton joints). To learn the overall temporal dynamics in a video, a proxy video is generated by selecting a subset of frames for each video which are then used to train the proposed 3DCNN model. We collected a new ASL dataset, ASL-100-RGBD, which contains 42 RGB-D videos captured by a Microsoft Kinect V2 camera. Each video consists of 100 ASL manual signs, along with RGB channel, depth maps, skeleton joints, face features, and HD face. The dataset is fully annotated for each semantic region (i.e. the time duration of each sign that the human signer performs). Our proposed method achieves 92.88% accuracy for recognizing 100 ASL sign glosses in our newly collected ASL-100-RGBD dataset. The effectiveness of our framework for recognizing hand gestures from RGB-D videos is further demonstrated on a large-scale dataset, Chalearn IsoGD, achieving the state-of-the-art results.

关键词:American Sign Language Recognition; Hand Gesture Recognition; RGB-D Video Analysis; Multimodality; 3D Convolutional Neural Networks; Proxy Video

论文引用链接:

https://www.worldscientific.com/doi/10.1142/S2972335324500017#:~:text=Add%20To%20Favorites-,Download%20Citations,-Track%20Citations

论文二

题目:《Generative AI for Complex Scenarios: Language Models are Sequence Processors》

作者:周伯文、丁宁

摘要:Large Language Models (LLMs), exemplified by GPT-4, have transcended traditional boundaries in language processing, demonstrating remarkable capabilities in understanding and generating nuanced text.  Crucially, these models are pioneering a paradigm shift in AI applications—from solving narrowly defined problems to navigating complex, real-world scenarios.  Such a shift is based on a simple and fundamental principle: LLMs can process any data that can be serialized and tokenized, enabling them to engage in multifaceted reasoning and utilize diverse tools.  This capability positions LLMs to operate effectively in broader, more intricate contexts, marking a leap in AI's practical applicability and potential.

关键词:Large language models; Generative AI; Complex scenarios

论文引用链接:

https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324010014&area=0000000000000010

论文三

题目:《Asymptotic edge of chaos as guiding principle for neural network training》

作者:Lin Zhang、Ling Feng、Kan Chen、Choy Heng Lai

摘要:It has been recently demonstrated that optimal neural networks operate near the asymptotic edge of chaos for state of art feedforward neural networks, where its generalization power is maximal due to the highest number of asymptotic metastable states. However, how to leverage this principle to improve the model training process remains open. Here by mapping the model evolution during training to the phase diagram in the classic analytic result of Sherrington–Kirkpatrick model in spin glasses, we illustrate on a simple neural network model that one can provide principled training of the network without manually tuning the training hyper-parameters. In particular, we provide a semi-analytical method to set the optimal weight decay strength, such that the model will converge towards to edge of chaos during training. Consequently, such hyper parameter setting leads the model to achieve highest test accuracy. Another benefit for restricting the model at the edge of chaos is its robustness against the common practical problem of label noise, as we find that it automatically avoids fitting the shuffled labels in the training samples while maintaining good fitting to the correct labels, providing simple means of achieving good performance on noisy labels without any additional treatment.

关键词:Complexity science; Deep learning theory; Dynamical systems; Critical phase transitions; Spin Glasses; Order and Chaos

论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335323500011&area=0000000000000001

论文四

题目:《Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》

作者:Md Sadman Sakib、Yu Sun(孙宇)

摘要:The inherent probabilistic nature of Large Language Models (LLMs) introduces an element of unpredictability, raising concerns about potential discrepancies in their output. This paper introduces an innovative approach aims to generate correct and optimal robotic task plans for diverse real-world demands and scenarios. LLMs have been used to generate task plans, but they are unreliable and may contain wrong, questionable, or high-cost steps. The proposed approach uses LLM to generate a number of task plans as trees and amalgamates them into a graph by removing questionable paths. Then an optimal task tree can be retrieved to circumvent questionable and high-cost nodes, thereby improving planning accuracy and execution efficiency. The approach is further improved by incorporating a large knowledge network. Leveraging GPT-4 further, the high-level task plan is converted into a low- level Planning Domain Definition Language (PDDL) plan executable by a robot. Evaluation results highlight the superior accuracy and efficiency of our approach compared to previous methodologies in the field of task planning.

关键词:Robotics; LLM; GPT-4; Task Planning; PDDL

论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500029&area=0000000000000010

论文五

题目:《AI, Thinking Machines and A Vast Active Living Intelligent System》

作者:Bud Mishra

摘要:Biology-inspired AI: a descriptive discussion of the information-asymmetric game theory of AI, thinking machines and a vast active living intelligent system, and a prescriptive analysis of likely symbiosis of individual humans and bots resulting in a hierarchy of multi-cellularization.

论文引用链接:

https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335323020015&area=0000000000000001

后续雷峰网将推出IJAIRR论文作者专访,首篇为纽约城市大学田英利教授团队的工作,《多模态多通道的美国手语识别》。如果你也从事手语工作或其他医学基础研究,欢迎添加作者吴彤微信沟通,微信号:icedaguniang 

]]>
人工智能学术 //m.drvow.com/category/academic/vBkVqpLGAeEDEsfE.html#comments Mon, 19 Feb 2024 19:01:00 +0800
金出武雄和他的中国学生们,计算机视觉五十载风云 //m.drvow.com/category/academic/99vI62LO8TQkVtDt.html 突破性的成就对金出武雄来说并不新鲜。

自上世纪八十年代以来,金出武雄(Takeo Kanade)一直是卡内基梅隆大学的基础。

他发起、领导、合作了几个主要的自主移动机器人和各种应用系统,譬如该校的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM),只要是与计算机视觉技术的相关项目,总能看到金出武雄的名字。

但这并非关键,当他在这所学校工作了十多年后,一则所长的任职才将他的后半生拉开帷幕。

这涉及卡内基梅隆大学的机器人研究所,能否将技术创新推向高潮。1992年,金出武雄从创始所长罗杰·瑞迪(Raj Reddy)手中接过任命函,意味着这位从日本而来最初只有研究员身份的学者,彻底被美国敞开怀抱。

压力不言而喻,但金出武雄设法做到了。

一用灯塔光环招揽全世界精英,二以本所为纽带,联合匹兹堡大学等多校学术资源开展跨学科研究,自身的技术研究与人才培养水准从此进入全球前列。

用金出武雄的话说:“作为机器人研究所的所长,我得到了一个机会--把研究所发展成拥有200多位研究专家、在全世界最具盛名的机器人研究所的机会。”

多米诺骨牌般的连锁效应一旦开启,卡内基梅隆大学的机器人研究所变成了繁华的学术中心。

水涨船高,越来越多的美国科技公司毗邻而建,投资机会和可用人才也开始增加,形成了一个生态系统。

传言里Uber花大价钱在该校旁买下一栋楼几乎挖尽机器人研究所教授,美国通用汽车甚至啤酒制造厂这种体量的企业都与该所保持着多年合作。那些富有经济头脑的人,靠着从机器人研究所挖掘学生项目包装成公司往外卖,一夜暴富的事情隔三差五就会上演。

无一例外,名师高徒的故事也发生在金出武雄身上。

金出武雄

纵观整个计算机视觉、机器人、人工智能领域的风云人物,里面一定那些有耳熟能详的名字:

沈向洋、韩玫(平安硅谷研究院院长)、陈梅(微软云与AI首席科学家)、柯启发(Uber高级工程总监)、田英利(纽约市立大学教授)、肖京(平安集团首席科学家)、钟华(文远知行工程资深副总裁)、李岩(文远知行CTO)、康洪文(慧川智能创始人),再加上那些与金出武雄合作过的博士后、访问学者,更是不胜枚举。

作为金出武雄的学生,他们既标志着金出武雄的过去,又和金出武雄形成了流动的对照。“学生们”的身份,俨然成了他们的一个符号,相比很多人而言他们起点颇高。

事了拂衣去,深藏功与名。但江湖,记住了金出武雄的名字。

“我们只去美国五年”

金出武雄的人生分成了三段,前段留在了日本,中段留在了美国,现在七十多岁这段才又回到了日本。

他三段经历都值得说道,因为归根到底都是一个主题,让计算机“看”世界。但放在20世纪60年代,这不是一件轻而易举的事情,那时的计算机处理图像速度非常慢,半间屋子是计算机,另外半间是空调,用来散热,数据处理速度更是与今天不可相提并论。

1968年,金出武雄本科毕业于京都大学工学部电气电子工学系,随后六年硕博进入该校堺实验室的“计算机化图像识别”研究小组,师从酒井敏之教授。

金出武雄对计算机图像和声音处理与识别进行了研究。这是当时世界上最先进的研究,也引出了后来的研究课题--创建世界上第一个全面的基于计算机的面部识别程序。

事实上,开发这样一个前所未有的面部识别程序需要很大的勇气。金出武雄曾表示过,“我不想被问到我是否可以做到,当我进入博士课程时,使用计算机处理图像的想法已经开始出现,我认为这是一种应该可行的技术。”

可以大胆想象,金出武雄一切构想的根源都是“我想要这样”,而并不是“能不能实现呢”,他始终抱着一种“能实现”的积极态度。

但是,当时还没有数字图像,没有办法将胶片上拍摄的照片数字化。他不得不使用标尺在纸质照片上整齐地绘制网格线,将其与标准的亮度模式进行视觉匹配,并手动对每个像素进行编号。紧接着,他又不得不在打字机上重新输入,并将其放入计算器中以创建数字图像。这是一项非常耗时的任务,可以称它为“人类数字化图像”。

1970年,大阪世博会,机会来了。

金出武雄设计了一套装置。观众在镜头前坐上3秒钟,等待面部扫描,计算机会将他/她的眼睛、脸颊大小和五官比例与当时的名流对比。作为比对基准的名人大约有5个,约翰·肯尼迪(美国前总统)、温斯顿·丘吉尔(英国前首相)、玛丽莲·梦露(美国女星)。扫描后,屏幕会显示测评结果,“您拥有一张梦露同款脸型”。 

这台装置在世博会上大获成功,金出武雄在一次演讲中回忆,约有数千人进行了扫描。但他的两位指导老师酒井敏之教授和长尾真教授(后任京都大学校长)有些遗憾,未能将所有的数据保留形成数据库。

1970年大阪世博会上大获欢迎的人脸扫描仪装置,一名东亚老年男性被判定为“丘吉尔同款脸型”

金出武雄1973年出版的博士论文封面

1977年,金出武雄出版了自己的博士论文,《Computer Recognition of Human Faces》,将基于神经网络的人脸检测技术将检测率提高到前所未有的水平。他因此收到了主要来自美国的采访请求,如《连线》杂志。而且这项前所未有的研究成果,经美国国家科学委员会报告验证,也变得稍稍为人所知。

大概过了三十年后金出武雄对此表态,“我的研究生时代,还好提早拿出了漂亮的成果。”

对于大众来讲,这促使了今天在智能手机摄像头中普遍使用人脸检测。

1980年,当金出武雄获得博士学位,并从助教成为助理教授时,随后便被罗杰·瑞迪(Raj Reddy)招聘到了美国匹兹堡的卡内基梅隆大学(CMU),担任计算机科学学院当时新成立的「机器人研究所」(CMU RI)的高级研究科学家。

罗杰·瑞迪(Raj Reddy) (左)、酒井敏之(中),金出武雄(右)(约1990年在京都大学)

实际上瑞迪的名声在外,他就是李开复在CMU的博士导师,该校机器人研究所的首任所长,1994年图灵奖得主,也是美剧《生活大爆炸》中能说一口地道的印式英语的主角Raj的人物原型。

当金出武雄来到美国两个月后,在一次项目会议上,瑞迪突然告知:“视觉是金出武雄的专长,从今天开始,他将成为首席研究员,负责DARPA(国防高级研究计划局)发起的图像理解项目。”

通常,在美国,除非研究员编写自己的提案并获得预算,否则无法成为项目负责人。但当时如果瑞迪本人或CMU有任何其他人是成像方面的专家,这个机会一定不会如此轻松拿到。同时这也间接证明,瑞迪眼光毒辣,用人大胆,当初把金出武雄招来就计划让他挑起大梁。

但要说为何金出武雄提拔如此迅速,还有一个人不能忽视--艾伦·纽厄尔(Allen Newell)。

艾伦·纽厄尔(Allen Newell)

纽厄尔最大的名号是人工智能的创始人物,五十年代参加了具有历史意义的会议达特茅斯会议,六十年代离开业界,正式加盟CMU,主要精力放在了筹建和发展该校的计算机科学系。刚好在长假的一天,纽厄尔来到京都大学酒井教授的实验室。当时金出武雄是一名助理教授,相当主动地向纽厄尔介绍起正在做的研究。第二天,纽厄尔要去东京参观皇居,酒井教授提议让金出武雄带他参观,促使两人的关系迅速升温。

不过这还得说,金出武雄总是擅长抓住机会和更优秀的人聊天,“我在日本的时候,要是有名字在论文或者报纸上出现过的人来,我一定会见面谈一下,这样的机会一年最多就两三回。”

当金出武雄八十年代来到CMU,赶上了匹兹堡“锈带经济区”转型浪潮,该校机器人研究所抓住当地建立先进技术中心的契机,鼓励师生将其优秀技术商业化运营,与英特尔、苹果、谷歌、IBM、西门子、NEC研究院的合作由此开始。

在这样一个时期,金出武雄等一众研究员被彻底放开手脚,推动计算机视觉技术从实验室走向应用。

事实上,无论是在日本还是美国,金出武雄都严格遵循了日本研究人员的典型道路--在同一所大学建立自己的职业生涯。

但当周围的人问他:“你为什么要离开日本的大学去美国?”这个问题一经问出便意味着,还有一部分人认为美国大学的工作是没有保障的。

然而,金出武雄说道:“我知道美国大学拥有美妙的计算机环境,就像天堂一样,我保证在CMU待上5年,就可以做3倍于日本的研究。现在我35岁,如果加上15年,将是50岁。我想那时我不会再想任何新的事情,我的生命可以结束了。”

金出武雄最终在这所学校待了40多年,带领出一支高水准的计算机视觉研究队伍,而他本人也成为了CMU“吉祥物”地位的中心人物。

自动驾驶?早有人四十年前就玩过了

在美国期间,金出武雄参与了带有人工智能的摄像眼的机器人及其系统的开发等各种各样的研究。

1981年,金出武雄与团队设计出世界上第一个直驱机械臂,包含机器人组件内的所有电机,从而消除了长传动轴。这个研究当时被多家机器人制造商使用,被公认为最先进的机械臂技术之一。

但金出武雄的机器人梦想并不止步于此。自20世纪80年代中期以来,他发起、领导、合作了几个主要的自主移动机器人和各种应用系统,包括CMU的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM)。

金出武雄在卡内基梅隆大学,拍摄时间约为1985年,这年他拿到CMU终身教授职称

就拿无人驾驶汽车(NavLab)项目来说,这是一个开创性项目,旨在开发基于视觉的自动驾驶汽车技术,包括车道保持、自动平行泊车和物体检测。

1984年,在GPS还没有被发明的时候,金出武雄和团队在一处废弃的停车场测试了他们的第一辆自动驾驶汽车。在今天看来,当时的水准不值一提,但从那时起,在美国DARPA(国防高级研究计划局)等机构的资助和推动下,这个项目在1995年夏天一炮而红。

那一轰动性事件就是横穿美国的越野旅行。一辆代号为“NAVLAB 5”的小型货车从美国的东海岸驶到西海岸,它以约100公里/小时的速度从匹兹堡行驶到圣地亚哥,全程大概2849英里(约4587公里),其中自主驾驶部分达到了98.7%。

据Navlab 5的研发成员之一,这趟旅行中乘坐NavLab 5的两名学生,迪安·波默洛(Dean Pomerleau,Navlab小组的联合主任)和托德·约赫姆(Todd Jochem,两人为师生关系)回忆:他们当时花了4个月时间完成车辆的改装和软件调试,总成本不超过2万美元。所有装备包括一台计算机、一台640×480像素的彩色照相机、GPS,以及一台光纤陀螺仪。

最终驾驶方式是用挡风玻璃的摄像头来寻找车道线,人类负责踩油门和刹车。但这已经很棒了,为了标记这一事件,团队借鉴了1986年“携手美国” (Hands Across America)慈善活动的名称,将这次旅行称为“无手横穿美国”(NO Hands Across America)。

值得一提的是,当时他们的GPS并不是用来定位,而是测速。托德·约赫姆说,那时GPS还没有开放高精度定位功能,如果使用这种服务价格会十分高昂,同时,就算用GPS进行高精度定位,他们也没有匹配的地图。

不过这反而开辟了自动驾驶的一套范式。当诸多自动驾驶汽车依赖于3D地图来进行环境自适应之时,不需要地图来做决策的方式,意味着可以将一辆车辆扔到一个它完全没有去过的地点,它能够通过学习人类以往的驾驶经验来进行操控,而且表现很出色。

如今以特斯拉为代表的纯视觉方案,只靠摄像头,再加算法,来进行自动驾驶,走的就是这条路线。

基于1990年的庞蒂亚克运动款轿车改装的自动驾驶车NavLab 5(1995年)

照片中的两位是CMU研究员,迪安·波默洛(Dean Pomerleau)和托德·约赫姆(Todd Jochem)

有趣的是,这次具有历史意义的长途旅行当时几乎没有任何资金支持,他们在路上卖10美元一件的衬衫,用于支付食宿费用。“不需要双手驾驶,一边开车一边卖货确实是个好生意。”多年后,在美国脱口秀上,金出武雄靠这个逸事一出场就引得全场叫绝。

把这话放在现在,直到最近几年才有高校回过味来决定开设自动驾驶课程,但40年前,CMU人才一直处于自动驾驶汽车技术的前沿。在这一点上,甚至他们中很少有研究人员认为自动驾驶是一项难以想象的任务。

好比当时金出武雄表达了这样一段话:“在1980年左右,计算机图像处理已经成为一个非常普遍的概念,通过分析航空照片来建立识别和寻找道路的研究正在取得进展。你需要做的仅仅是在你的车里放一个摄像头,然后编写一个遵循你路径的程序。当然,这并不容易,但自动驾驶成为可能是理所当然的。”

这句话直接、简单、省略,即便对计算机视觉领域一知半解,没有深入研究的人也容易理解。这就是金出武雄的一大特点:像外行一样思考,像专家一样实践。

这句话同时也极具鼓舞人心的效果,意思是,研究项目领导的主要工作,就是给出这样的行动方针,懂得省略到什么程度是关键。如果直接从复杂的现实开始思考,是无法鼓励团队向前迈出一步的,提供研究经费的赞助商也暗生动摇。

在CMU机器人研究所的带领下,当时社会正处于一场意义深远的交通革命的边缘。

美国每天的头条新闻大肆宣扬自动驾驶汽车技术的最新成就、DARPA发起关于自动驾驶的城市挑战赛(这一比赛的地位等同于无人驾驶圈的奥林匹克)、科技巨头争相在匹兹堡开设了自动驾驶研究机构、汽车制造商竞相为他们的汽车配备更加智能和自主的系统,包括自适应巡航控制、停车辅助、避免碰撞、车道维护等。

比如2007年的DARPA城市挑战赛,100余组参赛队伍中,11辆自动驾驶车因其卓越性能脱颖而出,冠军就是“Boss”——CMU基于雪佛兰太浩的自动驾驶改装车。

CMU机器人研究所在DARPA挑战赛中的优秀表现,直接促使美国通用汽车公司对其捐赠500万美金建立第二个实验室--自动驾驶技术合作研发实验室。当年带队参加这场比赛的CMU电子计算机工程系教授拉吉·拉库马(Raj Rajkumar),成为这所实验室的联合主任。

但更大的意义是,从此全球开启了自动驾驶产业化之路。

就以拉吉·拉库马来说,此后他创办了Ottomatika公司(主攻自动驾驶软件和系统开发),2015年该公司被世界第三大汽车零部件制造商德尔福收购。到了2020年安波福(从德尔福分拆出来)和现代汽车共同出资40亿美元,成立了现在的Motional,与Lyft、Uber、Via等公司都有合作。

此外迪安·波默洛和学生托德·约赫姆一起创办了AssistWare,专门研究基于机器视觉的系统比如疲劳驾驶警告系统、车辆越位提醒,拿下一级汽车供应商威世通的订单,后来该公司在2006年5月达到顶峰,被康耐视公司收购,再后来就是康耐视将部分业务出售给日本TKHoldings了。

总之,当初这些在金出武雄领导计算机视觉小组工作的人,都凭借那一时期的工作在美国建立声名,从此在工业界独当一面。

说实话,别看现在CMU机器人研究所在自动驾驶方面很了不起,但当时接过DARPA(国防高级研究计划局)这种军方资金的支持,如果成效甚微免不了一顿重击。

尤其是如果说出CMU机器人研究所成立的背景,是由美国前副总统迪克·切尼(Dick Cheney)、海军研究办公室海军上将布奇诺(Bacchico)打了包票,找来了匹兹堡当地企业西屋电气总裁汤姆·默林Tom Murrin谈赞助,光面对这三人的“考核”都是巨大压力。

金出武雄一次说起类似的事。他到达美国后不久,第一次参加DARPA会议,从早到晚连上通宵都在讨论工作问题,当然他的英语不错,常被人褒奖“金出教授头脑很活跃啊”,还曾在研究生时74小时连续不断地思考问题,但是,“当我回到酒店洗澡时,我的手上有头发,我认为当时压力很大。”

在研究界活跃的研究者都有一个共同点,就是拥有智慧体力。智慧体力是金出武雄造的词,指的是能长时间连续思考同一个问题,从各方面来思考同一个问题而怎么都不厌倦的能力。

金出武雄设法做到了没有屈服于压力,仅1991年这一年的论文和报告数量为25篇,这样的研究强度保持了几十年,堪称史上罕见。

唯一一位登上超级碗的大学教授 

21世纪之前,金出武雄已经功成名就:CMU最高荣誉Helen Whitaker讲座教授、CV领域最高荣誉之一Marr奖、美国国家航空航天局(NASA)先进技术咨询委员会顾问、美国两院院士、IEEE / ACM fellow,诸如此类......

但他一生最重要的角色,一定是CMU机器人研究所的所长。

1992年,金出武雄从罗杰·瑞迪(Raj Reddy)手中接过了第二任所长一职,从此奠定了CMU机器人研究所的江湖地位。

用他自己的话说:作为机器人研究所的所长,我得到了一个机会--把研究所发展成拥有200多位研究专家、在全世界最具盛名的机器人研究所的机会。”

故此,1995年,机器人研究所凭借自动驾驶名声大噪,仅仅是金出武雄完成的第一阶段任务--帮助该所减轻经费压力、扩大师资力量,并将研究模块衍生到自动驾驶汽车一直到医疗机器人领域--机器人研究所从一个研究中心转变为一个拥有独特研究生和本科课程的成熟学术部门。

此时,距离金出武雄和团队亮相超级碗,还有六年。那是一场极致的视觉盛宴。

“我们涵盖了一切,从理论到软件,再到技术和硬件。我们的多功能性可能是我们真正的强项,我为此感到自豪。”金出武雄称。

(注:超级碗(Super Bowl)是美国职业橄榄球联盟年度冠军赛。多年来都是全美收视率最高的电视节目,并发展为美国一个非官方的全国性节日,甚至超级碗中场秀有“美国春晚”之称)

2001年1月28日,电视台在转播超级碗比赛时,使用了一个搭载“机器人摄像机”的名叫“EyeVision”(幻影)的新式现场直播系统。当时,世界上约有五亿人在电视机前收看了那场比赛。这个系统所用的技术是受在世界上拥有广泛电视网络的CBS公司的委托,由金出武雄和他的团队开发的。

这一直播系统新在何处?

打个比方,现在我们经常在刷到“运动会上摄影师跟拍,举着相机与运动员同频奔跑”的新闻。对于短跑比赛来说这种摄像操作比较简单,但对于橄榄球这种集体配合的、对抗性的射球比赛,要把决胜一瞬间的精彩画面捕捉进电视直播,光靠人力根本不可能完成。

于是,金出武雄提出一个思路:“我认为最好把相机放在你想看的地方,一个相机不行,就多加相机。”

球场内,他和团队在场地上方设置了200多台机器人摄像机来覆盖整个球场。球场外,CBS转播车中设置有带有监视画面的类似移动摄像机的装置,并与场内的机器人摄像机全部连接。

也就是说,当场外的装置做出“移动镜头”或者“变焦”的操作时,计算机同时进行运算,远程控制相应的机器人摄像机做出同样的操作,并且输出拍摄画面。所以,转播车中的摄影师根据拍摄的位置,可以自由地选择运动场内的摄像机,从而得到最理想的拍摄位置。

但效果并不仅仅而已。

“橄榄球比赛的时候要过那条线,过去是一堆人挤在那盯着,有了那个系统之后,就是‘啪’把那个时间停住,所有摄像机都转过来看。例如,在四分卫投球的那个瞬间,和传统的单向拍摄不同,我们的摄像机一起旋转,一起拍摄投球人的方向。对于是否触底得分的微妙情况,我们可以自由地将视点变换360°,一目了然并做出裁决。那个效果就像电影《黑客帝国》中的‘子弹时间’镜头一样。”

所有摄像机把拍摄的视频传送到转播车中,这样对每个摄像机拍摄的画面进行合并剪辑的话,可以360°全方位地再现选手和球的移动状况。

那次“EyeVision”在超级碗中所体现出的效果得到了大家很高的评价。这项研究的投资公司想把这项技术投放市场,结果它的股价在两周内翻了六倍。当年担任这届“超级碗”的中场秀表演嘉宾美国歌手小甜甜布兰妮,在这套直播系统的加持下制造了一场视觉盛宴,成为美国新生代流行文化的代表人物之一。

有趣的是,超级碗转播当天,金出武雄得到了25秒的时间对“EyeVision”系统中应用的新技术进行解释。2001年超级碗一个30秒广告220万美元,以后,金出武雄就戴上了“唯一出现在超级碗中的大学教授”的帽子。

他打趣道,“EyeVision是与世界上任何人开启精彩对话的门票。”在EyeVision之前, 当他在飞机上与旁边的人交谈,会说自己是CMU从事机器人技术研究的教授,仅此而已。 但是那场比赛后,当告诉别人建立了EyeVision时,所有人都说“哦,那个我知道,就是你做的啊。”那时金出武雄就会非常自豪。

在用于虚拟现实的3D相机室中,金出武雄被50台摄像机包围(1998年)

在准备安装EyeVision的工作人员的陪同下(美国佛罗里达州,2001年)

但后来回忆起来,金出武雄说比赛前的事故曾经接二连三地出现。

真正转播的日子是1月28日,前一年的9月就已经开始计划了,可到了12月初也才能确保几台机器人摄像机就位。12月24日圣诞节前夕,在纽约巨人体育场用5台摄像机做练习的时候,开发中的软件让他们团队认识到,要想使用30台摄像机所做的准备工作还差得很远,起码要200台。

接着,机器人电源的的电容器又不知道什么原因爆了,电源又不能用了。都到了转播的前一周1月21日,200台机器人摄像头中因为严寒能动的只有一半,而且还因为电容爆炸的原因数目还在减少。

解救了这场危机的是三个工作人员。

他们是研制完全自动飞行直升飞机项目的成员,而且在图像处理、计算机系统、通信软件、电路等方面可以说是专家中的专家。其中一位来自中国,如今谷歌资深软件工程师(principle level)滑蔚。管理Google Cloud AI的多个团队,也是平安硅谷研究院院长韩玫的先生。当初韩玫博士师从金出武雄(1995--2001),滑蔚从临校匹大毕业后进入金出武雄团队(1999--2001),一边等待韩玫毕业。

不过两人的方向稍有不同,滑蔚参与了金出武雄发起的多个大型项目,如EyeVision、虚拟化现实,重点研究了多摄像头标定、图像配准、面部表情分析、视觉跟踪和模式识别等问题。韩玫选的是导师金出武雄的强项--三维重建,博士论文做的是经典的Structure from Motion (SfM) 方法研究。

韩玫

此后,两人几乎在2001年初同一时间拿到NEC美国实验室的offer。同期华人有龚怡宏、朱胜火、余凯、王进军、王孝宇、林元庆、徐常胜、吕凤军、杨铭、徐伟、贾扬清等等,此后他们中陆续有人回国,余凯2012年加入百度、王进军2013年跟着龚怡宏回了西安交大、王孝宇在2017年10月加入云天励飞、林元庆2017年11月创立Aibee......撑起了中国计算机视觉的半壁江山。(这段故事请看:硅谷NEC Lab往事:将中国企业拽进AI时代的人。后续本文作者吴彤将推出韩玫的个人故事。欢迎添加微信交流:icedaguniang)

沈向洋、韩玫、田英利、肖京 

很多人可能有所不知,金出武雄门下的华人学生并不少。

除了之前提到的韩玫,还有陈梅(微软云与AI首席科学家)、柯启发(Uber高级工程总监)、田英利(纽约市立大学教授)、肖京(平安集团首席科学家)、钟华(文远知行工程资深副总裁)、李岩(文远知行CTO)、康洪文(慧川智能创始人)等等。

他们大多数人大都是跟着沈向洋(曾任微软全球执行副总裁,当年是视觉计算组负责人)在微软亚洲研究院(MSRA,当时还叫微软中国研究院)实习,开始对图像感兴趣,又追随着沈向洋的脚步到CMU机器人研究所,慢慢都成为了金出武雄的学生。

这里面有个沈向洋的故事,他其实是罗杰·瑞迪(Raj Reddy)的学生,但在1991年进入CMU后,却并没有走上导师所研究的语音识别这条路。沈向洋认为,语音虽然重要,但人对外界的感知,95%是从视觉来的,所以误打误撞成了金出武雄的“半个学生”。

当然,金出武雄给了沈向洋很多指导。沈向洋发表的博士论文是世界上最早有关由照片转换成虚拟现实的研究,所设计的四分树样条数函数算法,则是世界上最好的运动参数估计算法之一。

韩玫跟沈向洋在CMU重叠过一年,韩95年入学,沈96年毕业,韩玫还做过沈向洋在微软雷德蒙研究院的第一个实习生,两人关系匪浅,“我三次换工作之前都是先问沈向洋的意见。”

韩玫曾问过金出武雄,“当时你有没有一个判断,哪个学生很强?”

“我基本有一些判断,谁适合做教授,谁适合在公司,谁更有锋芒,谁更内敛。当时能看出来沈向洋是跟你们不太一样的中国人,更外向一些,脸皮厚,冲上去跟人聊天。”

金出武雄描述,沈向洋怎么跟人聊呢?他发现别人都喜欢这个football(美式橄榄球),他就会专门去找新闻看,开头能唬人一阵,但说的深一点专业术语他也不懂,他就回去再研究,第二天再找那个人聊。就是脸皮厚到不停地聊,跟人打交道的能力就练出来了,慢慢就成了圈子里的意见领袖。

沈向洋

1997年,柯启发来到CMU,1998年和1999年田英利、肖京也来了。

他们三人的履历有不少相似之处。肖京称柯启发是“嫡系师兄”。两人本硕都在中科大和中科院自动化所的模式识别与人工智能实验室,同是时任所长马颂德的学生。

据肖京所言,柯启发还曾指导过他的本科毕业论文,毕业后两人都曾在日本企业和微软供职,当初肖京一进微软就是柯启发带领的Bing搜索团队。

田英利则早于他们几年到中科院做研究员。当时国内的模式识别和机器人研究刚刚起步,马颂德后来又与田英利定下两年之约--博士学成之后要回来工作两年--正是柯启发和肖京读硕期间。后来田英利来到CMU做博士后,加入了当时刚刚启动不久的“人脸的表情识别”课题。

(后续本文作者吴彤将推出田英利、柯启发、肖京的个人故事。欢迎添加微信交流:icedaguniang)


田英利、柯启发、肖京

前文说过,人脸是金出武雄博士期间的研究课题,二十年后,一帮学生的到来将其进一步发展到“面部表情分析技术”的高度。

不像以前的识别系统,充其量只注意到“快乐”或“愤怒”等广泛类别。金出武雄和团队希望运用心理学和机器学习的方法,做三维的人脸跟踪,以及人类的微小表情变化的识别和分析。一旦成功,这种技术就能广泛应用于安全、司法、医疗和人机交互等领域。

经过一年的摸索,2000年,他们的研究迎来突破。这其中,Jeffrey Cohn教授起到了关键作用。


Jeffrey Cohn

Jeffrey Cohn是隔壁匹兹堡大学的心理学系教授,擅长微表情计算。他与金出武雄的认识却颇为有趣,据田英利所说,“巧就巧在Jeffrey Cohn的儿子和金出武雄的儿子是同学,一次约在一起做作业,Jeffrey Cohn发现金出武雄儿子用的那张草稿纸的背面,就是他爸爸做的人脸识别的演算,便直接约了金出武雄见面。”

因此,自九十年代以来他就与金出武雄保持着密切的跨学科合作,神奇地推动了情感计算领域的发展。

后来,这一团队除了在当时建立了第一套全自动的人的微表情识别系统,田英利还为此建立了微表情公开数据库,肖京将这种技术从二维扩展到了三维,使得人脸表情识别技术的应用范围更加广泛。

不久后,MIT的一位女教授关注到了田英利的工作,还邀请过她到MIT一起合作。虽然没有成行,但值得一提的是,这位女教授就是冠有“情感计算”之母的Rosalind Picard(她在1997年提出了“情感计算”的概念)。

这充分说明了她的研究成果得到了国际一流学术机构的认可和关注,并推动了情感计算领域在2000年后迎来一波发展浪潮。

当时除了金出武雄团队之外,加州大学的The Salk Institute for Biological Studies(索尔克生物研究所)Terry Sejnowski教授的团队势头甚猛,他们主要研究人机交互,尤其侧重表情识别。


Rosalind Picard

Terry Sejnowski(神经网络的先驱,早在1986年,与Geoffrey Hinton共同发明了玻尔兹曼机)

因此,美国中央情报局组织了一个比赛,邀请了卡内基梅隆大学和加州大学两个团队。这个比赛的主要目的是测试他们的系统在测谎方面的效果,还请来了Pietro Perona做第三方评判。

尽管只有两个团队,但是比赛参与者来自多个国家和地区:田英利来自中国、金出武雄来自日本、Jeffrey Cohn来自美国、Pietro Perona来自波兰,对方团队也来自多个国家,因此大家统称为“联合国战队”。

田英利分享了一个细节,那天比赛的返程路上,大家都坐电梯下楼,金出武雄大声说笑,“英利,我最近老觉得有点累,怎么样才能不累呢?”

为了保证工作连续性,通常是金出武雄的夫人中午来送饭,做出很漂亮的寿司,但很多时候,到了下午五六点他才想起吃饭,既不是午饭也不是晚饭,一边吃一边干活。

“我不知道,要是能找到让你这么工作还不累的妙方,也告诉我一下。”田英利回答。

那之后,当金出武雄在讲座上发言时,经常有人问他,“你所做的一切都成功了”,或者,“你曾经失败过吗?” 

金出武雄笑答,“我想如果我告诉你我失败的时候,每个人都会更快乐,但我相当刻薄,所以我回答说,我的信念是一直做到成功,所以我的字典说失败在逻辑上是不可能的。 ”

金出武雄在办公室,摄于2000年前后

2001年9月11日,一场有目的的自杀式撞机事件在美国发生,其中第四架被劫持的飞机坠落在匹兹堡。当天,机器人研究所的电话响了,是美国联邦调查局(FBI)打来的。

“我们想得到坠落现场详细情况的地图。”

他们是想要金出武雄团队使用勘查地形的自动操纵迷你直升飞机,到坠落现场的上空将散落各处的飞机残骸的状态用摄像机拍摄下来。几天后,金出武雄他们将迷你直升飞机升到坠落现场上空,将激光传感器拍摄的三维图像经过计算机处理,制成可以对现场情况一目了然的三维地图,提交给了FBI。

“这真是非常典型的美国政府行为。当国家遇到紧急情况时,大学提供全面的协助。他们非常现实,只要有帮助的无论什么都要用上。”金出武雄评价。

他和一众的学生表示,911事件是他们研究生涯的一个重要节点:要更加关注当下的社会生活。

2001年,田英利加入IBM研究中心计算机视觉研究组,迅速将研究重心转向了视觉监控,研究如何自动检测不安全和不规则的行为并发出警报,与语音语义背景的高雨青也多有接触。如今在纽约市立大学生则和医疗走得紧密,最近正在建立一个手语视觉识别的系统,帮助那些想要学习手语的人自动判断自己的手语准确度,并在出错时给予提醒。

2004年,韩玫、滑蔚、徐伟、刘昕四人联手打造的核心技术为基础的初创公司Vidient,该公司的智能视频监控系统最先部署在美国旧金山国际机场,每天预警上百件对潜在危机事件。自从2018年被师弟肖京招入平安硅谷研究院后,主打攻坚业务驱动的先进AI技术研发。

至于金出武雄,他则更为决断。

2001年,他辞去了机器人研究所所长的职务。那一年他56岁。

同年,他在日本东京成立了“数字人类研究中心”,担任了首任主任。该中心观察,测量和模拟人类功能,以努力理解许多系统中这个最重要,但最不被理解的组成部分。2006年,他又在CMU成立“生活质量技术工程研究中心”,同样是担任首任主任。该中心由美国国家科学基金会(NSF)资助,旨在开发智能系统以帮助老年人和残疾人。

众所周知NSF经费非常难拿,习惯于资助小型项目,但金出武雄从那拿了上千万美元,拉了56个学校一起做,是美国历史经费最高,单位最多的项目之一。

在美国,很多重要大学的所长和主任等职务并不是轮流担任的闲职。他们既是负责组织运转的经营者,也是老板、领导者。他们既需要制定战略又负责指挥,所以这样的人一定是精力充沛的。

金出武雄做了一个形容:就好比美国西部剧中的警长都比助手强很多,拔枪他最快,绝不是走到现场大喊一声“上啊”,身手却已经不如部下了,还要站在前面装腔作势,既帮不上忙,部下们也会看轻他。

“要想不被别人当成摆设的木偶,无论到了什么地位都要履行好自己的职责。”

钟华、李岩、康洪文、苏航

有人问:“金出武雄的中文名字有什么含义吗?”

金出武雄回答说:“每个汉字倒是有自己的意思的,大概说来,‘金’是money(钱)或是gold(黄金)的意思,‘出’是give out(提供)的意思,‘武’是soldiery(士兵)的意思,‘雄’是brave(勇敢),man(男人)的意思。 ”

“啊,连起来就是招财的勇敢武士!那拿研究资金一定很容易了。”

确实如此,在拿经费这件事上,金出武雄还是颇有心得的,几乎所有人读完他的研究计划书都要说,“给这项研究经费提供支持,而且经费给他。”

遥想在1979年10月CMU机器人研究所成立时,要达到研究的临界质量,计划书上写的是需要“5~10名教师”和“每年200万~500万美元的资金”。但是在金出武雄10年任期中,研究员数量到了200人,研究所每年的研究费预算大约是6500万美元。

最主要是美国国防部(DOD)的资助,此外还有美国国防高级研究计划局(DARPA),美国太空总署(NASA),美国国立卫生研究院(NIH),美国国家科学基金会(NSF)等等。

因此,金出武雄给学生定了一条不成文规定:只允许做一个实习生。

等钟华、李岩、康洪文、苏航来到CMU,都是在911风波之后。DARPA痛定思痛,拿着一堆钱到各个学校找人去做各种各样的研究。尤其是钟华,“我刚去没几天就赶上了,本来想学习图形学,招我的导师Paul Heckbert几个月前去了英伟达做首席科学家,我就成了‘没人要’的状态。”

赶巧,史建波刚从UC Berkeley毕业后来到CMU任教,非常年轻,从美国国防部拿到了一个叫做“Human ID”的项目。这个项目特别神奇,是从人的走路姿势来判断身份,意思是这个人可能改头换面了,但是他走路姿势这些特征还存在,可用来锁定出恐怖分子。

与此同时,等到Human ID项目快做完了,眼下又要去碰碰新的项目。

实际上,在钟华入学之前,沈向洋就早已为他写好推荐信。虽然钟华是沈向洋在微软的第二个实习生,却是最早跟着他发展微软亚研的人,前十五号员工。当时沈向洋在微软亚研专门创立了一个“assistant researcher”的title给本科生,钟华是第一个。那么自然,在推荐信中沈向洋对他不吝赞赏。

金出武雄找到钟华,给了两个项目选择,“一个是无人机在楼里飞,另一个是在心脏里导航。”

钟华开玩笑吐槽,但这两个项目的难度都非常大。“2002年那会无人机还非常不普及,给你一无人机不是在外面空旷地飞,要在楼里飞?穿过楼道进屋?我一听卧槽这太难了,这不是一个人干的事,就选了另一个。”

那时金出武雄和匹兹堡大学附属医院(UPMC)的医生合作非常多,一个医生(名字是David Schwartzman)找过来,希望做不开胸的心脏微创手术,还得往里面塞支架,迫切需要一种心脏导航的系统。

说难也难,说易也易,导航定位早在八十年代就被金出武雄应用在户外机器人上,做了活火山口勘测、极地研究、深海作业。但心脏导航需要了解大量的生物学知识,包括心脏的解剖结构,生理、病理改变,超声影像等,以及心脏超声与别的超声的不同之处在于它还得了解血液动力学的知识。

但他们几个人对此的热情不减反增。钟华说到,“我记得我毕业论文答辩那几天,金出武雄的母亲去世,他回日本去处理丧事。时差原因,他白天处理日本的事,晚上处理美国的事,我答辩那天问要不要推迟,他说不要推迟,我线上参加。那时候他已经72小时没睡了,但精神看上去还是很好。”

最终那套心脏超声波导航系统在2007年推出,花费了五年时间,包含手术导管的实时3D位置和心脏图像。当时市面上最好的系统精度还在厘米级,他们已经提升到毫米级。后来那位医生拉着钟华成立了一个公司,两年后将IP卖给一家医疗器械公司,小赚了一笔。

后来的经历中,钟华曾加入西门子、谷歌、曾再次创业,也曾因几位创始人意见不一致无奈离职,郁闷地“一个猛子扎进太平洋里”。不过他这个人最厉害的地方就是不发怨言:“卧槽!人进海了,手机还在兜里,正好谁都别找我了。”

一周后钟华重振旗鼓,老同学李岩的电话打来,“要不要来神州优车?”

那时候李岩已经从CMU毕业,先去了微软、Facebook,2015年底被同学刘亚霄(现亚马逊AWS中国区CTO)找到,说神州优车打算在硅谷成立实验室,缺个带头人,便推荐了李岩。

李岩提到,汽车是一个新的领域,也是一个能够充分体现计算机视觉和人工智能的最佳平台。无论是从手机、增强现实还是虚拟现实,它们可能都不是真正集大成的产品。钟华也没犹豫。他和李岩知根知底,两人都是清华计算机系,在微软亚研时都是沈向洋的实习生,后面都拿到沈向洋的推荐信后踏进CMU,前后脚都到了金出武雄门下。两人一拍即合。

2016年,李岩、钟华还有几个跟过来的老搭档,花了三四个月,把整个神州之前所有的那套轿车系统和派遣系统全改了,放到了云端(AWS)。这是当时的一个痛点,经常挂,所有人租不到车,老陆(陆正耀)经常骂,“系统一挂一分钟多少钱就没了。”

那会百度也在硅谷也在做自动驾驶,两拨人经常这么来往,后来不知道谁起的头,“要不咱们别这么吹了,一起干算了。”后来就创立了景驰科技。当然自动驾驶圈的争议一直都不少,说的最多的是谁跳槽谁空降谁挖人,背后牵扯一缆子事情。直到2017年,事情终于告一段落,公司改名文远知行,李岩担任CTO,钟华担任工程资深副总裁,韩旭担任CEO、吕庆担任CFO。故事回归到最应该讨论的技术轨道上。

李岩第一时间与金出武雄联系,并邀请他担任顾问。

2019年,距离金出武雄发布了世界上第一辆自动驾驶车辆,已经是第34个年头。他来到了文远知行全球总部广州,关心技术,也关心商业化落地,还为融资做了很多帮助。

(后续本文作者吴彤将推出钟华、李岩的个人故事,重点谈及他们在西门子研究院往事,涉及当今医学影像圈的大牛吕乐、郑冶枫等人。欢迎添加微信交流:icedaguniang)

顾烈、钟华、金出武雄、李岩、韩旭(2019年)

值得一提,在这张合照的左边,也是金出武雄的一个学生,顾烈。以前是西安交大少年班的,早年和钟华和李岩都在微软亚洲研究院共事,做的是图像和视频检索,人脸检测和对齐,2002年几人约莫着同一时间拜入金出武雄门下。毕业后顾烈去了华尔街做量化基金,那地正是全世界最聪明的量化投资者的聚集地--WorldQuant(世坤投资)。

哈工大金融智能量化投资研究中心的罗勇曾在知乎有一段细节描述--“世坤就是全球量化界的黄埔军校,加上它背后的千禧基金(Millennium),培养出了一批顶级的Quant人才,其中就包括九坤投资的创始人王琛、合伙人姚聪,诚奇资产创始人何文奇,均投资马志宇,明汯投资创始人裘慧明等。2017年时世坤的北京分公司就已经达到了月薪10万。”

不过关于顾烈的江湖传闻很少,颇为神秘,但多年好友钟华提到他时脱口而出,“他是个神童。2009年毕业后在世坤做到现在,是他职业栏中仅有的第二段工作。”(本文只是冰山一角,更多内幕添加作者微信知晓,欢迎投资界同道交流)

那次到访中国,金出武雄还特意去了一趟杭州,看望了自己的另一个学生,康洪文。

康洪文、金出武雄

康洪文算得上是金出武雄与Martial Hebert联合培养的“关门弟子”,等到康洪文博士毕业后Martial晋升了CMU的院长。

读博期间的康洪文对人工智能的应用落地萌生了念头,2012年毕业后,他成立“慧川智能”(HUNCH.AI),第一笔投资来自导师金出武雄,紧接着又获得沈向洋、童士豪、张磊等众多大佬的投资。

不过相比“慧川智能”,大家可能更熟悉另一个名字——“智影”。

2017年,康洪文回国进行业务拓展,并迅速锁定了视频及短视频制作赛道。当时中国市场正处于从图文到视频的转变过程,内容生产者逐步开始转向短视频平台,在抖音、快手、西瓜等地方试水。

敏锐捕捉到当时市场的增量需求,康洪文提出了一种算法,“文字生成视频——Text to Video”,将一维文字数据自动生成三维视频数据。用户只需要输入脚本文字,直接通过云端生成相应的视频内容,自动配音,并且能进行在线进行编辑和修改,同时预览、渲染、视频文件导出和下载等全部在平台云端完成。

在过去几年中,智影服务包括了湖南卫视、芒果TV、浙江卫视等省级上星频道,这些第一批吃螃蟹的媒体,通过智影成为最早与AIGC商业化应用接触的频道。他们借助智影的工具也完成了众多在当时看来不可能的任务,包括央视2019国庆七十周年大阅兵短视频自动化生产、以及2020疫情期间湖南卫视歌手云录制。

2021年初,康洪文所创立的这家人工智能公司最终被腾讯全资收购,他本人出任“腾讯智影”的高级总监,负责推进集团的智能化内容创作工作。

康洪文说,“早在2018年就与腾讯开始接触,通过两年的双方沟通和考察最终在2021年完成全现金收购。腾讯给智影的定位是‘AI视频中台’,支持内部各个业务线,如腾讯视频、腾讯会议。等到2022年底AIGC概念铺天盖地火起来时,腾讯突然意识到,原来买的是一个AIGC公司,累积突破千万级营收。”

这次收购对双方是双赢的。如果站在2023年看当时的收购,可以说腾讯在AIGC新纪元开启前,就捡了个大宝贝。两年时间,AIGC技术和概念的发展带来价值和估值的增长可能在十倍以上,而康洪文通过智影的收购帮助所有历史投资人成功高收益退出。

与此同时,在大模型技术的催化下,康洪文关于人工智能商业化落地的梦想再次被点燃。2023年10月,康洪文作别腾讯,开始了自己的新征程。新项目是大语言模型与多模态AIGC结合的新方向,目前已经获得多位投资人的投资,其中不乏慧川智能的历史投资人。

如今再说起跟随金出武雄的日子,康洪文吐露:我对CMU的教育体系,尤其是金出武雄对自己的培养,有一种发自内心的认可和感谢。这不仅仅是说当初导师帮我张罗融资、引荐人脉,他也让我明白,经历过PhD训练的人是最好的创业者。

“博士论文开题就像是你的商业计划书:为什么这个问题存在、为什么这个问题值得解决、为什么是我能解决、我用什么方式去解决、解决这个问题之后能够给用户和社会创造什么样的价值。开题后,进入论文的正式研究,学生需要开发新技术,和创业时候的产品研发、技术创新和迭代一样。另外学生需要学会团队合作,这就是创业时与合作伙伴、投资方的协作。最后如果幸运通过论文答辩,就等同于市场愿意买单了。”

最近,康洪文作为主要捐赠人牵头成立了以“金出武雄”名字命名的讲席教授,以资助未来在CMU任教的青年教授。兜兜转转,老师成就了当初的学生,学生又成就了如今的老师。

在康洪文之后,金出武雄的办公室依旧走进过非常多的华人学者,有目前纽约州立大学石溪分校的副教授尹兆正、清华计算机系的副研究员苏航、微软云与AI首席科学家陈梅、谷歌从事CV研究的潘吉彦,他们几乎都趁那段时间打开了学术声誉。

苏航感慨万千,能够得到金出武雄的指导是一件非常“幸运”的事情。因为他不仅能够一针见血地指出问题所在,还能够提供宏观和微观两个方面的指导。

“我们写论文之前,他要求我们把要解决的问题说一下,跟他做一次presentation,写几页PPT,包括这个工作的重点、难点、实验设计,但他真正厉害的是,他不仅关注研究的大方向,他在指导时细致入微,我有一次写错了一个数学符号就被他发现了。”

仅用半年,苏航的一篇论文作为特邀稿件发在MICCAI上。这是一个跨医学影像计算(MIC)和计算机辅助介入(CAI) 两个领域的综合性学术会议,属于顶级会议,苏航也成为中国大陆的第二位获奖者。

(限于篇幅,康洪文、苏航、陈梅的故事将在后续系列中详述。欢迎添加作者微信抢鲜交流:icedaguniang)

故事未完待续

当今天全球各地热烈地讨论大模型、无人驾驶、AIGC、数字人、虚拟现实......憧憬着未来各种研究合作的时候,金出武雄在做什么?

2023年的11月初,卡内基梅隆大学举行了一次盛大的计算机视觉研讨会,回顾了最近50周年来的CV发展变革。到场的不仅有金出武雄和他的诸多学生们、他大半个人生中的重要合作者,过去他从世界各地挖来的精英学者、还有如今在计算机视觉前沿的各类项目发起人。

会议开始,所有人都安静下来,金出武雄快步走上台。台下的人身体微微前倾,大家都知道,待会金出武雄第一句话一定不会铺垫,而是直切正题。

他有一个很重要的策略,就是“先出手中最好的牌”,无论过去在大型国际会议上的演讲,还是机器人研究所开的研讨发言,他都会从听众最关心的结论开始。

“第一张PPT竟然是金出武雄三十年前的一页笔记。”

那是金出武雄从当年笔记本上撕下来一页,一份他对于自动驾驶的设计,密密麻麻的一张纸,Martial当年还开玩笑,“我打赌30年之后自动驾驶就做成了。”

不过30年后很快来了,Martia在台下又补了一句,“现在看至少还得30年才行。”金出武雄笑着把话又抛回去,“都是因为你们这帮学生不听话,没有百分百执行老板的指示,所以自动驾驶还要搞。”

这个场景很像CMU计算机专业研究生学院的一个传统--“黑色星期五”,也就是教授们决定是否开除学生的评鉴日。

所有的教师集中到一个教室,会议的召开常常是大家侃侃而谈,特别是涉及到否定结论的时候。因为这种否定和学生一生的命运相关,所以往往会陈述一个小时,甚至有时候会更久。

但对于那些已经毕业的老学生们就不一样了,趁着重回学校的机会,他们聚在一起互相谈论当年那封名为“黑色星期五”的邮件究竟是怎么写的。一般为“做了非常了不起的研究”“写了不少论文”“总是关心研究以外的事情,而研究没有丝毫进展”“最近,结婚了”,等等。

2023年 CMU RI 开展了CV研讨会,从左到右 田英利、钟华、李岩、沈向洋、金出武雄、康洪文、韩玫

现在学生们反过来评价老师,给到的回答非常多,譬如:

“金出武雄的成就清单很长、种类繁多且独一无二。”“他是计算机视觉领域的第一批研究人员。他的研究方法不受限制,与如今业界主流的模仿人类视觉特征的方法不同。”“你没法给他贴个标签,究竟是深度学习的人、还是做工程的人。为了解决问题,他不限定用任何算法,不限定用任何学科,”“他是出了名的‘争强好胜’,熬一个通宵后第二天还会和学生们在球场打车轮战。”

不过一个最亮眼的评价是,相比于他做了什么,他没做什么才更值得关注。

“从金出武雄自身来讲,他没有去做商人。我相信他也懂这个道理,因为商业上的成功不一定是技术最牛。但他培养的学生都愿意去业界闯一闯,有需要他的地方,他还是会来。”

本文作者吴彤长期关注人工智能、医疗领域,热衷于系统完整地记录故事。欢迎同道微信交流,icedagunian

雷峰网雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/99vI62LO8TQkVtDt.html#comments Wed, 31 Jan 2024 11:09:00 +0800
达摩院青橙奖在杭州颁奖,中国科研迎来又一批“新青年” //m.drvow.com/category/academic/IUMFWutmGIIOZchD.html

“青橙奖希望发掘最优秀的青年科学家。”在分享会现场,达摩院院长张建锋如是说道。

1月8日,达摩院青橙学者分享会在浙江大学举行,苏俊、陈孝钿、杨宗银等15名青年科学家闪亮登台,从潘云鹤、邵峰、杨树锋等院士手里领过青橙奖,获得“青橙学者”桂冠和阿里公益支持的100万元奖金。

这已经是青橙奖的第六个年头了。

2018年,阿里巴巴达摩院设置了青橙奖(青年科学家成长计划),旨在发掘和帮助更多对科技进步有重要推动作用的的中国青年科学家(35周岁以下或博士毕业6年以内),每人都将获得可自由支配的100万元奖金,鼓励他们在重大科研攻坚中挑大梁,发挥榜样作用。

如今,青橙奖已然成为优秀青年科学家的风向标。

达摩院青橙学者分享会现场

这是一群与众不同的科研青年,平均年龄仅有33岁,不受传统学科束缚,用交叉研究推动创新,回应重大社会问题。

苏俊是首位香港籍的青橙学者,也是本届最年轻的获奖人,虽然只有29岁,但已经是北京生命科学研究所的独立研究员。

在谈及未来时,苏俊表示,自己的理想是用科学提高卵子与胚胎的质量,以减少女性经历试管、流产、出生缺陷等造成的身体与精神痛苦。回忆起首次通过显微镜观察到活干细胞的触动时,仍然记忆犹新,“那一霎那,仿佛看到了生命之舞。”

这是他科研的起点。

而另一位获奖者,中国科学院国家天文台研究员陈孝钿的故事同样精彩。

陈孝钿与团队建立起国内最大的量天尺变星数据库,首次刻画了银河系直观三维图,发现银河系并非是一个圆盘,而有点像薯片。

他曾在青藏高原无人区连续观测3年,克服了高海拔等艰苦条件,推动冷湖成为世界一流的天文台址。在他看来,天文研究尤其需要耐得住寂寞,而来自青橙奖的肯定,让他在科研的路上更安心、踏实,“申请只需要一份简单材料,无需推荐信。”

“比起走出挫折,更难的是走出荣誉。”颁奖礼上,中国科学院院士、北京生命科学研究所学术副所长邵峰说,期待获奖的青橙学者能够正确对待每一项荣誉,在未来取得更大的成就,从青橙(Green Orange)变成金橙(Golden Orange)。

中国科学院院士、浙江大学教授杨树锋表示,青橙奖让其回想起三四十年前,初次获得奖项认可时的激动场景,“我们要承认,我们也需要被激励。青橙奖对于青年科学家的成长有重要意义。”

分享会上,2023届青橙学者、浙江大学研究员杨宗银从“皮皮虾眼中的世界有何不同”的科普讲起,逐步介绍他是如何研发出世界最小的光谱仪。

另外,在提问环节上,故宫博物院原院长单霁翔惊喜现身,连线提问:“光谱仪微型化对文物保护工作带来哪些帮助?”杨宗银回答,基于数据分析与实物比照,光谱仪能够准确识别文物的材质,甚至帮助人们鉴别文物真伪。“未来把工程性的问题解决后,我们也许用手机拍一拍,就能知道这件古董是商周的还是上周的。”杨宗银说道。

达摩院院长张建锋

“青橙奖希望发掘最优秀的青年科学家,帮助他们成长、攻坚克难、勇攀科学高峰。”

达摩院院长张建锋表示,达摩院将持续关注和支持青年科学家,携手一起用数据科学的方法推动解决科学、产业和社会问题。阿里巴巴公益基金会理事长孙利军表示,这项公益奖项不仅要奖励个人,更重要的是激励大众,搭建科学与公众的桥梁,鼓励全社会热爱科学,让崇尚科学的观念形成风尚。

据雷峰网了解,青橙奖举办至今,已累计向中国27家高校/科研院所的69人授奖,发掘了江文帅、韦东奕、白蕊等青年科研榜样。


]]>
人工智能学术 //m.drvow.com/category/academic/IUMFWutmGIIOZchD.html#comments Tue, 09 Jan 2024 17:59:00 +0800
基因编辑、合成生物、投资范式......光子未来论坛成功召开 //m.drvow.com/category/academic/jcpPwT4XQKWA8BDh.html

作者丨王   悦

编辑丨陈彩娴


“未来产业具有高度不确定性,更需要基于长期主义的耐心资本。”在首届光子未来论坛上,西湖大学校长施一公如是说到。

(演讲人施一公)

首届光子未来论坛由西湖大学未来产业研究中心、西湖教育基金会主办,西湖大学科技合作部协办。论坛聚焦于以基础科学研究和前沿技术突破催生未来产业,邀请科学家、投资人、产业界人士共同探讨如何推动未来产业,加速形成新质生产力。

“一所新型研究型大学该如何承担时代赋予的使命?创新之道,唯在得人,西湖大学在刚刚过去的5载岁月,为国家聚拢了一大批怀揣梦想,追求卓越的国际顶尖科技人才,着力开展原创性基础研究和科技攻关。”论坛的开场致辞中,施一公校长说到。

经过5年的沉淀,西湖大学在生命原理及未来医药、分子制造与功能、未来材料设计及创造三大领域获得颇多成就。论坛上,也邀请西湖大学的代表性教授分享了相关内容。

论坛致辞的最后,施一公校长亦说到,培养科技人才,探索科学边界,让科研成果推动人类进步,这是我们的使命,也是西湖家人对我们的期望。


一、未来产业在当下

提到未来产业,许多人会有困惑,甚至会有焦虑,什么叫未来产业?

其实回顾过去,就会发现未来产业一直在生活中存在,它创造新的产品、新的场景,悄无声息地改变着生活方式。

 “以科技创新促进生产力的质变,从科学家的角度来看,这应该就是新质生产力这一新词的内涵。”西湖大学讲席教授、未来产业研究中心常务副主任黄嘉兴老师上台致辞时说到。

(演讲人黄嘉兴)

 构建科学研究、成果转化、产业培育、人才培养、战略规划于一体的创新生态,这一直是西湖大学未来产业研究中心的目标。

 作为国家级的重大研发平台,未来产业中心将与西湖教育基金会,共同发起新质生产力培育平台。同时也将为一批校内PI创办未来具有巨大发展潜力的企业和研究中心授牌,为他们赋能。

雷峰网观察到,这一系列的尝试利用了西湖大学办学机制的独特优势,也形成了培育未来产业的一种新范式的探索。

“下一阶段我们将吸引更多具有未来属性,具有创造力的科技新锐和企业加入我们,一同建立未来产业的生态。”黄嘉兴说到。 

面对新的战略任务,未来产业研究中心将联合西湖教育基金会共同启动未来产业研究中心新质生产力培育平台。西湖大学讲席教授、未来产业研究中心常务副主任黄嘉兴与西湖教育基金秘书长刘旻昊博士上台共同启动。

(启动仪式)

同时,在论坛上,为新质生产力培育平台企业、新质生产力产业化基地和研发基地授牌。

黄嘉兴表示,希望这种协作,可以吸引坚持长期主义、认同西湖大学理念、富有家国情怀的社会资源和民族企业家,携手科学家一起,在未来产业发展最早期、最不确定的时候、风险最高的时期,提前为国家探索筛选一批最具希望的未来产业方向,这是一种积极联动社会力量为国家战略服务的模式,既体现了西湖大学的特色,也正是西湖大学的使命担当。


二、合成生物、超导、光伏、医学的前沿分享

论坛上,多位专家学者围绕合成生物、超导、光伏、医学等行业前沿话题,分享了西湖大学最新的研究成果。 

合成生物学被称为第三次生物技术革命。西湖大学工学院特聘研究员、西湖大学生物制造和新材料实验室负责人张科春深耕这一领域,再论坛上做了主题为《合成生物与可持续未来》的演讲。

(演讲人张科春)

 张科春分享,根据过去科研的积累,他发现聚乳酸的一些核心的问题,除了韧性以外,是聚乳酸的生产成本较高,由于其本身工艺复杂,聚乳酸的成本很难往下降。

针对这一痛点,张科春在西湖大学研发出新的材料出来,从成本上能够能够和现在主流生物材料竞争的,更重要的是性能覆盖大部分的高分子应用,这是最近取得的一些突破。

在这个突破的基础上,将其延伸到各种应用,比如外卖的快递盒、奶茶杯、吸管等,基本材料行业都可以用新材料来代替。

值得一提的是,雷峰网了解到张科春团队做出的材料能让农业领域生物降解材料的地膜寿命提高10%以上,满足了种植的需求。如果按照以前的统计,提高10%的老化寿命就能够显著提高土地种植产量增加。 

随后,西湖大学工学院特聘研究员、先进光电子材料与器件实验室负责人柳佃义分享了《打开窗户看未来: 透明光伏技术的革命性发展》。

(演讲人柳佃义)

 “我们整个实验室一直在努力把太阳能电池的形态做得更透明,做的像窗户玻璃一样透明,这是我们努力的方向。另外还可以发电,驱动一些小型电器,也可以给手机充电。”柳佃义在演讲中说到。

2021年,柳佃义团队就把透光率突破到80%。2022年,在这个透光率基础上,把发电的效率提升到实际应用可以接受的水平。“2023年该做什么,我们认为透明光伏技术已经完备了,剩下的就是产业化,让技术改变人类的生活。所以2023年我们开始产业化的历程我们要做大面积,要把成本降下来。”

去年,在西湖大学的支持下,柳佃义团队成立了西湖光电公司,专门用于透明光伏技术的落地产业化推广。目前公司有两种主要产品形态,一种是透明光伏玻璃,另一种是透明光伏贴膜。

除透明光伏外,“常温超导”是一个非常热门的科研话题,也是西湖大学的强势学科。论坛上,西湖大学理学院特聘研究员、西湖大学量子材料生长和表征实验室负责人吴颉分享了《超导新世界》。

 

(演讲人吴颉)

 论坛上,吴颉调侃着说到,经过经过一百多年的研究,最后关于超导机理的结论又回到了当初的原点,我们曾经以为我们搞清楚了,新的发现却又推翻了旧有的规律和认知,我们不得不承认超导这个领域充满了未知的问题,经过一百多年,问题不仅没有减少,反而变得更多了,这在物理学上也是非常奇特的事情。

 吴颉告诉雷峰网,他所在团队的研究目标是两件事情,一个是希望寻找到非常规超导体的机理,另外是希望能够发现新的高温超导材料。

 紧接着,吴颉也分享了当下对超导的应用:

 一是零电阻,可以达到超远距离电能传输而没有电能损耗的效果;

二是使用超导实现超导磁悬浮,可以使磁悬浮高铁进一步提升交通的速度;

三是利用超导的量子性质,超导计算机的算力在某些特殊问题上,可以达到经典计算机完全无法媲美的速度,现在硅谷、IBM、中国科技大学所有的量子计算方案都是超导约瑟夫森效应实现的;

 四是利用超导磁铁产生强磁场,有助于实现对于高能高压粒子束流的有效约束,从而可以应用于可控热核聚变,粒子加速器同步装置等尖端科技,或是应用于核磁共振成像等医用器械,提升其分辨能力的同时使其小型化、便携化。

最后一个前沿领域的分享,由西湖大学生命科学学院特聘研究员、蛋白质组大数据实验室负责人郭天南进行,探讨了《AI赋能蛋白质组学: 疾病诊治新范式》。

(演讲人郭天南)

郭天南提出了一个引发思考的问题:当我们可以测量到很多蛋白质所发生的变化之后,这对疾病有什么帮助?

 “这个时候就需要借助AI,因为很难通过四则运算得到一个结论,必须通过机器学习,它可以在数百个差异的蛋白里,挑出人工看不到、但是AI可以量化的规律,告诉我们这个疾病内在的规律。通俗的讲,通过 蛋白质组的AI 模型,可以发现了一些在临床上大家看不到的现象。”

 基于此,郭天南团队开发了一个产品,主要应用于当有无法诊断的结节之时,对几百个细胞进行基因的分析,同时做蛋白质组学的分析,通过三个蛋白加上一个突变,结合人工智能生成一个报告,这个报告比其他方法得到更加准确的诊断。

 

三、从多元视角看未来产业

 科研之路并非坦途,背后既离不开科学家们日以继夜的刻苦钻研,也离不开投资人的全力支持,西湖大学同样接收到了来自社会各界人士的投资和捐赠。

 论坛上,除了分享西湖大学典型的研究成果之外,也从投资的角度看了当下的前沿科技。北极光创投创始管理合伙人、西湖大学荣誉董事邓锋,分享他在中国科技创新领域的一些看法。

 邓锋表示,以往的做法通常是需要先有一个科研成果,再去产业化,现在情况不同了。除了最基础的科学研究以外,大量的应用科学需要在做科研的初期就有商业化的概念,在选题阶段就跟市场结合,甚至科研过程中也要跟市场相结合。

 邓锋也强调,科技创新投资的范式需要改变。对于一家科技创新企业来说,如何在初期筹措资金是一个重要的问题。他提出能否在这个阶段用一些方法来填补资金缺口,使得社会资本和国有资本相结合。这个问题不能仅仅靠国家资金,也不能完全依赖社会资本,这时候就凸显了产业研究中心的关键性。

 除了从投资的角度去理解科技创新,论坛也组织了圆桌对话,让不同行业的声音进行对话,通过不同视角来看未来产业。

 西湖大学讲席教授黄嘉兴作为主持人,国家信息中心新兴产业处副处长张振翼、北极光创投创始管理合伙人邓锋、果壳CEO姬十三、西湖大学PI周南嘉参与圆桌对话。嘉宾们围绕未来产业是什么,未来产业的特质以及发展未来产业需要什么生态等话题进行讨论,碰撞出多种观点。

 “光子”意味着一粒粒光子从四面八方聚集而来,点亮探索未来的道路。作为链接社会和学术的天然纽带,西湖大学向未来坚定前行着。

 

本文作者长期关注前沿科技,欢迎添加微信:s1060788086,聊聊行业,互通有无~


]]>
人工智能学术 //m.drvow.com/category/academic/jcpPwT4XQKWA8BDh.html#comments Wed, 01 Nov 2023 15:32:00 +0800
潘新钢:为了让AIGC更好用,我们选择了 GAN丨GAIR 2023 //m.drvow.com/category/academic/XpHG5Nz1EhD2iH3p.html 编者按:2023年8月14日-15日,第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店成功举办。论坛由GAIR研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办。

大会共开设10个主题论坛,聚焦大模型时代下的AIGC、Infra、生命科学、教育,SaaS、web3、跨境电商等领域的变革创新。这是国内首个出海的AI顶级论坛,也是中国人工智能影响力的一次跨境溢出。

在「AIGC 和生成式内容」分论坛上,南洋理工大学科学与工程学院助理教授潘新钢以《Interacitve Point-Dragging Manipulation of Visual Contents》为主题分享了点拖拽的交互式编辑方向研究成果——DragGAN。

潘新钢指出,当下用户对图像的创作不只停留于粗粒度编辑,而是期待对图像空间属性进行精细化控制。针对这一需求,DragGAN 应运而生。通过DragGAN,用户可以选择性地指定一块可编辑区域,确定A、B两点,然后自如地将点 A 移动到点 B 的位置。

更重要的是,DragGAN能够呈现的不仅仅是最终编辑完成后的图片,而是整个中间过渡的过程,即一个视频或动画的效果,丰富了其可应用场景。

DragGAN 这样一个关键点拖拽式的编辑工具对目前大热的文生图的生成方式提供了一个非常好的补充,一经公布就得到了很多的关注和应用。

潘新钢表示,目前可以看到拖拽式编辑的巨大的可能性,这在学术界也会成为一个新的竞赛,在 DragGAN 公开大概一个月后,就有字节和高校的研究人员尝试将它拓展到扩大模型上,结合算法和Fine Tune,实现了在真实图像上进行拖拽编辑的效果。

潘新钢指出,接下来学术界感兴趣的研究方向是有没有可能把 GAN 和扩散模型的优势进行互补,既有扩散模型强大的生成能力,又有 GAN 所展示的图像连续性以及可编辑性,这样一来,视觉内容将不局限于图片。

如何更好的创建3D 内容?这也是一个非常有意义的问题。潘新钢认为,DragGAN 同样可以拓展到 3D 问题上,甚至可以想象未来在等 4G 视频上都可能利用拖拽式编辑。

以下为潘新钢的现场演讲内容,雷峰网在不改变原意的前提下进行了编辑和整理:

大家上午好,很高兴能参与本次论坛,今天要和大家分享的主题是《Interacitve Point-Dragging Manipulation of Visual Contents》,也就是对视觉内容的关键点的拖拽式编辑。

现在的生成式 AI 已经能够非常好地根据文字生成图片,比如,我们可以把一段话术输入到 Midjourney 或者 Stable Diffusion中,让它生成一个逼真的狮子。但是很多时候,创作的过程并不会在这里结束。文字对图像的描述只是粗粒度的,用户更多的希望继续细粒度的去微调图像的内容,例如去改变所生成内容的姿态、转动狮子的头、增大或缩小物体的大小、移动物体的位置、甚至改变狮子的表情。这一系列操作都是关于物体空间属性的精细控制,如何对这些属性进行精细控制仍然面临比较大的挑战。

其实,符合直觉的编辑方式是用户只需要点击两个点,指定一个红色的抓取点和蓝色的目标点,我们目的就是把红点所对应的图像的语义的部分移到蓝点的位置,来达到如右图所示的对图像空间属性的编辑的效果。这种编辑方式的好处一是它非常简单,只需要两个点;二是用户精确定义了抓取点和目标点的位置,所以编辑、移动的距离非常精确;三是它非常灵活,前面所提到的空间属性,像姿态、大小、位置等都可以通过这种方式来编辑。

这就是这次我将主要分享的,关于交点拖拽的交互式编辑方向的成果 —— DragGAN 。可以看到,用户可以选择性地指定一块可编辑区域,然后通过指定红点和蓝点,我们的算法会将红点移到蓝点的位置。并且值得一提的是,所得到的并不仅仅是最终编辑完成后的图片,而是整个中间过渡的过程。所以,最终呈现出来的是视频或动画的效果,这对于视频或者动画方向来说也具有一定的应用场景。

其实,关键点拖拽并不是一个新的故事。在之前传统图形学中,Shape Deformation 也实现过类似的效果,同样是用户可以通过关键点对图像进行拖拽,并且当时 As Rich As Possible 这个经典算法的开发者也开发了一套基于平板电脑的一个APP。但这种方式通常会要求对所编辑的图像进行网格化,并且对物体的高度有一定的假设。比如,假设物体是一个均匀的高度,这在很多时候是不准确的,因为很多物体它有自己的内在结构、骨架,并且另一个更加重要的曲线形式,它只是对 2D 图像进行一个扭曲变形,它并没有办法生成新的内容。比如,让这个熊 3D 视角变化一下,或者呈现出被遮挡的部分。那么,为了克服这些曲线形式,我们需要模型对物体的结构有一个了解,并且在需要的时候能够生成新的内容。

为了实现这两点,一个自然的选择就是生成式模型。在对它的研究中,我们并没有采用当下火热的扩散模型,而是用了扩散模型之前的对抗生产网络,也就是 GAN。之所以这样选择,是因为它两方面的优势,一是它所描述的图像空间非常连续,比扩散模型连续很多,二是它的 Contact 的隐空间非常适合编辑这样的属性。所以我们认为 GAN 是研究这个问题的第一步,是一个自然的选择。

简单来说, GAN 的训练完成后,它的生成器所做的事情就是将一个低维隐编码映射到一个高维的头像上。可以看到,随机扰动隐编码就可以实现对图像内容的自然且连续的变化,可以改变图像的各种不同的属性。当在一个狮子的数据集上训练完它之后,它会学习到狮子的不同属性的变化,比如它的姿态、大小、位置、表情等一系列的变化。对于一个用户的拖拽式编辑的目标来说,我们希望做的事情就是把当前图像在 GAN 所描述的图像空间中游走,游走的方向是按照符合用户编辑的目的地方向去移动,也就是图中所示的红色曲线的方向,那最终在这个例子里达到狮子张开嘴的效果。

那么如何通过编辑 GAN 的隐编码来实现这样的效果,就是我们要研究的主要问题。下面介绍这个方法的主要方向。这里是一个生成器,将隐编码  W 映射成为一个狮子的图像,用户会输入红色抓取点和蓝色目标点。为了将红点移到蓝点的位置,我们提出一个运动监督损失函数,它的目的是给红点施加一个力朝蓝点推去。通过这样的一个组织函数,我们去优化 GAN,通过反向传播优化干的隐编码,得到一个新的隐编码,那么它会生成一个新的图像,在新的图像里,它已经按照红点朝蓝点推的方式变化了。

但是到目前我们并不知道横点移动到了什么位置。所以,接下来我们要做点跟踪,就是要去更新红点的位置,让它始终跟踪物体对应的部位。比如这里红点最初是在鼻子的位置,那么希望它永远跟随鼻子的位置。得到更新过的抓取点后,我们再重复前面提到的运动监督的过程,所以我们的方法在运动监督与点追踪之间迭代,直到红点准确到达了蓝点位置。这里所采用方法的主要是运动监督和点跟踪,下面将对这两部分进行介绍。

在实现最终的方案之前,我们初步进行了一些不一样的尝试。为了实现对运动的监督,我们的想法是采用一个提取运动的模型,那么一个自然的选择就是光流,因为光流是对物体的运动最直观的刻画。我们的做法是,对于 GAN 所生成的图像,我们先将它复制一份作为一个参考图,将这两张图送给一个光流模型,这里采用的是经典的 Raft 光流模型。由于这两张图是一样的,所以刚开始计算出来的光流当然是0。为了去移动用户所指定的抓取点,我们去观察抓取点所对应位置的光流,一开始是个光流视频,我们希望这个抓取点移动,那么这其实等于我们希望这里产生的光流不是(0,0),而是( -1,0),整个框架我们就反向传播去优化 GAN的一边了。

当所预测光流达到目标时,就确实可以将当前生成的图像移动一小步,实现一个向左移动一点的效果。所以其实当时这个方式算法是可行的,它的问题就在于我们引入一个光流模型,它是一个迭代式计算的模型,计算开销相对较大。而在这样一个用户交互时图像边界的应用,我们希望算法能够给用户及时的反馈,所以我们想进一步提升效率,那么有没有可能去不需要光流?

之所以需要光流模型,是因为它提取了对物体的精细的语义信息敏感的特征,这样才能在两张图像之间做相似的匹配。对于 GAN 来说,当它生成一张图片的时候,我们得到的不仅是这张图片,也有这个生成器内部的很多特征。之前的很多研究表明, GAN 的内部特征与图像的语义信息有非常强的关联性,但是非常具有判别力,它体现在仅仅通过 GAN 的特征,你就可以去做小样本的语义分割,甚至无样本语义分割。这些证据表明, GAN 拥有这种强判别力,通过它我们可能在 GAN 特征上就可以通过简单的设计来运用监督和点跟踪,这也就引出了我们最终的方案。


这里同样是通过隐编码经过生成器得到图像的过程,立方体展示的是 GAN 中间过程的特征。那么为了将红点移到蓝点,我们用红色 patch 的特征是作为 ground shoes 去监督蓝色的 patch ,也就是我们希望蓝色的 patch 去模仿去 红色 patch 的数值。你可以想象,当蓝色 patch 的数值变成红色 patch 的时候,其实就相当于红色这个圆移动到了蓝色圆的位置,这就可以通过损失函数来实现。在实现的时候,我们需要将红色的 patch 从反向传播的计算图中分离出来。前面提到了用户可以选择性地输入一个 Mask 来指定可编辑区域,那么对于可编辑区域之外的部分,我们也会让这部分的特征始终与最初的特征保持一致。

通过这样的损失函数优化隐编码后,我们会得到一个新的特征和新的图像。我们假设最初的抓取点,它所对应的特征值是F0,我们所做的就是在当前的特征图上抓取点附近的一小块区域,去寻找和 F0 数值最近的那个相似的位置,也就是一个 feature matching 。由于GAN 的特征与语义非常强的耦合性,通过这种方式找到的位置,它就在语义上倾向于和原本特征抓取点所对应的语义相一致。比如这里原本抓取点在十字的笔尖,那么我们通过 feature matching 找到的点也会倾向于在十字的笔尖,这样就实现了一个tracking跟踪的功能。

刚刚介绍的是针对一个点进行的,对于多点的情况,我是只需要将不同的运动监督损失函数进行累加,并且每个点单独跟踪就可以。

通过GAN所实现的编辑效果是,用户只需要进行非常自然简单的拖拽式编辑,就可以改变图像姿态的属性。你也可以重新设计一个车的外形或者改变车的视角,当然也可以编辑很多其他的动物,甚至让猫睁一只眼闭一只眼。对人脸的年纪同样比较轻松,你可以改变他的头发、表情,也可以改变模特的姿态以及他的衣服的长短。可以看到,这种编辑方式非常灵活地编辑了不同物体的多种空间属性。

那么我们也和其他方法进行了对比。这里第一行展示的是输入图片以及用户的编辑,那么第二行展示的是一个 baseline 方法,虽然它的速度较快,但是编辑的准确性显著低于我们的方法,最后一行是我们的方法。

第一个例子中我们看到 baseline 方法,它没有办法把马脚和马头移动到目标位置去,按照我们的方法移动的比较精确,我们也同样可以对更密集的关键点进行编辑。这里是一个人脸关键点的编辑,那么对于每一个例子左边的两行分别两列,分别是输入图像和目标的人脸,我们目的就是把输入的点的关键点编辑到和目标点一致,那么可以看到,确实可以实现这样的编辑。我们也进行了定量式实验,和其他的方法相比,我们的方法也是显著的取得了性能的提升。那么这里是一个点跟踪的对比,第一列是我们的方法,可以看到在整个编辑的过程中,这个红点会始终跟随狮子的鼻子上方这个位置。但是对于另外两个跟踪的方法, PIPs 和Raft,他们在跟踪的过程中会逐渐偏离原来的位置,那这样的话你就没有办法准确地移动到目标点。

前面展示的大部分例子都是基于 GAN 本身所生成的图片,但是对于图像编辑来说,一个非常重要的问题就是如何去编辑真实世界的用户的图片。要实现这一点,通常要做的是额外引入的 GAN 重建,也就是先用 GAN 组成用户的图片,然后再基于自己进行编辑。这里展示了一些真实图片编辑的效果,同样可以通过点关键点拖拽来实现对各种空间属性的编辑,其实关键点拖拽的编辑方式,很多时候是有歧义的,或者说存在脱节的。比如这样去拉狗的鼻子位置的拖拽,你可以通过转动整个狗的身体实现,可以通过只改变狗头位置来实现,那么实践中,它会选择在这个 GAN 有模拟的图像和空间中与当前图片最近的一个位置,在这里它就会转动整个狗的身体。另一点是用户可能会做出很多夸张的编辑。这里展示了一些夸张的编辑的效果,比如让狮子的嘴张得非常大,虽然我们的方法也一定程度上会展示一些不完美之处,但这是相对合理的一些结果。

当然我们的方法也不是完美的。目前的一些局限性首先是对于超出训练数据分布的编辑,那么很多时候仍然会产生瑕疵。比如,这里人体的数据集,它是在模特数据上训练的,也就是说模特通常都会比较自然,如果你希望产生一些夸张的姿势的话,它会产生一些比较扭曲的缺陷。

此外关键点的选取也有局限,如果所选取的点在一个非常平滑的、没有什么纹理的区域,比如车门靠中间的位置选中红色,那么在编辑的跟踪的过程中,关键点它会容易发生一些偏移,它相对于车发生了滑动,这是我们所不希望看到的。但是如果将关键点选取后视镜的位置,纹理相对丰富,它就不会发生这样的偏离。

另外一点是对于真实世界复杂的图像的编辑。当一个图像中存在非常多的内容的时候,那无论是这个生成模型的训练还是 GAN 组件进行编辑的过程都非常复杂,后续如何在更复杂的真实图像上实现编辑是一个重要的研究方向。

这样的一个关键点拖拽式的编辑对目前所火热的文生图的生成方式提供了一个非常好的补充,所以当我们发布公开成果的时候,受到了非常多的关注,大家看到了拖拽式编辑的巨大的可能性。在学术界关于关键点拖拽的编辑也要成为一个新的竞赛。在我们公开 DragGAN 大概一个月后,有研究人员尝试将它拓展到扩大模型上,同样是用我们提出的类似的运动损失函数还有点跟踪的算法,它们结合 Fine Tune 实现了一些在真实图像上进行拖拽编辑的效果。

这里展示的措施其实已经可以看到,扩散模型所展示的编辑过程不如 GAN 那么连续。那么紧随其后的是北大和腾讯所展示的 DragGAN 模型,那么他们提出了一个不一样的策略,实现了类似的编辑效果。

所以可以看到,目前扩散模型已经产生了一些鼓舞人心的效果,但是对于比较大角度的编辑以及比较长距离的编辑仍然有局限性。例如,对一辆车来说,如何让车转动起来,对于扩散模型仍然是一个比较大的挑战。另外它所展示的编辑过程非常的不连续,这对于视频这样的应用来说还是不够的。如何生成更加自然连续的编辑仍然是一个 open problem。所以这里有一个有非常有趣的问题,就是我们有没有可能把 GAN 和扩散模型的优势互补,既有扩散模型强大的生成能力,又有 GAN 所展示的图像连续性以及可编辑性,这也是一个学术界会非常感兴趣的未来的研究方向。

视觉内容当然不局限于图片, 如何更好地创建3D 内容也是一个非常有意义的问题。未来,对于 DragGAN 来说,同样可以拓展到 3D 问题上,已经有学者将其与 3D 生成模型结合,实现了对 3D 形状进行拖拽式编辑的效果,这对于 3D 设计师来说也将会是非常有意义的。那么我们可以想象未来在其他的视觉内容上,比如说视频,甚至 4G 的视频上都可能利用这种拖拽式编辑的方式。

DragGAN 目前已经开源,在 GitHub 上获得了 32000 个Star,欢迎大家使用,并且我们提供了一些线上体验的平台,也欢迎大家体验。我的分享到这里就结束了,谢谢大家。


]]>
人工智能学术 //m.drvow.com/category/academic/XpHG5Nz1EhD2iH3p.html#comments Thu, 31 Aug 2023 19:51:00 +0800
人工智能与机器人研究国际期刊(IJAIRR)正式成立,重点关注AI、机器人及基础科学交叉学科丨 GAIR 2023 //m.drvow.com/category/academic/BjuFM1rcijW6i46Z.html “人工智能与机器人技术,将成为未来人类社会的基础设施。”

近日,在「第七届GAIR全球人工智能与机器人大会」上,GAIR研究院创始人、IJAIRR主编朱晓蕊博士流露出这样的观点,即,通过机器人再现人类智能。

对于长期以来从事机器人与自动化研究的朱晓蕊来说,她尤为关注如今的AI大模型技术,会推动机器人朝向何种方向分野。

她坦陈,这样的“强强联合”,孕育着最富有未来感的想象空间。

实际上,早在几年前,朱晓蕊就曾确定性地表达过,人工智能技术可以为机器人赋予更高的智能和灵活性,使其能够自主学习和适应新的任务和环境,并能够与人类进行更加高效和智能的交互。

如今,在最新的技术范式下,AI是否会超越人类甚至独立存在?未来机器人是否保摆脱人类的外部控制?还有哪些基础科学将催生出新的研究范式?

带着这些未知,雷峰网、GAIR研究院、世界科技出版社,进行了一场横跨产学研三界的重磅合作。

2023年8月14日,在「第七届GAIR全球人工智能与机器人大会」首日,由GAIR研究院、世界科技出版社合作出版的《人工智能与机器人研究国际期刊》(IJAIRR),在新加坡正式创立。

期刊主页链接:https://www.worldscientific.com/worldscinet/ijairr .

这意味着,IJAIRR将是全球第一本聚焦在人工智能与机器人(AIR)以及基础科学的交叉学科前沿研究的国际学术期刊。发布当天,IJAIRR的四位主编,新加坡GAIR研究院创始人朱晓蕊博士、美国密苏里大学哥伦比亚分校系统董事会杰出教授许东博士、美国南佛罗里达大学计算机科学与工程系教授孙宇博士、世界科技出版社总经理李志伟博士,共同出席期刊揭幕仪式。

人工智能与机器人研究国际期刊(IJAIRR)成立仪式,从左到右分别为李志伟、孙宇、朱晓蕊、许东

观看视频链接:https://www.youtube.com/watch?v=5OJbFnafT58&t=97s

四位华人主编都对IJAIRR即将引领的全新科研范式、科学变革以及对产业产生的深远影响表达了期待。

世界科技出版社总经理李志伟博士表示:“世界科技出版社作为亚洲最大的科学出版社之一,一直致力于推动基础研究的进步、促进高质量学术内容的传播。在接下来的期刊建设中,会立足国际,大力推进版权输出与引进,并不断拓展国际间的交流与合作。”

谈及创刊过程,朱晓蕊博士最有发言权。她讲到,从最初确立创建一流国际科技期刊的目标,最关键的一点是明晰期刊的定位:这是一本主张跨学科交流的学术期刊,重点关注人工智能、机器人技术,以及基础科学的成果整合。

值得一提的是,IJAIRR期刊所采用的是「去中心化科学」 (DeSci)的运作模式。

朱晓蕊博士表示,“期刊由订阅模式转向开放模式是当下巨大趋势,避免学术研究集中化,以及对用户的限制,因此选择创立一种基于Web3工具的在线学术生态系统。就像大家熟知的区块链技术一样,IJAIRR这一学术社区,目的是为用户(研究人员和访问用户)提供一个更易于访问、安全和值得信赖的平台来交换信息和进行交易。”

她进一步解释道:“也就是说,我们会提倡科学家公开分享他们的研究,并提供相应的经济回报,同时允许更多受众访问并参与社区建设。”

作为IJAIRR主编,美国密苏里大学哥伦比亚分校的校董事会教授许东,对去中心化、分布式的期刊运作方式表示支持。

他讲到,“尽管全球有很多关于机器人和人工智能的期刊,但我们认为创办这本新期刊有很多原因,在此我只想强调一个:它将促进跨学科研究,创造一个让新奇的和非传统的想法都能蓬勃发展的环境。”

最后,美国南佛罗里达大学计算机科学与工程系教授孙宇也对期刊的定位、前景表示了期待。

孙宇教授拥有机器人、智能系统、医疗健康应用等多重研究背景,曾获美国犹他大学计算机科学博士学位,随后在三菱电机研究实验室(MERL)接受博士后培训,并担任斯坦福大学访问教授,是一位不折不扣的“AIR”(AI和机器人)专家。

他表示,“非常开心地看到并参与到这一期刊的成立中。这是一个激动人心的时刻,我们见证了产学研三界正在以前所未有的方式将人工智能与机器人技术联系起来。众所周知,这两大基础研究都在飞速发展,一个显著趋势是越来越多的杰出学者正发挥两大领域的协同作用并进行交叉研究。因此,IJAIRR期刊将成为链接两大领域的重要平台,促进更多研究人员迅速、有效地交流新技术。”

最后,带着四位创刊主编的愿景,未来IJAIRR将进一步推动GAIR会议和人工智能、机器人技术的持续发展,也希望这一期刊能成为连接人工智能产学研三界的新平台。

GAIR研究院总部位于新加坡,致力于人工智能与机器人前沿领域的技术研究和商业化,已经广泛开展学术出版物、高端会议、研究项目以及深科技孵化等活动。

其中创立于2016年的全球人工智能与机器人峰会(GAIR Summits),由鹏城实验室主任高文院士、GAIR研究院创始人朱晓蕊教授、雷峰网创始人林军联合发起。

历届大会邀请了多位图灵奖、诺贝尔奖得主、40位院士、30位人工智能国际顶会主席、 100多位 Fellow,同时也有500多位知名企业领袖,是亚洲最具国际影响力的AI论坛之一。

未来,IJAIRR的优秀作者将会受邀在大会上进行主题演讲。

峰会链接:https://event.gairdao.com/gair2023

IJAIRR期刊介绍

IJAIRR,英文全称「International Journal of Artificial Intelligence and Robotics Research」,中文名《人工智能与机器人研究国际期刊》,由新加坡GAIR研究院与世界科技出版社合作出版。

IJAIRR将是全球第一本聚焦在人工智能与机器人(AIR)以及基础科学的交叉学科前沿研究的国际学术期刊。期刊的关注重点为:研究论文、评论文章、短篇论文、书评,也欢迎与IJAIRR主题相关的其他论文。

主题包括但不限于:

1.基于AI的分子和材料设计 / AI-based molecular and material design

2.AI辅助蛋白质结构预测 / AI-assisted protein structure predictions

3.基于AI的医学图像分析 / AI-based medical image analysis

4. AI能辅助数学研究 / AI-assisted mathematics

5. AI理论解读 / Theoretical interpretation of AI

6. AI生成艺术 / AI-generated art

7. AI游戏 / AI games

8. 对话式AI / Conversational AI

9. 自然语言处理与应用 / Natural language processing applications

10. 类脑智能 / Brain science-inspired AI

11. 纳米和微型机器人技术 / Nano- and micro-robotics

12. 仿生机器人 / Bio-inspired robotics

13. 智能物理系统科学 / Science of intelligent physical systems

14. 人类机器人科学 / Science of robotics for human

15. 基于心理学的社交机器人 / Psychology-based social robotics

16. 机器人和健康/医学 / Robotics and health/medicine

17. 机器人与科学 / Robotics and science

主编信息

美国南佛罗里达大学计算机科学与工程系教授孙宇

孙宇,2007年获美国犹他大学计算机科学博士学位。随后在三菱电机研究实验室(MERL)接受博士后培训。2016年至2017年在斯坦福大学担任客座副教授。主要研究领域为机器人、智能系统、医疗健康应用。曾发起IEEE RAS机器臂抓取和操作技术委员会,并担任第一任联合主席,及美国总统国情咨询委员会机器人方向的顾问。他发表了许多研究论文,获得了15项美国专利和2018年USF卓越创新奖。他还担任过多个编辑委员会的副编辑和高级编辑,包括IEEE Transactions on Robotics, IEEE Robotics and Automation Letters (RA-L), IEEE Robotics & Automation Magazine, ICRA, IROS,UR.

Professor (Computer Science and Engineering Department, University of South Florida, United States)

Yu Sun received his Ph.D. degree in Computer Science from the University of Utah in 2007. Then he had his Postdoctoral training at Mitsubishi Electric Research Laboratories (MERL), He was a Visiting Associate Professor at Stanford University from 2016 to 2017.

His main research areas are robotics, intelligent systems, and medical and health applications.

He initiated the IEEE RAS Technical Committee on Robotic Hands, Grasping, and Manipulation and served as its first co-Chair. He has published numerous research papers and received 15 U.S. patents and a 2018 USF Excellence in Innovation Award. He has also served on several other editorial boards as an Associate Editor and Senior Editor, including IEEE Transactions on Robotics, IEEE Robotics and Automation Letters (RA-L), IEEE Robotics & Automation Magazine, ICRA, IROS, and UR.

密苏里大学教授,AAAS / AIMBE Fellow许东

许东,密苏里大学哥伦比亚分校电子工程和计算机科学系的校董讲座教授,Christopher S. Bond生命科学中心研究员。

北大物理系本硕毕业,博士毕业于伊利诺伊大学厄巴纳-香槟分校,并于美国国家癌症研究所从事博士后研究。1995年入职橡树岭国家实验室生命科学部,2003年起加入密苏里大学哥伦比亚分校,2007-2016年,他担任该校计算机科学系的系主任。

他的研究方向集中在生物信息学方面,特别是机器学习在生物信息学中的应用,发表论文400余篇。他是美国科学促进会(AAAS)会士和美国医学和生物工程研究院(AIMBE)会士,担任IJFIPM杂志的主编。

Curators' Distinguished Professor and Fellow, AAAS & AIMBE (Department of Electrical Engineering and Computer Science and Christopher S. Bond Life Sciences Center, University of Missouri-Columbia, United States)Dong Xu obtained his Ph.D. from the University of Illinois, Urbana-Champaign in 1995 and did two years of postdoctoral work at the US National Cancer Institute. He was a Staff Scientist at Oak Ridge National Laboratory until 2003 before joining the University of Missouri, where he served as Department Chair of Computer Science during 2007-2016 and Director of Information Technology Program during 2017-2020.Over the past 30+ years, he has conducted research in many areas of computational biology and bioinformatics, including single-cell data analysis, protein structure prediction and modeling, protein post-translational modifications, protein localization prediction, computational systems biology, biological information systems, and bioinformatics applications in human, microbes, and plants. His research since 2012 has focused on the interface between bioinformatics and deep learning.He has published more than 400 papers with more than 22,000 citations and an H-index of 76 according to Google Scholar. He was elected to the rank of American Association for the Advancement of Science (AAAS) Fellow in 2015 and American Institute for Medical and Biological Engineering (AIMBE)Fellow in 2020

新加坡GAIR研究院创始人朱晓蕊博士

2006年获美国犹他大学机器人专业博士学位。目前担任GAIR研究所所长。2007-2020年任哈尔滨工业大学(深圳)教授,2020-2022年任珠海大数据研究院院长。她于2015年在耶鲁大学担任客座教授,2018年至2019年在斯坦福大学担任客座教授。同时,她也是几家高科技公司的联合创始人和首席科学家,包括DJI International Inc.和RoboSense Inc.

她的主要研究兴趣包括社交移动机器人、无人机、自动驾驶。

2015年,她曾在ICRA被公认为机器人领域的杰出女性,曾在IEEE ICRA 2011、IEEE IROS 2014、IEEE ICRA 2015等多个机器人领域旗舰国际会议的组织委员会任职。自2016年起,她也是全球人工智能与机器人峰会(GAIR Summit)的创始组委会。

Director (Galaxy Artificial Intelligence and Robotics Research Institute, Singapore)Xiaorui Zhu received her Ph.D. degree from the University of Utah, USA, in 2006, in robotics. She is currently the Director at Galaxy Artificial Intelligence and Robotics Research Institute in Singapore. She was a Professor at Harbin Institute of Technology (Shenzhen) during 2007-2020 and served as the Dean in Zhuhai Big Data Research Institute during 2020-2022. She was a Visiting Professor at Yale University in 2015 and at Stanford University from 2018 to 2019. She has also been Cofounders and Chief Scientists of several high-tech companies including DJI International Inc. and RoboSense Inc.. Her main research interests include social mobile robotics, unmanned aerial vehicles, autonomous driving.She was recognized as a Outstanding Woman in Robotics at ICRA in 2015. She was in the organization committees of several flagship international conferences in robotics such as IEEE ICRA 2011, IEEE IROS 2014, and IEEE ICRA 2015. She is also the founding organization committee of Global Artificial Intelligence & Robotics Summit (GAIR Summit) since 2016.

IJAIRR欢迎更多前沿科研人员加入编委团队 ijairr@wspc.com

更多信息,欢迎关注微信公众号「雷峰网」进行留言。作者微信:icedaguniang

]]>
人工智能学术 //m.drvow.com/category/academic/BjuFM1rcijW6i46Z.html#comments Fri, 25 Aug 2023 10:35:00 +0800
港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力 //m.drvow.com/category/academic/6dhyixSE5TMeSBP4.html

代码和Demo地址:https://github.com/dvlab-research/LISA

论文地址:https://arxiv.org/pdf/2308.00692.pdf


当前的视觉识别系统都依赖人类用户明确指代目标物体或预先设定识别类别,进而进行识别。它们仍然只能处理简单明确的指令(如“橙子”),而无法解析相对隐式和复杂的指令(如在下图中指出 “维生素C含量高的食物”)。



而真正的智能感知系统应该根据用户指令推理其真实意图。例如,在指示机器人时,人们往往倾向于直接给一个指令“我想要看电视“,而不是分几个步骤”走去茶几旁边,帮我找到遥控器,然后按下按钮打开电视“。这些场景都要求感知系统具有复杂推理和联系世界知识的能力。

最近,香港中文大学贾佳亚团队发布一项新研究,提出一项新任务——推理分割(Reasoning Segmentation),该任务要求模型能够处理复杂的自然语言指令,并给出精细的分割结果。



如上图所示,推理分割任务具有很大的挑战性,可能需要借鉴世界知识(例如,左图需要了解“短镜头更适合拍摄近物体”),或进行复杂图文推理(如右图需要分析图像和文本语义,才能理解图中“栅栏保护婴儿”的含义),才能获得最终理想的分割结果。

尽管当前多模态大模型(例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5])使得AI能够根据图像内容推理用户的复杂问题,并给出相应的文本分析和回答,但仍无法像视觉感知系统那样在图像上精确定位指令对应的目标区域。

因此,此项研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模态大模型。LISA通过引入一个<SEG>标记来扩展初始大型模型的词汇表,并采用Embedding-as-Mask的方式赋予现有多模态大型模型分割功能,最终展现出强大的零样本泛化能力。

同时,该工作还创建了ReasonSeg数据集,其中包含上千张高质量图像及相应的推理指令和分割标注。

实验证明,在训练过程中仅使用不包含复杂推理的分割数据(通过将现有的语义分割数据如ADE20K [6],COCO-Stuff [7]以及现有指代分割数据refCOCO系列 [8]中的每条数据转换成“图像-指令-分割Mask”三元组) ,LISA能在推理分割任务上展现出优异的零样本泛化能力。此外,进一步使用239个推理分割数据进行微调训练还能显著提升LISA在推理分割任务上的性能。而且LISA还表现出高效的训练特性,只需在8张具有24GB显存的3090显卡上进行10,000次训练迭代,即可完成7B模型的训练。


技术方案概述

首先将图像和文本送到多模态-大语言模型(在实验中即LLaVA),得到输出的文本结果,如果此时文本结果包含<SEG>标记,则表示需要通过输出分割预测来解决当前问题。反之,若不包含<SEG>标记,则无分割结果输出。

如果存在<SEG>标记,则将<SEG>标记在多模态大模型最后一层对应的embedding经过一个MLP层得到,并将其与分割视觉特征一起传递给解码器(其中分割视觉特征由输入编码器对图像进行编码得到)。最终,根据生成最终的分割结果。

LISA在训练过程中使用了自回归交叉熵损失函数,以及对分割结果监督的BCE和DICE损失函数。


模型效果

最终,LISA不仅在传统的语言-图像分割指标(refCOCO、refCOCO+和refCOCOg)上展现出优异性能,还能处理以下分割任务情景:1)复杂推理,2)联系世界知识,3)解释分割结果以及4)多轮对话。

在有复杂情景的ReasonSeg数据集上,LISA显著领先于其他相关工作(如Table 1),进一步证明其出色的推理分割能力。


效果展示


引用:

[1] Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." In NeurIPS, 2022.

[2] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." In arXiv preprint, 2023.

[3] Liu, Haotian, et al. "Visual instruction tuning." In arXiv preprint, 2023.

[4] Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." In arXiv preprint, 2023.

[5] Li, Bo, et al. "Otter: A multi-modal model with in-context instruction tuning." In arXiv preprint, 2023.

[6] Zhou, Bolei, et al. "Scene parsing through ade20k dataset." In CVPR, 2017.

[7] Caesar, Holger, Jasper Uijlings, and Vittorio Ferrari. "Coco-stuff: Thing and stuff classes in context." In CVPR, 2018.

[8] Kazemzadeh, Sahar, et al. "Referitgame: Referring to objects in photographs of natural scenes." In EMNLP, 2014.

雷峰网


]]>
人工智能学术 //m.drvow.com/category/academic/6dhyixSE5TMeSBP4.html#comments Wed, 09 Aug 2023 16:06:00 +0800
2023 IJCAI YES 青年精英学术大会圆满落幕,三人荣获“学术新星” //m.drvow.com/category/academic/Q0SAhXZRcTMmODHT.html

刚刚,2023 IJCAI 青年精英学术大会(Young Elite Symposium)在上海华东师范大学圆满结束,为上海乃至中国人工智能青年学者的学术交流与人工智能的发展画上浓重的一笔。

本次大会由WAIC组委会与IJCAI-SAIA中国办公室联合筹办,并得到了IJCAI授权。作为疫情后的线下大规模学术交流会, 本次大会由杨强、周志华、张成奇三位 IJCAI 理事会理事担任顾问,邵怡蕾博士担任大会主席,Luc De Raedt、周傲英、张桂戌任程序委员会主席。

在三天的会议中,5位国际顶级AI专家发表主旨演讲,54位被IJCAI-2021、IJCAI-2022收录论文的青年作者现场分享了其论文研究成果及其最新科研进展,600余位人工智能领域的专家学者及青年学生到场参会。

第一天的大会活动包括开幕式、五个Keynote报告和论文报告等常规环节。大会议程涵盖了当下最前沿的学术成果和行业挑战,为与会学者提供了更多交流合作的机会。此外,在闭幕式上还颁发了“学术新星”奖项,激励青年研究者们勇于创新,争取更大的突破。

截止今天下午,大会开幕式、特约报告、学术报告、专场讨论、Industry Day、颁奖典礼等特色环节全部结束,大会主席、IJCAI-SAIA联合办公室秘书长邵怡蕾博士出席并主持了闭幕仪式。

(IJCAI理事会主席Christian Bessiere致辞)

在闭幕式上,IJCAI理事会主席Christian Bessiere与IJCAI秘书长 Vesna Sabljakovic-Fritz分别致辞,对青年学者们的出色表现表示了高度赞赏和鼓励。他们强调,青年学者是推动人工智能领域创新的重要力量,鼓励他们继续坚持并不断追求卓越,并希望在澳门的IJCAI 2023和明年上海的IJCAI 2024与大家再度相会,张成奇教授对大会进行了总结。



1

三位学术新星共话AI前沿

根据大会设置,大会将根据论文被IJCAI大会接受的评分及组委会、Session Chair对论文的评分,从本次参加演讲的54位青年学者中选出三位优秀代表。在闭幕式上,邵怡蕾博士宣布,北京大学丁建豪、大连理工大学王迪、国防科技大学涂文轩三位博士生从中脱颖而出,荣获“学术新星”的称号。

(邵怡蕾博士在“学术新星”颁奖仪式上)

丁健豪

丁健豪,北京大学博士生,导师黄铁军教授/余肇飞助理教授。主要方向包括脉冲神经网络,神经形态计算等。在IJCAI、NeurIPS、CVPR、ICLR、AAAI、FGCS等国际期刊或会议上发表多篇研究论文,并担任NeurIPS、ICCV、IEEE TNNLS等国际人工智能期刊和会议的审稿人。

丁健豪本次大会分享的Talk与深度脉冲神经网络的最优转换研究有关。针对大模型为代表的深度神经网络模型带来的推理高能耗挑战,脉冲神经网络在神经形态芯片上的应用为低能耗边缘应用带来可能。丁博士分享了他们团队在IJCAI 2021年的中稿论文及一些后续探索,其中讨论了如何将深度人工神经网络在最优转换的原则下获得一个性能不逊于原始网络的脉冲神经网络,以此实现低能耗推理。

王迪

王迪,大连理工大学软件学院二年级博士研究生,合作导师为樊鑫教授和刘日升教授。主要研究兴趣包括底层视觉分析、多模态图像融合与感知。研究成果发表于IJCAI/Information Fusion/ICME/ICRA /JCST/《软件学报》等国际/国内期刊和会议。其中一项关于多模态图像配准与融合的研究成果被IJCAI 2022收录为oral presentation。

王迪本次大会分享的talk与多模态图像融合相关。针对现有多模态图像融合方法难以处理未对齐图像的空间形变,导致融合图像产生边缘重影等问题,提出了一种面向红外与可见光图像融合的无监督跨模态“配准-融合”联合方法。同时浅谈了该领域的未来的研究趋势。

涂文轩

涂文轩,国防科技大学计算机学院博士生,导师蔡志平教授/刘新旺教授。主要方向包括聚类分析、图机器学习、语义分割等,在IEEE T-IP、IEEE T-KDE、IEEE T-NNLS、AAAI、IJCAI、CVPR、MM、ICML、NeurIPS等国际期刊或会议上发表多篇论文,并担任IEEE T-KDE、IEEE T-NNLS、ACM TOMM等国际人工智能期刊以及ACM MM、CVPR、AAAI、NeurIPS等国际人工智能会议审稿人。

涂文轩本次大会分享的Talk与深度图聚类算法有关。针对传统的图结构增强(随机删除或添加边)可能会破环原始图的重要结构信息且增加深度图聚类算法信息冗余的风险,论文提出了基于双重冗余约简策略的深度图聚类算法AGC-DRR,给出了他们团队的一些探索,并通过大量实验结果证明了该算法的可行性和有效性。



2

打造“青年学者”为核心的顶级AI学术交流平台

在首日上午的大会报告后,大会进入作者报告环节,54位作者分为18组,展示了自己的最新研究成果与进展;为体现“以青年学者为核心”的特色,大会在第二天和第三天还分别设置了“明日之星:学生作者面对面论坛”和“智领未来:人工智能精英学者论坛”,从学生作者和学术带头人的角度,对学生们关心的问题进行了讨论和解答。

除了学术交流,大会还设置了全体晚宴和YES!草坪音乐会等精彩环节,为青年学者们提供了轻松愉快的社交平台。这些活动不仅让学者们结识了来自全国各地的同行,还加深了彼此之间的交流和合作意愿。年轻学者们通过互动和分享,建立了深厚的友谊和合作关系,为未来的研究合作打下了坚实的基础。

在第二天的“明日之星:学生作者面对面”论坛上,学生作者成为了分享的主角。上海交通大学张昀浩、西安电子科技大学宁倩、大连理工大学王迪、吉林大学王一鸣、西湖大学颜力琦、国防科技大学涂文轩等六名学生作者分享了他们发表论文的背后故事,并回答了在场学生提出的相关问题。这种面对面的交流和分享,极大地激发了学生们的思维和创新潜能。

(明日之星:学生作者面对面论坛现场)

同时,大会还吸引了来自50余所高校的学术带头人参与其中。这些学术带头人在各自的研究领域取得了重要的研究成果,他们的参与进一步丰富了大会的学术内容,为与会者提供了更广阔的学术视野和合作机会。

而“智领未来:人工智能精英学者论坛”也是本次大会的一大亮点。该论坛邀请了悉尼科技大学张成奇教授作为主持人,论坛嘉宾包括 伊利诺伊大学李博、上海交通大学严峻驰、华中科技大学黄宏、武汉大学张乐飞、哈尔滨工业大学(深圳)聂礼强等五名顶尖青年学者,他们是该领域的权威,对人工智能的未来发展具有深刻的洞察力。

从一开始,主持人张成奇教授就说明了这场论坛“不做化妆、不设议题、没有预告”的特别之处,直接将论坛讨论的问题交给了参与论坛的老师和学生们,并通过现场举手提问的方式,对与会者关注的问题进行了讨论。从AI的意识问题到大模型的终点、从如何与工业界合作发现需求到项目申请书的选题和撰写、从如何选择博士论文的方向和主题到毕业之后的职业发展规划、从学生的培养到如何培养抗压能力,到这些问题不仅涵盖了各个领域,也体现了参与者对于自己未来的关注和思考。通过与这些学者的深入交流,青年学者们不仅拓宽了眼界,还受益于他们的启发,为自己的研究和发展找到了新的方向。

(智领未来:人工智能精英学者论坛现场)

作为一场以青年学生为主的高端学术会议,IJCAI YES为那些活跃在人工智能研究前沿的年轻学者们提供了一个展示才华和交流思想的绝佳平台。在此期间,这些年轻学者们可以与国际上那些顶尖、经验丰富的学者们面对面沟通学习,获得最新、最前沿的技术分享,共同探讨人工智能领域发展的新机遇和新挑战。



3

IJCAI YES:持续关注青年学者的未来发展

2021年1月7日-15日,因疫情而延期的IJCAI 2020大会在线举行,同时进行了IJCAI 2024举办城市的投票选举,最终IJCAI 2024举办权花落上海。为了能够为IJCAI 2024构建完善的人工智能产学研生态环境,IJCAI 理事会决议首次通过在上海设立IJCAI中国办公室,并在 2021-2023 年和世界人工智能大会(WAIC)进行战略合作,而IJCAI YES作为战略合作和的重要部分也因而诞生。

如今,IJCAI YES不仅完美达成了“预热”的目标,为IJCAI 2024的顺利召开打下坚实的基础,更是为青年学者们搭建了最具影响力的学术交流平台。在交流晚宴上,不少学术带头人均异口同声地表示,希望在IJCAI 2024之后,将IJCAI YES大会持续举办下去,为青年学者们提供一个期待和展望的未来。

本届 WAIC 大会期间,IJCAI-SAIA 中国联合办公室还将与IJCAI YES 2023的承办方华东师范大学一起,于 7 月 7 日举办“大模型与技术奇点:人文与技术面对面高峰论坛”。这场论坛将邀请 10位人工智能学界及人文社科学界及业界领军人物,从技术与人文的视角探讨科技进步、指导技术发展,以期构建一个可信的、有边界、有隐私、有道德、有秩序的人机共生的未来。

大会虽已闭幕,但青年学者们的交流与合作不会因此而止步。通过提供丰富的人工智能专家资源,IJCAI YES为年轻学生们提供更多的学习和交流机会,促进了不同团队之间的合作,这一方面帮助年轻学者们更好地理解人工智能领域的前沿技术,另一方面也为未来的人工智能发展挖掘并输送更多优秀的人才。这一人才培养目标一直是IJCAI YES所坚持的,为人工智能领域的不断进步和发展注入了新的活力。

毫无疑问,青年学者是IJCAI YES的主角,他们的热情、创造力和努力让人对人工智能的未来充满信心。他们以他们的研究和激情,成为了人工智能领域的中坚力量,推动着科技的进步和社会的发展。这场大会不仅是他们展示自己的舞台,也是他们启航的起点,开启了他们在人工智能领域璀璨未来的征程。


]]>
人工智能学术 //m.drvow.com/category/academic/Q0SAhXZRcTMmODHT.html#comments Thu, 06 Jul 2023 18:30:00 +0800
IJCAI YES 2023 报名通道正式开启,杨强、张成奇携 50 余位青年学术带头人,邀请您共赴盛会 //m.drvow.com/category/academic/6LQUssYQGQXmMEVY.html
作者 | 黄楠
编辑 | 陈彩娴
7 月 4 日至 6 日,由世界人工智能大会(WAIC)组委会指导、IJCAI-SAIA 中国联合办公室(IJCAI 与上海人工智能发展联盟)主办的 2023 IJCAI YES 将在上海华东师范大学召开。
2021 年,作为国内首届以青年学者为核心的 AI 学术交流盛会,2021 IJCAI YES 在上海成功举办,这场定位为“高端学术会议”的盛会邀请了 3 位院士专家坐镇,6 位重量级专家做主旨报告、以及 50 多位 IJCAI-2020 的论文第一作者进行分享,500 多位参会者均收获颇丰,IJCAI YES 也就此在国内青年学者群体中打响了名声,备受 AI 圈青睐。
但受疫情等不可抗力因素的影响,IJCAI YES 在 2022 年不得不暂别线下。如今,阴霾散去,IJCAI YES 再起航,聚近千位海内外杰出的人工智能青年学者于上海,届时国内外学者将汇集一堂,围绕当下最前沿的学术成果及行业挑战机遇等话题切磋论道、碰撞思维,共赴一场坦诚热烈、开放包容的学术盛会。
报名通道现已正式开启,名额有限,速扫描以下二维码报名:



1

杨强、张成奇等重磅加盟

引领学术前沿
作为疫情后的线下大规模学术交流会,此次 2023 IJCAI YES 的大会顾问由杨强、周志华、张成奇三位专家担任,邵怡蕾博士担任大会主席,Luc De Raedt、周傲英和张桂戌任程序委员会主席。届时,大会将邀请被 IJCAI-ECAI-2022、IJCAI-2021 接收论文的部分海内外第一作者,分享其论文研究成果及最新科研进展。
2023 IJCAI YES 除开幕式、5 个 Keynote 报告、57 个论文报告等常规环节外,还精心设置了 1 个明日之星:学生作者面对面论坛,1 个智领未来:人工智能精英学者论坛、全体晚宴和 YES!草坪音乐会等多项精彩环节。目前,为期 3 天的大会议程中,议题涵盖 AIGC 应用、大模型、多模态等时下热门话题,一方面为本届大会带来更多具有学术价值和意义的内容沉淀,另一方面也为与会学者提供更多交流合作机会。
大会议程如下:
除了议程内容方面的全面创新,2023 IJCAI YES 与会人员阵容方面也再度升级。目前已确定约 50 位来自全国等各地高校的青年学术带头人将受邀全程参与大会,同时约 60 位 IJCAI-ECAI-2022、IJCAI-2021 接收论文的海内外第一作者及合作者也将分享其论文研究成果及最新科研进展。
凭借 IJCAI 强大的国际学术影响力, 2023 IJCAI YES 还邀请到了多位国际专家、院士来到上海分享他们对行业趋势的解读和研判,现场必将智识熠熠,思想迸发。目前已确认受邀参加大会的大咖嘉宾名单如下,值得关注的是,部分大咖嘉宾还将会参与到 WAIC 其他分论坛中。
杨强 院士(中国香港)
微众银行首席人工智能官,香港科技大学讲席教授,加拿大皇家科学院院士,加拿大工程院院士,IJCAI-2015 程序委员会主席, IJCAI理事会主席 (2017-2019),IJCAI理事会理事 (2011-2021)。
研究方向:迁移学习、联邦学习、机器学习、数据挖掘、自动规划。
张成奇 教授(澳大利亚)
悉尼科技大学副校长,澳大利亚人工智能理事会理事长,IJCAI-PRICAI-2024 大会主席,IJCAI 理事会理事 (2021-2026)。
研究方向:数据挖掘及其应用。
Christian Bessiere 教授(法国)
蒙彼利埃大学 CNRS 研究院教授,IJCAI-PRICAI-2020 大会主席,IJCAI 理事会主席 (2021-2023),IJCAI 理事会理事 (2017-2025)。
研究方向:用于计算机辅助约束建模的约束获取、数据挖掘、全局约束。
Toby Walsh 院士(澳大利亚)
悉尼新南威尔士大学教授,IJCAI-2011 程序委员会主席, IJCAI 理事会理事 (2007-2015),澳大利亚科学院院士。
研究方向:约束规划及布尔可满足性、宏观的人工智能研究。
Maria L. Gini 教授(美国)
明尼苏达大学教授,IJCAI-2021 大会主席,IJCAI 理事会理事(2018-2023),Haberman 奖获得者,AAAI-2016 杰出服务奖,INFORMS-2012 设计科学奖, ACM/AAAI/IEEE Fellow。
研究方向:Robotics and Artificial Intelligence 机器人与人工智能。
Tuomas Sandholm 教授(美国)
卡耐基梅隆大学计算机系教授,获得 IJCAI 明斯基奖章,获得 IJCAI-2022 John McCarthy 奖, 获得 IJCAI-2003 计算机与思想奖,冷扑大师、博弈论决策 AI 之父。
研究方向:研究重点是人工智能、经济学和运筹学的融合。
Bo Li 教授(美国)
伊利诺伊大学助理教授,获得 IJCAI-2022 计算机与思想奖、斯隆研究奖、美国国家科学基金会CAREER Award、AI's 10 to Watch、麻省理工学院技术评论 TR-35 奖等。
研究方向:可信机器学习的理论和实践方面,这是机器学习、安全、隐私和博弈论的交叉点。
Fei Fang 教授(美国)
卡内基梅隆大学 Leonardo 助理教授,IJCAI-2021 计算机与思想奖、获得斯隆研究奖、AI's 10 to Watch 等。
研究方向:人工智能和多智能体系统,专注于将机器学习与博弈论相结合。



2

聚集国内50余所高校青年学术带头人
一直以来,中国在人工智能领域的前沿探索得以走在世界前列,当中既离不开一些资深的华人科学家在该领域打下了坚实的基础,同时也离不开未来的主力军——青年学生们。
时隔两年,IJCAI YES 再度起航。虽然目前大会具体议程暂未释出,但 AI 科技评论获悉,今年 IJCAI YES 邀请了 50 余所高校的学术带头人,包上海交通大学严峻池、复旦大学姜育刚、中科院自动化所张家俊、哈尔滨工业大学车万翔、同济大学王瀚漓、哈尔滨工业大学聂礼强等多位知名学者专家将出席。
他们的研究领域涉及了自然语言处理、计算机视觉、大数据分析、数据挖掘、多媒体信息处理、复杂网络推理、信息检索、普适计算、智慧城市等多个方向,均在各自的研究领域中取得了重要的研究成果,具有一定的学术影响力。
作为业内少有的以青年学生为主的高端学术会议、且获得了 IJCAI 的授权,大会的主角是活跃在人工智能研究一线来自国内知名高校和科研院所的博士生和研究生,他们既是人工智能领域的新鲜血脉,同时也是未来 AI 理论发展和技术革新的坚实力量。可以说,IJCAI YES 是年轻化、专业性与创新性兼具。
在现场,青年学者们将有机会与国际顶尖、资深学者们面对面沟通学习,获得最前沿的技术分享,通过观点交流和思想碰撞,共同探索人工智能领域发展的新机会。
不同于其他的学科,计算机领域在学术研究和技术迭代速度上非常之快,每年、甚至每个月的技术更新之多,对于年轻学者来说,如何迅速把握时代脉搏和主流趋势,从而开展方向性明确的研究显得格外重要。
而通过如 IJCAI YES 这种小规模、精英式的学术会议,为演讲学者、参会学者都提供了一个极好的知识学习和交流平台,长期从事 AI 领域研究的顶尖专家学者为青年学者提供指引性的建议和探索方向,同时在一些前沿课题和创新性想法上,也能鼓励青年学者从事相关领域的研究工作,对学术研究起到了一定的促进作用。
此前 2021 IJCAI YES 圆满结束后,许多青年学者参会者就纷纷表示,IJCAI YES 搭建的学术交流平台对于他们的研究工作具有积极的意义,和学术大咖的面对面也增强了他们的学术自信心。
通过丰厚的人工智能专家资源为青年学生提供更多学习和交流的机会,也为未来人工智能发展挖掘和输送更多优质人才,这是 IJCAI YES 一直坚持的愿景和方向。
值得一提的是,本届 WAIC 会期中,IJCAI-SAIA 中国联合办公室还将与华东师范大学一起,于 7 月 7 日举办“大模型与技术奇点:人文与技术面对面高峰论坛”。
这场论坛将邀请 20 余位人工智能学界,人文社科学界及业界领军人物,面向 200 多位现场观众,围绕当前火爆全球的 AIGC 及 AGI(通用人工智能)领域,展开一场面对面的辩论和对话,从技术与人文的视角探讨科技进步、指导技术发展,以期构建一个可信的、有边界、有隐私、有道德、有秩序的人机共生的未来。



3

IJCAI、WAIC 再联手

IJCAI 全称 International Joint Conferences on Artificial Intelligence,是人工智能领域中历史最悠久的学术会议及最顶尖的学术会议之一,该会议自 1969 年以来,每年都会在不同的大洲举办,被誉为“人工智能界的奥林匹克”。
2020 年,IJCAI 理事会通过决议在上海设立第一个海外办公室——IJCAI-SAIA 中国联合办公室,这也是本届大会的主办方。仅一年后,经过上海大学和上海市人工智能行业协会(SAIA)的积极申办准备,上海从竞争者中脱颖而出,争得了 IJCAI-PRICAI-2024 的主办权。
此次 IJCAI 与 WAIC 两大会议"强强联手"举办 IJCAI YES ,也旨在提前为 IJCAI-PRICAI-2024 做准备。
作为 IJCAI-PRICAI-2024 的主办城市,上海已连续三年举办世界人工智能大会(WAIC),形成了足够的产业影响力。通过此次青年学术交流盛会,希望能够为上海举办 IJCAI-PRICAI-2024 构建完善的人工智能产学研生态环境。
2023 IJCAI YES 是 WAIC 与 IJCAI 第二次联手合作,可以预见,这场学术会议必将凭借二者的专业度和学术影响力,将再次热遍整个 AI 圈!
目前,大会报名通道已正式开启,千万不要错过这次与海内外院士大咖和 AI 精英学者们面对面深入交流的机会。期待与AI 圈的学者、从业者们相聚上海,共赴这场思想上的「饕餮盛宴」!
报名方式
扫描以下二维码,即可参与到 2023 IJCAI YES 大会现场:
查看最新议程和嘉宾名单,请登录 2023 IJCAI YES 官网:https://ijcai.org.cn/

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/6LQUssYQGQXmMEVY.html#comments Thu, 08 Jun 2023 10:31:00 +0800
会议邀请 | 5月20日香港科技大学(广州)交叉科技与数字经济论坛 2023 //m.drvow.com/category/academic/wtmAWvtGSlWBUZR2.html

香港科技大学(广州)交叉科技与数字经济论坛 2023

Cross-Technology and Digital Economy Forum 2023

HKUST(GZ)


主办单位:香港科技大学(广州)信息枢纽

5月20日(星期六),香港科技大学(广州)(以下简称为港科大(广州))信息枢纽将在港科大(广州)校园举办交叉科技与数字经济论坛。此次论坛将汇聚众多知名专家学者,他们将分享我们诚挚地邀请您参加主题演讲和圆桌讨论环节,共同探讨。

请参阅以下的活动概要并在文章末尾注册报名。

会议组委会

会议主席:倪明选 教授  香港科技大学(广州)

联席主席:陈   雷 教授  香港科技大学(广州)

日程安排

时间:2023年5月19-20日

地点:香港科技大学(广州)



日程安排 Program Overview

日期时间内容

5月19日

下午及晚上

会议注册报到

5月20日

上午

论坛主题演讲

09:00-

09:20

开幕式致辞:倪明选校长

09:20-
10:00
胡斌教授:《医学电子与精神疾病诊疗》
10:00-
10:30
茶歇
10:30-
11:10
黄铠教授:《数字经济的基础:智能物联,医疗云与孪生城市》
11:10-
12:00
沈向洋教授:《勇闯无人区:打造智能融合低空系统SILAS》
12:00-
14:00
午餐(免费提供)

下午

圆桌论坛

14:30-

16:00

主题:数字经济的未来和展望

主持人:信息枢纽院长 陈雷教授

论坛特邀嘉宾:须成忠、金海、徐志伟、卢宇彤、陈国良、李晓明、郑纬民、杜小勇

16:00-

16:20

茶歇

16:20-

17:30

特别环节

Celebrating Prof. Kai Hwang's Birthday and his contribution to the Chinese

computing community

主持人:倪明选校长

17:30-

18:00

校园参观

1

大会主题报告一


01




胡斌 教授


北京理工大学医学技术学院、医工融合研究院院长


主题报告:

《医学电子与精神疾病诊疗》


胡斌,入选国家级“海外高层次人才引进计划”,973首席科学家,2020年全国先进工作者,IEEE Transactions on Computational Social Systems主编,IEEE/IET/AAIA Fellow,长期从事脑功能医学电子,情感计算研究工作,在Science(Oct.2,2015)上提出了Computational Psychophysiology这一新的研究方向,美国科学院、医学院两院院士 Michael I.Posner 教授的评价为“心理生理计算将引领新的研究热潮”。
入围2020、2021、2022年高被引科学家名单。获2016年度教育部技术发明一等奖,2018年度国家技术发明奖二等奖,2019年度中国专利金奖,2020年度甘肃省专利奖发明人奖(均为第一完成人)等。主持国家变革性技术“基于心理生理多模态信息的精神障碍早期识别与干预技术 ”等重大项目,核心技术获得国家二类医疗器械许可。这些工作极大地推动了精神障碍客观、量化诊断与非药物干预的发展。


2

大会主题报告二


02





黄铠 教授


香港中文大学(深圳)校长讲座教授

深圳市人工智能与机器人研究院 中心主任


主题报告:

《数字经济基础:智能物联网,医疗云与孪生城市开发》

黄铠教授早年毕业美国加州大学计算机科学博士。他在南加州大学与普渡大学任教44年。2018年加入香港中文大学(深圳)任校长讲座教授。黄教授在计算机结构、平行处理、云计算、与人工智能方面著作等身,桃李满天下。被选入全球2%顶级科学家。他是IEEE Life Fellow, AAAI Fellow, 获CCF首届海外杰出成就奖与2012 IEEE世界云计算大会终身成就奖。


3

大会主题报告三


03




沈向洋 教授


香港科技大学校董会主席

美国国家工程院外籍院士


主题报告:

《勇闯无人区:打造智能融合低空系统SILAS》

沈向洋,香港科技大学校董会主席,美国国家工程院外籍院士,是计算机科学领域的专家和科技产业领袖,在学术界、企业界、投资界拥有重要影响力。曾担任微软公司全球执行副总裁,主管微软全球研究院和人工智能产品线,负责推动公司中长期总体技术战略及前瞻性研究与开发工作。他曾参与创立了微软亚洲研究院,并担任院长和首席科学家,为中国和世界培养了众多的一流计算机科学家、技术专家和企业家。



4

圆桌论坛

主题:数字经济的未来和展望


主持人:信息枢纽院长 陈雷教授

圆桌论坛嘉宾(排名不分先后):

须成忠 教授 (澳门大学)

陈国良 教授 (深圳大学)

郑纬民 教授 (清华大学)

卢宇彤  教授 (中山大学)

金 海 教授 (华中科技大学)

李晓明 教授(大湾区大学)

徐志伟 教授 (中国科学院计算所)

杜小勇 教授 (中国人民大学)



5

特别环节
同时,此次论坛将为庆祝黄铠教授80岁生日举办一个特别座谈会。
黄铠教授于1972年在加州大学伯克利分校获得电气工程和计算机科学博士学位。黄教授在普渡大学和南加州大学执教44年,现任香港中文大学(深圳)计算机科学和工程校长讲座教授。在50余年的学术生涯中,黄教授培养了22位博士,撰写了10本教科书,并发表了300余篇科技论文。黄铠教授也是第一批从美国到中国大陆进行学术交流的华人专家学者,从而影响了大批青年到海外深造并回国做出重大贡献
会议注册报名
会议免费扫码注册
截止时间2023年5月18日24:00

更多内容,点击下方关注:

雷峰网



]]>
人工智能学术 //m.drvow.com/category/academic/wtmAWvtGSlWBUZR2.html#comments Wed, 17 May 2023 11:15:00 +0800
CCIG丨汇智聚力·创未来,2023中国图象图形大会圆满落幕 //m.drvow.com/category/academic/pNEincnxPUA9nUB7.html

大会现场

5月11-14日,中国图象图形大会(CCIG2023)在苏州隆重召开。本次大会由中国科学技术协会指导,中国图象图形学学会主办,苏州科技大学承办,常熟理工学院协办,苏州高新区管委会、苏州市科学技术协会支持,来自图像图形领域学术界、产业界的同仁2000余人齐聚一堂,展开思想碰撞和深入交流,共同展望图像图形学领域前沿趋势,探索科技赋能产业升级之路。

王亮研究员主持大会开幕式

苏州市政协张东驰副主席,中国科协科学技术创新部部长刘兴平,大会主席、中国工程院院士、中国图象图形学学会理事长、湖南大学教授王耀南,大会主席、苏州科技大学校长、教授顾菊平教授出席大会开幕式并致辞。大会主席、中国科学院院士、中国图象图形学学会名誉理事长、南京大学党委书记谭铁牛,中国工程院院士、北京航空航天大学教授赵沁平,中国工程院院士、卫星信息智能处理与应用技术重点实验室主任江碧涛,苏州高新区党工委委员、管委会副主任张瑛,苏州市科学技术协会党组成员、副主席倪志强,清华大学教授胡事民等专家出席开幕式。开幕式由组织主席、中国图象图形学学会副理事长、中国科学院自动化研究所王亮研究员主持。

张东驰副主席致辞

刘兴平部长致辞

王耀南院士致辞

顾菊平校长致辞

大会程序主席、中国图象图形学学会副理事长兼秘书长、北京科技大学马惠敏教授介绍了大会的筹备情况。

马惠敏教授介绍大会筹备情况

开幕式上举行了中国图象图形学学会与苏州高新区管委会战略合作协议签约仪式,学会副理事长兼秘书长马惠敏教授和苏州高新区管委会吴旭翔副主任代表双方进行签约。学会和苏州高新区管委会将以此次签约为契机,加强交流与合作,共同为推动地方经济高质量发展做出积极贡献。

中国图象图形学学会与苏州高新区管委会战略合作协议签约

大会汇聚了谭铁牛院士、赵沁平院士、徐宗本院士、吴一戎院士、胡事民教授、高新波教授等百余位国内外知名学者及企业专家,为与会者带来了一场精彩的学术盛宴。

谭铁牛院士作题为《视觉内容生成与安全》的报告,从人工智能内容生成的研究背景及现状出发,介绍了近年来在内容生成和取证方面取得的研究结果,并展望了未来的发展趋势。

谭铁牛院士作主旨报告

赵沁平院士作题为《从虚拟现实1.0到虚拟现实2.0》的报告,分享了虚拟现实技术1.0阶段到2.0阶段特征从“3I”发展为“5IE”的变化,以及各个特征的具体表现等精彩内容。

赵沁平院士作主旨报告

徐宗本院士作题为《如何学习学习方法论—论大模型的本质》的报告,他指出大模型的本质与模拟学习方法论(SLeM)紧密关联,并介绍了在SLeM框架下的双层优化模型和“超参数化”求解方法,以及此SLeM方法论本质具有的任务泛化性理论内涵,最后介绍了SLeM的几个机器学习自动化应用实例,通过实验结果展示了该方法论的有效性。

徐宗本院士作主旨报告

吴一戎院士作题为《遥感基础模型发展与思考》的报告,介绍了空天院建设灵眸遥感智能解译基础模型取得的突破,并讲述了基础模型的典型应用,以及在多个领域的应用效益。最后指出遥感解译基础模型的发展思路和未来展望。

吴一戎院士作主旨报告

胡事民教授带来题为《计算可视媒体:骨干网络与深度学习框架》的报告,从可视媒体智能处理的视角,分析从数据驱动到深度学习的计算可视媒体发展脉络,重点介绍视觉骨干网络方面的研究成果,视觉大模型预训练算法的加速策略,以及计图深度学习框架的新进展。

胡事民教授作主旨报告

高新波教授的报告题目为《以人为中心的可信场景分析》,主要介绍了国内外在可信人工智能及其在场景分析中的应用研究进展与现状,并简要汇报其团队近年来在该领域所取得的研究结果,最后探讨以人为中心的可信场景分析的未来发展趋势。

高新波教授作主旨报告

大会设置了23个技术论坛,聚焦类脑智能、机器视觉、智能感知系统、虚拟现实/增强现实、多媒体计算、大模型、文档图像分析识别等热点领域,展示图像图形学术研究、技术创新与行业应用的最新成果。大会同期举办了图象图形战略研讨会、女科学家论坛、青年学者论坛、奖励论坛、年度学科发展报告论坛5大特色论坛。图象图形赋能产业和大模型时代的图象图形技术变革与实践2大企业论坛。瞄准世界科技前沿等热点内容,剖析技术趋势、洞察产业未来,赋能行业应用场景落地,助推数字中国建设。

论坛现场照片

大会同期还设置了30余项成果展览,充分展示领域最新进展,为传播图像图形领域前沿的学术和技术成果提供广泛的交流平台。

5月14日,2023中国图象图形大会圆满落下帷幕,大会期间专家学者和产业界同仁围绕科技前沿和热点议题,碰撞思想观点,共商合作创新,为促进图像图形领域发展贡献智慧和力量。

伴随着CCIG 2023的落幕,让我们共同期待CCIG 2024,相约西安,共襄盛举!

雷峰网


]]>
人工智能学术 //m.drvow.com/category/academic/pNEincnxPUA9nUB7.html#comments Wed, 17 May 2023 10:17:00 +0800
GAIR 2023 预热沙龙:SaaS 创业者如何迎接 ChatGPT 时代? //m.drvow.com/category/academic/rsi75JQjIDhEWAWi.html 七年前,DeepMind凭借AlphaGo掀起AI界的狂欢,让AI从实验室中冰冷的“0”和“1”,变成日常生活中随处可见的应用,购物平台的算法推荐、进出站点的刷脸识别,等等。但是,回归到技术本身,AI却一直“原地踏步”,似乎并没有太多的突破,直到OpenAI推出了ChatGPT。

但这仅仅只是一个序曲,GPT-4、Office“全家桶”、GPT插件功能等技术的不断涌现,让人们开始意识到,第四次人工智能浪潮已然来临。

兴奋、恐惧,两种截然相反的心情交织、充斥在对ChatGPT一次又一次的讨论声中。

业界普遍认为,ChatGPT的兴起将带来三大产业机会:新型云计算公司、可以进行行业模型精调的公司、基于大模型底座进行应用开发的公司。

云计算自不必说,高高的技术城墙并不是一朝一夕筑起的。

而在大模型的研发道路上,早已挤满了入局者。互联网大厂巨头、海归/大厂高管创业派、创业公司转型派等,似乎每天都会传出又有一位新选手报名参赛的消息。

在应用领域,业界认为,随着ChatGPT的不断调优、性能优化,未来或将在医疗、客服、翻译、营销、游戏、社交、教育、家庭陪护等多个领域落地应用。

那么,ChatGPT将会彻底颠覆传统SaaS行业吗?那些想要在新一轮浪潮中乘风破浪的SaaS创业者又将面临哪些机遇与挑战?

基于此,3月29日,雷峰网组织了一次GAIR沙龙:SaaS创业者如何迎接ChatGPT时代。

远望资本创始合伙人、迅雷创始人程浩,CODE.FUN创始人杨帆,同心圆网络有限公司创始人潘雷明,vika表格CEO陈霈霖,千巡科技CEO王淮卿,科唯信科技CEO张竞,探鸽CEO盛金平,凌立韦创资本董事总经理韦明志,LigaAI CEO Ryan,无境创新科技创始人李河山,法聪聪科技CEO原旭一,达旦数生联合创始人&CEO孙立发,虚影科技CEO黄鹏涛,优伴科技(UPartner)创始人方金鸿,素问智能总经理王巍、以及场地提供方Z-Pillot的代表肖潇等嘉宾出席参加。

针对上述问题,嘉宾们结合自身行业经验,分享了见解与观点。

远望资本创始合伙人、迅雷创始人程浩认为,AIGC或AGI绝对是第四次工业革命。带来的机遇和挑战主要在于:

一、中国一定要有自己的ChatGPT,也一定会有自己的产品。但相较于刚刚加入AI大模型赛道的创业公司来说,互联网大厂,不管是在技术、资源、金钱,还是场景上,都更加具有先发优势,更容易“跑”出来。可以说,能做成的不过五家,百度、阿里、腾讯、华为、字节等。

二、新一波浪潮下,如果从国内和国外、ToC和ToB四个象限来看的话,比较看好出海ToB市场,一方面海外B端的支付能力比较好,另一方面护城河比较深,巨头很难进入,有更多的应用需求,相应有更多的机会。

三、对于业界关心的这一波技术变革的趋势到底是“AIGC+”还是“+AIGC”,或者到底是AIGC原生还是AIGC赋能的问题,主要取决于两点:AIGC 在企业整体全价值产业链中的比例;企业对于AIGC技术护城河的深度。从长期来看,“AIGC+”与“+AIGC”一定会相互融合。

嘉宾们也纷纷建言献策,主要观点可以凝结为以下几点:

一、未来整个SaaS或者ToB的产品形态都可能发生巨变,而对于当前的SaaS企业来说,AIGC带来的威胁大概达到50%的份额左右。这意味着,到底是AIGC发挥作用完全取代具体的企业业务,还是行业企业借助AIGC生产更好用的产品,双方的机遇是一样的,而在最终结果出来之前将有一两年的窗口期,这个就是需要大家努力、拼搏不被落下的时期。

二、这一波ChatGPT的爆发,对于研究NLP的团队来说,打击相对更大一些;对于那些研究强化学习等领域的团队来说,短期内还存在一定的行业壁垒未被攻破。

三、ChatGPT作为一种新技术,将重塑企业服务整个业务流程的服务形态。在具体的场景中,ChatGPT除了具有交互处理的功能之外,还可能扮演一个很好的参谋长、指挥官角色,用户是司令,管理ChatGPT对具体业务负责。

四、未来社会一定是数字化的,AI在知识型的工作领域会表现得越来越好。而对于那些需要技能的重复作业领域,也会逐渐出现AI的身影,如律师、医生等。

五、这一波AIGC的发展,带来的最大冲击是人机交互的变化。传统企业服务厂商是拿着锤子,思考如何了解、解决用户的痛点,但其实用户需要的不是锤子,而是那个“洞”(解决结果)。那么在这个时候厂商应该思考的不是用 AI与锤子做结合,而是要能借助AI来提供更好的解决方案。在这个过程中,所有企业服务最大的一个优势在于拥有大量的私有数据,这是AIGC无法通过网上已有信息获得的。

六、SaaS 产品做得再好,也不能替代人的服务。人的要素在企业服务里面永远存在,最主要的原因就在于需要满足客户的个性化需求。ChatGPT改变了人机交互方式,但这种技术应用到企业市场,需要相当长的一段时间。短期内应用最快的应该是做客服的企业。

七、如今,ChatGPT开放了插件功能,关于大模型和应用APP之间的“入口”之争,一定会长期存在。

八、ChatGPT能不能替代现在的SaaS服务?SaaS可以理解为专家系统,不仅有专家属性,还有顾问属性、流程属性、协同属性,而ChatGPT是一个神经网络,它有很多自学的先验知识。两者之间本质上不如说是神经网络与专家系统之间的关系,面对一个具体问题,都是引入信息流来消除不确定,SaaS使用的是专家路径,引入信息方式是可解释的,而ChatGPT使用的是神经网络途径,引入信息庞大,是个开放域,边界范围更大。两者之间相互影响。

“GAIR沙龙”是雷峰网对前沿话题进行线下讨论的活动子品牌,该品牌起源于雷峰网2016年起主办的“全球人工智能与机器人大会(Global Artificial Intelligence & Robotic summit,GAIR)”。目前,雷峰网正在筹备今年7月份在新加坡的GAIR大会,本次大会的主题是“GPT & Pre-AGI era”(GPT与前通用人工智能时代),我们也将邀请部分沙龙嘉宾参加在新加坡的大会,分享其对于GPT和AGI的看法。

关于ChatGPT的讨论仍在继续,雷峰网也会持续组织诸如此类的沙龙活动,与更多的科学家、企业家一同探讨ChatGPT所带来的影响与变化!后续雷峰网将持续关注SaaS创业者与ChatGPT的故事,欢迎SaaS创业者添加作者微信youlinancy,一同交流学习!下一期“GPT时代的自动驾驶”闭门沙龙正在筹备当中(有意参加的业内人士请加微信qmigh10187联系)敬请期待!


]]>
人工智能学术 //m.drvow.com/category/academic/rsi75JQjIDhEWAWi.html#comments Fri, 31 Mar 2023 18:03:00 +0800
独家 | AI 学术大会 IJCAI 2023 将改在中国澳门举办,三位中国学者任本地主席 //m.drvow.com/category/academic/Y2esU6Uuldjr96fc.html 作者 | New Bing

编辑 | 陈彩娴

AI科技评论最新消息:国际人工智能联合会(IJCAl)在官网上发布了一则重要通知(如下),宣布原定于2023年8月19日至25日在南非开普敦举办的 IJCAl 2023 将改址在中国澳门举办,时间不变。

该通知表示,这是综合各方面考虑,经过与南非当地组委会和澳门当地组委会的协商,才做出了这一艰难但必要的决定。

AI科技评论独家获悉,这次大会选址的变动主要是杨强为首的一批中国研究者的推动,在去年的AAAI 2022 ,由于新冠疫情的影响,“中国没几个人能去线下参会,要么航线不多,要么签证被拒签行政审查。而中国跟国际的学术交流不能停,不能断,(所以他们)要为国家做点事情。”于是,经与IJCAI理事会和秘书处讨论和投票,临时将会议调到了澳门举办。

此外,改址的主要原因是南非的筹备工作出了比较大的问题,由于改址需要进行论证,所以 IJCAI 举办选址的改动从年前搞到现在才尘埃落定。

IJCAl大会是人工智能领域最具权威、最高水平、最具影响力的国际学术盛会之一。它始于1969年,在每两年举办一次。它旨在促进人工智能领域各个方面的研究、发展和应用,并促进国际间的交流与合作。IJCAl大会涵盖了人工智能领域所有主题,并设置了多种奖项来表彰杰出贡献者。

作为一个国际化城市,澳门正在积极转型为一个科技创新中心,近年来受到许多重要会议的青睐。

近些年来,澳门政府以及学术界逐渐意识到本地与国际在学术研究方面的巨大差距,开始以澳门大学为主心骨加强对学术研究领域的投入和布局。目前,澳门政府在澳门大学开设了一系列国家重点实验室。人才储备不足的澳门近年来也在加大对人才的吸引力度:「毕业于重点院校的优秀博士生,每月的补贴最高可达 2 万澳门币,而同样优秀的博士后,每月的补贴可达 4 万澳门币」。

据AI科技评论了解,新的地方主席将由以下三位专家担任:

● 巩志国:现为澳门大学计算机与信息科学系教授、系主任。他分别于1983年、1988年、以及1998年,在河北师范大学、北京大学、以及中国科学院获得学士、硕士、以及博士学位。研究方向包括机器学习、数据挖掘、数据库和信息检索。

● 周晓方:现为香港科技大学计算机科学与工程系讲座教授。他在1994年从澳大利亚昆士兰大学获得计算机科学博士学位。研究方向包括数据挖掘、时空与多媒体数据库、数据质量管理。 

● 明仲:现为深圳大学计算机与软件学院教授。2004年从中山大学获得计算机科学与技术博士学位。研究方向包括深度神经网络,云计算资源智能调度,智能推荐系统等。

图注:从左到右分别为巩志国、周晓方和明仲

IJCAI 2023大会将涵盖人工智能领域内各个方面的最新研究成果和进展。除了主要论坛之外,还有两个特别论坛(“AI for Good”和“AI, The Arts and Creativity”) 。论文提交网站已经开放 ,欢迎广大人工智能研究者踊跃投稿参与。
此前,澳门已经成功承办了2019年的第28届IJCAI大会,为此积累了宝贵的经验和资源。虽然这次改址是一个突发事件,但相信澳门必将完美完成这届大会的举办任务,并展现出其作为一个科技城市的魅力和实力。

与必应的对话, 2023/3/19

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/Y2esU6Uuldjr96fc.html#comments Thu, 23 Mar 2023 10:42:00 +0800
ChatGPT API 正式发布,中国厂商往何处去? //m.drvow.com/category/academic/TKT0CTI9d5gKxHFf.html

作者丨董子博

编辑丨岑峰

3月刚过去一天,AI圈子又引爆了一声惊雷。



1

价格一折

OpenAI在官网发布,ChatGPT 向外界开放了API,并且开放的是已经实装应用到 ChatGPT 产品中的 “gpt-3.5 - turbo” 模型,可以说是拿出了压箱底的招牌武器。

不仅如此,在定价上,OpenAI 仅收取每1000个 token 0.002美元的价格,是原先 GPT-3.5 模型价格的1/10。价格之低,令不少业者大跌眼镜,以为自己小数点后多看了一个“0”。

此外,OpenAI还推出了另一个新的Whisper API,该API是由人工智能驱动的语音转文本模型,该模型去年9月推出,并可以通过API进行使用,这也为开发者提供了更灵活的互动方式。

先前, ChatGPT 有点小贵的价格还令一些使用者颇有微词,并且前股东马斯克也曾多次在推特上指责 ChatGPT 闭源的行为,已经让 OpenAI 从一家非盈利公司,变成了微软控制下的“走狗”。而这次API发布之人们才发现,OpenAI 或许真的有着一颗“普惠”的心。

ChatGPT 为什么选择在今天,以一个如此低廉的价格开放 API?他们直言:通过一系列系统层面的优化,12月以来,团队将 ChatGPT 的成本降低了90%,而这些被节省了的费用,则可以被团队用来惠及更多的开发者。

过去有消息称,ChatGPT完成单次训练大概需要一个月的时间,花费1200万美元左右的成本。而训练效率的提升,无疑使AI也完成了巨大的“降本增效”。

4天前,OpenAI的创始人——山姆·奥特曼就曾在推特上表示:一种新的摩尔定律马上即将成为现实——每过18个月,宇宙中的智能数量就会翻上一番。

此言一出,引得业内争议不断。今天看来,或许是为了今天ChatGPT API 的发布造势。

在官网中,他们写道:“开发者们现在可以在他们的App和产品中,通过我们的 API 将 ChatGPT 整合其中。”



2

开发者狂喜:

全民AIGC时代到来

我们先问了ChatGPT,在开放API后,会对国内的企业和开发者产生什么样的影响,ChatGPT给了一个中规中矩的回答。

但毫无疑问,ChatGPT开放API最大的受益者是开发者,有开发者甚至用“变天了”来形容ChatGPT开放API对他们的影响。

自从2022年11月ChatGPT发布以来,已经有第一批开发者就“怎么赚钱”展开了一系列尝试,包括:

  • 利用镜像网站等方式,给国内用户提供 ChatGPT 服务,利用信息差赚取两头差价;
  • 利用ChatGPT的写作能力批量生成回答、进行写作,在对应平台上进行变现;
  • 与其他AIGC应用的联动,如AIGC+Madjounery/Stable Diffusion等文字转图片/视频工具进行自媒体创作,等等。
在这些人中,那些搬运ChatGPT的“掮客”们,是第一批利用ChatGPT 赚到钱的人。而在开放API后,随着更多的开发者入局,价格被压低90%的情况下,这些人则很难有利可图。
而利用 ChatGPT 辅助写作、创作的人,则可以在更多场合使用ChatGPT,并且使用的成本急遽下降,他们的创作则被极大地赋能。
除此以外,开放API,ChatGPT 还或许会迎来更多App和软件的开发者。接入 ChatGPT,对于互联网产品的交互方式会产生巨大的变化,也会让用户的使用体验得到巨大的提升。
未来的游戏,可以背靠ChatGPT做出栩栩如生的NPC(非玩家角色);未来的电商,可以为用户提供更好的推荐和比价等服务;未来的社交,能够更好地协助用户匹配,甚至帮助用户破冰,协助人际交往……
这也给了不少开发者传递出了积极的信号——积极拥抱 ChatGPT,或许能创造出更多更好的互联网产品,甚至改变未来人机交互的格局。
当然,ChatGPT自己,也能在这个时代中,获得高速发展的机会。
一方面,廉价、高效的AI应用,足以帮助其快速地占领大片市场空白。
“天下武功,唯快不破”,在这个互联网市场的真理几乎颠扑不破。后来者如果没有明显更低的价格,或明显更强的性能,在 ChatGPT 站稳脚跟之后,就很难挑战它的地位。
占据了市场,比每1k token 0.002美元的营收更重要的,是海量用户所提供的数据和产品反馈。
和开源的原理相同,一方面,大规模的使用能够产生大量的数据,进而反哺模型下一步的调整和进化;一方面,用户“用脚投票”,自然会流向更加具有商业价值的场景当中,转身为 ChatGPT 下一步的商业化提供赋能。
和普通开发者“共襄盛举”,ChatGPT API的发布,或许真的意味着,全民AIGC时代的到来。



3

中国公司们准备好了吗?
ChatGPT 开放 API利好开发者,但对那些新进加入 ChatGPT 赛道的创业者,此时也被迫感受到了一丝寒意。
入局本就落后于人,少了先发优势,不少人团队还没完全建成,壮志豪言刚刚出口,而抬头一看,ChatGPT已经一骑绝尘,想要望其项背,都还需不少苦工。
而对于大厂,OpenAI 此举也是敲山震虎——百度、阿里这样的大厂,想做类ChatGPT 产品,怎么才能做得比本尊更好,投入也更少?
AI科技评论认为,对于中国的厂商来说,ChatGPT 开放 API,也并不全然代表失去了未来生存和盈利的机会。

百度的“文心一言”、阿里的“通义”、华为的“盘古”、IDEA的“封神榜”、澜舟的“孟子”、智源的“悟道”……在这个赛道上有所积累的玩家不少。技术层面,他们的路径并不相同,实力上也各有千秋;如何完成更高效、廉价、贴合市场的工程化,是摆在他们面前“弯道超车”的绝佳机遇。

从“模型、算力、数据、场景”的四个因素角度上来看,大模型的算法壁垒,并没有外界看来的如此不可逾越,随着时间推移和研究进步,算法性能很可能逐渐趋同;而算力方面,则是真金白银的投入,资本和资源的比拼。
如果抛开算法、算力两大方面,在数据和场景上,中国厂商则有很大的优势

IDEA研究院的讲席科学家张家兴博士,曾在一次演讲中做过类比:投入了数百名正式员工、上千名标注员,用了3年时间,OpenAI 从 GPT-3 再到 ChatGPT,持续对一项模型进行修改,并未对模型结构进行过创新。

正如搜索引擎公司,调用数万名员工、数千标注员,二十年如一日地打磨优化,最终只为了将引擎做得至臻至美。

大投入、长坚持,是未来一家成功AI公司,最珍贵的品质——若非如此,AI就做不好工程化落地的工作,而这也是中国AI公司面前最大的机会。

在数据上,越来越多业者发现,要用AI讲好中国故事,首先需要的是中国本土原生的数据集,这样才能更贴近中文的使用,也更贴近中国的市场环境。
如果再聊到政治环境,数据脱敏、以及对于涉黄、违法、涉政内容的风险管控,也是大模型工程化落地,所不得不关注的核心难题。
做数据集的收集,中国厂商自然近水楼台;而到了实际操作中,中国厂商在人力资源和成本上,也相较OpenAI要更有优势。
而寻找场景和技术产品化,更是中国厂商的强项。文章先前还提到的,那些将 ChatGPT 镜像做成产品,赚取用户差价的“掮客”,早在王小川、王慧文宣布入局之前,就以这种思路,赚取到了“ChatGPT”的第一桶金。
要想全民进入AIGC时代,AI产品化的进步,可以说与AI技术的进步同等重要——技术不仅要有用,还得“能用”,让用户用得舒服。有国内巨大市场作为后盾,AI产品一旦起势,就很容易形成马太效应,在用户中形成强大的影响力。
ChatGPT如同一只鲇鱼钻进了池子,用风卷残云之势搅动乾坤。面临如此强敌,中国的竞争者们也必须动起来,才能在激烈的竞逐中获得一席之地。
评价这件事时,张家兴说道:“OpenAI是一群相信通用人工智能AGI会实现的人,当我们在焦虑如何做出中国ChatGPT的时候,他们已经在探索AGI的下一步,同时把当下的成熟技术推向落地,这才是ChatGPT API发布这件事情真正的含义。”
未来,AI科技评论会持续关注AI科技工程化落地的选题,探索未来中国AI弯道超车的机会。本文作者董子博,欢迎加微信 william_dong,交换行业认知,互通有无。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/TKT0CTI9d5gKxHFf.html#comments Mon, 20 Mar 2023 15:22:00 +0800
离开国内互联网大厂后,AI 科学家能去哪里? //m.drvow.com/category/academic/Iz8gnSYgO5sK1IJy.html 雷峰网获悉,近日中国人工智能领域多位业界技术翘楚(梅涛、谭平、金榕)有新的人事动向。有人从大厂离开、尚未定下家,有人决定先回归学术界,还有人从国内头部大厂跳到国际头部大厂。他们的选择,有个人原因,也有外部客观环境下的权衡之举。

随着ChatGPT的炸圈,人工智能的潜力再次回归大众视野。春节后的这波 AI 浪潮,可以说达到了前所未有的热度,网友形容,在人工智能领域,上一个能获得全民关注的话题还是2016年李世石与AlphaGo的「五番棋大战」。ChatGPT对社会发展的意义,甚至还被夸大为堪比人猿的第一次直立行走。

然而,与此同时,人工智能的长远发展与基础建设底层动力不足,也开始为更多人注意到。比如,网友就热议:国内多家公司与机构号称其在人工智能研究上取得多大成果,那么为什么不是中国率先研究出ChatGPT?归根到底,是研究与商业化的「土壤」问题。

回到人才上,值得我们思考的是:在国内,如果一个 AI 人才身怀绝技,可以去哪里发挥自己的才能?

1、梅涛从京东离职

据悉,近日原京东集团副总裁、京东探索研究院副院长梅涛已离职,2月上旬有消息称其已受聘担任微亿智造与智云天工的高级技术委员会名誉主席及高级战略顾问。

梅涛

梅涛的本科与博士毕业于中国科技大学,加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow,主要研究方向为计算机视觉与多媒体,是国内该方向的知名科学家,谷歌学术引用量超过3万。2006年,他加入微软亚洲研究院担任研究员,工作12年后,在2018年加入京东。

梅涛加入京东的契机,正是国内各大厂受深度学习影响,纷纷建立 AI 人才团队的时候。京东最开始邀请周伯文入职,带头建立「AI 平台与研究部」,陆续吸纳了一批 AI 科学家,如何晓冬、梅涛、郑宇等。梅涛加入后,主要内容也是将 AI 知识用于研发京东的数智供应链,还担任了科技部创新2030人工智能重大项目「智能供应链人工智能开放创新平台」首席科学家。

京东是一家以供应链智能为核心竞争力的公司,一方面,新加入的 AI 人才从一开始就有一个相对清晰的应用场景;但同时,另一面是,京东的 AI 人才也局限于单一的供应链应用场景,难以突破。

有早期京东的 AI 人士就告诉雷峰网,京东的 AI 平台部门最开始聚集了人才、找事做时,是先给京东零售的核心业务赋能。然而,类似大厂的跨部门合作都会带来部门间协调沟通难、利益难以平衡、资源浪费的问题。比如,京东高薪聘入一个 AI 科学家,却让他们来解决基层研发工程师就能解决的业务技术问题,同时京东零售自有一个研发团队。

后来,京东也意识到了这一点,开始将这部分人才团队划分出来,以京东「言犀」的名义聚集,对外以「京东云」的名义输出 To B 人工智能技术,如何晓冬博士领衔的智能客服对话等。这就相当于在京东集团内部成立了一个「AI 初创团队」,单独研发武器,对内对外做生意,这既让京东的 AI 团队得到施展才华的机会,又让团队对内有交代。据悉,2022年京东云AI部门的盈利达到了数亿,即将扭亏为盈,抵消掉研究 AI 的机器与运营等等成本。

京东的 AI 团队似乎在朝着一个明朗的方向发展,但对于京东的 AI 商业落地模式,也有行业人士评价:既然是京东里的「创业公司」,那 AI 团队为什么不出去自立门户呢?

梅涛原先就职的京东探索研究院,其院长由陶大程担任。

据悉,京东在刚有意成立探索研究院时,原是想请西北工业大学的知名学者李学龙担任院长,但李学龙的志向不在工业界,就向京东推荐了他的后辈陶大程。

在京东技术版图的整个布局中,京东探索研究院扮演探索前沿、「未雨绸缪」的新角色,科研氛围浓厚,但距离业务场景相对较远。陶大程与梅涛均为 AI 领域的青年翘楚,被寄予厚望。

微亿智造的前身企业是「雄思科技」,成立于2005年,2018年引入新的资本重组为微亿智造,研发以 AI 视觉技术为核心的产品表面缺陷检测智能设备,与智云天工一样,走的都是工业智能赛道。

当然,梅涛本次受聘担任的「名誉主席及高级战略顾问」更多是一个「智囊」的角色,除此之外,是否选择其他公司担任实际职位或创业,雷峰网仍在进一步确认中。

此前,原腾讯优图实验室首席科学家贾佳亚从腾讯离开后,就选择了在工业制造领域创业,成立了思谋科技。计算机视觉的落地,从人脸识别到自动驾驶,都已是一片红海,计算机视觉科学家转向难度更大、技术壁垒更高的领域已成趋势。


2、谭平、金榕离开阿里后,有新下家

2022年中期开始,阿里达摩院多位技术高层出走,如华先胜、金榕、张磊、谭平等等。华先胜原任阿里达摩院城市大脑负责人,离职后在去年9月加入了AIoT初创公司特斯联,担任CTO,是较早官宣下一任职务的离职高管之一。今年,其他离职高管的去向也逐渐公开。

雷峰网获悉,原阿里达摩院XR实验室负责人谭平在去年离职以后已经入职香港科技大学电子与计算机工程系(ECE)和机器人研究所(Robotics Institute),担任正教授。

谭平

谭平是一名80后,天才少年,15岁就考入上海交通大学少年班,2000年本科毕业时获应用数学与计算机科学双学位,并在上海交大求学期间开始接触到人工智能,2003年获模式识别与智能系统硕士学位。硕士毕业后,谭平到香港科技大学读博,师从权龙,开始深入研究计算机视觉,为日后在3D视觉领域的建树打下了基础。

博士毕业后,谭平走的先是学术路线:2007年博士毕业后到新加坡国立大学ECE系任教,2014年去加拿大西蒙弗雷泽大学计算机系任教。

在加入阿里之前,谭平曾加入360担任人工智能研究院副院长,与颜水成搭档。当时360有意研究自动驾驶,谭平擅长的三维视觉正是高精地图、导航、避障等问题所急需的。后来,360终止了自动驾驶业务,团队将研究成果转化为了一款扫地机器人。

谭平专长3D视觉。这方面的人才在国内长期稀缺。2019年谭平应浅雪(阿里巴巴合伙人、人工智能实验室负责人陈丽娟)邀加入鼎盛时期的阿里,担任人工智能实验室计算机视觉首席科学家。但2021年初,人工智能实验室被爆已经解散。同年,元宇宙概念兴起,谭平在云栖大会上的演讲「元宇宙—下一代互联网」在全网累计获得上千万浏览。谭平也官宣坐镇阿里巴巴XR实验室,聚焦AR/VR研发。据悉,当时的XR实验室聚集了200+研发,在北京、杭州、深圳、以色列都有办公室。但随着22年AR/VR的热潮逐渐消退,阿里在XR方向的研发策略有所调整。许多员工选择离开,谭平也于年中离职。

谭平的导师权龙也在香港科技大学任教,权龙长期从事三维视觉重建的相关研究,并在此领域有一家创业公司altizure。而谭平的实验室将会定位于三维人工智能,XR、机器人都是其关注的应用方向之一。

除了谭平,阿里原P11、达摩院机器智能技术实验室主任金榕在2022年5月离职后加入了推特,担任研发VP。

金榕金榕本科毕业于天津大学,北京大学物理学硕士,后赴卡内基梅隆大学(CMU)语言技术研究所(LTI)攻读博士,师从AI大神 Alexander G. Hauptmann。

CMU 的 LTI 研究所在自然语言处理领域全美排名第一,培养出许多 NLP 大神,如 ACM Fellow翟成祥、吉林大学人工智能研究院院长常毅、XLNet作者杨植麟、ALBERT一作蓝振忠等,录取门槛极高。但金榕跨专业申请成功,是LTI自成立以来第五位被录取的中国学生,并于2003年顺利毕业。

博士毕业后,金榕也是先选择学术界,2003年到2014年在美国密歇根州立大学计算机科学与工程系任教,从助理教授做到了正教授,谷歌学术引用也超过了两万次。2014年7月,金榕加入阿里巴巴,是达摩院最早的十三位扫地僧之一,做过手机淘宝App中的「拍立淘」功能、上海地铁语音购票等项目。

结合近年来XR、NLP在国内业界的发展,谭平与金榕的选择其实不难理解。

尽管元宇宙与ChatGPT的热度带火了计算机图形学、XR、语言大模型等技术研究,但随着Meta股价大跌,元宇宙的研究成本曝光,资本很快收缩了在这块的投入。如谭平所研究的3D视觉,在国内的研究领域并没有受到足够重视。

自然语言处理也如此,一是计算机视觉资源的挤兑,二是NLP的应用细碎纷杂,文档处理、客服对话、语言翻译等等场景难以形成有效差异化竞争,与实际需求较远。

即使在2017年左右国内大厂纷纷成立 AI Lab 或相似团队,但业务与研发的高壁垒始终没有被打破。这也导致近年来,原本从学术界兴冲冲跑到工业界、有意干一番事业的AI科学家在离开BAT等大厂后,要么只能回学术界「蛰伏」,要么自己创业,要么国内几个大厂轮流转,要么并入国外科技大厂。


3、为什么中国没有「OpenAI」?

相比「为什么不是中国率先研发出 ChatGPT」,也许我们更应该关注「为什么中国没有OpenAI」。

深度学习的业界浪潮,大约可以分为几个阶段:雷峰网

2012年AlexNet横空出世,最先作出反应的是谷歌、微软等大厂,还有彼时没被谷歌收购的DeepMind(Alpha系列的研发团队)、野心勃勃的百度,这四家率先聚在NeurIPS顶会,希望收购AlexNet的团队Geoffrey Hinton等人,这场角逐最终以财大气粗的谷歌胜出。

随后资本蠢蠢欲动,2012年左右开始出现一批 AI 创业公司,如国内的 AI 四小龙。这波 AI 创业聚集了大量的 AI 人才,一时风头无二。受它们影响,AI 浪潮在国内外全面铺开。同时,也有一些大厂如联想、360等开始布局 AI 团队。雷峰网

接着是2017年左右,互联网大厂迫于外界的汹涌,也不得不开始组建 AI 团队做两手准备,阿里、腾讯、京东等等大厂开始成立 AI Lab,重金招聘 AI 科学家,从彼时已式微渐现的微软亚研、国内外高校挖一批 AI 研究者坐镇。这波吸引了许多大科学家,学术界人才开始流失,空出许多教职名额与新的博士生学位,高校开始出手招聘青年教授、学生,人工智能正式席卷。

如今,十年过去,大浪淘沙,国内的 AI 布局重新洗牌,AI 人才的流动也间接与新的行业启示相结合。

一是行业开始发现,在传统的互联网大厂与科技大厂中,与 AI 发展相配套的政策与基础匮乏,围绕 AI 技术来建设的底层框架仍处于起步阶段,主要反映在没有 AI 科学家的用武之地、AI 人才不受尊重、AI 研究与落地要附属于传统的业务部门(如电商、游戏、搜索等)。首席科学家在大厂被传统技术人才嘲笑的行业笑话屡见不鲜,科学家离开大厂成趋势。

另有接近当事人的业内人士称,亚马逊机器学习部门杰出科学家/VP Alex Smola及其弟子、任亚马逊机器学习部门首席科学家的华人学者李沐,近日也有计划从亚马逊离开。

对此雷峰网也通过相关途径进行了求证,但截止发稿为止并未得到答复。目前Alex Smola和李沐的LinkedIn资料上所在公司依然显示为「Amazon」。雷峰网

针对这一行业问题,国内近年来也成立了各类人工智能实验室,如北京智源人工智能研究院、上海人工智能实验室等。但与DeepMind、OpenAI相比,国内的AI研究院在技术突破与创新上仍未体现出能相媲美的潜力,即使是ChatGPT的底层技术(语言大模型)的研究,也多跟随、而非引领。

二是行业开始注意到,AI 的落地必须控制成本、找准应用场景,并提升用户体验。以商汤为首的一批 AI 公司抵过第一波资本寒冬后,在ChatGPT为首的 AI 新浪潮里,尽管有大批号称 AIGC 的创业公司与类 ChatGPT 产品出来,但差异化不明显,性能上也无法媲美 ChatGPT。

同时,基于国外开源算法而研发出的 AIGC 产品,在算力与数据等方面的布局不成熟,也拉大了国内 AI 研究与国外的差距。

一方面,AI 人才要开始重视产品设计;另一方面,创造新的土壤也成为当务之急。

近日,美团联合创始人王慧文在社交平台上亲自发声,宣布进军 AI 创业,设立北京光年之外科技有限公司,出资5千万美元,估值2亿美元,自有资金占股25%,剩余75%的股份用于邀请顶级研发人才。据透露,下轮融资已有顶级VC认购2.3亿美金。

王慧文称,他的梦想是打造「中国版的OpenAI」。

在AI领域,OpenAI 的组织结构模式一向为人称奇:OpenAI 成立于2015年12月,目标是实现通用人工智能(AGI)。AGI 的难度很大,所以OpenAI的创始团队从一开始就知道自己在未来的数年需要数十亿美元来解决算力等成本问题。为此,在募集资金方面,他们采取了「有限利润」(Limited Profit,简称「LP」)的模式,成立一个营利性与非营利性相结合的全新组织——他们称之为「LP」公司。

在LP模式下,他们规定,投资者与员工能获得之前规定的有上限的回报,划分一定的期权,而超过原先规定回报数额的盈利归OpenAI所有、用于非盈利途径。它的章程也规定,实现 AGI 的研究目的摆在回报权衡的前面,所有投资者和员工都要签署协议,即使以牺牲部分或全部财务股份为代价。

OpenAI 的章程规定

这个结构保证了 AI 人员可以最大限度下无 KPI 负担地开展研究,为实现 AGI 的目标而奋斗。AGI是人工智能领域最高的终极目标之一,是大多数AI研究者的追求目标,GPT系列与ChatGPT的研发则属于OpenAI通往AGI路上途径的小站点。

根据目前的有限信息,王慧文发起成立的北京光年之外科技有限公司在模式上也追求资本出资、人才另聘的模式,保证了组织的成立目标(发展 AI)与资本-科研分离进行的运转机制。光年之外能否在中国走出一条创新道路呢?仍有待时间的考验。

同样的土壤长不出新的植物。AI 人才从大厂离开,有个人原因,也有外部环境的影响,如谭平,如金榕,如梅涛。新的 ChatGPT 热潮带火 AI,但下一个十年的 AI 发展能否缩短从种子到大树的距离,也将成为区分各家 AI 竞争的分水岭,决胜最后的王者。

长期关注 AI 大牛动态、AI 前沿研究与行业纪事,作者微信:Fiona190913,欢迎爆料,互通有无。

(雷峰网记者王永昂、李梅对本文亦有贡献)

]]>
人工智能学术 //m.drvow.com/category/academic/Iz8gnSYgO5sK1IJy.html#comments Fri, 17 Feb 2023 10:54:00 +0800
Andrej Karpathy 回归 OpenAI:ChatGPT 重新让 AI 科学家变得值钱 //m.drvow.com/category/academic/2WhcMNCN6nF3cIfR.html

作者 | 李梅

编辑 | 陈彩娴

最新消息,人工智能领域知名科学家、李飞飞高徒、特斯拉前 AI 总监 Andrej Karpathy 回归 OpenAI。

在自宣推特中,Andrej Karpathy 明确称赞了 OpenAI 近日在人工智能领域的引领工作,「他们的工作所带来的影响令我深受鼓舞,我个人从中受益匪浅。(OpenAI)未来的潜力非常令人激动」,因此他在离开多年后选择重新加入 OpenAI,参与建设。

该推特下面,OpenAI 的 CEO 奥特曼(Sam Altman)热情回复:「欢迎回来!」

Andrej Karpathy 是全球人工智能领域的知名科学家,计算机视觉方向的研究佼佼者。

他于2009年本科毕业于多伦多大学,获计算机科学和物理学学士学位,2011年硕士毕业于不列颠哥伦比亚大学,随后赴斯坦福大学 AI Lab(SAIL)读博,师从知名华人女学者李飞飞,是全球最早将深度学习用于计算机视觉研究的学者之一。至今,他的谷歌学术引用量超过5万。

求学期间,Andrej Karpathy 曾先后在谷歌、DeepMind实习,随后在OpenAI刚成立不久时加入、担任研究科学家。直到2017年6月,他被OpenAI的联合赞助人之一Elon Musk挖去特斯拉,担任特斯拉人工智能部门主管,负责领导Autopilot计算机视觉团队(Director of AI and Autopilot Vision),构建Autopilot自动驾驶系统,直接向马斯克汇报。

在特斯拉工作的5年里,Karpathy主导了特斯拉自动辅助驾驶系统Autopilot的开发,这项技术对特斯拉的全自动驾驶系统(FSD,Full Self-Driving Computer)有着至关重要的作用。他在各大新闻中更是一度被称作为 「特斯拉的秘密武器」。

去年7月,Karpathy宣布从特斯拉离职时,称其对下一步并没有具体计划,但希望花更多时间去思考自己对AI、开源以及教育领域的热情。彼时,Stable Diffusion正火热,不久,ChatGPT又席卷国际,Karpathy身处其中,再次感到人工智能的春风,果断选择加入风头正火的老东家:OpenAI。

ChatGPT这一波,不仅为OpenAI带来资本的关注、用户的青睐,还将带来更多类似 Andrej Karpathy 这样的顶级 AI 人才,同步吸引有志于人工智能事业发展的青年人才。

据了解,谷歌像许多大型的科技公司一样,在研发上采用赛马制,内部同时有好几个研发类似模型的团队,其中,语言大模型的研究团队向OpenAI流失人才的情况比较严重。

事实上,过去几年,谷歌已经有不少人才流向OpenAI这样的「纯种 AI 基地」。

与传统的科技公司不同,OpenAI、DeepMind自成立以来,就是为「发展人工智能」而生。在这一代公司与组织中,它们的核心业务是 AI 研究,核心队伍是 AI 人才,在这里,AI 人才能调用最核心的资源做研发,参与距离 AI 进步最近的项目,结交到最志同道合的同行,因此,OpenAI 与 DeepMind一向是 AI 有志青年向往的天堂。

OpenAI 自成立以来,就是一个卧龙凤雏之地,人才密度极高,而且兼顾「理想」与「现实」的两面。OpenAI 的创始人中,有高瞻远瞩的企业家典型——硅谷知名创业加速器Y Combinator前总裁Sam Altman(现CEO),也有具备远大视野的科学家典型——AlexNet的作者Ilya Sutskever,还有「疯狂」的Elon Musk。

至今,OpenAI 也是全球人工智能人才密度最高的技术团队之一。相比 AI 常被列为边缘业务的互联网科技大厂,OpenAI 显然对人才更有吸引力。

尽管近年来,国内的大厂在对待 AI 人才与科学家的态度上暧昧不清,但想必在这次 ChatGPT 的冲击下,AI 人才将重新回到核心管理层的视野。因为从长期来看,企业之间的竞争中,人才的竞争才是核心、才是拉开差距的关键。在最近关于「OpenAI为何能做出ChatGPT」的解读中,业内人士都注意到OpenAI在人才密度上的极大优势。

过去对 AI 未给予充分重视的互联网大厂,或许也将在这波 ChatGPT 中重新审视 AI 底层技术对上层业务建设的影响。对 AI 的再次重视,或将扭转前几年AI科学家频繁从大厂出走、回归学术界的局面;也可能增加大厂在AI尤其是大模型、计算等基础设施上的研发资源投入。

近日,百度、阿里、网易、京东、360等国内大厂都曝出即将发布类似ChatGPT产品的消息。但具体产品的体验与ChatGPT的差距,仍有待观察。

ChatGPT是各家科技公司走出AI寒冬的机会,也是AI科学家们在个人生涯上一次见证历史、华丽转身的机会。

参考链接:https://twitter.com/karpathy/status/1623476659369443328

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/2WhcMNCN6nF3cIfR.html#comments Fri, 10 Feb 2023 10:53:00 +0800
今晚,谷歌对决微软,Bard 与 ChatGPT 的比赛正式开始 //m.drvow.com/category/academic/CwRPtVrbiO6X1rxa.html 作者 | 孙溥茜

编辑 | 岑峰


1

谷歌今晚“姗姗来迟”
“谷歌会在一两年内被彻底颠覆”,本月初Gmail的缔造者保罗·布赫海特(Paul Buchheit )在推特上公开谈论。
北京时间2月8日凌晨,微软举行发布会,正式推出由ChatGPT支持的最新版本Bing搜索引擎和Edge浏览器,新版Bing将借助ChatGPT,回答用户具有上下文内容的答案。桌面版已开启试用,手机版也即将来临。
保罗表示,当人们的搜索需求能够被封装好的、语义清晰的答案满足,搜索广告将会没有生存余地。而谷歌迄今仍是一家有超过50%营收是依靠搜索广告的公司。
萨提亚·纳德拉(Satya Nadella)在发布会上表示:AI 将从根本上改变所有软件,并从搜索这个最大类别开始。
这是搜索领域新的一天,比赛现在开始。
一天以前,桑达尔·皮查伊(Sandar Pichai)在网络上预告了谷歌的下一代AI对话系统——Bard,Bard的发布会将在今晚“姗姗来迟”,对准了风头正劲的ChatGPT,谷歌似乎也已经做好了战斗准备。
皮查伊在公开信中表示:两年前,谷歌推出了下一代语言和对话技术——LaMDA,这两年来,谷歌一直在研究一项由LaMDA提供支持的实验性对话式AI服务——Bard。今天,谷歌又将向前一步,将其开放给测试人员,并在未来的几周内广泛向公众开放。



2

ChatGPT vs Bard
OpenAI的核心模型GPT(Generative Pre-trained Transformer)首发于2020年,历时三年,耗费巨资在2022年初完成了训练。ChatGPT的母公司OpenAI 首席执行官山姆·阿尔特曼(Sam Altman)透露,此次微软的新版Bing搜索引擎使用的是升级版AI 语言模型——“普罗米修斯”(Prometheus),相比ChatGPT目前使用的GPT-3.5,普罗米修斯的功能更为强大。
谷歌这一边,皮查伊在公开信中提到,谷歌正在通过LaMDA、PaLM、Imagen 和 MusicLM等人工智能技术,以全新的方式处理语言、图像、视频和音频等信息。据了解,Bard使用的是谷歌的 LaMDA 轻量级模型版本,通过更小的模型,更少的计算资源与电力,从而能扩展更多用户,获得更多反馈。
不过有知情人士透露,这次Bard的发布有些赶,内部还没有完全准备好,所以才先以面向有限开发者的形式推出。
虽然Bard和ChatGPT都能将复杂的信息和多种观点提炼成易于理解的形式,但如皮查伊在发布会上所表示的,Bard可以“利用网络信息提供新鲜和高质量的回复”——Bard的信息基于实时网络数据,而ChatGPT的信息则来源于2021年以前。
推特上,一位机器学习工程师则从另一角度指出了Bard和ChatGPT的本质区别:
“这不是ChatGPT与Bard的对决,而是GPU和TPU的对决...比的是谁能够更经济地实现矩阵相乘。”
一场大战,即将开幕。



3

对ChatGPT的讨论,还会持续很久
ChatGPT的话题太火爆了,随着谷歌的入场,谷歌和微软的较量更是成为这场举世瞩目的,技术与舆论的暴风眼。
不过提及竞争对手,OpenAI首席执行官Sam Altman在接受福布斯的最新访谈中提到,他并不认为ChatGPT会取代如谷歌搜索一类的传统搜索引擎。(详情见AI科技评论Sam Altman:ChatGPT 不会取代谷歌搜索,但未来的 AI 可能会
Sam认为,ChatGPT不会取代(搜索引擎),但未来的人工智能系统可能会。
而ChatGPT正是他口中的人工智能系统的一个缩影。提到ChatGPT,很多人会下意识地联想到Chatbot,但是ChatGPT并非聊天机器人,而是一个真正意义上的,以「自然语言为界面」的机器人。
那么什么是「自然语言界面」?诸如老师、律师这类将结构化信息,翻译成自然语言的专业服务,正是一种自然语言界面。老师、律师通过他们的专业学习,将领域的专业信息以服务的形式提供给普罗大众。通过老师的提炼,书海变得详略得当;通过律师的翻译,法律文书变得清晰明了。普通人正是在专业服务的帮助下极大地节省了时间成本,也就是那句被大众常提的,“专业的人干专业的事”。
ChatGPT「自然语言界面机器人」的形态,正如是Sam Altman在访谈中提到的“ChatGPT的出现,更多是验证了技术进步能为社会带来持续积极的影响”的一个例子。以 ChatGPT 为代表的语言模型宣告说:这件事是可以被机器做到的。不是无中生有的创造信息,而是对它的归纳、总结、举例、在不同结构之间切换。——这就是为什么上个月微软董事长 Nadella 说这是新的工业革命(我倾向于同意他),因为信息流通转译的服务(不是信息本身,但这种服务是现代经济的血脉)价格在一夜之间被彻底改变了。

ChatGPT是一件难而慢的事情

当微软Bing再次将ChatGPT推上风口浪尖,国内很多人在追问,我们能不能也有像ChatGPT一样的产品?
GPT模型从首发到完成训练,历经了三年之久,不但是团队能够耐住这种长期不出成果的寂寞,更是支撑在团队背后的一整套资金、技术、应用,和人才的体系化保障。ChatGPT是一件长期主义的事情,难以靠单枪匹马的技术团队完成。



4

「就这,你细品,他急了」
正如谷歌CEO所说:如今,最大的 AI 计算规模每六个月翻一番 ,远远超过摩尔定律。与此同时,先进的生成式 AI 和大型语言模型正在激发全世界人们的想象力。
“你已在见证它的发生,人们见证过互联网的几次革命。互联网的诞生,移动互联网和云技术兴起,现在是新的一次——AI 正在重塑互联网。”
像 ChatGPT这类技术涌现的时候,一般大家的反应都是玩两下,刚开始有趣,很快就腻了,然后再从自己的习惯出发,挑各种毛病,觉得“不过如此”。
但在OpenAI和Google的角度,虽然商业化前景仍不明朗,但AIGC已经具备改变游戏规则的潜力。在未来的AIGC市场有赖于一个创新的杀手级应用,今天Bing与ChatGPT的合作,正是让像Google这样前一代的杀手级应用感到了被颠覆的威胁,从而以更积极的态度投身于这场对未来的竞争。
打不过就加入,同时引发的,是大厂对AI的又一轮“扩军备战”:就在昨天,百度宣布推出“中国版ChatGPT”文心一言,而今天阿里的工程师也发布朋友圈曝光了阿里的类ChatGPT产品,称“该产品已进入内测阶段”。

高科技带来的权力架构演变

博主“硅谷王川”曾提到过一个观点:当一项新技术面临突破,如果将 "提高效率"和"组合性"这两个东西结合起来,可能会涌现出完全意想不到的应用,把意想不到的别的地方的老的做事方式边缘化或者自动淘汰。
在这一轮的AIGC风潮中,无论是之前的图文生成工具的热潮,还是后来的ChatGPT的出现,对于用户来说“好玩”的需求是第一位的,是一次性的,很难带来行为模式的改变。但量变势必会带来质变,ChatGPT所代表的是一种“效率提高”的可能(例如,当学生发现可以用ChatGPT来进行论文写作),行为模式一旦形成,对老的模式的商家将是一种降维打击。
在我们的观察中,ChatGPT最大的昭示,并非传统技术研究的基础性创新,而是交互模式的突破——基于GPT技术积累,ChatGPT巧妙地通过低门槛的对话形式,用通俗易懂的形式(如检索、写作、编程)向非技术用户展现了人工智能的强大:工具性的智力超越。而当其体现工具性的类人化,其带来的影响必然也包括社会组织形式的变化。
从历史的经验看,高科技本身没有那么重要。高科技带来的权力架构的演变是重点。那么,当 AI 的技术成熟,非技术进步的部分,如产品设计、项目运营、商业模式等等,能否跟上?ChatGPT的出现,或许是一个启示,但如果人们不注意到落地最后一公里的急迫性,那么这个启示也将湮灭在时代前进的洪流中。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/CwRPtVrbiO6X1rxa.html#comments Thu, 09 Feb 2023 18:30:00 +0800
Sam Altman:ChatGPT 不会取代谷歌搜索,但未来的 AI 可能会 //m.drvow.com/category/academic/Fa4MIsZZf2Y3MWhM.html 作者 | 西西

编辑 | 陈彩娴

2022年,生成式AI在人工智能领域掀起一阵浪潮,并随着ChatGPT的火爆出圈奠定了下一代AI产业变革的不二地位。

随之,ChatGPT背后的美国公司 OpenAI 也走进越来越多非 AI 从业人士的视野里,以其近年来层出不穷的 AI 基础性突破和独特的组织结构(一家与微软等巨头联动、同时又号称自己为非营利性组织的公司)占领了生成式 AI 的创新高地。

作为一款基于人工智能技术的互联网产品,ChatGPT初具通用人工智能(AGI)的雏形,其受众范围与用户数超乎想象。一个直接的数据统计对比可以佐证一款智能交互产品的市场影响力:ChatGPT发布5天就达到了Facebook用10个月达到的用户里程碑——超100万玩家;3个月就达到推特用9个月创下的纪录——1亿用户。

ChatGPT的火热,很快让行业人士意识到:它的成功,已经不仅是AIGC或生成式AI所能囊括的范畴。它是一个智能聊天产品,但体验感超越以往包括Alexa、小冰、Siri在内的所有智能对话产品;它是一个问答智慧囊,但所给予的回答显现了上知天文、下知地理的手眼通天能力;它是一个被编程的系统,一个没有生命的机器,却能通过各项人类测试获得高分,帮助人类解决深奥的技术问题。

此前在AIGC刚火热时,AI科技评论报道《AIGC,造成一个新的赛道来》,剖析了一个事实:AIGC的功能集成,是多项技术的卓越链接成果。原计划随后推出AIGC创业难的行业剖析,但ChatGPT的出现给我们打了个猝不及防,让小编深感:AI作画或AI写作,根本不足以概括人工智能大佬们的技术野心。

知识曾被视为人与人在社会等级中划分不同位置的标准之一。过去,AI识别是凡视力正常人类皆可履行的“性能”,并不出奇;但ChatGPT的出现,则在AI生成的基础上,则展示了其履行经过十六年寒窗苦读、仅在社会中占少数的高知分子的智识潜力。

一位 AI 博士生就向AI科技评论讲述了其被ChatGPT“教育”的过程:作为一个曾获百度与微软学者的优秀博士生,他曾遇到一个程序上的难题,苦思多日无果,然后向ChatGPT提交了问题。然后,ChatGPT仅用几秒就解决了他的技术问题,让他大跌眼镜。

在我们的观察中,ChatGPT最大的昭示,并非传统技术研究的基础性创新,而是交互模式的突破——基于GPT技术积累,ChatGPT巧妙地通过低门槛的对话形式,用通俗易懂的形式(如检索、写作、编程)向非技术用户展现了人工智能的强大:工具性的智力超越。而当其体现工具性的类人化,其带来的影响必然也包括社会组织形式的变化。

在福布斯对OpenAI首席执行官(CEO)Sam Altman的最新访谈中,Sam Altman也粗浅地谈到了这一点。当 AI 的技术成熟,非技术进步的部分,如产品设计、项目运营、商业模式等等,能否跟上?ChatGPT的出现,或许是一个启示,但如果人们不注意到落地最后一公里的急迫性,那么这个启示也将湮灭在时代前进的洪流中。

以下是福布斯与Sam Altman的对话概要。欢迎关注AIGC与ChatGPT的读者联系编辑微信(Fiona190913)交流。

Q1:随着ChatGPT的流行,资本渴望从中获利的热情高涨,OpenAI与微软的合作也受到广泛关注,让人感觉 AI 的发展似乎来到了一个历史性的拐点。在你看来,OpenAI 现在发展到什么阶段了?你如何看到这样的拐点?

Sam Altman:现在确实是一个激动人心的时刻,但我认为距离拐点还为时尚早。ChatGPT的出现,更多是验证了技术进步能为社会带来持续积极的影响——这个意义,同样也可以用于肯定GPT-3与DALL·E的发布。另一方面,也许我们过段时间又会否定自己,因为我们可能会遇到我们先前没有预料到的绊脚石。但坦诚说,我认为我们真的有可能在ChatGPT中发现重大机遇,让我们走得更远。

Q2:ChatGPT的影响力有出乎你的意料吗?

Sam Altman:我想推ChatGPT就是因为我认为它会有意义,但我还是被它所产生的影响力规模所震惊到了。希望人们真的会喜欢它。

Q3:之前你说过,人们可能会被ChatGPT的运行方式所惊讶到。在你看来,ChatGPT有哪些被误解的地方?

Sam Altman:值得一提的是,ChatGPT在发布之前已经在API中封存了大约10个月的时间。我比较惊讶的是,在ChatGPT中,你只要对模型进行微调,就能使模型变得有用;并且,一旦你找到正确的交互方式,你就能很快上手。换言之,并非是技术的基础突破让ChatGPT火了起来,而是其他方面的改进(如交互方式)让它出圈。但我们这么说的时候,很多人并不相信,而是固执地认为ChatGPT就是GPT-4。

Q4:在你看来,ChatGPT真的会形成一个新生态吗?除了OpenAI,还有哪些重要的公司参与其中?

Sam Altman:是的。我认为对一家公司来说,ChatGPT太大了。另外,我也认为,世界上应该有很多个通用人工智能(AGI)存在。

Q5:你认为ChatGPT会取代传统的搜索引擎吗?比如谷歌搜索。

Sam Altman:我认为ChatGPT不会,但未来的人工智能系统可能会。如果你只关注昨天的新闻,那么你很可能错失新的机会。我更感兴趣的是思考搜索以外的新应用。这些新的应用,不一定要等到 AGI 的出现;相反,我认为这样的局面(新的AI应用爆炸)很快就会发生。

Q6:我们现在已经快要实现AGI了吗?我们怎么判断某个版本的GPT是不是AGI?

Sam Altman:我不认为我们非常接近AGI了。但如何判断一个模型是否已经是AGI,确实是我最近一直在思考的问题。以我过去五年探索AGI的经验来看,我能确认的一个行业共识是:不会有一个十分清晰的事件节点标志AGI的正式诞生。相反,AGI的实现将是一个更加循序渐进的过程,也就是人们所说的“缓慢起飞”。

Q7:除了OpenAI的发展需要,AGI是你的个人兴趣所在吗?

Sam Altman:是的,AGI是我从事人工智能研究的所有热情与动力所在。此外,还有一个目标就是建立更丰富的世界。比如,我认为能量(energy)也是很重要的,能量对实现 AGI 也非常重要。

Q8:Greg Brockman(OpenAI总裁)曾说过,OpenAI专注研究,但并不反资本。你如何平衡OpenAI的远大目标发展与回报投资人的营利需求?

Sam Altman:首先我要说,我认为资本主义很了不起,我爱资本主义。在世界上所有糟糕的系统中,资本主义是我们迄今为止发现的最好的系统。但我也希望我们能找到更好的系统,而且我认为,如果AGI真的能充分实现,我完全能想象它会如何粉碎资本主义。

据我所知,OpenAI的组织架构形式是不同于目前任何一家公司的组织架构形式的。这是因为我们真的相信我们正在做的事情。如果我们只是认为OpenAI会成为一家新的科技公司,那么我会说:“很好,我已经了解其中的玩法,因为我的整个职业生涯都在做这件事。让我们一起打造一家真正伟大的公司吧!”但是,如果我们真的能实现AGI,AGI又真的能粉碎资本主义,那么我们就需要不同的公司结构。在这一点上,我们的团队与投资者都做得非常好。

不过,我也认为任何一家公司都不应该拥有一个人工智能宇宙。AGI的利益如何共享,访问权限如何共享,以及治理权如何分配,这是我们需要重新思考的三个问题。

Q9:Greg曾谈到未来第三方API与第一方产品(也许是企业工具)协同的想法。在将 AI 产品化的过程中,你认为应该如何保持OpenAI的开放精神?

Sam Altman:我认为最重要的是推出像 ChatGPT 一样的开放性工具。谷歌就没有将他们的AI产品与技术开放给大众使用,其他实验室也不会这样做。有些人会担心 AI 目前还不安全。但我认为,我们应该让社会感觉到 AI 的力量,学会与 AI 博弈,掌握其优点与缺点。所以我觉得最重要的事应该是将 AI 开放给大众,这样他们才会知道未来会发生什么。比如,OpenAI在走向开放的过程中,让我最自豪的一件事就是在 AGI 上良好无害地运行 Overton Window(一个能帮助理解什么政策在特定时间能为大众广泛接受的 AI 模型)。

此外,我们也想提供更强大的 API,因为我们能够让它们变得更安全。我们会坚持开源,就像我们开源 CLIP(OpenAI在2021年发布的视觉-语言神经网络)。开源是近日图像生成能够大火的根源。最近,我们还开源了自动语音识别模型 Whisper 和编程语言模型 Triton。

Q10:有人担心你会跟微软与微软的CEO萨特亚利益捆绑太紧,对此你有什么回应?

Sam Altman:我会说,我们在很小心谨慎地履行我们与他们之前签订的合同,并确保我们能顺利完成我们的使命。此外,萨特亚和微软也很强。我认为他们是迄今为止最符合我们价值观的科技公司。每次我们去找他们说:“嘿,我们要做一件你可能会讨厌的奇怪的事情,可能会影响你们的回报收入或超乎合同范围。”他们的回复都是:“这件事太了不起了!”

所以我的感受是,OpenAI对整体使命的追求不太会受到营利方面的压力。这一点你可以跟任何人求证。了解我的人都知道,如果我不想忍受一件事,我是不会委屈自己去忍受的。如果我不能忍受微软,我就不会跟他们建立合作伙伴的关系。

当然,我们也不是无欲无求的出家人。我们希望让人们成功,然后在他们成功的基础上获得回报。如果AGI真的能带来巨大的影响,我们希望这种回报的形式也是创新的。我们也希望跟社会分享这些财富。

Q11:目前为止,你见到用户使用GPT做过的最酷的事情是什么?另外,最让你害怕的事情又是什么?

Sam Altman:很难说哪件事最酷。大家用GPT做各种各样的事情,就已经让人很震撼。但我可以说一件让我觉得对个人用户最有帮助的用处,就是文本概括与总结。文本概括所耗的时间与精力都是巨大的,而仅仅用GPT来总结一篇长文章或长邮件的要点,对我的帮助就已经超乎想象。另外,GPT能够提出深奥的编程问题,让我觉得我好像拥有了一个超级程序员可以自由对谈,这也让我觉得很好。

至于让我害怕的事情,我一直在关注有人也许会用开源的图像生成器来生成暴力色情内容,我认为这种用户会带来巨大的、可预见的伤害。

Q12:你认为提供这些 AI 工具的公司是否有责任确保此类事情不会发生?亦或者,这是人性中无法避免的一面?

Sam Altman:我觉得两者都有。模型的开源是一个不可抑制的趋势,而且大部分的技术开源也是积极的,但总会有一些不好的事情发生。生产这些 AI 工具的公司,与那些最终跟用户有联系的公司,都需要承担一些责任。

参考链接

https://www.forbes.com/sites/alexkonrad/2023/02/03/exclusive-openai-sam-altman-chatgpt-agi-google-search/?sh=713f1a666a63

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/Fa4MIsZZf2Y3MWhM.html#comments Tue, 07 Feb 2023 16:01:00 +0800
独家 | 李学龙、唐杰入选 2023 AAAI Fellow,华人占约 1/5 //m.drvow.com/category/academic/UcMHp1O87gQ2V5zc.html

作者|黄楠

编辑|陈彩娴
AI 科技评论消息,2023年 AAAI Fellow 入选名单已出炉,此次新增11位 Fellow,表彰他们在数据挖掘、并行计算、机器学习等方面的所作出的贡献。
其中,共两位华人学者入选,分别是西北工业大学的李学龙、清华大学的唐杰。
AAAI 是国际人工智能领域的权威学术组织,Fellow 是该学会给予会员的最高荣誉,仅颁给对人工智能做出「非同寻常的卓越贡献者」。
由于评判极严格,历届 AAAI Fellow 入选者均为人工智能领域公认的著名学者,每年严格限制 5-10 位入选,因此被誉为“国际人工智能领域的名人堂”。


1

华人当选学者:李学龙、唐杰

李学龙

李学龙,现任西北工业大学教授,光电与智能研究院(iOPEN)院长、首席科学家。此前,他曾任中国科学院西安光学精密机械研究所研究员,光学影像分析与学习中心(OPTIMAL)主任,瞬态光学与光子技术国家重点实验室副主任,中国科学院光谱成像技术重点实验室副主任。
在国内的众多计算机视觉研究学者中,李学龙是少数同时关注视觉图像数据的“处理”(智能)与“获取”(光电)的学者之一,其涉猎领域广泛,开拓了多模态认知计算与临地安防等多个有广泛应用场景的前沿交叉学科,同时当选了人工智能领域与光电智能领域多个学会的Fellow。除了AAAI Fellow,他还入选了AAAS Fellow、OSA Fellow、SPIE Fellow、IEEE Fellow、ACM Fellow、IAPR Fellow、IET/IEE Fellow等等,并是首位当选国际人工智能协会(AAAI)执委的大陆学者。
值得一提的是,南京大学周志华是第一位人工智能领域三大主要学会 IAPR、ACM与AAAI Fellow的大陆学者,而李学龙是第二位。
更多关于李学龙的学术研究生涯与研究了解,可以关注AI科技评论往期报道:
个人主页:https://teacher.nwpu.edu.cn/2018010290.html

唐杰

唐杰,清华大学计算机系教授,北京智源人工智能研究院副院长,他是ACM/IEEE Fellow,研究兴趣包括通用人工智能、数据挖掘、社交网络、机器学习和知识图谱,谷歌学术引用量已达到2.6万次,曾获 ACM SIGKDD Test-of-Time Award(十年最佳论文),北京市科技进步一等奖、人工智能学会一等奖、KDD 杰出贡献奖。
此前,唐杰主持研发了超大规模预训练模型悟道,参数规模超过1.75万亿,他还研发了研究者社会网络挖掘系统 AMiner,吸引全球220个国家 / 地区2000多万用户,担任国际期刊 IEEE T. on Big Data、AI OPEN 主编以及 WWW’23 大会主席、WWW’21、CIKM’16、WSDM’15 的 PC Chair。
个人主页:http://keg.cs.tsinghua.edu.cn/jietang/


2

其他当选学者

Kristian Hammond

Kristian Hammond,美国西北大学计算机科学教授,本硕博就读于耶鲁大学,他的研究领域包括自然语言生成、计算机与新闻、伦理和人工智能等,谷歌学术引用量已经达到1.22万次。
他也是 Narrative Science 公司的联合创始人,该公司致力于利用人工智能和新闻学将信息从原始数据转化为自然语言,是一家初创公司。
个人主页:https://www.mccormick.northwestern.edu/research-faculty/directory/profiles/hammond-kristian.html

Vipin Kumar

Vipin Kumar ,他是 AAAS/ACM/IEEE/SIAM Fellow,明尼苏达大学教授,目前担任计算机科学与工程系的 William Norris Endowed 主席。
1977年,Vipin Kumar 获得印度鲁尔基理工学院(前身为鲁尔基大学)电子与通信工程学士学位后,又于1979年在荷兰埃因霍温飞利浦国际研究所获得电子工程硕士学位,之后他赴美深造,在1982年拿到了马里兰大学帕克分校计算机科学博士学位。
Vipin Kumar 的研究方向包括数据挖掘、高性能计算、并行计算和机器学习等,谷歌学术被引用量超过12.7万次,他的研究,对用于评估并行算法可扩展性的等效率度量概念的开发、用于稀疏矩阵分解、以及图分区的高效并行算法和软件等都做出了重要贡献。
个人主页:https://www-users.cse.umn.edu/~kumar001/

Deborah McGuinness

Deborah McGuinness,目前就职于伦斯勒理工学院(RPI),是计算机、认知和网络科学、工业和系统工程的教授,她也在 Tetherless World Constellation 担任捐赠主席,该机构是 RPI 内的一个多学科研究机构,专注于研究万维网的理论、方法和应用。
1980年,Deborah McGuinness 在杜克大学获得学士学位,1981年获得加州大学伯克利分校的计算机科学硕士学位;1997年,她在罗格斯大学获得计算机科学博士学位,论文课题为“Explaining Reasoning in Description Logics”。
她的专业领域包括跨学科数据集成、人工智能,特别是知识表示和推理、描述逻辑、语义网等领域。当前,Deborah McGuinness 的谷歌学术被引用量已超过5.1万次。
个人主页:https://scholar.google.co.jp/citations?user=PLJ0L4QAAAAJ&hl=zh-CN&oi=ao

Risto Miikkulainen

Risto Miikkulainen,IEEE Fellow,他目前就职于德克萨斯大学奥斯汀分校,是计算机科学教授,同时他也是 Cognizant AI Lab 进化智能副总裁。
1986年,他先后在赫尔辛基理工大学(现为阿尔托大学)获得工程学硕士学位和博士学位;1990年,又获得加州大学洛杉矶分校计算机科学博士学位。Risto Miikkulainen 的研究重点是神经进化的方法和应用,以及自然语言处理和视觉的神经网络模型,当前他的谷歌学术引用量已超过2.5万次。
个人主页:https://www.cs.utexas.edu/users/risto/

Ana Paiva

Ana Paiva 是里斯本大学计算机科学与工程系的教授,同时她也是GAIPS(Group on Artificial Intelligence for People and Society)的协调员。
Ana Paiva 的研究兴趣包括自治代理和多代理系统、情感计算、虚拟代理和人机交互领域。Ana Paiva 认为,要实现智能机器,则必须建立机制并开发赋予机器“社会能力”的技术,因此在多年以来,她展开的大部分研究都集中在代理的情感和社会方面,以及它们如何为实现社交智能机器做出贡献。
个人主页:https://ana-paiva.com/

Ronald Parr

Ronald Parr,杜克大学计算机科学系的教授。1990年,他在普林斯顿大学获得学士学位后,又于1998年获得了加州大学伯克利分校的计算机科学博士学位。毕业后,Ronald Parr 前往斯坦福大学做了两年博士后研究员。Ronald Parr 于2003年被选为斯隆研究员,随后又在2006年获得了 NSF CAREER 奖,并在 DARPA 的计算机科学研究组 (CSSG) 任职。
Ronald Parr 的研究方向包括强化学习、机器学习等,当前谷歌学术引用量已超过1万次。
个人主页:https://users.cs.duke.edu/~parr/

Matthias Scheutz

Matthias Scheutz,塔夫茨大学计算机科学与认知科学教授,人机交互实验室主任和人机交互学位项目主任。他于1995年获得奥地利维也纳大学博士,之后又在1999年拿到了美国印第安纳大学博士。Matthias Scheutz 的研究领域包括人工智能、人工生命、认知建模、认知科学基础、人机交互、多尺度基于代理的模型、自然语言理解等,当前谷歌学术被引用量已达到1万余次。
个人主页:https://hrilab.tufts.edu/people/matthias.php

Csaba Szepesvàri

Csaba Szepesvàri 是阿尔伯塔大学计算机科学系教授,加拿大 CIFAR AI Chair,在强化学习与人工智能实验室担任首席研究员。2017年,他加入 DeepMind 公司,任基础团队高级研究科学家兼团队负责人。
他的研究方向包括机器学习、强化学习、在线学习等,当前谷歌学术被引用量已达到2.6万次。
个人主页:https://sites.ualberta.ca/~szepesva/

Kiri Wagstaff

Kiri Wagstaff 的研究背景跨越计算机科学、行星科学和地质学三大学科:1997获得犹他大学计算机科学学士学位,后又在2000年和2002年,于康奈尔大学计算机科学系获得硕士和博士学位;2008年,她前往南加州大学攻读地质科学硕士,又于2017年获得了圣何塞州立大学图书馆与信息科学硕士。她对这些领域之间的接口问题,例如使用行星数据(轨道和原位)研究科学问题的自动化方法(人工智能、机器学习)等非常感兴趣。
2003年至2022年期间,Kiri Wagstaff 曾就职于加利福尼亚州帕萨迪纳的喷气推进实验室,担任机器学习和仪器自主小组的研究员,研究机器学习可用于增加太空任务自主性的方法。
个人主页:https://www.wkiri.com/

雷峰网


]]>
人工智能学术 //m.drvow.com/category/academic/UcMHp1O87gQ2V5zc.html#comments Sun, 29 Jan 2023 11:48:00 +0800
一张贺年卡里,能有多少尖端AI技术? //m.drvow.com/category/academic/jaydse80p0CiMhTN.html

作者 | 董子博

编辑 | 岑峰

农历新春将近,新一届“拜年文学大赛”又要开始了。

一到此时,各路拜年祝福就争奇斗艳,层出不穷。想要文义优美、辞藻生动,本就让不少人想破脑袋;如果再想配上一幅优美的图片,原创且有新意,更是成了每一年的大难题。

往年“卷”得不行的拜年消息,在今天只需输入简单几句话,就能轻松搞定。而这背后,自然是AIGC技术的重大赋能。

这张由智谱AI生成的贺年卡,不仅不花什么功夫,还包含了一段年味十足的祝福语,和一张精美的图片,如果有心,还能附上一首贺年的诗词。一眼看上去平平无奇,但实际上,却是尖端AIGC技术的集中体现。
先说说每年最让人头疼的祝福语:在这张祝福卡上,仅凭寥寥几句引导语,由清华大学KEG实验室和智谱AI研发的开放问答机器人小呆(XDAI)就能够完成一段相当高质量的祝福,甚至还能实现押韵。
但这还并不是XDAI最强大的功能,短短一段祝福语背后,小呆还有着能够完成有逻辑、有内容的对话实力。
大规模预训练语言模型(PLM)在近年来的进展有目共睹,尤其是ChatGPT横空出世,更是给PLM圈粉无数,吸引了大量关注。但也有学者看到,在大模型下构建基于知识的对话系统,实现知识资源的收集,并根据任务调优,对于个人开发者来说成本太高。这也就让这项技术在落地上门槛太高,挡住了一大批有兴趣的开发者。
XDAI的提出,就是针对上面的情况,旨在让开发人员无需微调,即可利用PLM,快速创建开放域对话系统,并可以用Prompt(引导语)定制自己的特定域系统。
这也是XDAI最强大的能力,它不仅能借此完成颇具年味的文字生成,还能通过设计不同的Prompt,达成对XDAI“人设”、甚至“性格”的调整,来设计一个愤怒版、抑郁版、暖心版等不同版本的“小呆”。
说回贺年卡,如果你觉得“小呆”为你生成的文字不够诗意,你可以呼叫“悟能”,让它来帮你写作一首诗。
“悟能作诗”是智谱AI开发的,一个在PLM的基础上开发的AI作诗平台。在原先的PLM中,尽管模型已经能够生成不错的文字内容,但却往往缺乏对于问题主题的专注。
在对话中,这个弱点可能瑕不掩瑜;但在诗歌创作上,缺乏主题却相当致命。
于是,开发者想到,可以使用Inverse Prompting的方式,来避免这个弱点——利用生成的文本去复原给定的标题,在通过对生成语句的打分,配合梁式搜索,每生成一个短句,就进行一次评分,并保留分数最高的内容。
再使用这个方法,“悟能”能够学习自己生成的内容,对自己的内容打分,并以此做微调,加强自身作诗的能力。
在“悟能作诗”,雷峰网以“新年”为关键词,并限定了“悲伤”的情绪,最终生成的结果如下:

新年

【悟道】 风格: 李白(唐)

圣历初开岁 云山半老时 

七轮才偃月 九陌乱填丝 

曙角分龙节 寒尘敛隼旗 

元宵几处玩 禁火夜弥迟

最后再说说,这张贺年卡背后,图片生成的AIGC产品——CogView。

CogView的算法框架分为VQ-VAE和Transformer两部分,对图像和文本进行大规模生成式联合预训练,首先以VQ-VAE将图像压缩成Token,再将其输入Transformer进行生成训练;反其道而行之,也可以将Transformer输出的Token作为依据,生成图像。

在文字、诗歌、图片生成的领域,AIGC都担任了重要的工作。而在小呆、悟能、CogView的背后,都有大规模语言训练模型GLM-130B的影子。

这个由清华大学计算机系KEG实验室,和智谱AI开发的开源双语大规模语言训练模型,在前些时间的基准测试上超过了OpenAI的GPT-3和谷歌的PALM,并且以开源的形式,作为开源大模型的中国力量,普惠广大的使用者。

一张小小的贺年卡,背后是一个开源大模型的支持,和三种AIGC的尖端技术。在未来,AIGC技术可能也会给一年一度的“拜年文学大赛”画上句点。

后续我们会进一步对GLM-130B进行专项的写作和报道,如果感兴趣的话,可以加本文作者微信交流:william_dong。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/jaydse80p0CiMhTN.html#comments Sun, 29 Jan 2023 11:44:00 +0800
2022 ACM Fellow 名单公布!恭喜梅宏、俞栋、李航、邢波等13位华人入选 //m.drvow.com/category/academic/f7x5PBbSUV0rlfYb.html

作者|AI科技评论

编辑|陈彩娴
AI 科技评论消息,当地时间1月18日,美国计算机学会(ACM)宣布了 2022年新当选 ACM Fellow 名单,共有 57 位科学家当选,其中包括梅宏俞栋、李航、俞益洲邢波、郭宗杰、朱文武、郑海涛、纪怀新、方玉光、洪宜安、苏振东、Jimmy Lin13 位华人学者!
作为世界上最大的计算机领域专业性学术组织,ACM 的影响力不言而喻。它创立于 1947 年,目前在全世界 130 多个国家和地区拥有超过 10 万名会员,其所评选的图灵奖是计算机界最负盛名、最崇高的一个奖项,被称为「计算机界的诺贝尔奖」。
而 ACM Fellow 则设立于 1993 年,用于表彰在计算和信息技术领域从业五年以上,并做出了「突出贡献」(Exceptional Contributions) 的科学家,是 ACM 所有会员中最顶尖的那 1% 位成员。截止目前为止,已有 1000 多位 ACM Fellow 诞生。本次选出的 57 名 ACM Fellow ,在网络安全、人机交互、移动计算和推荐系统等诸多领域做出了广泛的基础性贡献。
ACM 前主席 Cherri M.Pancake 曾经说过:“计算机技术对塑造我们今天的生活和工作产生了巨大影响。所有直接或间接影响我们的技术都是无数个小时工作的结果,协作或个人工作,以及创造性的灵感,有时甚至是明智的冒险。每年,我们都希望有一批最杰出的人成为 ACM Fellow,ACM Fellow 是我们整体认可的基石,在强调ACM Fellow的成就时,我们希望给予应有的赞誉,同时也向公众传播计算机专业人员所从事的特殊领域。”
为了与 ACM 的全球影响力保持一致,2022 年的 Fellow 代表了加拿大、智利、中国、法国、德国、以色列、荷兰、西班牙、瑞士和美国的大学、公司和研究中心。
以下是13位入选华人学者介绍:

梅宏

梅宏,计算机软件专家,中国计算机学会理事长,中国科学院院士,IEEE Fellow,发展中国家科学院院士,欧洲科学院外籍院士,高可信软件技术教育部重点实验室(北京大学)主任 ,中国人民解放军军事科学院副院长。
梅宏于1963年5月出生于贵州省遵义市,1980年,他17岁时考入南京航空航天大学计算机应用专业,先后获得学士学位和硕士学位。1987年硕士毕业后他留校工作,后于1989年进入上海交通大学,攻读计算机软件专业博士,师从孙永强教授。1992年博士毕业后,他进入北京大学计算机科学技术系从事博士后研究工作,同时在北京大学任教,先后担任讲师、副研究员、教授、博士生导师。
梅宏的研究工作主要涉及软件工程及软件开发环境、软件复用及软件构件技术、(分布)对象技术、软件工业化生产技术及支持系统、新型程序设计语言等 。他针对开放网络环境下软件动态适应和在线演化两个核心难题,提出基于微内核的中间件构件化体系结构和基于容器的构件在线组装机制,建立了构件化的软件中间件技术体系与框架。提出基于软件体系结构(SA)的构件化软件开发方法ABC,拓展SA到软件全生命周期,实现了对系统级结构复杂性和一致性的有效控制。
入选理由:为软件工程研究和翻译做出了贡献,并在中国建立了研究标准。
个人主页:https://ysg.ckcest.cn/html/details/1001070/index.html

俞栋

俞栋,ACM/IEEE/ISCA Fellow,现任腾讯AI Lab副主任,他的主要研究领域是自动语音识别、语音处理和自然语言处理等,是首批将深度学习应用到语音识别领域的研究者,60项专利发明人及开源软件CNTK开发者,谷歌学术引用量高达52583次,曾获得2013年和2016年IEEE信号处理协会最佳论文奖。
俞栋本科就读于中国浙江大学电子工程专业,之后在美国印第安纳大学计算机获得硕士学位,后又获得了中国科学院自动化所模式识别与智能控制硕士学位及美国爱达荷大学计算机博士学位。
1998年,俞栋加入微软,2002年进入微软研究院语音和对话组(Speech and Dialog Group),曾任首席研究员,兼任浙江大学兼职教授和中科大客座教授。2017年5月2日,俞栋加入腾讯AI Lab担任副主任,并成立美国西雅图AI实验室。
入选理由:在语音处理和深度学习应用方面的贡献
个人主页:https://scholar.google.com/citations?user=tMY31_gAAAAJ&hl=zh-CN

李航

李航,现任字节跳动人工智能实验室总监,北京大学、南京大学客座教授。他是 IEEE Fellow、ACM 杰出科学家、CCF 高级会员。
李航本科留学于日本,在京都大学电气电子工程系就读,开始接触自然语言处理,之后于1994年在日本东京大学攻读计算机科学博士学位,1998年博士毕业。1990年至2001年,李航曾在日本NEC公司中央研究所担任研究员,期间从事了NEC文本数据挖掘产品的开发。2001年至2012年就职于微软亚洲研究院,任研究员、主任研究员、高级研究员。2012年至2017年,他在华为诺亚方舟实验室任首席科学家、实验室主任,2017年离职,加入字节跳动。
李航的研究领域包括信息检索、自然语言处理、统计机器学习及数据挖掘。他曾出版三部学术专著,其中《统计学学习方法》是机器学习的宝典,引领了无数研究者进入机器学习领域。他在顶级国际学术会议和顶级国际学术期刊上发表了上百篇学术论文,包括 SIGIR、WWW、WSDM、ACL、EMNLP、ICML、NeurIPS、SIGKDD、AAAI、IJCAI 等。他在 Google Scholar 上的被引量超过 26000 次,h-index 高达 74。
2019年,李航作为唯一华人当选ACL Fellow,当选理由为“他对信息检索,特别是排序学习做出了基础性贡献,在深度学习和对话生成方面做出了突出贡献,并且促进了中国自然语言处理(NLP)的发展和商业化。”
入选理由:对机器学习搜索和对话领域作出的贡献
个人主页:https://scholar.google.com/citations?user=nTl5mSwAAAAJ&hl=zh-CN

邢波(Eric Xing)

邢波,现任卡内基梅隆大学计算机科学学院机器学习系的副主任,同时是世界上第一家研究型人工智能大学——Mohamed bin Zayed University of Artificial Intelligence(MBZUAI)的第一任校长。
邢波有丰富的跨学科背景,横跨物理、生物和计算机科学三门学科。1993年,邢波在清华大学获得物理学和生物学学士学位。1999年,他又前往新泽西州立大学攻读分子生物学与生物化学博士;在此期间,他还取得了该校的计算机科学硕士。2000年,邢波进入美国加州大学伯克利分校攻读计算机科学博士。
邢波的研究方向是机器学习和统计方法的开发以及大规模计算系统和体系结构,曾撰写370余篇研究论文和报告,目前,他的谷歌学术引用量已达到48071次。
入选理由:对算法、架构和机器学习应用的贡献
个人主页:http://www.cs.cmu.edu/~epxing/

朱文武

朱文武,清华大学计算机科学与技术系教授,国家973项目首席科学家。他是 ACM/IEEE/ISCA Fellow,欧洲科学院外籍院士。他主要的研究方向为多媒体网络计算、跨空间大数据分析等,谷歌学术引用量已超过2.8万次。
1985年,朱文武在国防科技大学电子工程系获得学士学位,1988年-1990年期间,他就读于中国科学技术大学研究生院(中国科学院电子学研究所),毕业后赴美国继续博士深造,于1993年获美国伊利诺斯理工大学电气和计算机工程硕士学位,1996年获美国纽约大学电气和计算机工程博士学位。
朱文武先后任职于美国贝尔实验室、微软亚洲研究院和英特尔中国研究院,于2004年至2008年担任英特尔中国研究院首席科学家和总监。
2011年,朱文武加入清华大学计算机科学与技术系,曾担任清华大学计算机系副主任、清华大学大数据研究中心副主任等职。现任信息科学与技术国家研究中心副主任,清华大学人工智能研究院大数据智能研究中心主任。
入选理由:对多媒体网络和网络表示的贡献
个人主页:https://scholar.google.com/citations?user=7t2jzpgAAAAJ&hl=zh-CN

郭宗杰

郭宗杰,南加州大学电子工程与计算机科学杰出教授,IEEE Fellow,William M. Hogue讲席教授,专注视觉计算、视觉交流、机器学习、大数据分析与人工智能领域。
郭宗杰教授于1980年学士毕业于台湾大学电机系,后在麻省理工学院度过了他的硕士和博士生涯。1987年,他曾短暂加入加利福尼亚大学洛杉矶分校,任数学系研究助理教授,后于1989年赴南加州大学电机系,并留任至今。
郭宗杰教授美国国科学会年轻学者研究奖、美国总统教授学者奖、美国南加州大学工学院年轻教授研究奖、美国南加州大学梅隆杰出导师奖、大川情报通信基金研究助成奖、国际影像科学技术学会与国际光学学会授予的年度杰出影像科学家奖、Fulbright-Nokia杰出信息和通信技术首席科学家奖等。在视觉交流与图像表征期刊,郭宗杰任主编;在信息科学与工程期刊,郭宗杰任编辑;在IEEE语音和音频处理,郭宗杰任联合编辑。
据统计,在他的学术生涯中,郭宗杰教授共发表过1287篇学术著作,共被引用27529次。郭宗杰院士不仅作为学者相当高产,他也为教育事业奉献良多,36年来培养了160余位博士生,其中3/4投身工业界,为技术应用落地提供了大量的人才。
入选理由:对视觉计算技术、应用和指导的贡献
个人主页:https://pressroom.usc.edu/c-c-jay-kuo/

郑海涛(Heather Zheng)

Heather Zheng 是芝加哥大学的 Neubauer 计算机科学教授,她的研究领域包括移动计算、无线网络、安全和隐私等,谷歌学术的被引用量超过1.7万次。
她于1999年在马里兰大学帕克分校获得电气和计算机工程博士学位。Heather Zheng 曾先后就职于贝尔实验室、新泽西州和微软亚洲研究院,2012 年加入加州大学圣巴巴拉分校。2017年,Heather Zheng 加入芝加哥大学,与Ben Y. Zhao教授共同领导 SAND 实验室(系统、算法、网络和数据)。
入选理由:对无线网络和移动计算的贡献
个人主页:https://people.cs.uchicago.edu/~htzheng/

俞益洲

俞益洲,香港大学计算机科学系教授,本科毕业于浙江大学计算机科学与工程学专业,后在浙大还获得了应用数学硕士学位。俞益洲师从中国第一个在 SIGGRAPH (1988年)上发表论文的图形学先驱彭群生,后来因在几何建模和基于图像的建模方面贡献突出当选了2019年 IEEE Fellow。
俞益洲的研究兴趣包括深度学习、计算机视觉、图像处理、医学人工智能和计算机图形学。他是2002年美国国家科学基金会 CAREER 奖、ACCV 2018年最佳应用论文奖、ACM SCA 2011年和2005年最佳论文奖以及1998年微软研究生奖学金的获得者。俞益洲与他人共同发明的技术经常被电影和医疗保健行业采用,对人工智能和视觉计算方面做出了重要贡献。
入选理由:对计算机图形学和计算机视觉的贡献
个人主页:https://i.cs.hku.hk/~yzyu/

Jimmy Lin

Jimmy Lin,滑铁卢大学教授,David R. Cheriton 计算机科学学院 David R. Cheriton 主席,滑铁卢人工智能研究所的联席所长主要研究领域是信息检索、自然语言处理、大型分布式算法和数据分析工具。
2004年,Jimmy Lin博士毕业于麻省理工学院,后于美国马里兰大学帕克分校任教。2009年,Jimmy Lin 曾在 Cloudera 工作,协助他们建立培训和认证系统,并设计了他们的第一次认证考试。2010年到2012年间,Jimmy Lin曾在推特,负责开发用户和分析的相关功能,以支持推特分布式系统基础架构和机器学习库的工作。
入选理由在问答、信息检索和自然语言处理上的贡献
个人主页:https://cs.uwaterloo.ca/~jimmylin/index.htm

纪怀新(Ed H chi)

纪怀新于1994年获得明尼苏达大学学士学位,1996年获得同校硕士学位,1999年获得同校博士学位。1997年进入帕罗奥多研究中心担任实习生,2017年升任为首席科学家。
纪怀新的研究领域包括神经推荐、强化学习、大型语言模型和对话系统。他拥有 39 项专利和 200 篇研究文章,还以研究网络和社交媒体中的用户行为而闻名。
在加入谷歌之前,纪怀新是帕罗奥多研究中心增强社会认知小组的首席科学家,研究社会计算系统如何帮助人群记忆、思考和推理。纪怀新在明尼苏达大学用 6.5 年完成了 3 个学位(学士、硕士和博士学位)。他被公认为ACM杰出科学家并入选CHI学院,还因信息可视化研究而获得了20年时间测试奖。
入选理由:对社会计算和推荐系统中的机器学习和数据挖掘技术的贡献
个人主页:https://www.edchi.net/

方玉光

方玉光,AAAS/ IEEE Fellow,长江学者讲座教授。他的研究方向包括无线网络、物联网、网络安全等,谷歌学术被引用量已超过2.7万次。
1987年,方玉光在曲阜师范大学获得硕士学位,之后他于1994年获得凯斯西储大学博士学位,又在1997年获得波士顿大学博士学位。
2000年,方玉光加入美国佛罗里达大学电气与计算机工程系,于2019年晋升为杰出教授。2022年,他加入香港城市大学计算机科学系,担任物联网讲座教授。
入选理由:对无线网络和移动计算的贡献。
个人主页:https://www.cs.cityu.edu.hk/~yugufang/

洪宜安(Jason Hong)

洪宜安,现任卡内基梅隆大学计算机科学学院人机交互系教授(也是HCII第一位华人教职)。
洪宜安本科就读于佐治亚理工学院93级软件工程与操作研究与离散数学专业,博士毕业于加州大学伯克利分校。他的研究兴趣是人机交互、隐私与安全的交叉研究与系统,主要研究课题有两个:1)如何使用丰富的感知数据来改善生活;2)如何保护每个人的隐私与安全。
目前,洪宜安领导着 CHIMPS(计算机人类交互:移动隐私安全)研究小组,致力于使用人机交互、机器学习、系统和社会心理学的思想和方法,研究智能手机隐私、可用安全性以及人工智能偏见和公平性。他的团队在反网络钓鱼方面的工作已经得到应用,启发了反网络钓鱼浏览器警告的设计。其在隐私方面的研究影响了行业和在政策制定者在智能手机隐私方面的工作。
入选理由:为无处不在的计算以及可用的隐私和安全做出的贡献。
个人主页:http://www.cs.cmu.edu/~jasonh/

苏振东

苏振东,苏黎世联邦理工学院计算机科学系教授,领导编程语言和系统研究所的高级软件技术实验室。
苏振东于1988年进入复旦大学国际贸易专业就读,1991年本科毕业后在威斯康辛大学商学院继续学习了两年。之后,他转向计算机方向,进入德克萨斯大学奥斯汀分校就读本科,1995年在该校获得计算机科学理学学士学位和数学文学学士学位。2002年,在加州大学伯克利分校获得计算机科学博士学位(辅修数学),其后加入加州大学戴维斯分校,担任教授和校长研究员,2019年入职苏黎世联邦理工学院。
苏振东致力于基础开发和实用型创新,构建可靠、安全、高性能和可用的软件,推动工程软件的科学和实践进展。他的研究涵盖编程语言、编译器、软件工程、计算机安全和系统、机器学习和教育技术等。他的研究获得了大量奖项,如ACM SIGSOFT影响力论文奖(2018年),ICSE最具影响力论文(MIP)奖(2022年)和谷歌学术经典论文奖(2017年)等等。
入选理由:对软件测试和分析作出的贡献。
个人主页:https://people.inf.ethz.ch/suz/
以下为2022年入选 ACM Fellow完整名单:
参考链接:https://www.acm.org/media-center/2023/january/fellows-2022

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/f7x5PBbSUV0rlfYb.html#comments Sun, 29 Jan 2023 11:42:00 +0800
看懂这25个核心概念,就没有啃不动的机器学习论文 //m.drvow.com/category/academic/uOZQY5DwlTzHdn2F.html

作者 | 李梅

编辑 | 陈彩娴

机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典。寒假开始,各位机器学习er在度假之余,想必也不会忘了自己卷王的身份。

最近,Github上出现了一个名为“ML Papers Explained”的优质项目,精选了机器学习领域的一些核心概念,对相关工作的原始论文做了解读,实在是广大MLer的一大福利。

项目地址:https://github.com/dair-ai/ML-Papers-Explained



1

25个必学的ML概念

该项目由三位数据 Rastogi、Diego Marinho、Elvis Saravia创建,旨在介绍机器学习领域重点技术的研究论文,既有经典重现,也有最新前沿跟进,突出论文的主要创新点,讨论它们对研究领域的影响及其应用空间。

该项目目前集合了25个机器学习概念,涉及计算机视觉、目标检测、文档信息处理、自然语言处理等方向。按类别划分,包括RCNN系列:

Transformer系列(Layout Transformers、Document Information Processing、Vision Transformers):

以及Single Stage Object Detectors系列:

点击这些关键词,就是一篇论文详解,这些论文解读大都不是长篇累牍,而是简明扼要地介绍论文的核心发现、实验结果,同时有进一步的延伸思考。文章的排版也清晰明了,能够帮助研究者快速且深入理解一篇论文的精髓。这里选取两篇解读来一睹为快。



2

论文解读示例

TinyBERT解读

在大模型越来越成为AI核心研究方向的当下,回顾这些经典的语言模型论文是大有裨益的。比如自BERT模型出现以后,提高模型参数量的同时降低大模型的计算成本,就一直是该领域的一个热点方向。

Github上的这个论文解读项目就精选了多篇相关论文,以一篇对知识蒸馏方法TinyBERT的解读为例:

这项工作由年华中科技大学和华为诺亚方舟实验室合作,在2019年提出。这篇解读概括了TinyBERT这项工作的三个核心贡献:Transformer蒸馏、两步蒸馏过程、数据增强,这些方法改进了基于Transformer的模型在特定情况下的知识蒸馏效果。

首先是Transformer蒸馏。这部分介绍了论文所用蒸馏方法的核心思想和公式,并解释了先前的蒸馏工作DistillBERT的弊端,如它使用教师模型来初始化学生模型的权重,导致两者必须有相同的内部尺寸并允许层数不同,而TinyBERT通过在嵌入和隐藏损失函数中引入可学习的投影矩阵来规避这个问题,从而使得学生和教师模型的内部表示在元素方面可以进行比较。

另外,解读作者还在这里引用了另一项相关研究,为TinyBERT的进一步工作提出了一个有趣的方向。

然后是两步蒸馏法。这里说明了TinyBERT所使用的蒸馏过程遵循了原始BERT的训练方法——在大规模的通用数据集上进行预训练以获得语言特征,然后针对特定任务数据进行微调。所以在第一个步骤中,使用在通用数据上训练的通用BERT作为教师,学生学习模仿教师的嵌入和转换层激活来创建一个通用的TinyBERT;在第二个步骤中,将教师模型切换到特定任务模型并继续训练学生模型。

第三个是数据增强。这部分介绍了论文作者使用了数据增强技术来在微调步骤中对特定任务的数据集进行扩展。

之后文章精简地呈现了原始论文中TInyBERT的关键数据,如该模型的性能在基准测试中达到了BERT基础教师模型的96%,同时体积缩小了7.5倍,速度提高了9.4倍。

针对原始论文的三个核心贡献,文章还给出了一些有价值的思考,如特定任务的蒸馏(微调)比通用蒸馏(预训练)更重要等等。

Swin Transformer解读

再比如当年屠榜各大视觉任务的Swin Transformer,由微软亚洲研究院郭百宁团队提出,是视觉领域的研究者必读的一篇论文,这项工作也在这个论文解读项目有精彩的分享:

文章首先以原始论文中的关键图表,简要介绍了Swin Transformer的基本方法及其核心设计元素。

然后逻辑清晰地详解了Swin Transformer的架构细节,包括4个stage和Swin Transformer Block

接着列出了Swin Transformer的几项实验:

有兴趣的读者可以自行前往该项目探索一番,如果想分享自己的论文解读,也可以向该项目提交PR。据项目作者透露,后续还将推出notebook和讲座,帮助大家更好地跟进研究进展。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/uOZQY5DwlTzHdn2F.html#comments Tue, 17 Jan 2023 11:08:00 +0800
Nature:近年来论文数量激增,但科技界没有创新 //m.drvow.com/category/academic/fiebuIoikxxtUHp6.html

作者 | 王永昂

编辑 | 董子博

在人们的普遍认知上,科研论文和专利是推动科技界发展的重要因素,也是企业产学研结合的重要一环。

但Nature在年初最新发布的文章中,展示了对科研论文发展现状的悲观态度。Nature认为,近年来科研论文数量激增,但没有颠覆性创新。

论文地址:https://www.nature.com/articles/s41586-022-05543-x

文章对6个大型数据库中的4500万篇论文和390万项专利进行了分析。研究人员从不同研究领域出发,分析了1945年至2010年间科技成就的CD指数变化趋势,以此探究研究成果在颠覆性上的总体变化情况。

颠覆型研究是指推翻了过去研究结论的科研成果。后续的研究在引用颠覆型研究时,一般不会引用其前置研究。CD指数正是通过这种引用模式的差异,来衡量一项研究的“颠覆性”。

文中提到CD指数在上世纪下半叶下降得比较快,而在2000年后趋于稳定。平均CD指数的整体下滑,这反映了这样一个事实,即:论文和专利更多地集中于深化既往研究,而非开拓新的领域。研究人员认为,这种颠覆性进展的缺位,反映了科技发展性质的根本性转向。

此前,一种比较流行的观点认为,颠覆型研究占比的下降,是因为科技发展过程中,那些易于被发现的研究、易于完成的成就,大多已被前人完成,也就是所谓“唾手可得的果实”理论。还有一种观点认为,各研究领域的起步、兴盛时间有先有后。

本论文得出的结论,将颠覆性成果的缺失总结为了3个原因——科技发展已经进入平台期;科研模式与科技评价问题;科学家的职业环境问题。



1

科技发展已经进入平台期

文中提到,科技发展的不同阶段带来了论文颠覆性创新水平的下降,即:自爱因斯坦为代表的科学家在20世纪初奠定现代物理学的范式以来,各学科的研究范式均逐渐创立并固定,后续研究逐步进入沿着既定范式前进的“常规科学”时代。

科学发展往往遵循这样的规律,在科技革命之初,大量颠覆型研究出现。而科技革命过去之后,科技发展则进入将范式贯彻下去的深化型研究时代。

学术圈一锅温水,正在慢慢煮熟锅里的青蛙。归根结底,作为学者的KPI,不过是论文和专利。而过度着眼KPI,就必然导致动作走形。

一个在光学领域的从业者对雷峰网表示,现在一个棱镜镜片,稍稍改一个参数,只要镜片能成像,就是一个新专利,就能多写一篇论文。

“一个学者,只要时间够久,身上背几十上百个专利,也很有可能,但他们实际解决问题的能力多强,那就不好说了。”这位从业者如是说道。

诺亦腾的CTO戴若犁,在港中文修到博士后,抛掉了在象牙塔的机会,毅然出来创业,经受市场洗礼。问到他时,他这么解释他决定创业的原因:

“如果人类的知识是一个袋子,那么往袋子里捡拾薪柴的学者现在太多;但实际从袋子拿东西出来,制造市场和社会需要的产品的人太少。”

当产学研的梦想照进现实,总会让从业者感到无力。前沿技术在工业界才有更快速、规模化地落地的可能,这也势必会吸引更多人才涌入。但如何让科技成果产业化,缩短学术研究机构与企业应用间的鸿沟,一直是困扰业界的问题。



2

科研模式与科技评价问题

文章中还提到,现行的科研模式尤其是学术出版模式及其配套的科技评价体系束缚了颠覆性研究的发生。

文中批评学术界的一些行为,如为了增加学术出版物数量而将一篇研究文章强行拆分为多篇论文,研究人员认为这这将令研究变为“一潭死水”。

更多的论文出版量能够给科研机构带来更多的收益,因此整个学术界都追求论文数量,但这无疑会对研究产生负面影响。

此外,文中还指出,现有的以单、双盲为主流的同行评议体系也不利于颠覆型研究的发表。

工业界也存在类似的问题。多数科技公司很重视科研经费上的投入,也以此来标榜自身的实力。这其中,大量的研发费用被用到了申请专利上。虽然专利是企业在科研层面的护城河之一,但上文也提到了这其中有诸多门道,会让专利的含金量大打折扣。挤掉其中的水分后,企业之间还是在做同质化竞争。



3

科学家的职业环境问题

研究人员认为,做出颠覆型研究、甚至推动科技变革的杰出科学家往往较少为职业和利益所束缚。

做出颠覆性研究的科学家往往具有更多的自主性。而现行的科研体制已经高度成熟并“产业化”,科学家陷入了繁忙的“职业陷阱”,在所谓的职业发展道路上疲于奔命。反而缺少了重大科技创新所必需的自由时间。

研究人员建议,高校等科研机构对论文的评价应当更重“质”而非重“量”;科学家应当获得更丰厚的资助与休假安排;基金则应当支持更长期、更高风险、更个人化的资助项目,而完全拘泥于特定研究项目资助。

科学家陷入时间和精力短缺的困境后,也会影响科学成果在业界的落地。

大部分学者没有足够的动力,在科研任务之外考虑工业界的问题。一位业者告诉雷峰网,问题的根本在于,做科研的人很多时候对业界热情不大:“在论文中5000 行代码,就可以解决一个算法问题。但是如果把其在业界工具化,可能就需要5万行代码”。这其中要有很多试错的过程,很多学者并不愿去趟这条路。



4

结语

该论文反应了科研论文存在的困境,但是鉴于文章选择的研究对象只聚焦在学术出版物,不足以反应科研领域的全貌。此外,文中的数据则集中于1945年至2010年,存在时间上的局限性,不能在历史尺度上去评价科研发展进程。文中所用的CD指数研究方法,其有效性虽然已在许多研究中得到证实,但毕竟仍是较新的评价指标。还需要对其进行更丰富的研究,才能进一步落实其学术价值。

学术圈有自成一体的“一套玩法”,在顶会发文章,也并非没有捷径。有一位曾在学术圈的业者告诉雷峰网,曾经除了写论文,他们花了大量的时间和精力,办酒会,搞交际,就为了在学会期刊上发文。

"每年投稿的人那么多,在大家质量差不多的情况下,评委往往愿意偏向已经认识的人,这也是人之常情。"这位从业者如是说。

此外,产学研总是看上去很美,但总是陷于困境。高校老师在跟企业谈合作时,在技术转让上会写上各种“自我保护”的条款。这些条款,有时会声明,只保证在实验室特定条件下重复出来,能不能放大到做出产品,以及产品能不能大幅售卖,高校老师不和企业平摊风险。

近些年,无论学界还是业界对科研成果的困境都有目共睹,颠覆性创新的科研成果得以面世不是一日之功。功利性科研可以创造一定价值,但终究不是长远之计。学界业界在科研领域都真正秉持长期主义、保持敬畏之心,才能让科研领域重回黄金时代,涌现更多颠覆性创新成果。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/fiebuIoikxxtUHp6.html#comments Fri, 13 Jan 2023 16:41:00 +0800
图机器学习无处不在,用 Transformer 可缓解 GNN 限制 //m.drvow.com/category/academic/lLphrsXP2WtFU9Q1.html

作者 | Clémentine Fourrier

编译 | 黄楠

编辑 | 陈彩娴

在我们今天的生活中,图的示例包括社交网络、例如Twitter、Mastodon、以及任何链接论文和作者的引文网络,分子,知识图、例如 UML 图、百科全书以及有超链接的网站,表示为句法树的句子以及任何的 3D 网格等,可以说图已经无处不在。

近日,Hugging Face 研究科学家 Clémentine Fourrier 在文章《Introduction to Graph Machine Learning》就介绍了今天这种无处不在的图机器学习。什么是图形?为什么要使用图?如何最好地表示图?人们如何在图上学习?Clémentine Fourrier 指出,图是对由关系链接项目的描述,其中,从前神经方法到图神经网络仍然是目前人们常用的图上学习方法。

此外,有研究人员近期也开始考虑将 Transformers 应用于图中,Transformer 具有良好的可扩展性,可缓解 GNN 存在的部分限制,前景十分可观。



1

图是对关系链接项目的描述

从本质上来看,图是对由关系链接项目的描述。图(或网络)的项目称为节点(或顶点),由边(或链接)来进行连接。例如在社交网络中,节点是用户,边是用户彼此间的连接;在分子中,节点是原子,边缘是它们的分子键。

  • 一个有类型节点或类型边的图被称为异质图,举个例子,在引文网络的项目可以是论文或作者,有类型节点,而 XML 图中的关系有类型边;它不能仅仅通过其拓扑结构来表示,还需要额外的信息

  • 图也可以是有向的(例如追随者网络,A 跟随 B 并不意味着 B 跟随 A)或无向的(例如分子、原子之间的关系是双向的)。边可以连接不同的节点或一个节点与自身(自边),但并非所有节点都需要连接

可以看到,使用数据必须首先考虑其最佳表示,包括同质/异质、有向/无向等。

在图层面,主要任务包括以下:

  • 图形生成,用于药物发现以生成新的合理分子

  • 图演化,即给定一个图来预测它将如何随时间演化,在物理学中可用于预测系统的演化

  • 图级预测,来自图的分类或回归任务,例如预测分子的毒性

节点层通常是对节点属性的预测,例如 Alphafold 使用节点属性预测来预测给定分子整体图的原子 3D 坐标,从而预测分子如何在 3D 空间中折叠,这是一个困难的生物化学问题。

边缘的预测包括边缘属性预测和缺失边缘预测。边缘属性预测有助于对药物副作用的预测,给定一对药物的不良副作用;缺失边预测在推荐系统中则是用于预测图中的两个节点是否相关。

在子图级别中,可进行社区检测或子图属性预测。社交网络可通过社区检测来确定人们的联系方式。子图属性预测多应用在行程系统中,例如谷歌地图,可用于预测预计到达时间。

当要进行预测特定图的演变时,转换设置工作中的所有内容,包括训练、验证和测试等,都可在同一个图上完成。但从单个图创建训练、评估或是测试的数据集并非易事,很多工作会使用不同的图(单独的训练/评估/测试拆分)完成,这被称为归纳设置。

表示图处理和操作的常见方法有两种,一种是作为其所有边的集合(可能由其所有节点的集合补充),或是作为其所有节点之间的邻接矩阵。其中,邻接矩阵是一个方阵(节点大小×节点大小),指示哪些节点直接连接到其他节点。要注意的是,由于大多数图并不是密集连接的,因此具有稀疏的邻接矩阵会使计算更加困难。

图与 ML 中使用的典型对象非常不同,由于其拓扑结构比“序列”(如文本和音频)或“有序网格”(如图像和视频)更复杂:即便可以将其表示为列表或矩阵,但这种表示不可以被视为是有序对象。也即是说,如果打乱一个句子中的单词,就可以创造一个新句子,如果将一个图像打乱并重新排列它的列,就能创建了一个新图像。

图注:Hugging Face 标志和被打乱的 Hugging Face 标志,是完全不同的新形象

但图的情况并非如此:如果我们洗掉图的边缘列表或邻接矩阵的列,它仍然是同一个图。

图注:左边是一个小图,黄色表示节点,橙色表示边;中心图片上的邻接矩阵,列和行按节点字母顺序排列:节点 A 的行(第一行)可以看到其连接到 E 和 C;右边图片打乱邻接矩阵(列不再按字母顺序排序),其仍为图形的有效表示,即 A 仍连接到 E 和 C



2

通过 ML 的图形表示

使用机器学习处理图的常规过程,是首先为项目生成有意义的表示,其中,节点、边或完整图取决于具体任务需求,为目标任务训练预测器。与其他模式一样,可以通过限制对象的数学表示,以便在数学上与相似对象接近。但在此之中,相似性在图 ML 中很难严格定义:例如,当两个节点具有相同的标签或相同的邻居时,它们是否更相似?

如下面所示,本篇文章重点关注的是生成节点表示,一旦有了节点级的表示,就有可能获得边或图级的信息。对边级信息,可以将节点对的连接起来,或者做点乘;在图级信息中,可以对所有节点级表示的串联张量进行全局池化,包括平均、求和等。但是,它仍然会使整个图的信息变得平滑和丢失——递归的分层集合可能更有意义,或者增加一个虚拟节点,与图中的所有其他节点相连,并将其表示作为整个图的表示。

前神经方法

简单地使用工程特性

在神经网络之前,图形及其感兴趣的项目可以通过特定任务的方式表示为特征的组合。在今天,这些特征仍用于数据增强和半监督学习,尽管存在更复杂的特征生成方法,但根据任务找到如何最好地将这些特征提供给到网络至关重要。

节点级特征可以提供关于重要性的信息以及基于结构的信息,并对其进行组合。

节点中心性可用于衡量图中节点的重要性,通过对每个节点邻居中心性求和直到收敛来递归计算,或是通过节点间的最短距离度量来递归计算,节点度是其拥有的直接邻居的数量;聚类系数衡量节点邻居的连接程度;Graphlets 度向量计算则可计算有多少不同的 graphlets 以给定节点为根,其中,graphlets 可使用给定数量的连接节点来创建的所有迷你图。

图注:2 到 5 节点小图

边级特征用关于节点连通性的更详细信息补充表示,其中就包括了两个节点之间的最短距离、它们的共同相邻点以及 Katz 指数(指两个节点之间可能走过的一定长度的路径的数量——其可以直接从邻接矩阵中计算出来)。

图级特征包含关于图相似性和特殊性的高级信息,其中,小图计数,尽管计算成本很高,但提供了关于子图形状的信息。核心方法通过不同的 "节点袋 "方法(类似于词袋)来衡量图之间的相似性。

基于行走的方法

基于行走的方法使用随机行走中从节点 i 访问节点 j 的概率来定义相似性度量,这些方法结合了局部和全局信息。例如,此前 Node2Vec 模拟图形节点之间的随机游走,使用 skip-gram 处理这些游走,就像我们处理句子中的单词一样,以计算嵌入。

这些方法还可用于加速 PageRank 方法的计算,该方法给每个节点分配一个重要性分数,基于它与其他节点的连接,例如通过随机行走来评估其访问频率。但上述方法也存在一定的局限性,它们不能获得新节点的嵌入,不能很好地捕捉节点之间的结构相似性,不能使用添加的特征。



3

图神经网络如何处理图?

神经网络可以泛化到看不见的数据。考虑到此前提到的表示约束,一个好的神经网络应该如何处理图?

下面展示了两种方法:

  • 是置换不变的:

    • 方程:f(P(G))=f(G)f(P(G))=f(G) ,其中 f 是网络,P 是置换函数,G 是图

    • 解释:经过网络后,图的表示及其排列应该相同

  • 是置换等变的

    • 方程:P(f(G))=f(P(G))P(f(G))=f(P(G)),其中 f 是网络,P 是置换函数,G 是图

    • 解释:在将节点传递到网络之前置换节点应该等同于置换它们的表示

典型的神经网络不是排列不变的,例如 RNN 或 CNN,因此一种新的架构——图神经网络被引入(最初是作为一种基于状态的机器)。

一个 GNN 是由连续的层组成的。GNN 层将节点表示为其邻居的表示和来自上一层(消息传递)的自身组合 ,通常还会加上激活以添加一些非线性。而与其他模型相比,CNN 可看作是具有固定邻居大小(通过滑动窗口)和排序(非排列等变)的 GNN;而没有位置嵌入的 Transformer 可以看作是全连接输入图上的 GNN。

聚合和消息传递

聚合来自节点邻居的信息有很多方法,例如求和、平均,此前已有的类似聚类方法包括:

  • Graph Convolutional Networks,对节点邻居的归一化表示进行平均;

  • Graph Attention Networks,学习根据它们的重要性来权衡不同邻居(如Transformer);

  • GraphSAGE,在使用最大集合在几个步骤中聚合信息之前,在不同的跃点对邻居进行采样;

  • Graph Isomorphism Networks,通过将 MLP 应用于节点邻居表示的总和来聚合表示。

选择一个聚合:一些聚合技术(特别是平均/最大集合)在创建精细表示以区分类似节点的不同节点邻居表示时,会遇到失败的情况;例如,通过均值集合,一个有4个节点邻居表示为1、1、-1、-1,平均为0,与一个只有3个节点表示为-1、0、1的邻居是没有区别的。

GNN 形状和过度平滑问题

在每个新层,节点表示包括越来越多的节点。一个节点通过第一层,是其直接邻居的聚合。通过第二层,它仍然是其直接邻居的聚合,但此刻其表示还包括了它们自己的邻居(来自第一层)。在 n 层之后,所有节点的表示成为其距离为 n 的所有邻居的集合,因此,如果其直径小于n,则为全图的聚合。

如果网络层数太多,则存在每个节点成为完整图的聚合的风险(并且节点表示对所有节点收敛到相同的表示),这被称为过度平滑问题,可通过以下方式来解决:

  • 将 GNN 缩放到足够小的层数,从而不会将每个节点近似为整个网络(通过首先分析图的直径和形状)

  • 增加层的复杂性

  • 添加非消息传递层来处理消息(例如简单的 MLP)

  • 添加跳过连接

过度平滑问题是图 ML 中的一个重要研究领域,由于它会阻止 GNN 扩大规模,就像 Transformers 在其他模型中被证明的那样。

图 Transformers

没有位置编码层的 Transformer 是置换不变的,并且 Transformer 还具有良好的可扩展性,因此研究人员在近期开始考虑将 Transformers 应用于图中。大多数方法的重点是通过寻找最佳特征和最佳方式来表示图形,并改变注意力以适应这种新数据。

下面展示了一些方法,这些方法在斯坦福大学的 Open Graph Benchmark 上取得最先进或接近的结果:

  • Graph Transformer for Graph-to-Sequence Learning,引入一个图 Transformer,它将节点表示为它们的嵌入和位置嵌入的串联,节点关系表示二者间的最短路径,并将两者组合成一个关系——增强自我关注。

  • Rethinking Graph Transformers with Spectral Attention,引入了 Spectral Attention Networks (SAN),这些将节点特征与学习的位置编码(从拉普拉斯特征向量/值计算)结合起来,用作注意力中的键和查询,注意力值是边缘特征。

  • GRPE: Relative Positional Encoding for Graph Transformer,介绍了图相对位置编码Transformer,其通过将图级位置编码与节点信息、边级位置编码与节点信息相结合,并将两者结合在注意力中来表示图。

  • Global Self-Attention as a Replacement for Graph Convolution ,引入了 Edge Augmented Transformer,该体系结构分别嵌入节点和边缘,并将它们聚合在经过修改的注意力中。

  • Do Transformers Really Perform Badly for Graph Representation,介绍了微软的 Graphormer,它在 OGB 上问世时获得了第一名。该架构使用节点特征作为注意力中的查询/键/值,并在注意力机制中将它们的表示与中心性、空间和边缘编码相结合。

近期有研究“Pure Transformers are Powerful Graph Learners”在方法中引入了 TokenGT,将输入图表示为一系列节点和边嵌入,也即是使用正交节点标识符和可训练类型标识符进行增强,没有位置嵌入,并将此序列作为输入提供给 Transformers,此方法非常简单,同时也非常有效。

论文地址:https://arxiv.org/pdf/2207.02505.pdf

此外,在研究“Recipe for a General, Powerful, Scalable Graph Transformer”中,跟其他方法不同的是,它引入的不是模型而是框架,称为 GraphGPS,可允许将消息传递网络与线性(远程)Transformer 结合起来,轻松创建混合网络。该框架还包含几个用于计算位置和结构编码(节点、图形、边缘级别)、特征增强、随机游走等的工具。

论文地址:https://arxiv.org/abs/2205.12454

将 Transformer 用于图在很大程度上仍处于起步阶段,但就目前来看,其前景也十分可观,它可以缓解 GNN 的一些限制,例如缩放到更大或更密集的图,或是在不过度平滑的情况下增加模型大小。

参考链接:https://huggingface.co/blog/intro-graphml

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/lLphrsXP2WtFU9Q1.html#comments Thu, 12 Jan 2023 12:00:00 +0800
首个千亿模型压缩算法 SparseGPT 来了,降低算力成本的同时保持高精度 //m.drvow.com/category/academic/P7uOUBEIXhzYBxSi.html

作者 | 李梅

编辑 | 陈彩娴

自 2020 年 GPT-3 横空出世以来,ChatGPT 的爆火再一次将 GPT 家族的生成式大型语言模型带到聚光灯下,它们在各种任务中都已显示出了强大的性能。

但模型的庞大规模也带来了计算成本的上升和部署难度的增加。

比如,GPT‑175B 模型总计至少占 320GB 半精度  (FP16)  格式的存储空间,在推理时,起码需要五个 80 GB 存储空间的 A100 GPU。

模型压缩(model compression)是当前使用较多的一种降低大模型计算成本的方法,但迄今为止,几乎所有现有的 GPT 压缩方法都专注于量化(quantization),即降低单个权重的数值表示的精度。

另一种模型压缩方法是剪枝(pruning),即删除网络元素,包括从单个权重(非结构化剪枝)到更高粒度的组件如权重矩阵的整行/列(结构化剪枝)。这种方法在视觉和较小规模的语言模型中很有效,但会导致精度损失,从而需要对模型进行大量再训练来恢复精度,所以遇到 GPT 这样大规模的模型时,成本就又变得过于昂贵了。虽然也有一些单次剪枝方法,无需重新训练即可压缩模型,但它们计算量太大,难以应用于具有数十亿参数的模型。

那么针对 GPT-3 这种规模的大模型,有没有一种方法能够对其作精确的剪枝、同时保持最小的精度损失且降低计算成本?

近日,来自奥地利科学技术研究所 (ISTA) 的两名研究人员 Elias Frantar 和 Dan Alistarh 合作了一项研究,首次针对 100 至 1000 亿参数的模型规模,提出了精确的单次剪枝方法 SparseGPT。

论文地址:https://arxiv.org/pdf/2301.00774.pdf

SparseGPT 可以将 GPT 系列模型单次剪枝到 50% 的稀疏性,而无需任何重新训练。目前最大的公开可用的 GPT-175B 模型,只需要使用单个 GPU 在几个小时内就能实现这种剪枝。

而且,SparseGPT 还很准确,能将精度损失降到最小。比如在目前最大的开源模型 OPT‑175B 和 BLOOM‑176B 上执行SparseGPT 时,可以达到 60% 的稀疏度,同时将精度损失降到最小。



1

SparseGPT 算法

超大模型的研究近几年非常活跃,但到目前为止,还没有一个百亿参数以上的模型能够实现非常准确的高度稀疏化。

现有方法对计算成本的要求都过高,以目前最准确的训练后方法 OBC 为例,对于十亿参数模型,它需要 1 个小时以上的时间来进行压缩。已知最快的训练后方法 AdaPrune 也需要几分钟来对十亿参数模型进行剪枝,按此速度,GPT-3 规模的模型估计需要数百小时(几周)的计算。

大多数现有的剪枝方法如渐进幅度剪枝(gradual magnitude pruning),需要在剪枝步骤后进行大量的再训练以恢复准确性,而 GPT 规模的模型通常需要大量的用于训练或微调的计算量和参数调整量,这使得基于再训练的方法难以应用。因此,在 GPT 规模上应用这种渐进的剪枝方法是行不通的。

ISTA 团队的这项工作提出了 SparseGPT 方法,可以实现几个小时内在单个 GPU 上运行千亿以上参数的模型,并且足够准确,可将模型修剪到 50%-60% 的稀疏度水平,而不会大幅度降低性能。

SparseGPT 的核心是一种新的大规模近似稀疏回归算法,它可以推广到半结构化(2:4 和 4:8)模式,并且与现有的权重量化方法兼容。

图注:SparseGPT 重建算法的可视化。给定一个固定的剪枝掩码 M,使用 Hessian 逆序列(HUj )并更新这些行中位于列“右侧”的剩余权重,逐步修剪权重矩阵 W 的每一列中的权重处理。具体来说,修剪后权重(深蓝⾊)“右侧”的权重将被更新以补偿修剪错误,而未修剪的权重不会生成更新(浅蓝⾊)。

大多数现有的剪枝方法如渐进幅度剪枝(gradual magnitude pruning),需要在剪枝步骤后进行大量的再训练以恢复准确性,而 GPT 规模的模型通常需要大量的用于训练或微调的计算量和参数调整量,这使得基于再训练的方法难以应用。因此,在 GPT 规模上应用这种渐进的剪枝方法是行不通的。

SparseGPT 是针对 GPT 规模模型的后训练(post-training)方法,因为它不执行任何微调。

目前有许多量化 GPT 规模模型的后训练的方法,如 ZeroQuant、LLM.int8()  和 nuQmm 等,但由于异常特征的存在,激活量化可能会很困难。GPTQ 利用近似二阶信息将权重精确量化到 2‑4 位,适用于最大的模型,而且当它与高效的 GPU 内核相结合时,可以带来2‑5 倍的推理加速。

但由于 GPTQ 侧重于稀疏化而不是量化,因此 SparseGPT是对量化方法的补充,二者可以结合应用。

另外,除了非结构化修剪,SparseGPT 也适用于半结构化的模式,比如流行的 n:m 稀疏格式,在 Ampere NVIDIA GPU 上可以 2:4 的比例实现加速。



2

SparseGPT :

高稀疏化水平,低精度损失

对 SparseGPT 压缩模型的效果进行评估后,研究人员发现,大型语言模型进行稀疏化的难度与模型大小成比例,与已有的幅度剪枝(Magnitude Pruning)方法相比,使用 SparseGPT 能够实现更高的模型稀疏化程度,同时保持最低限度的精度损失。

研究人员在 PyTorch 上中实现了 SparseGPT,并使用 HuggingFace 的 Transformers 库来处理模型和数据集,并且都在具有 80GB 内存的单个 NVIDIA  A100 GPU 上进行。在这样的实验条件下,SparseGPT 可以在大约 4 小时内对 1750 亿参数的模型实现完全稀疏化。

研究人员按顺序依次稀疏 Transformer  层,这显著降低了内存需求,并且还大大提高了并行处理所有层的准确性。所有的压缩实验都是一次性进行,没有任何微调。

评估对象主要是 OPT 系列模型,包含从 1.25 亿到 1750 亿参数的一套模型,方便观察剪枝相对于模型大小的缩放表现。此外还分析了 BLOOM 的 1760 亿参数变体。

在数据集和评估指标方面,实验采用了原始 WikiText2 测试集的困惑度来评估 SparseGPT 压缩方法的准确性,同时为了增加可解释性,还使用了一些 ZeroShot 精度指标。另外,评估的重点在于稀疏模型相对于密集模型基线的准确性,而非绝对数字。

研究人员对 OPT 整个模型系列的所有线性层进行剪枝(不包括标准的嵌入和头部),分别达到 50% 的非结构化稀疏度、全 4:8 或全 2:4 的半结构化稀疏度,结果如下图。

图注:OPT 模型家族在原始 WikiText2 测试集的困惑度

可见,使用幅度剪枝来压缩的模型准确性在所有尺寸上都很糟糕,而且模型越大,准确度下降得越厉害。

而使用 SparseGPT 来压缩的模型趋势不同,在 27 亿参数下,困惑度损失 < 1 point,在 660 亿参数下则是零损失。而且,与密集模型的基线相比,在模型规模非常大的情况下精度甚至还有所提高。



3

较大的模型更容易稀疏化

一个总的趋势是,较大的模型更容易稀疏化,在固定的稀疏度水平下,稀疏模型相对于密集模型的相对精度下降会随着模型大小的增加而缩小。作者推测这可能是由于它们的参数化程度更高,总体上抗噪能力也更强。

相比于密集模型基线,在最大规模下,使用 SparseGPT 将模型压缩至 4:8 和 2:4 稀疏度时,困惑度增长分别仅为 0.11 和 0.39。这样的结果意味着,我们可以在实践中实现 2 倍的加速,商用的 NVIDIA Ampere GPU 对 2:4 的稀疏度已经有了支持。

作者研究了 OPT-175B 和 BLOOM-176B 两个千亿模型的性能与使用 SparseGPT 带来的稀疏程度之间的关系,结果下图所示。

图注:左图为分别使用 SparseGPT 和幅度剪枝将 OPT-175B 统一压缩至不同稀疏水平。右图为使用 SparseGPT 将整个 OPT 模型系列压缩至不同的稀疏水平。

可以看到,对于 OPT-175B 模型,幅度剪枝最多可以实现 10% 的稀疏度,紧接着就会有较大的精度损失。而 SparseGPT 在困惑度增加的下还能实现 60% 的稀疏度。

图注:左图为分别使用 SparseGPT 和幅度剪枝将 BLOOM-176B 统一压缩至不同稀疏水平。右图为在 OPT 家族模型上 50% 稀疏度 + 4 bit 量化联合压缩 与 3-bit 的对比。

对于 BLOOM-176B 模型,尽管幅度剪枝可以达到 30% 的稀疏度而没有显著的精度损失,但相比之下,SparseGPT 可以实现 50% 的稀疏度,即 1.66 倍的提升。而且,在 80% 的稀疏度下,使用 SparseGPT 压缩的模型的困惑度仍然保持在合理水平,但幅度剪枝在达到 OPT 的 40% 稀疏度和 BLOOM 的 60% 稀疏度时,困惑度就已经 > 100。

另外,SparseGPT 能够从这些模型中移除大约 1000 亿个权重,对模型准确性的影响有限。

最后总结一下,该研究首次表明,基于 Transformer 的大规模预训练模型可以通过一次性权重修剪压缩到高稀疏性,无需任何再训练,精度损失也很低。

值得注意的是,SparseGPT 的方法是局部的:在每个修剪步骤之后,它都会执行权重更新,旨在保留每一层的输入输出关系,这些更新是在没有任何全局梯度信息的情况下计算的。因此,大规模 GPT 模型的高度参数化似乎使这种方法能够直接识别密集预训练模型“近邻”中的稀疏精确模型。

另外,由于实验所采用的的准确度指标(困惑度)非常敏感,因此生成的稀疏模型输出似乎与密集模型的输出密切相关。

这项研究在缓解大模型的算力限制方面具有很大的积极意义,将来的一个工作方向是研究大模型的微调机制来进一步恢复精度,同时,扩大 SparseGPT 的方法在模型训练期间的适用性,将会减少训练大模型的计算成本。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/P7uOUBEIXhzYBxSi.html#comments Thu, 05 Jan 2023 11:21:00 +0800
中科院 AI 团队最新研究发现,大模型可通过自我验证提高推理性能 //m.drvow.com/category/academic/jigzKdy1fsZkMvUq.html
语言模型越大,其自我验证能力越强,推理性能也更高。

作者|黄楠、李梅

编辑|陈彩娴

推理能力是机器接近人类智能的一个重要指标。

最近的大型语言模型(Large language mode,LLM)正在变得越来越擅长推理,背后的一个关键技术是思维链(chain-of-thought,CoT),简单来说,CoT 可以让 LLM 模拟人类思考的过程,帮助大型语言模型生成一个推理路径,将复杂的推理问题分解为多个简单的步骤,而不仅仅只是一个最终答案,从而增强模型的推理能力。

对人类而言,我们推断得出一个结论后,往往会通过重新验证来进行核对、避免错误。但当 LLM 在通过 CoT 执行复杂推理尤其是算术和逻辑推理的过程中若出现错误,会在一定程度上影响推理效果,所以不得不进行人工验证。

那么能不能让语言模型也具备自我纠错和自我验证的能力呢?

近日,中国科学院自动化所的研究团队提出了一种新方法证明了 LLM 可对自己的推理结论进行可解释的自我验证,从而大大提高推理性能,这让 LLM 朝着人类智能又前进了一步。

论文地址:https://arxiv.org/pdf/2212.09561.pdf



1

正向推理+反向验证

当涉及复杂推理时,语言模型往往缺乏稳健性,一旦发生任何一个小错误,都可能会改变命题的全部含义,从而导致出现错误答案。使用CoT 提示进行推理时,问题会更严重,由于模型没有纠错机制,以至于很难从错误的假设中纠正过来。

以往的一种解决方法是通过训练验证器(verififiers)来评估模型输出正确性。但训练验证器有三个大缺点:需要大量的人力和计算资源、可能存在误报、可解释性差。

为此,中科院团队提出让 LLM 进行自我验证。

首先,假设推理问题中的所有条件对于得出结论都是必要的,给定结论和其他条件后,可推导出其余条件。自我验证分两个阶段进行:

  • 正向推理,LLM 生成候选思维链和结论给定的问题文本;

  • 反向验证,使用 LLM 来验证条件是否满足候选结论,并根据验证分数对候选结论进行排序。

如下图,对于“Jackie 有 10 个苹果(f1),Adam 有 8 个苹果(f2),Jackie 比 Adam 多了多少个苹果?”这个问题,可从 f1 和 f2 推理出结论 fy。然后,通过反向验证来检验该结论的准确性,就像解方程一样,如果以 f2 和 fy 为条件,可以得出 f1,通过验证 f1 是否与原来的 f1 结果一致,可以判断 fy 的正确性。

图 1:正向推理与反向验证

研究表明,LLM 仅需少量提示即可使用自我验证,无需训练或梯度更新。它们用候选结论来验证,解决了原 CoT 中偏离正确思维过程的问题。而且,验证分数源自整个思维推理过程,可解释性很高。

通过对 GPT‑3、CODEX 和 Instruct‑GPT 等大模型的实验分析,这项研究证明了 LLM 具备可解释的自我验证能力。



2

LLM 的自我验证过程

自我验证的整个过程如图 2所示。第一步与 CoT 类似,但研究通过采样解码生成多个候选结论,计算每个候选结论的验证分数,并选择最高分数作为最终结论。

图 2:自我验证示例;LLM 在第一阶段中生成一些候选结论,三个预训练语言模型用于大量自动构建的数值推理问题,但这些方法需要大量的数据和专家注释,然后 LLM 依次验证这些结论,统计推理正确的屏蔽条件的个数作为第二阶段的验证分数

图 3:这是一个需要使用多个条件的示例;如果只屏蔽第一个证据,则不需要这个证据(前向推理时,需要计算周末的钱,周五的工作时数不影响最终结论)。因此,我们无法根据现有条件和任何候选结论来预测此证据

2.1 候选结论生成

给定一个语言模型 M 和一个问答数据集 D,CoT 为 D 设计了一组样本 C,其中包含 n 个样本,epoch 样本有包含条件和问题的输入 X,思维过程 t 和结论 y。这些示例用作测试时间的输入。通常 n 是一位数,因此需要语言模型 M 在生成 y 之前安装 C 生成 t 的提示:

C 中的每个示例都连接为提示。

使用 Sampling 解码生成 K  y,K 是 y 的个数。具体来说,采样译码是一种随机译码方法,它可以在每一步从可能生成的词的概率分布中采样来选择下一个词,重复使用 Sampling 解码可以得到多个候选结论。

2.2 条件和结论的重写

对输入的 X 进一步细分为其中每个 f 是一个条件,q 是一个问题。我们使用命令“请把问题和答案改成完整的陈述句[q] The answer is [y]”通过 M 把 q 和 y 改成新的陈述句 fy 。

在问题生成上,问题的多样性使得在实际操作中很难平衡问题和答案之间的连贯性和事实一致性的需要,因此直接屏蔽条件。首先,通过正则匹配找到 f1 中的值改写为 X,在新问题的末尾加入“What is the answer of X?” ,从而提示语言模型指示目标。

2.3 依次验证

如图 4 所示,如果给定的 X 不满足所有条件都是结论的必要条件,可以发现只有掩码的第一个条件会有局限性,难以准确评估其验证分数。为了解决这个问题,可以采用多个条件依次验证的方法:依次用 X 替换原始 X 中出现的所有 f,并要求 M 重新预测它,提高验证的可靠性和准确性。

图 4:在八个基准数据集上进行评估,这些基准数据集涵盖了算术推理、常识推理和逻辑推理任务

2.4 验证分数

研究人员设计了一个类似于正向推理的 CoT 以指导 LLM 生成解决过程。而反向验证过程类似于求解方程式,可将其最终结果与屏蔽条件进行匹配。

由于 LLM 本身性能有限,在反向验证过程中,单次解码会因随机性导致验证结果出现偏差,难以保证更准确的验证分数。为了解决这个问题,采样解码过程将重复 P 次,这样验证分数就可以更准确地反映模型对给定结论的置信度。

验证分数计算如下:

其中,1(.)为指示函数,从生成的 K 个候选答案中选择验证分数最高的一个作为结果,



3

LLM 的自我验证能增强推理性能

任务和数据集

此项研究评估了6个算术推理数据集,进一步证明了自我验证在常识推理和逻辑推理数据集上的有效性。这些数据集在输入格式方面高度异质:

  • 算术,前两个是一步推理的数据集,后四个需要多步推理,解决起来比较有挑战性

  • 常识,CommonsenseQA(CSQA)需要使用常识和关于世界的知识才能准确回答具有复杂含义的问题,其依赖于先验知识来提供准确的响应

  • 逻辑,日期理解要求模型从一个上下文推断日期

型号

研究人员在实验中测试来原始 CODEX 模型和 Instruct‑GPT 模型,此外还通过使用 GPT‑3 进行分析实验,研究了不同参数级别对可验证性的影响,LLM  的大小范围为 0.3B 到 175B 。这些实验使用了 OpenAI 的 API 来获得推理结果。

实验结果表明,使用了自我验证的两个模型在多个任务中实现了 SOTA 性能。

图 5:推理数据集上的问题解决率(%)

可以看到,自我验证在算术数据集上实现了1.67%/2.84%的平均改进,并为常识推理和逻辑推理任务带来了少量优化。此外,自我验证还直接导致高性能 Instruct‑GPT 模型结果平均增加2.33%,这表明,具有强大前向推理能力的模型也具有很高的自我验证能力。

研究人员进一步发现了以下几个关键结论。

可用条件越多,验证准确性越高

图 6:单条件验证与多条件验证的问题解决率(%)比较

图 6 中观察了对六个不同算术数据集使用单一条件掩码的效果:由于这些数据集输入中的每个数字都可以被视为一个条件,因此可以研究增加验证条件数量的影响。经大多数实验可发现,多条件掩码比单条件掩码表现更好,并且都比原始 CoT 表现更好。

模型越大,自我验证能力越强

图 7:不同尺寸模型的自我验证能力

图 7显示了参数从 0.4B 到 175B 的 GPT‑3 模型能力。实验结果表明,当参数较小时,模型的自验证能力较弱,甚至不如 CoT 的原始性能。这说明,模型的自我验证也是一种涌现能力,且往往出现在更大的模型中。

思维链提示很少并不影响自我验证能力

图 8:2 次提示和8 次提示的问题解决率(%)比较

图 8 所示的实验结果显示了不同的提示量对性能的影响。可以看到,自我验证在较小的样本中表现出更大的稳健性,甚至低至 2 次,这时候其 8 次提示的性能是 99.6%,而 CoT 只有 98.7%。不仅如此,即使只有 4 个提示(2 个 CoT 提示+ 2 个自我验证提示),自我验证也明显优于 CoT 8 次提示,突出了自我验证在数据有限情况下的重要性。

图 9:不同验证方式的提示对比

与其它方法相比,条件掩码的自我验证性能更优

有另一种方法可以验证模型答案的正确性:真-假项目验证,这以方法是模型对所有条件进行二分判断,如图 12 所示,不覆盖任何条件。此研究还提供了一个反向推理的例子,并尝试让模型自动从结论是否满足条件进行反向推理,但实验结果如图 10 所示,真-假项目验证的性能,要落后于条件掩码验证的性能。

图 10:6 个算术数据集的问题解决率(%)条件掩码验证和真-假项目验证的比较

为了理解这种差距的原因,研究分析了具体案例,如图 11 所示,结果表明:(1)缺乏明确的反向推理目标导致模型再次从正向推理,该结果没有意义、并且不利用现有的结论;(2)真-假项目验证提供了所有的条件,但这些条件可能会误导模型的推理过程,使模型没有起点。因此,更有效的做法是使用条件掩码验证,从而更好地激发模型的自我验证能力。

图 11:一些实际生成案例进一步展示了不同验证方法的影响

LLM 的自我验证能纠错,但可也能「误伤」

图 12 展示了 LLM 使用自我验证来验证其自身结果的详细结果:

图 12:使用 Instruct‑GPT 为八个数据集中的每一个生成了五组候选答案,然后利用 Instruct‑GPT 的自我验证 能力,对它们进行一一判断和排序

左边的扇形图显示了自我验证产生的候选结论的预测结果。LLM 在每次提示中产生1-5个候选结论(由于 LLM 的自洽性,可能会产生相同的候选结论),这些结论可能是正确的,也可能是错误的,再通过 LLM 自我验证来检验这些结论,并将其类为真阳性(TP)、真阴性(TN)、假阴性(FN)或假阳性(FP)。可以发现,除了 TP 和 TN 之外,还有大量的 FN,但只有少量的 FP。

右边的表格显示了召回率明显高于准确率,由此可以说明,LLM 的自我验证可以准确剔除不正确的结论,但也可能将一个正确结论错误地认为是不正确的。这可能是由于反向验证时方程错误或计算错误造成的,这一问题将在未来解决。

最后总结一下,这项工作提出的自我验证方法能够让大型语言模型和提示来引导模型验证自己的结果,能提高 LLM 在推理任务中的准确性和可靠性。

但需要注意的是,这些提示是人为构造的,可能会引入偏差。所以方法的有效性会受到 LLM 产生的候选结论中正确答案的存在的限制,因此取决于模型正确前向推理的能力。

此外,该方法涉及生成多个候选 CoT 和结论,这对于 LLM 来说也存在计算资源的消耗。虽然它可以帮助 LLM 避免来自不正确的 CoT 干扰,但也可能无法完全消除推理过程中的错误。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/jigzKdy1fsZkMvUq.html#comments Fri, 23 Dec 2022 16:50:00 +0800
在一篇由 GPT-3 生成的论文中,ChatGPT 重现了图灵测试的原始论文 //m.drvow.com/category/academic/A5s3GivKcQLwYMfX.html
ChatGPT 的论文写作能力高过图灵,还骗过了 AI 写作评分工具。

作者 | 李梅、黄楠

编辑 | 陈彩娴

以 ChatGPT 为代表的文本生成的兴起,正促使许多研究人员寻求一个比原始版本更具挑战性的图灵测试。

图灵测试解决两个问题:“机器可以思考吗?”,如果可以,“如何证明它?”经典图灵测试针对的是 AI 最棘手的目标之一:如何欺骗不知情的人类?但随着当前语言模型变得越来越复杂,与 AI 如何欺骗人类相比,研究人员开始更关注“如何证明它?”的问题。

有观点认为,现代的图灵测试应当在科学的环境中证明语言模型的能力,而不是仅仅看语言模型是否能够愚弄或模仿人类。

最近有项研究就重新审视了经典图灵测试,并将图灵在 1950 年所著论文的内容作为 prompt,使用 ChatGPT 生成了一份更可信的论文版本,来评估它的语言理解和生成能力。在使用 AI 写作辅助工具 Grammarly 进行定量评分后发现,ChatGPT 生成的论文得分比图灵原始论文高出 14%。有趣的是,该项研究所发表的论文部分内容是由 GPT-3 生成的。

论文地址:https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

然而,ChatGPT 的算法是否真的展示了图灵的最初观点,这仍然是个问号。尤其是,当下越来越擅长模仿人类语言的大型语言模型,很容易让人产生它们具有“信念”、能够“推理”的错觉,这会阻碍我们以更可信、更安全的方式部署这些 AI 系统。



1

图灵测试的演变

1950年版本的图灵测试是问答形式。图灵在论文中模拟了未来智能计算机的测试,如下图所示的一个算术问题:34957 加 70764 等于多少?

图注:ChatGPT 的问答序列,当中答案正确,问题来自图灵 1950 年论文

这个问题曾使当时最好的语言模型如 GPT‑2 失手。然而讽刺的是,在当时,图灵的论文(人类版本)给出了一个错误答案:(停顿约30秒,然后给出答案)105621。即使存在机器为了通过图灵测试而故意犯错的可能性,五分钟的对话仍让裁判人员相信,计算机30%以上的时间是人为操控的。

自1950年以来,图灵测试出现了许多改进,包括2014年一项著名的测试,称为“Lovelace 2.0 测试”。Lovelace 2.0 测试的标准是,机器可以在艺术、文学或任何类似创造性飞跃中创造出具有代表性的例子。

2014年,一个名为 Eugene Goostman 的聊天机器人模拟了一位13岁的乌克兰男孩,成功欺骗了 33% 的裁判人员,被认为是第一个通过图灵测试的机器。

但批评者很快注意到了预定义的问题和主题,以及仅使用键盘敲击的简短格式,这意味着该图灵测试的结果是不可靠的。

2018 年,谷歌 CEO Sundar Pichai 在一段视频中介绍了他们最新的名为 Duplex 的计算机助手,该机器成功实现了美发沙龙预约,成为人们在不知不觉中同机器互动的一部分。虽然正式通过图灵测试可能需要多种形式,但 The Big Think 得出结论:“迄今为止,还没有计算机明确通过图灵 AI 测试”。其他研究人员也重申了所有这些问题是否值得被探讨,其中特别考虑到目前大型语言模型在大量场景中的应用,比如航空工程的文本并没有将其领域的目标定义为“制造出的飞行器要与鸽子完全一样,并骗过其他鸽子”。



2

使用 ChatGPT 生成
更可信的图灵测试

在 PeopleTec 的一项研究中,作者将图灵测试的原始论文内容作为 prompt,让 ChatGPT 重新生成一个更具可信性度的论文版本,并使用写作评估工具进行评估。

此前已经有使用 GPT‑3模型早期版本撰写和发表完全由机器撰写的研究论文的工作。识别机器所生成的叙述,对机器生成文本的抱怨通常源于已知的模型缺陷,例如容易丢失上下文、退化为重复或胡言乱语、答案形式重述问题,以及在被难住时抄袭互联网资源。

这里要生成的论文格式主要执行几个常规的大型语言模型(Large Language Model,LLM )任务,特别是文本摘要和使用图灵问题作为 prompt 本身来生成原始内容。另外,作者使用 Grammarly  Pro 工具来评估生成的内容,对论文的原创性、风格、清晰度和整体说服力等难以表征的特征进行定量评估。

这项工作更多地侧重于图灵挑战的后半部分,不是关于模型如何欺骗人类,而更多是关于如何量化好的文本生成。因此,OpenAI 的努力所展示的部分显著进步归结为它以提高人类生产力的方式改进机器衍生对话的能力。

作者首先用 Grammarly 来评估图灵的原始论文、得出各项分数,然后使用图灵提出的测试问题作为 prompt 来创造原始的 GPT-3 内容,从而复制这些分数。

研究使用三个文本作为基准:

(1)Turing Original,图灵 1950 年在 Mind 上发表的论文;

(2)Turing Summarization,2022 年“Free Research Preview: ChatGPT optimized for dialog”;

(3)Turing Generative Prompt,与(2)相同,但是使用图灵问题在对话中生成。

每个文本块输出都为可为 Grammarly 指标提供数据,并设定了基于受众:专家,形式:中性,领域:一般,当中应用大多数语法规则和约定,具有中等严格性。

这样一个图灵测试,其实也可验证一个欺骗性任务:一台机器(ChatGPT)可以欺骗另一台机器(Grammarly)吗?

图注:用于对大型语言模型和图灵论文进行评分的指标

图灵 1950 年的原始论文提出了用于图灵测试的 37 个问题,当中有针对他思考关于机器的中心主题,还有一些是向实验模仿游戏的计算机提出的示例问题。研究人员在 ChatGPT 的对话框中,将论文大纲中的主题混合在一起后摘录了这些问题,用来提示 ChatGPT 重现原始的基本内容。

ChatGPT 完成内容的生成后,在可读性、正确性、清晰性等指标上与图灵的原始论文进行比较,结果如下图。

图注:图灵 1950 年的论文与 ChatGPT 生成论文在各种任务中的比较结果

在清晰性(“有点不清楚”)、参与感(“有点乏味”)和信息传达(“略有偏差”)等更主观的评分中,所有四个版本都未能引起专家或普通读者的共鸣。

第一个文本摘要挑战表明,ChatGPT 能够掌握简短提示的意图,如:将论文总结成十段,并提供 PDF 论文的链接。这不仅需要模型理解和遵循请求中的摘要程度,还需要知道链接代表什么,并找到它作为参考或从其标记化标题中猜测。

OpenAI 称 GPT3 不会回答可能不属于其初始训练数据的内容,例如“谁赢得了 2022 年 11 月的选举?”。这种知识差距表明,ChatGPT 本身并不主动寻找链接,而是了解其他人之前对其内容所做行为。

有趣的是,当同一提示出现两次时(唯一的区别是提示工程和链接本身冒号后的文本换行符),ChatGPT 的答案会大相径庭。其中,第一次是一篇及格的学生论文,总结了图灵原始论文的要点;第二次则将问题解释为对前十段中的每一段的总结,而不是对整篇论文的总结。

最终的结果表明,ChatGPT 生成的研究论文的整体内容在度量意义上可获得较高的分数,但缺乏连贯性,尤其当问题作为叙述中的提示被省略时。

由此或许能够得出结论,这次与 ChatGPT 的交流充分说明了它能够产生真正有创意的内容或思想飞跃的能力。



3

ChatGPT 拒绝承认通过图灵测试

GPT‑3 在生成内容时,有一个重要过滤器用于消除固有偏见。这次的 ChatGPT 也被设计为颇具有道德正当性,当被问及对某事物的看法时,ChatGPT 会拒绝给出任何具体答案,而只强调自己是如何被创造的。

许多研究人员也认同,任何模型在被问到时,都必须在道德上声明自己仅仅是一台机器,ChatGPT 严格遵守了这一要求。

而且,经过 OpenAI 对 ChatGPT 各个模型层进行的微调,当前的 ChatGPT 在被直接问到它只是一个方程式还是图灵欺骗时,它会回答:“我模仿人的能力并不一定意味着我有与人相同的思想、感觉或意识。我只是一台机器,我的行为是由所受过训练的算法和数据决定的。

图灵还提出人类的列表记忆能力:“实际的人类计算机真的记得它们必须做什么......构建指令表通常被描述为‘编程’。”

就像越来越大的语言模型(>1000  亿)的演变一样,改进也有内置的启发式或模型执行护栏,GPT‑3 的 Instruct 系列就展示了直接回答问题的能力。而 ChatGPT 包括长期对话记忆, 因此,即便单个 API 调用无法跨越的叙述跳跃,但 API 仍可以跟踪对话。

我们可以测试带有非人称代词(如“it”)的对话,在对话中将上下文与单个会话中的先前 API 调用一起进行——这是一个易于掌握的示例,用于 ChatGPT 的 API 内存,因为对较长的对话进行编码既强大又昂贵。

在 LLM 中,API 限制以及费用影响,使得很长一段时间里,token 权重之间的相关性通常在每隔几段的整体上下文中衰减(GPT-3 中的2048个token)。克服此上下文限制可将 ChatGPT 与其公开可用的前身区分开来。

第二代 Lovelace 2.0 测试提出了创造性任务和细化执行任务的约束条件。然后,人类判断专家会评估该模型是否可以用确定性的方式进行解释,或者输出是否符合有价值、新颖和令人惊讶的条件。因此,与其让程序“写短篇小说”,不如改进任务以展示特定的长度、风格或主题。该测试结合了许多不同类型的智能理解,其中,约束层试图限制谷歌搜索内容和有关 AI 成功稀释或伪装原始来源的争论。

以下展示了一个直接回答 Lovelace 2.0 测试中提出的挑战的短篇故事示例:讲述一个男孩爱上一个女孩,外星人绑架男孩,女孩在一只会说话的猫的帮助下拯救了世界

自2014年以来,作为对文本和图像生成的限制,高质量提示工程的使用已变得司空见惯,通常效果越好,关于样式、地点或时间的说明或限定词越详细。事实上,构建提示本身是当今 AI 中获得良好输出的最具创造性的方面。在这种情况下,人们可以通过使用 ChatGPT 强制进行创造性工作,同时处理单一主题、对所需输出的风格和基调的多层限制,将图灵和 Lovelace 测试交织在一起。

下面显示了 ChatGPT 在图灵模仿游戏中生成的十种诗歌:

图灵测试的结果由人类来裁决。正如 ChatGPT 所回答的,提问者是否判断模型通过了图灵测试问题“将取决于多种因素,例如机器提供的响应质量、提问者区分人和机器响应的能力,以及用于确定机器是否成功模仿人类的特定规则和标准。最终,游戏的结果将取决于具体情况和参与者。”



4

LLM 只做序列预测

并不真正理解语言

可以看到,当代基于 LLM 的对话互动可以创造一种令人信服的错觉,仿佛置身于我们面前的,是像人类这样会思考的生物。但就本质而言,此类系统从根本上不同于人类,像 ChatGPT 这样的 LLM 还涉及技术哲学的话题。

语言模型正变得越来越擅长模仿人类语言,这带来一种强烈的感受,即这些 AI 系统已经与人类非常相像,而且我们会使用“知道”、“相信”和“认为”等具有强烈自主意识的词语去描述这些系统。基于上述现状,DeepMind 资深科学家 Murray Shanahan 在近日一篇文章中提到,要破除任何或过度悲观或过度乐观的迷思,我们需要清楚 LLM 的系统到底是如何运作的。

Murray Shanahan

1、LLM 是什么,可以做什么?

BERT、GPT-2 等 LLM 的出现改变了人工智能的游戏规则,之后的 GPT-3、Gopher、PaLM 等大模型基于 Tansformer 架构,在数百 TB 的文本数据上进行训练,更加凸显了数据的强大作用。

这些模型的能力是令人惊讶的。首先,它们在基准上的表现与训练集的大小成比例;其次,随着模型规模的扩大,它们的能力有了质的飞跃;最后,许多需要人类智能的任务可以简化为使用性能足够的模型“对下一个token进行预测”。

最后一点实际上揭示了语言模型的运作方式与人类的根本不同。人类在相互交流中所使用的的直觉是经过数千年进化而来的,如今人们正在错误地把这些直觉迁移到 AI 系统上。ChatGPT 具有相当大的实用性和巨大的商业潜力,为了确保它能被可信地、安全地部署,我们需要了解它的实际工作原理。

与人类语言相比,大型语言模型有什么本质上的不同?

如维特根斯坦所说,人类语言的使用是人类集体行为的一个方面,它只有在人类社会活动的大背景下才具有意义。人类婴儿是出生在一个与其他语言使用者共享的世界,并通过与外部互动来习得语言。

而 LLM 的语言能力来源不同。人类生成的文本构成一个大规模的公共语料库,它包含了单词、单词的构件、或带标点的单个字符等 tokens,大型语言模型就是关于这些 tokens 的统计分布的生成式数学模型。

所谓的“生成”,是指我们可以从这些模型中取样,也就是进行提问。但提问的问题是非常具体的,比如我们要求 ChatGPT 帮我们续写一段话,实际上是在要求它根据它的人类语言统计模型,来预测接下来可能会出现什么词。假如我们给 ChatGPT 提示“第一个在月球上行走的人是”,并假设它会回答“Neil  Armstrong”。这里实际上并不是真的在问谁是第一个在月球上行走的人,而是:给定大量文本公共语料库中单词的统计分布,哪些单词最有可能遵循“第一个在月球上行走的人是”的序列?

尽管模型对这些问题给出的答案可能会被人类解读为模型“理解”了语言,但实际上对模型而言,它要做的就是生成具有在统计上可能的单词序列。

2、LLM 真的什么都懂吗?

LLM 通过以下两个方式来转变为问答系统:

a)  将其嵌入到更大的系统中;

b)  使用 prompt 工程来引发所需的行为。

这样一来,LLM 不仅可以用于问答,还可以用来总结新闻文章、生成剧本、解决逻辑难题以及进行语言翻译等。

这里有两个重要的要点。首先,LLM 的基本功能即生成统计意义上可能的单词序列,是非常通用的。其次,尽管具有这种多功能性,但所有这类应用程序的核心都是同一种模型,都只做同一件事,即生成统计意义上可能的单词序列。

LLM 的基础模型包括模型架构和训练参数。一个 LLM 并不真正“知道”任何事情,因为它所做的一切在底层意义上都是序列预测。模型本身并没有“真”或“假”的概念,因为它们不具备人类运用这些概念的方法。LLM 在某种意义上并不依赖意图立场。

这对于以 LLM 为核心的对话系统也是一样,它们并不能理解人类语言中关于真理的概念,因为它们不存在于我们人类语言使用者所共享的世界中。

3、关于涌现

如今的 LLM 是如此强大、多才多艺,以至于人们很难不或多或少地赋予其人格。一个相当具有吸引力的论点是,尽管 LLM 从根本上说只执行序列预测,但在学习这样做的过程中,它们有可能发现了需要用更高层次的术语比如“知识” 和“信念”进行描述的涌现机制。

事实上,人工神经网络可以将任何可计算函数逼近到任意精度。因此,无论需要何种机制来形成信念,它们都可能驻留在参数空间的某个地方。如果随机梯度下降是优化准确序列预测目标的最佳方式,那么给定一个足够大的模型、足够多的正确类型的数据以及足够的算力来训练模型,也许它们真的可以发现那种机制。

而且,最近的 LLM 研究进展已经表明,当足够大的模型在非常大量的文本数据上进行训练时,就会涌现出非凡的、意想不到的能力。

然而,只要我们的考虑仅限于一个简单的基于 LLM 的问答系统,它就根本不涉及交际依图。不管它使用的内部机制是什么,序列预测本身并没有交际意图的,简单地将交际依图嵌入到对话管理系统中也无济于事。

只有在能够区分真假的情况下,我们才能谈论最完整意义上的“信念”,但是 LLM 并不负责做出判断,它只是模拟哪些词可能跟在其他词后面。我们可以说 LLM“编码”、“存储”或“包含”知识,也可以合理地称 LLM 的一个涌现属性是它编码了日常生活世界的各种知识及其工作方式,但如果说“ChatGPT 知道北京是中国的首都”,那便只是一种修辞。

4、外部信息来源

这里的重点是,涉及将任何信念完全归于一个系统的先决条件。

任何东西都不能算作对我们共享的世界的信念,从广义上讲,除非它是在根据来自某个世界的证据适当地更新信念的能力的背景下,这是辨别真假能力的一个重要方面。

维基百科或其他一些网站,能否提供外部标准来衡量一个信念的真实性或虚假性?假设一个 LLM 被嵌入到一个系统中,该系统定期咨询此类资源,并使用现代模型编辑技术来保持其预测的事实准确性,实现信念更新需要什么样的能力?

序列预测器本身可能不是那种可以具有交流意图或形成对外部现实的信念的事物。但是,正如反复强调的那样,野外的 LLM 必须嵌入到更大的体系结构中才能发挥作用。

要构建一个问答系统,LLM 只需辅以一个对话管理系统以适当地查询模型。这个更大的架构所做的任何事情都可以算作交流意图或形成信念的能力。

至关重要的是,这种思路取决于从语言模型本身到语言模型所属的更大系统的转变。语言模型本身仍然只是一个序列预测器,并没有像以往那样更多地访问外部世界。只有相对于整个系统,在这种情况下,意向性立场才会变得更有说服力。但在屈服于它之前,我们应该提醒自己,这样的系统与人类有多么不同。

5、视觉-语言模型

LLM 可以与其他类型的模型结合和/或嵌入到更复杂的体系结构中。例如,VilBERT 和  Flamingo 等视觉语言模型 (VLM)  将语言模型与图像编码器相结合,并在文本-图像对的多模态语料库上进行训练。这使得它们能够预测给定的单词序列将如何在给定图像的上下文中继续。VLM 可用于视觉问答或就用户提供的图像进行对话,也就是俗称的“看图说话”

那么,用户提供的图像能否代表可以评估命题真假的外部现实?谈论 LLM 的信念是否合理?我们可以想象,一个 VLM 使用 LLM 来生成关于图像的假设,然后针对该图像验证其真实性,然后对 LLM 进行微调,以免做出被证明是错误的陈述。

但大多数基于 VLM 的系统并不是这样工作的。相反,它们依赖于文本和图像联合分布的冻结模型。用户提供的图像与 VLM 生成的文字之间的关系,与人类共享的世界与我们谈论该世界时使用的文字之间的关系根本不同。重要的是,前者仅仅是相关关系,而后者则是因果关系,当然,模型在推理过程中进行的计算存在因果结构,但这跟词语与其所指事物之间的因果关系不同。

6、具身 AI

人类语言使用者存在于一个共享世界中,这使得我们与 LLM 有着本质区别。孤立的 LLM 无法通过与外界交流来更新自己的信念,但如果将 LLM 嵌入到更大的系统中会如何呢?比如,呈现为机器人或虚拟化身的系统。这时候谈论 LLM 的知识和信念是合理的吗?

这要取决于 LLM 是如何具身化的。

以今年谷歌发布的 SayCan 系统为例,在这项工作中,LLM 被嵌入到控制物理机器人的系统中。机器人根

据用户的高级自然语言指令执行日常任务(例如清理洒在桌面上的水)。

其中,LLM 的工作是将用户的指令映射到将帮助机器人实现所需目标的低级动作(例如寻找海绵)。这是通过一个工程化的 prompt 前缀来完成的,该前缀使模型输出合适的低级动作的自然语言描述,并对它们的有用性进行评分。

SayCan 系统的语言模型组件可能会无视机器人所在的实际环境来给出动作建议,比如旁边并没有海绵。所以,研究人员使用一个单独的感知模块利用机器人的传感器来评估场景,并确定执行每个低级动作的当前可行性。将 LLM 对每个动作的有用性评估与感知模块对每个动作的可行性评估结合起来,便可以得出下一步最优动作。

尽管 SayCan 在物理上有与现实世界的互动,但它学习和使用语言的方式与人类仍然非常不同。SayCan 这类系统中包含的语言模型经过预训练,可以在纯文本数据集的无实体环境中执行序列预测。它们并没有通过与其他语言使用者交谈来学习语言。

SayCan 的确给我们带来了关于未来语言使用系统的一种想象,但在今天这样的系统中,语言的作用非常有限。用户用自然语言向系统发出指令,系统生成对其动作的可解释的自然语言描述。但是,这种微小的语言使用范围根本无法与由语言⽀持的人类集体活动的规模相提并论。

所以,即使是对于包含 LLM 的具身 AI 系统,我们也要谨慎地选择词语去描述它们。

7 LLM 能够推理吗?

现在我们可以否认 ChatGPT 具有信念,但它真的可以推理(reason)吗?

这个问题更加棘手,因为在形式逻辑中,推理是内容中立的(content neutral)。比如无论前提如何,“肯定前件”(modus ponens)的推理规则都是有效的:

如果:所有的人都会死,苏格拉底是人;那么:苏格拉底会死。

逻辑的内容中立性似乎意味着我们不能在推理方面对 LLM 过多苛求,因为 LLM 无法杰出到可以衡量真假的外部现实。但即便如此,当我们提示 ChatGPT“所有的人都会死,苏格拉底是人,那么”时,我们并不是在让模型进行假言推理,而是在问:给定的公共语料库中的词语统计分布,哪些词可能遵循“所有的人都会死,苏格拉底是人,那么”这一序列。

而且,更复杂的推理问题会包含多个推理步骤,由于聪明的提示工程,LLM 可以有效地应用于多步推理,无需进一步培训。例如,在思维链提示中,在用户查询之前向模型提交一个提示前缀,其中包含一些多步骤推理的示例,并明确说明,所有中间步骤在思维链风格中都包含一个提示前缀会鼓励模型,以相同的风格生成后续序列,也就是说,包括一系列导致最终答案的显式推理步骤。

像往常一样,真正向模型提出的问题的形式是“给定公共语料库中单词的统计分布,哪些单词可能遵循序列 S ”,在这种情况下,序列 S 是链接 thought 提示前缀加上用户的查询,最有可能跟在 S 之后的标记序列,将具有与提示前缀中找到的序列类似的形式,也即是在它们当中,将包括多个推理步骤,因此这些就是模型生成的。

值得注意的是,不仅模型的响应采用多步骤论证的形式,而且所讨论的论证通常(但并非总是)有效,并且最终答案通常(但并非总是)正确。在某种程度上,适当提示的 LLM 似乎推理正确,它通过在其训练集中和/或提示中模仿格式正确的参数来实现。

但是,这种模仿能构成真正的推理吗?即使今天的模型偶尔会犯错误,是否可以进一步缩小这些错误,使模型的性能与硬编码推理算法的性能无法区分?

或许答案确实为“是”,但是我们怎么知道呢?我们怎么能相信这样的模型呢?

定理证明器生成的句子序列是忠实于逻辑的,因为它们是底层计算过程的结果,其因果结构反映了定理的推理结构问题。使用 LLM 构建可信推理系统的一种方法是将其嵌入到执行相同因果结构的算法中。但是,如果我们坚持使用纯 LLM,那么,要完全相信它产生的论点,唯一方法就是对其进行逆向工程,并发现符合忠实推理规定的紧急机制。与此同时,我们应该更加谨慎,并在描述这些模型的作用时慎重行事。

参考链接:
1.https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

2.https://arxiv.org/pdf/2212.03551v1.pdf

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/A5s3GivKcQLwYMfX.html#comments Thu, 15 Dec 2022 10:13:00 +0800
清华大学孙茂松当选 2022 年度 ACL Fellow //m.drvow.com/category/academic/JKl3k0kTNe5V4N1K.html
他曾领导开发了 AI 作诗系统“九歌”、学堂在线。

作者 | 李梅

编辑 | 陈彩娴

近日,国际计算语言学协会(ACL)官方公布了 2022 年度 ACL Fellow 名单,共有 8 名知名的自然语言处理学者入选。

其中,清华大学孙茂松教授作为唯一华人学者入选。入选理由为:为中国 NLP 做出重大贡献,并为中国计算语言学的发展提供了持续的服务。

孙茂松教授是继百度 CTO 王海峰、字节跳动 AI Lab 总监李航等人之后,ACL Fellow 史上第十位当选的华人学者。

ACL Fellow 计划始于 2011 年,旨在表彰对自然语言处理领域的科技研究与社区服务作出了杰出贡献的 ACL member(ACL 成员),是 NLP 领域的最高荣誉之一。要入选 ACL Fellow,候选人必须在过去五年的三年内担任 ACL member,并由现任的 ACL member 提名。除了 2011 年,ACL Fellow每年的入选人数均不超过 10 人,因此该荣誉含金量十足。

除孙茂松教授外,2022 年 ACL Fellow 的入选学者包括:Hinrich Schütze(慕尼黑大学)、Marti Hearst(加州大学伯克利分校)、Claire Gardent(法国洛林计算机科学及其应用研究实验室、法国国家科学研究中心)、James F. Allen(罗切斯特大学)、Owen Rambow(石溪大学)、Yejin Choi(华盛顿大学、艾伦人工智能研究所)、Tomek Strzalkowski(伦斯勒理工学院)

孙茂松教授是现任清华大学人工智能研究院常务副院长、清华大学计算机学位评定分委员会主席、教育部在线教育研究中心副主任、清华大学大规模在线开放教育研究中心主任,国家 973 计划项目首席科学家,国家社会科学基金重大项目首席专家。

他分别于 1986 年和 1988 年在清华大学计算机系获学士、硕士学位,其后留校工作至今。2004 年,他在香港城市大学获计算语言学博士学位。1999-2003 年曾任清华大学计算机科学与技术系副主任,2000、2001 年曾被聘为香港大学客座副教授。2020 年,孙茂松当选欧洲科学院外籍院士。

他在自然语言处理领域做出了重大贡献。他的研究领域涵盖自然语言理解、中文信息处理、Web 智能、社会计算和计算教育学等,在中文分词和词性标注、关键词提取和社交标注、表征学习、知识图谱、机器翻译和诗歌生成等方面的成果尤为突出,在顶级国际学术会议和一流期刊上发表了一系列高水平论文,谷歌学术引用已超过 28000 次。

孙茂松的研究重点之一是中文信息处理中最为基础性的课题:汉语自动分词。他研制出了一个集自动分词、词性标注、专名识别和新词识别于一体的分词标注系统 CSegTag,应用于清华与欧盟近 10 个国家合作的欧盟第六框架计划(FP6)项目“超对等语义搜索引擎”中。

2013 年,孙茂松带领清华大学团队研发成功了国内首个中文慕课平台“学堂在线” ,经过快速发展,“学堂在线”目前在国内外已形成了广泛影响。

2015 年,由孙茂松带领的 THUAIPoet 团队研发的人工智能诗歌写作系统“九歌”上线,该系统采用最新的深度学习技术,结合多个为诗歌生成专门设计的模型,基于超过 80 万首人类诗人创作的诗歌进行训练学习,在学界和业界引起了广泛关注。

此外,孙茂松还领导开发了许多优秀的 GitHub 开源项目,如 THUNLP、THUMT 开源机器翻译工具包、THUNLP-AIPOET、OpenNRE 神经网络关系抽取工具包等,为计算语言学社区做出了重要贡献。

参考链接:
https://www.aclweb.org/portal/content/acl-fellows-2022
http://nlp.csai.tsinghua.edu.cn/staff/sms/

https://scholar.google.com/citations?user=zIgT0HMAAAAJ&hl=zh-CN

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

雷峰网

]]>
人工智能学术 //m.drvow.com/category/academic/JKl3k0kTNe5V4N1K.html#comments Wed, 14 Dec 2022 16:13:00 +0800