“冯·诺伊曼架构存储和计算分离的模型,已无法满足人工智能应用的需求,计算存储一体化将突破AI算力瓶颈。”这是达摩院2020十大科技趋势中的技术趋势之一。
外界未预料到的是,早在这一趋势诞生之前,达摩院就已经在存算一体领域排兵布阵,暗自发力。
近日,达摩院宣布在存算一体芯片的研究上取得新突破,成功研发全球首款基于DRAM的3D键合堆叠存算一体芯片。作为一条崭新的技术分支,这颗芯片也许是芯片行业的一道曙光,但70年的冯·诺依曼攻计算体系几乎已成为行业铁律,要攻克技术和应用难题是持久战,达摩院能否破局?
计算机领域的阿克琉斯之踵
二战爆发期间,美国军方要求弹道研究实验室为陆军炮弹部队每天提供6张射表,按照当时的计算工具,需要雇佣200多名计算员至少2个月才能算完一张射表。
为此,美国集结了一群科学家,投资48万美元,最终于1946年建造完成世界上第一台通用电子计算机ENICA,实现每秒5000次加法或400次乘法的算力。这台计算机若庞然大物,功耗也在千瓦级别。
ENICA建造完成后,团队工程师冯·诺依曼写了一份报告作为反思,报告明确提到,未来的计算机应该包括控制器、存储器和运算器等组成部分,冯·诺依曼体系结构由此诞生。
冯·诺依曼体系结构意义重大,存储与计算分离的设计,不仅简化了计算机的设计,也让编程和控制变得更简单。
此后,冯·诺依曼体系结构、晶体管和布尔逻辑计算共同组成传统计算机的三大基石,和硬件之上的软件、汇编语言、编译器、应用软件共同推动计算系统向前发展。
时至今日,计算机经历半个多世纪的迭代,虽然架构上也有不少改动,但始终没能摆脱冯氏架构的束缚。
使用冯·诺依曼体系结构本身没有问题,问题在于,AI技术的长足进步,对算力需求呈爆炸式增长,虽然多核并行加速技术提升算力的有效途径之一,但在后摩尔时代,晶体管微缩逼近物理极限,芯片算力增长步履维艰。
最终,算力需求与实际增长之间的矛盾将根源指向冯·诺依曼架构存算分离的局限性。
计算与内存分离,在计算的过程中需要不断通过总线交换数据,将数据从内存读进CPU,计算完成后再写回存储。这一运转方式让冯·诺依曼架构成为计算机领域的阿克琉斯之踵。
一方面,内存发展的速度严重滞后于处理器的发展速度,处理器的算力以每两年3.1倍的速度增长,而内存的性能每两年只有1.4倍的提升,处理器和存储器如同漏斗组合,狭窄的存储器一端极大的影响了数据传输的速度。
另一方面,数据搬运对能量消耗巨大。数据显示,数据从内存单元传输到计算单元需要的功耗大约是计算本身的200倍,真正用于计算的时间和功耗占比大大降低。
于是,业界学界在降低数据搬运开销方面下功夫,高带宽内存、高带宽数据通信、提高存储器的速度,增加片上存储等方法一一涌现,不过这些方法都没有改变数据存储和处理的方式,只是某种程度上的缓解,不能从根本上解决冯·诺依曼架构瓶颈。为此,将计算和存储合二为一的存算一体技术诞生。
实际上,这一技术早在90年代就已经被提出,但受限于技术的复杂度、高昂的设计成本以及应用场景的匮乏,过去几十年,业界对存算一体芯片的研究进展缓慢。直至近几年,英特尔、三星、美光等传统半导体公司,Facebook、谷歌等都互联网公司开始积极布局并逐渐诞生成果,也有诸如Mythic、Syntiant、知存科技、闪亿半导体等初创公司涌入这一赛道,但如今尚未有一家公司的存算一体技术解决方案受到广泛的市场认可。
面对这一现状,阿里巴巴希望通过自研创新技术解决业界难题。
破技术局:达摩院走出新道路
众所周知,平头哥是阿里巴巴旗下的半导体公司,但雷峰网(公众号:雷峰网)了解到,这颗存算一体芯片的研发来自达摩院。
阿里巴巴达摩院下设面向5个领域的16个实验室,包括机器智能、数据计算、机器人、金融科技和X实验室,其中计算技术实验室是一支前沿芯片技术研究的精锐,由国内外名校毕业且拥有半导体大厂经验研究人员组成,致力于计算、存储和互联芯片的前沿技术研究,研究方向涵盖系统架构、计算机体系结构、芯片设计优化等领域。
达摩院成立的四年里,计算技术实验室一直保持低调,但团队出手就是精品,与产业链合作伙伴联合研发出全球首款基于DRAM的3D键合堆叠存算一体芯片,这意味着,在存算一体技术领域达摩院走出了一条全新的路。
从全球来看,尽管存算一体技术的布局者众多,但仍未有企业交出优秀的答卷,没有成功的经验借鉴,达摩院投入必须走一条自己的路!
2019年5月,项目启动之初,达摩院计算技术实验室科学家、该项目研发负责人郑宏忠带领团队成员反复调研对比已有技术路线,例如近存储、内存计算和内存执行计算,不同的技术路线都指向同样的终极目标,即像人脑一样,实现存储和计算的完全融合。
在众多方案中,达摩院走上了近存计算这条路,并且进一步选择3D键合堆叠技术来实现。
“工艺成熟度和成本是我们选择使用存储逻辑键合的主要原因,尽管研发之路坎坷,但我们也一直没有动摇。”郑宏忠表示。
在郑宏忠看来,很多存算一体的技术方案对整个系统架构的破坏性较强,对外部工艺、工具链以及应用的要求更苛刻,而通过键合的方式将计算和存储相融合,既可以分开设计,又可以将其键合在一起。
而在此之前的设计工作,更是决定这场战役成败的关键。达摩院与其上下游合作伙伴深度合作,研发多个创新性技术。
例如其中内存单元采用了异质集成嵌入式DRAM(SeDRAM),拥有超大带宽、超大容量等特点。计算芯片方面,达摩院研发设计了基于流的定制化加速器架构,对推荐系统端到端进行加速,包括匹配、粗排序、神经网络计算、细排序等任务。
经达摩院实验证明,这颗芯片与数据中心的推荐系统对于带宽/存储的需求完美匹配。大幅提升带宽的同时还实现了超低功耗,展示了近存计算在数据中心场景的潜力。
测试显示,在实际推荐系统应用中,该芯片相对于传统CPU计算系统可以达到10倍以上性能提升和300倍的能效提升。这一成果很快也被国际顶级机构认可,相关论文已被ISSCC2022收录。
“研发这颗芯片需要把技术路线的选择与产品定义紧密结合,合适的技术才能解决真正的问题。”郑宏忠说道。
破应用局:三五年后见分晓
目前,全球范围内布局存算一体技术的企业主要有存储基因和计算基因两类。例如,以三星为代表的存储芯片厂商,研发的存算一体芯片偏存储而轻计算,另一部分是以英特尔为代表的计算芯片厂商,偏计算而轻存储。
阿里作为半导体领域的新人,依然拥有巨大的机会,其在实现存算平衡和计算架构设计上优势明显。
过去几年,达摩院计算技术实验室已有几次创新性成果,这是团队研发存算一体技术的硬实力。但不容忽视的是,阿里巴巴广阔的应用场景是让阿里成为存算一体从技术走向商业落地“破局者”的重要推力。
“丰富的应用场景是存算架构落地的关键推力。”郑宏忠说道。
以搜索推荐为例,这一场景对内存带宽、功耗、时延等方面有很高的要求,如果用传统计算来实现,成本耗费高,但用存算的方式就能解决这些问题,同时降低成本。在前期的测试中,达摩院这颗存算一体芯片已经被证明能够在推荐系统中展现了极大的应用价值。
瞄准真正的需求再做针对性的设计研发,正是达摩院区别于其他存算一体技术研发团队的特点。
当然,达摩院并不会止步于此。达摩院表示,未来会逐步攻克技术难题,在三维堆叠的近存芯片后会进一步攻克存内计算技术。
另一方面,也会和阿里内部业务保持更紧密的合作,让这一技术更快速地落地应用。
这是一项浩大的工程,也许需要3到5年的等待时间。“我们仰望星空,但也需要脚踏实地,对于一项全新的芯片技术来说,我们需要有足够的耐心和定力。”
对于已诞生70年之久的冯·诺依曼计算机体系架构而言,这样的等待时间并不算久,前期各大研究机构和企业的坚持投入是人类对极致算力追求的必然选择,一旦这一技术走向市场,AI、VR/AR、天文探索这些场景终将迎来翻天覆地的变化,而存储和计算芯片产业也将迎来新的格局!
雷峰网