雷峰网 //m.drvow.com //m.drvow.com/resWeb/images/common/lp_logo.png 雷峰网 //m.drvow.com 2015 m.drvow.com All rights reserved. zh_cn Tue, 04 Feb 2025 10:06:21 +0800 自研芯片公司:英伟达在前,其余公司能否望其项背? //m.drvow.com/category/chipdesign/tAM71lYD9o9W0JQw.html 在追求构建更强大人工智能(AI)模型的当下,一般的通用芯片已难以支撑,行业对人工智能芯片的需求显著增长。在AI芯片领域,有英伟达(NVIDIA)、超威半导体(AMD)、英特尔(Intel)等耳熟能详的大公司持续深耕,也有Groq、SambaNova Systems、Cerebras Systems等后起之秀雨后春笋般涌出。AI势头正盛,未来AI芯片领域中,谁能跻身前列?雷峰网根据行业现有报告,梳理目前顶尖的AI硬件公司,回顾其发展动态。

主要的芯片领导者

1.英伟达NVIDIA

受益于生成式AI市场的爆发,英伟达成了数据中心人工智能芯片领域霸主——据统计,英伟达目前在数据中心AI市场拥有98%的市场份额,相比之下,AMD仅有1.2%的市场份额,英特尔则只有不到1%,英伟达的领导者地位毋庸置疑。

1990年代以来,英伟达一直在为游戏领域生产图形处理单元(GPU),PlayStation3和Xbox都使用英伟达的视频图形阵列。同时,英伟达也生产Volta、XavierTesla等人工智能芯片,其芯片组旨在解决各行业的业务问题。例如,Xavier是自动驾驶解决方案的基础,Volta则是针对数据中心;而DGX™A100H100是英伟达成功的旗舰AI芯片,专为数据中心的AI训练和推理而设计。目前为止,英伟达发布了H200、B200GB200芯片,HGX服务器(如结合了8个此类芯片的HGX H200和HGX B200);将更多芯片组合成大型丛集的NVL系列和GB200 SuperPod。

不过,需指出的是,由于英伟达的AI芯片价格高昂,且存在供应不足的问题,部分客户也希望选择其他替代产品。

而在云端GPU上,英伟达也几乎处于垄断地位,大多数云端厂商只将英伟达GPU作为云端GPU。英伟达也推出了DGX Cloud产品,直接向企业提供云端的GPU基础架构。

近年来,国内厂商华为海思、景嘉微、海光信息、寒武纪、芯原股份、龙芯中科等,也在加速GPU领域的研发。

2、超威半导体(AMD)

AMD是一家拥有CPU、GPU和AI加速器产品的芯片制造商。在ChatGPT引发生成式AI热潮后,人们对英伟达AI硬件的需求迅速增加,导致其采购更难。在2023年开始,有初创公司、研究机构、企业和科技巨头开始采用AMD硬件。

2023年底,AMD发布了新一代AI/HPC专用加速器Instinct MI300系列,包括纯GPU设计的MI300X、CPU+GPU融合设计的MI300A,全面对标英伟达H100系列。由于AI算力需求激增,MI300销量增长迅速,在2024年二季度的收入超过10亿美元,成为AMD有史以来增长速度最快的产品。

据悉,AMD将发布MI350系列来取代MI300,并与英伟达的H200竞争。此外,Instinct MI325X预计于2024年第四季度发货,与H200的大规模交付仅相差一个季度——AMD表示,在运行Llama 3.1 和Mixtral 等大型AI模型时,MI325X的推理性能会比现有市场领先者H200高出20%至40%。

AMD也与HuggingFace等机器学习公司合作,使数据科学家能更有效地使用他们的硬件。不过,开发硬件的同时,软件生态系统也至关重要,因硬件效能很大程度上依赖软件优化。例如,AMD和英伟达在H100和MI300基准测试上存在公开分歧,分歧焦点是基准测试中使用的包和浮点数。根据最新的基准测试,对于70B LLM的推理,MI300似乎更好、或与H100相当。

3.英特尔Intel

英特尔是CPU市场最大的厂商,拥有悠久的半导体开发历史。2017年,英特尔成为全球第一家销售额突破10亿美元大关的AI芯片公司。

英特尔的至强CPU适用于各种工作,包括数据中心的处理,对其商业成功产生了影响。在2024年9月底,英特尔发布了新一代至强6性能核处理器,代号Granite Ridge,专为满足AI、数据分析、科学计算等计算密集型业务的需求而设计。据官方数据,与第五代至强相比,至强6处理器拥有多达2倍的每路核心数,平均单核性能提升高达1.2倍,平均每瓦性能提升高达1.6倍。

此外,Gaudi3是英特尔最新的AI加速器处理器,英特尔称其比英伟达的H100 GPU更快、更有效率,在训练大语言模型方面比H100快1.7倍,并且,Gaudi3的成本预算远比H100低。不过,自2024年4月公开发布以来,目前对Gaudi3性能的基准测试仍较有限。

生产AI芯片的公共云提供商

4.AWS

AWS生产用于模型训练的Tranium芯片和用于推理的Inferentia芯片。在2024年12月,AWS宣布Trainium2正式可用,其性能比第一代产品提升4倍,能在极短的时间内训练基础模型和大语言模型,且能源效率提升多达2倍。AWS将推出一款由数十万颗自研Trainium芯片组成的巨型人工智能超级计算机。苹果也会成为其最新的芯片客户之一。

雷峰网还了解到,在全球云计算服务市场中,AWS独占近半壁江山。根据2022年的统计,AWS占据全球IaaS市场份额的40%。不过,AWS是在谷歌之后才开始构建自己的芯片。

5.谷歌云平台

TPU是谷歌推出的神经网络专用芯片,为优化自身的TensorFlow机器学习框架而打造。其Google Cloud TPU为翻译、照片、搜索、助手和Gmail 等产品提供支持,也可以通过Google Cloud使用。

谷歌在2016年发布了TPU,在2024年推出第六代TPU:Trillium。谷歌表示,Trillium TPU每一晶片峰值计算效能提升了4.7 倍,是“相当惊人的表现”,且Trillium TPU可以更快速地训练下一代基础模型,以较短的延迟时间与较低成本提供模型服务。谷歌亦强调这一产品的永续特质:与TPU v5e相比,Trillium TPU的能源效率高出67%。

除此之外,Edge TPU是谷歌Alphabet的另一款加速器芯片,它适用于多种设备类型的原型设计和生产设备,比一分硬币还小,专为智能手机、平板电脑和物联网设备等边缘设备而设计。

6.阿里巴巴

阿里巴巴于2019年发布了首款AI芯片“含光800”,这款云端AI芯片是当时全球最高性能的AI推理芯片,主要应用于视觉场景。据悉,其基于12nm工艺与自研架构,集成了170亿晶体管,性能峰值算力达820 TOPS。在业界标准的ResNet-50测试中,推理性能达到78563 IPS,比当时业界最好的AI芯片性能高出四倍;能效比达500 IPS/W,是第二名的3.3倍。

7.IBM

IBM于2022年发布其最新的深度学习芯片——人工智能单元(AIU)。IBM表示,这是其第一个完整的系统单芯片,旨在比通用CPU更快、更有效率地运行和训练深度学习模型。IBM正在考虑使用这些芯片为其生成式AI平台watson.x提供支持。

AIU基于“IBM Telum处理器”构建,该处理器为IBM Z大型机服务器的AI处理功能提供支持。Telum处理器推出时的突出用例包括欺诈检测等。IBM还展示了合并计算和内存可以提高效率,并在North Pole处理器原型中得到演示。

领先的AI芯片初创公司

一些AI芯片行业的初创公司尽管才刚刚成立,却已经筹集了数百万美元,未来我们可能会更频繁听到它们的名字。

8.Groq

Groq由谷歌前员工创立。其自研的LPU(语言处理器),旨在以前所未有的速度加速AI模型。在2024年,Groq凭借自研的硬件加速器LPU,达成了500个token/s的神级推理速度,秒杀ChatGPT。行内人士认为,Groq代表了可用速度的一步变化,为LLM提供了新的用例。Groq创始人表示,Groq的存在是为了消除“贫富差距”,帮助AI社区中的每个人蓬勃发展。

Groq专注于LLM推理,并发布了Llama-270B的基准测试。2024年第一季度,该公司表示,有7万名开发人员在其云平台上注册并构建了1.9万个新应用程序。而早在2022年3月1日,Groq收购了Maxeler,后者为金融服务提供高性能计算(HPC)解决方案。Groq已经筹集了约3.5亿美元,并生产了GroqChip™处理器、GroqCard™加速器等。

9.SambaNova Systems

SambaNova Systems成立于2017年,旨在为大量生成式AI工作负载开发高性能、高精度硬件软件系统。该公司开发了全球首款面向万亿参数规模AI模型的AI芯片系统——基于可重构数据流单元 (RDU) 的AI芯片SN40L。据悉,该芯片专门为运行企业应用程序的大型语言模型而构建,其设计目标是能承载ChatGPT高级版本两倍容量以上的大模型,可为一个拥有5万亿个参数的模型提供服务。对比英伟达的H100芯片,SN40L不仅推理性能达到了H100的3.1倍,在训练性能也达到了H100的2倍,而总拥有成本更仅有其1/10。

不仅如此,SambaNova Systems还将其平台出租给企业。SambaNova的人工智能平台即服务方式,使其系统更易于采用,并鼓励硬件重复使用以实现循环经济。该公司也已筹集了超过11亿美元的资金。

10.Cerebras Systems

Cerebras Systems成立于2015年,推动了芯片设计领域的一场革命——将整片晶圆制成一个巨大的芯片。其于2019年推出的WSE-1,具有1.2万亿个晶体管和40万个处理核心,可同时专注于AI和HPC(高性能计算机群)的工作负载。

而在2021年,Cerebras推出专为超级计算机任务打造的Wafer Scale Engine 2(WSE-2),为当时全球最大AI芯片。与其之前推出的WSE-1相比,WSE-2在面积上没有变化,但拥有创纪录的2.6万亿个晶体管以及85万个AI优化核,其芯片的所有性能特征,均比一代增加了一倍以上。2024年3月,Cerebras发布拥有4万亿个晶体管和90万个AI核心的WSE-3,将用于训练一些业界最大的人工智能模型,理论上能训练多达24万亿个参数的AI模型。WSE-3采用台积电先进的5纳米工艺技术,将其现有最快AI芯片的世界纪录提升了一倍。

雷峰网了解到,Cerebras的系统还与阿斯利康和葛兰素史克等制药公司及研究实验室合作,如利用生物数据集训练大规模的语言模型,能显著缩短AI模型训练时间、加快研发进程,对新药的发现和开发具有重要意义。

11.Etched

他们选择为了效率而牺牲了灵活性——将变压器架构刻录到芯片中。

Etched宣布推出一款针对Transformer架构专用的ASIC芯片“Sohu”。据称,8个Sohu芯片每秒可以生成500,000个token,远超过配备8张英伟达最新的B200 GPU加速卡的服务器约10倍,其AI性能达到英伟达H100的20倍——这也意味着Sohu芯片将可以大幅降低现有AI数据中心的采购成本和安装成本。

不过,目前,这些都是基于团队的内部测量,许多问题还没有得到解答:模型过时时如何处置?用户是否需要购买新芯片,还是旧芯片可以用下一个模型重新配置?他们如何运行基准测试,使用了哪种量化和模型?此外,考虑到每隔几个月就会发布新模型,将模型刻录到芯片中的做法是否可持续,这一答案也令人期待。

12.Tenstorrent

Tenstorrent生产高性能AI芯片Wormhole芯片,可扩展且成本效益高;还有供研究人员使用的台式机和由Wormhole芯片驱动的服务器(例如Tenstorrent Galaxy)。该公司还为其解决方案提供软件栈。据悉,Tenstorrent于2024年12月从包括杰夫·贝佐斯(Jeff Bezos)在内的投资者那里筹集了7亿美元,估值超过26亿美元。

即将到来的AI硬件生产商有哪些?

还有一些引人注目的AI硬件解决方案,但由于它们是市场新手,目前对其有效性的基准测试有限。

苹果作为一家主要的芯片设计商,也在自研数据中心AI芯片——项目名为ACDC。据称,该公司正在与台积电合作设计和生产这些人工智能芯片。这些服务器芯片的主要焦点可能是AI推理,其中涉及经过训练的机器学习模型从新数据中得出结论。而就在2024年12月底,有消息称苹果正与博通合作开发AI芯片,是其首个专为人工智能设计的服务器芯片,或为行业带来更深刻的变革。

Meta也努力想在生成式AI领域赶上竞争对手。在英特尔宣布其最新AI加速器硬件的第二天,Meta公布其芯片研发的最新成果:下一代 MTIA(Meta Training and Inference Accelerator),MTIA是专为Meta AI工作负载而设计的定制芯片系列。据悉,下一代MTIA基于台积电5nm技术,据称与MTIAv1相比性能提高了3倍。MTIA目前供Meta内部使用,但未来如果Meta推出基于LLaMa的企业生成AI产品,这些芯片可以为此类产品提供支持。

此外,微软于2023年11月推出Maia AI加速器。还有总部位于韩国的初创公司Rebellions在2024年筹集了1.24亿美元,专注于LLM推理。

还有一些AI芯片生产商 ,如Graphcore,一家成立于2016年的英国公司,已发布其旗舰AI芯片IPU-POD256,能提供64 petaFLOPS的AI计算。该公司已获得了约7亿美元的融资,与DDN、Pure Storage和Vast Data等数据存储公司建立了战略合作伙伴关系,其AI芯片服务于牛津大学OMI量化金融研究院、布里斯托大学和加州大学伯克利分校等研究机构。不过,该公司的长期生存能力面临风险,因其每年亏损约2亿美元,2024年10月,软银(Softbank)以多于6亿美元的价格收购了它。

而成立于2012年、专注于边缘AI的Mythic,走的是一条非常规的路线——模拟计算架构,旨在提供节能的边缘AI计算。它推出了模拟计算引擎(ACE)M1076 AMP、MM1076 key card等产品,并已筹集了约1.65亿美元的资金。不过,Mythic在2023年3月的融资中解雇了大部分员工并重组了业务。

同时,OpenAI也在筹集资金打造自己的AI硬件。


]]>
芯片设计 //m.drvow.com/category/chipdesign/tAM71lYD9o9W0JQw.html#comments Tue, 17 Dec 2024 11:10:00 +0800
RISC-V要成为「显性」技术,到了关键时期 //m.drvow.com/category/chipdesign/jpesG5Kf2rjm0YWi.html 2024年9月的首场面向开发者的公开活动上,奕斯伟计算一口气发布了基于RISC-V计算架构的十余款产品。

这让许多从业者都认为,“奕斯伟计算最近几年发展速度很快。”

但对于更多的普通人来说,奕斯伟计算是什么公司?RISC-V又是什么?

“我们希望有一天RISC-V能像PC的x86 CPU,手机的Arm CPU一样被普通消费者所熟知。”奕斯伟计算高级副总裁、首席技术官何宁对雷峰网说,“要把RISC-V从隐性技术变成显性技术,先要在一些特定用户群建立认知,积累足够的势能,有强大的生态才能拓展到更广泛的应用领域,让普通用户有感知,现在是关键时期。”

RISC-V要朝着强生态、高性能计算的方向发展已经是业界共识,关键在于怎么做?

每个RISC-V的参与者都会有自己的答案,奕斯伟计算有一个概括性的答案——RISC-V数字基础设施,即RDI,RISC-V Digital Infrastructure。

选择RISC-V,开始摸着石头过河

奕斯伟计算成立的2019年,RISC-V在芯片圈里开始受到关注,既有支持者,也有质疑的声音。

这个新的开放指令集在2014年对外公开之后受到了越来越多技术爱好者的追捧,有人因为对新技术的狂热开启了创业,有人因为对RISC-V未来的看好选择押注,还有人保持观望。

对于奕斯伟董事长王东升来说,RISC-V是一个战略选择。他认为,中国的集成电路面临两个方面的挑战,第一是制造端精密度的问题,第二便是底层技术突破的问题。

中国的半导体产业要强大,制造和设计问题都要解决。作为芯片设计公司,奕斯伟计算考量的是选择一个开放的计算架构,开放意味着可以不受限制,并且有更大的创新空间。

选定RISC-V作为技术路线之后,奕斯伟计算的研发团队很快就设计出了基于RISC-V的小芯片。

“2020年我们给一个国外厂商推荐RISC-V芯片,客户充满疑虑。”何宁真切感受到选择一个新计算架构开发、落地产品的艰难的推进过程。

“还好这颗芯片在客户产品中验证并不难,好不容易说服客户进行验证之后,客户表示满意,抱着试一试的态度才用了我们的产品。”何宁印象非常深刻,给客户推第二代RISC-V芯片的时候就十分顺利,到了第三代芯片,客户已经主动选择RISC-V的芯片。

奕斯伟计算推广RISC-V的过程有客户对新技术的质疑,也有意外之喜。

“一次与电视领域的客户对接,客户问我们什么时候才有基于RISC-V的电视芯片?”何宁惊喜发现也有客户对RISC-V的接受程度超越了他的预期。

那时候奕斯伟计算虽然已经在探索将RISC-V应用到对生态有一定需求的电视市场,开始进行操作系统的移植,但芯片的推出还需要一段时间。

奕斯伟计算在市场上摸着石头过河推广RISC-V的阶段,也正是RISC-V在物联网市场蓬勃发展的时期。

凭借着开放架构的特性,无论是技术爱好者还是商业公司,都可以用相比市场上已有产品更低的价格获取适合的RISC-V芯片,对软件生态需求不高的物联网市场成了RISC-V飞速生长的土壤。

如果只是在弱生态的物联网市场,RISC-V只能被“藏在”物联网设备里不被普通消费者关心。

RISC-V要让普通消费者也有认知,一定要进入强生态、高性能的应用,这已经是业界共识,关键是如何更快达成目标。

做平台型公司,加速RISC-V拐点到来

“从2019年在小芯片上开始使用RISC-V,至今已迭代了几代,去年底我们推出了性能更高的大芯片。正是因为之前几年的积累,所以我们能一次性发布很多款产品。”何宁说,“这是一个不断积累专利、IP、产品、供应链、量产经验和客户的阶段,过去几年一直在修炼内功,今年的首届奕斯伟计算开发者伙伴大会我们厚积薄发。”

从小芯片到大芯片,从模拟到数字再到数模混合,奕斯伟计算有完整的芯片布局,并重点聚焦从智能终端、智能汽车到智能计算三大方向。

“只是靠小芯片我们总体发展空间会比较有限,所以我们有丰富的产品线,但每个产品线也会聚焦方向。”何宁表示。

 “如果按照传统模式,一个个产品线去推,可能20年后RISC-V才会全面开始蓬勃发展。”何宁对雷峰网说,“我们作为平台型公司,要加速RISC-V发展的速度。”

平台型公司的优势在于IP可以复用推出各种类型的产品,也能在产品日积月累的落地中积累生态势能,但平台型公司也意味着更多的技术、人才和资金的投入。

“我们不是因为有足够的底气选择做平台型公司,而是从公司的战略和目标来反推如何实现,平台型的公司能够快速整合各种资源,快速迭代产品,联合上下游产业链,快速应对市场的各种需求。”何宁解释。

SHD Group的调研报告显示,2023年全球RISC-V芯片出货量达到13亿颗,预计2030年出货量将达到162亿颗,年均复合增长率为44%。

RISC-V用了大约10年时间就走完了传统架构30年的发展历程。

接下来的关键就在于如何保持RISC-V快速的发展势头。

RISC-V承上启下的关键时期

 “RISC-V的发展已经到了承上启下的关键时期,是时候在IoT领域取得成绩的基础上,开始谋划RISC-V进入强生态领域的策略和路径了。”何宁进一步说,“大算力的RISC-V芯片逐步推出,也有能力支撑RISC-V在对性能需求更高的场景里落地。”

在弱生态的场景里,RISC-V很难成为一个显性技术,很少有人关心自己的物联网小设备里用了什么芯片,却有大量的消费者关心自己手机、PC里的芯片来自哪家公司。

“首先要在一些特定用户群体对RISC-V有认知,所以我们在这个时间点提出了RISC-V数字基础设施(RDI),包含RISC-V芯片、设备、软件、系统,目标是将离散的、不成规模、不成体系的RISC-V产品,整合成一个完整的系统。”何宁认为,垂直行业场景会是RDI落地的首先突破口。

与消费电子市场不同,垂直行业有数字化转型和自主创新的需求,对新技术更加感兴趣,智慧交通、智慧金融、智慧医疗、智慧教育等都是RISC-V发展强生态很好的落地领域。

不过传统领域已被其它架构占领,如果RISC-V只是做平替很难向上发展,必须发挥RISC-V开放架构的最大价值,传统领域和新兴领域同时发力,展现出RISC-V强大的生命力并激发创新。

RISC-V+AI就是最值得期待的方向,不仅能体现出RISC-V开放架构的优势,也可能出现杀手级应用,将RISC-V带入强生态时代。

“我认为RISC-V和AI会形成深度绑定关系,一方面是因为RISC-V作为开放架构足够灵活,不仅通过指令集的扩展增加对向量和张量的支持更匹配AI需求,RISC-V的可扩展可模块化特点,也可以支持RISC-V灵活组合各种加速器,快速满足各种AI创新的需求,这是其它已有技术架构不具备的优势。”何宁进一步解释,

另一个维度是生态,想要靠单一的公司实现对已有生态的颠覆很难,需要众多的开发者和公司一起去建设一个新的生态。

为此奕斯伟计算推出了RISAA(RISC-V+AI Architecture)平台,包括三方面的基础技术能力(RISC-V+AI技术底座能力、领域专用计算能力,开放的软硬件接口与平台),以及五层级(IP、芯粒、芯片、板卡、系统设备)的产业生态共建模式。

何宁强调,基于RISAA平台的生态现阶段的目标是让RISC-V的生态参与者能够形成生态合力,支撑RISC-V发挥更大的创新潜力,让不同的芯片、软件公司能够基于这个平台快速推出面向各个行业的产品,从系统维度满足不同行业应用的需求,一起做大蛋糕是关键,而非某一个企业占主导。

由奕斯伟计算、金融街资本、东软、天数智芯、中科驭数等牵头成立的RDI聚力联盟,已经与生态伙伴在北京、上海、武汉、成都等地相继成立了RISC-V生态创新中心,搭建一个个平台去推动RISC-V在智慧交通、智慧园区、智慧工业、智慧教育、智慧医疗等垂直领域的工程示范和应用推广。

在RISC-V发展到承上启下的关键时期,为什么奕斯伟计算更适合带头推动生态发展?

“奕斯伟计算作为芯片公司发挥力量推动RISC-V强生态的建设非常合适。”何宁说,“RISC-V International制定标准,但生态的建设场景很多,有很多细致的工作,也需要大量的资源投入,更适合商业公司来推动,因为商业公司有落地芯片实现商业价值的目标,更有动力投入。相比IP公司离市场更近,更有利于推动生态的建设。”

RISC-V承上启下的关键时期,显然建设RISC-V的强生态最为关键,那RISC-V向上发展取得里程碑的标志有哪些?

RISC-V成为显性技术的标志

参考过往的成功经验,一个计算架构的成功往往会有代表性公司,无论是x86阵营里有英特尔、AMD的标杆,Arm阵营里有苹果、高通举旗,GPU的最佳代表英伟达,这让许多人有一个疑问,为什么RISC-V没有标杆?

“关键在于RISC-V的终端应用还没有爆款,所以大家还看不到对应的标杆性公司。我认为RISC-V正在发展的过程,未来一定会有标杆性的产品和公司,但同时因为RISC-V的开放性,RISC-V不会与特定公司绑定,标杆公司也不会只有一家。”何宁这样认为。

还有一个疑问,RISC-V International的会员名单里有许多全球领先的芯片公司,为什么这些公司没有旗帜鲜明的大力支持RISC-V给整个行业信心?

何宁说,“任何一家商业公司投入一个技术都有其商业化考量,大公司在前期会有观望态度,投入相对较少,随着越看越清晰,也会增加投入。我不认为RISC-V现在没有举大旗的公司就不会成功。

显然现在去谈论或者预测RISC-V的爆款应用还有些早,RISC-V在强生态市场落地的势能还不够强大,先让RISC-V在特定领域用户里形成明确认知,取得一个RISC-V向上发展的里程碑更为脚踏实地。

关于RDI产业发展的里程碑,何宁预判,RISC-V数字基础设施(RDI)可能会出现3个3年的阶段,在2024-2026年能够在一些强生态的场景里有落地案例;2027-2029年的三年里能够在一些城市出现规模化的强生态RISC-V应用,让行业用户对RISC-V有认知,2030-2032年的三年中能够全国性推广RISC-V的行业落地,推动RISC-V在全球的强生态发展。

这是一个宏大的愿景,会涉及到成千上万的公司,数十万甚至数百万的开发者,任何个体的努力和成功都有可能成为RISC-V成功的基石,作为RISC-V发展重要的推动力,包括奕斯伟计算这样的公司正在为RISC-V向上的发展努力,他们可能就是RISC-V未来的标杆。

普通消费者何时会关心自己的产品里有没有RISC-V芯片,将会是RISC-V成为显性技术更长远成功的标志。

]]>
芯片设计 //m.drvow.com/category/chipdesign/jpesG5Kf2rjm0YWi.html#comments Wed, 20 Nov 2024 17:58:00 +0800
128核至强6性能核处理器「重回巅峰」 //m.drvow.com/category/chipdesign/SYP7MD9UvkxVoj0E.html 英特尔的拳头产品高性能服务器CPU从“至强可扩展处理器”简化为“至强”之后。

今年6月发布了144核的至强6能效核产品,近期正式发布了128核至强6性能核处理器(代号Granite Rapids)。

“认识我的朋友会觉得我今天有点兴奋,因为英特尔至强6性能核,将是英特尔有史以来性能最强大的至强处理器。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立在发布会的开场就表达了自己的兴奋。

英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立

至强6性能核处理器相比第五代英特尔至强可扩展处理器,拥有多达2倍的每路核心数,平均单核性能提升高达1.2倍,平均每瓦性能提升高达1.6倍,同等性能水平下平均节省30%的TCO。

大幅的性能提升,也让英特尔的合作伙伴、客户与陈葆立一样兴奋。

“128核的至强6性能核处理器,核数翻倍、单核性能实测也提升了20%,我认为至强6性能核是重回巅峰之作。”宁畅副总裁兼首席技术官赵雷认为,“至少在这一段时间,英特尔又重新占领、并且拿到了市场的主导权。”

新华三集团计算存储产品线副总裁刘宏程也给至强6性能核处理器极高的评价,“这次性能的提升并非细微的改进,而是翻天覆地的变化,这可能会改变用户以往‘再等等’的观望心态。

至强6性能核处理器性能的大幅提升的同时,还有显眼的AI标签,进行了包括模块化设计、内存、安全、液冷等技术的全面升级,这些也都是至强6性能核获得极高评价的关键。 

至强CPU是AI推理最触手可及的选择

至强6性能核处理器的全面迭代,在满足传统应用需求的同时,最大的亮点就是充分满足AI推理的需求。

大模型训练变现需要靠AI推理,并且推理需求是训练需求的5-10倍,让众多公司都瞄准了AI推理市场。业界有多家采用创新架构设计AI芯片的初创公司声称其芯片的推理性能是GPU的10倍或更多展现出了很高的性价比,那用CPU做AI推理的优势是什么?

“我们还处于AI的早期阶段,除了一些显而易见的方案,如智能客服系统相对容易部署之外,许多公司还处在初步尝试的阶段,不同的行业可能需要建立私有知识库落地AI,通用的硬件最为方便,我们认为这是一个机遇。”陈葆立对雷峰网表示。

超聚变服务器产品总经理朱勇表示,“至强6性能核处理器可以做到一芯多用。传统认为CPU就是做通用计算,现在CPU已经发展到可以去做一些10Billion左右参数的大模型的推理,为客户带来的优势是能够降低TCO,能够带来真正的商业价值。”

刘宏程认为,“随着世界的变化,单一通用解决方案已难以满足所有需求,未来计算领域,尤其是AI相关的推理能力,将成为必需品。至强6通过英特尔高级矩阵扩展(英特尔AMX),在推理性能上实现了显著提升,包括INT8、BF16、FP16等多种精度上的优化,用户无需额外投资即可享受AI推理带来的便利,这无疑将推动市场向着所有服务器都将具备AI强化功能的方向发展。”

根据英特尔给出的测试数据,最新的英特尔至强6性能核的处理器,运行从通用计算、数据库到科学计算和AI的12种常见工作负载,单颗CPU性能和每瓦特性能与上一代产品相比有两倍以上的大幅提升。

70亿参数的Llama2大模型推理借助英特尔AMX,至强6性能核处理器相比上一代产品有3.08倍的性能提升。英特尔AMX是特殊的指令集,能够更好支持常见大模型的推理计算,AMX指令集在新一代至强6上进行了升级。

大幅的性能提升来自芯片多达128核的设计和SoC架构。

2年前的主流服务器采用的至强可扩展处理器核数在24-48核,至强6性能核拥有高达128核的设计。

“我们一直期待至强CPU核数有重大跃进,此次128核的实现,正是这样一次恰到好处的巨大提升,这在过去的几代产品中前所未有。”刘宏程说出了合作伙伴和客户的期待。

英特尔实现多核采用了灵活的设计,在至强6性能核中有两个单元:计算单元(compute die)和I/O单元(I/O die)。

计算单元包含了最重要的x86内核、内存控制器和缓存。I/O单元包含了领先的PCle、CXL、UPI等通用协议,也包括了英特尔独有的加速器。

通过不同的排列组合,至强6性能核处理器可以满足云边端针对不同场景、不同性能、不同功耗的需求。

128核的英特尔至强6900P系列(代号Granite Rapids-AP)具备三个计算单元和两个I/O单元,这种组合使其拥有高达128个x86内核。

英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉分享,至强6性能核CPU核数最大达到128核,在40%的利用率下,每瓦性能提升1.9倍,为AI、数据分析、科学计算等所有计算密集型业务提供了有力保障。

阿里云智能集团服务器研发总监刘礼寅分享,阿里云基于英特尔至强6的第九代ECS实例,数据库有17%的性能提升,传统的Web应用有20%的实例性能提升,Java应用是15%的性能提升。

 超强性能必须匹配更快、更大的内存

多核的设计可以带来计算性能的成倍增加,但AI工作负载最大的瓶颈并不在计算,而在于存储,也就是数据的传输速度跟不上计算的速度,业界称为“内存墙”。

为了充分释放出多核计算的性能,计算能力与内存的平衡至关重要,所以最新发布的至强6性能核处理器的内存也重点升级。

英特尔至强6900P系列持高达每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路(速率高达每秒24 GT),96条PCIe 5.0或64条CXL 2.0通道、504MB的L3缓存,支持FP16数据格式的英特尔 AMX,可为AI和科学计算等内存带宽敏感型工作负载提供MRDIMM选择,且新增对CXL 2.0的支持。

相对于上一代至强内存支持5600MT/s大幅提升。

陈葆立解释,MRDIMM利用数据缓冲区,实现两个列的同步操作,允许一次向CPU传输128 字节的数据,传统DRAM模块一次能传输64字节。

对比数据能够更直观的呈现两线的差距,同样适用至强6性能核处理器,一个使用标配6400MT/s,一个是使用更快的MRDIMM内存,在科学计算、AI等对内存非常敏感的工作负载中,MRDIMM带来了1.2-1.3倍的提升。

梁雅莉指出,使用MRDIMM之后,对比第五代英特尔至强处理器,带宽最大可提高到2.3倍。

这里有一个有趣的话题,GPU解决AI训练内存瓶颈的使用的是HBM,CPU是否也适合使用HBM?

“英特尔曾经在第四代至强可扩展处理器的时候推出过HBM的产品。不过HBM搭配CPU适用于特定的应用领域,受众范围相对较窄,当前的时间点和技术状态以及应用,使用MRDIMM更适合、更泛用,或者说能够面向更多内存敏感CPU应用的性能提升。”赵雷指出。

MRDIMM解决了更快的问题,CXL支持更多、更大内存。

CXL是一个通用协议,英特尔是这一新技术的发起方之一,目前已经有了CXL 1.0,而至强6性能核支持CXL 2.0。

“比起前一代的技术,现在的技术更成熟,能够帮助客户突破物理极限。”陈葆立说,“现在的机器可能只能插8条或者12条内存,通过CXL扩展,可以在数据库或者大内存的场景里支持更多、更大的内存。”

在至强6性能核处理器产品的发布会上,英特尔的合作伙伴超聚变也分享了双方在CXL方面的合作。

“超聚变CXL内存池与英特尔至强6性能核处理器完美结合,带来了两种极具性价比的使用模式。”朱勇进一步介绍,一种是内存池化集群模式。通过独特的 non-switch 技术,消除了switch带来的成本和访问时延开销,并降低30%的硬件成本。这一模式在集群内提供了内存资源的弹性分配与数据共享,为业务的灵活配置和调度提供更具竞争力的解决方案。

另一种是1+1超级服务器模式,这一模式下服务器直接使用内存池提供的超大内存,针对容量型业务可格外拓展80DIMM超大内存空间扩展,针对带宽型业务,可额外扩展12x8的通道,总带宽提升将近400GB/s。

联想基础设施业务群服务器产品部总经理周韬分享,基于至强6性能核的联想ThinkSystem SC750 V4服务器,测试结果显示在生物化学、气象这些应用上面都有非常出色的性能。

计算性能和内存有很好的平衡之后,至强6性能核要在AI推理中大规模使用,就需要足够的灵活性。

灵活性是吃下AI推理市场的必备技能

与AI训练相对单一的需求不同,AI推理面向各行各业需求各不相同,也就需要灵活和可定制的解决方案。

不难发现,从至强6性能核的算力、内存设计,都具备比较高的灵活性和可扩展性,到服务器层面,基于至强6性能核的服务器也通过模块化实现了较高的灵活性,能够满足包括AI在内的多样化应用需求。

“现在所有的AI服务器或者加速系统,绝大部分的机头也都是英特尔CPU处理器。我们与主流的GPU厂商、AI生态合作伙伴建立了良好的合作关系,共同定义至强规格以提供最佳的机头体验。”陈葆立进一步表示,“此外,DC-MHS 是开放计算项目OCP发布的数据中心模块化硬件系统规范。模块化设计缩短了集成和验证周期,既可以加速产品面世,也可以更高效地为未来设计跨越多代做准备。

潮信息服务器产品线总经理赵帅分享,每个客户都希望获得更好的能效,或者更好的TCO收益,在同样算力单元下,基于不同的机房条件,用户对于产品的设计要求会有不同。

今年初,浪潮和英特尔联合上下游产业单位,打造了开放算力模组技术规范的项目,目前已经正式立项,这是国内首个服务器计算模组的设计标准,项目希望通过构建开放合作,融合创新的商业生态,来激发整个算力的创新。”

赵帅说,“基于模块化、松耦合的开源架构,搭载英特尔至强6处理器的服务器NF3290G8可以很好地实现算力标准化,通过算力单元的扩展实现单路、双单路架构的灵活扩展,并且能实现外围组件的归一化,让平台机型尽量统一,降低用户的运维负担,这台服务器的前后窗可以灵活搭配AI加速卡或者智能网卡,满足客户对于多样性场景用同一款机型的需求。

不可忽视的液冷和安全升级

从计算和内存性能的平衡,再到足够的灵活性,都是CPU能够充分满足AI推理需求的关键。

但要用CPU更多实现AI推理和应用,不能忽略随着性能提升带来的高功耗的散热以及安全问题。

相比上一代至强平台所需的电量是350瓦,至强6性能核需要500瓦的的供电,在增加30%功耗的情况下,算力双倍提升。

“至强6 性能核500瓦的功耗,客观上推动了液冷的发展和快速落地。过去350瓦或更低功耗,风冷没问题,但从这一代开始,散热器无一例外将非常夸张。”赵雷表示。

为了解决这个问题,英特尔联合新华三成功突破油类单相浸没散热能力有限的技术难题,推出基于G-flow创新技术的平台解决方案。

液冷解决方案有全面覆盖冷板式液冷和浸没式液冷两大主流技术路线,刘宏程分享,今年7月推出的G-Flow方案使用臭氧消耗潜值ODP为0的绝缘油。

G-Flow方案的优势就在于增加了强制对流,提供千瓦级芯片的散热能力,让用户可以选择更优兼容性的液体。

还有容易被忽视的安全问题,“至强处理器在机密计算上也做了很多特殊的技术加固,早期用SGX技术,第五代至通过全新的英特尔TDX技术,提供面向虚拟化实例的机密计算架构。至强6的TDX升级为2.0,提供了更可靠、更牢固的安全密钥,更好地支持客户的产品。”

火山引擎也推出了第四代云服务实例,采用英特尔技术新一代DPU、CPU核心设计和I/O能力都翻倍,并且创新地采用了双单路的这样一个结构架构,保证系统稳定性。Java应用、Web应用、数据库等应用性能较上一代的实例提升高达20%。

火山引擎第四代云服务实例也基于TDX2.0,以机密虚拟机为核心,构建了机密计算的一个基础云服务,同时也结合了可信隐私计算的一个技术积累,共同构建了一个大模型的可信应用体系。

从核数、内存、安全、散热到AMX的AI支持,以及从芯片级到服务器层级的灵活性和通用性,英特尔打造了一个拥有高密度计算能力和最佳每瓦性能的至强6性能核处理器。

显然英特尔已经从至强6开始重点押注AI推理,这对于CPU是一个可以预见的增量市场,从核数来说至强6可以匹敌Arm和AMD,从生态的成熟度以及产品的稳定性角度看,英特尔至强依旧拥有其一贯的优势。

至强6,只是英特尔开启CPU新时代的开始。雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/SYP7MD9UvkxVoj0E.html#comments Mon, 30 Sep 2024 11:26:00 +0800
7年的AI芯片销售,决定去开网约车 //m.drvow.com/category/chipdesign/JUtCBy3KJMxcF0wO.html

作者 | 包永刚

编辑 | 王亚峰

“不卖被生态捆绑的AI芯片了,我要去开网约车。”熬了7年,AI芯片销售俊杰做决定时无奈中透着绝望,想到自己刚进入AI芯片行业时的憧憬,又有几分努力多年没有成就的不甘。

俊杰是较早进入AI大芯片公司的销售,那时国内没几家公司做AI大芯片,风光无两,未来大有可为。

刚开始所有人都对AI芯片感兴趣,俊杰的工作很顺利。可客户开始测试之后,俊杰就接连碰壁,俊杰觉得是公司产品和策略的问题,后来发现初创公司的AI大芯片都很难卖,都被英伟达的产品和生态碾压。

一次又一次碰壁,让俊杰越来越没有信心,大模型兴起带来的改变,加上中美局势的影响,让俊杰对国产AI芯片的信心跌落谷底,他认为,国内做AI训练芯片的公司,华为能吃肉,寒武纪、海光能喝汤,其它国内芯片公司的机会很小,最终决定离开。

AI训练芯片市场,真的没有初创公司的机会了吗?欢迎添加作者微信BENSONEIT讨论。

大模型的兴起确实让不少AI芯片人感到悲观,因为想要做到接近英伟达芯片的性能,希望更小,但他们还在以不同的心态坚守。

他们有的无奈,看着英伟达高企的AI生态壁垒,国内建设AI生态受困于各种现实挑战。

他们有的迷茫,芯片做了几代,却因为内部和外部的原因没有大规模使用,迷茫中透着无力。

他们有的麻木,知道以自己的努力改变不了现状,想先熬过现在的行情再做打算。

有人离开,更多的人在坚持,他们都有理想主义,想为中国的芯片产业贡献自己的力量。

国内芯片行业即将进入并购整合期,能不能给理想主义者们带来一些好消息?

01 一个绝望到放弃的资深销售

俊杰比较早就进入了AI大芯片行业,从To B的销售,转向AI芯片销售,最初觉得AI芯片更有技术含量,门槛也更高。

刚做AI芯片销售的时,俊杰充满希望,自己所在的公司名头很响,加上AI芯片还很新鲜,客户兴趣很大。

“拿着芯片参数就能约到客户。”俊杰开始很顺利。可客户拿到AI芯片一测,就没了下文,因为芯片的实际性能和英伟达相差很远。

一家客户不感兴趣,就继续四处接触客户推广市场上为数不多的AI芯片。

慢慢地,俊杰发现公司的决策者需要被市场教育,“他们不相信要基于AI芯片的整个AI系统有性价比,客户才可能买单。

AI芯片需要芯片公司的支持才能用起来,于是聚焦大客户,但花费了几十人和客户配合几个月,最后只换来了8张卡的销售额,明显是赔本的生意。

能找的客户几乎都找了个遍,还是没卖出多少芯片,业绩不好先让销售背锅,俊杰就这样和销售同事离开了。

“肯定是上一家的芯片不行,肯定有其它家可以。”俊杰带着期待进入了下一家AI芯片公司。

产品迭代,友商的产品也都了解清楚之后,俊杰意识到,国内做AI芯片的初创公司水平相差不大。

多次见客户碰壁后,俊杰开始思考国产AI芯片很难卖的原因,“以前卖的产品没有生态问题,可是AI芯片有英伟达的CUDA生态,切换到非英伟达芯片的适配成本非常高,再加上芯片性能不如英伟达,除了为国产化买单的公司,基本不会考虑国产AI芯片。”

“AI芯片的市场看起来很大,每年几百亿的规模,但我认为目前除了安防和互联网两个市场大量使用AI芯片,其它都算长尾市场。”俊杰也是慢慢才体会到。

虽然互联网巨头是国产AI芯片最难进入的行业,但互联网公司保持开放的态度,愿意测试国产AI芯片。

想要给互联网公司销售AI芯片,先要经过客户模型的性能测试,然后互联网公司会买几十台的测试集群进行灰度测试,通过之后才会进一步购买集群,没个半年一年,不可能获得互联网公司的采购。

“每次见客户就像是交作业,客户不满意,等下一款芯片出来再把作业交一遍。”俊杰相信自己总能交出令客户满意的“作业”。

一次又一次地碰壁,打击了俊杰的斗志,但他依旧抱有希望。

大模型的兴起,抹灭了俊杰的最后一丝希望。

“没有大模型的时候,我们芯片针对特性算法优化,推理性能能接近英伟达,大模型时代算法变了,标尺也变了。”俊杰说,“别说客户不相信我的饼,连我自己都不相信我们的芯片还有优势。”

这种无力感就像是看着自家的房子着火了,灭火的工具只有一个盆,再努力用盆泼水也灭不了火。

俊杰的另一个无力感来自于初创公司与巨头公司的差距,人力是几百人和成千上万人的差距,资金和资源方面的差距同样巨大,客户肯定首选更具可持续性的大公司。

“如果不是国产替代的逻辑,在商业逻辑里,一个销售能改变的是在国产AI芯片里选择A公司或者是B公司的产品,无法改变客户选择国产AI芯片还是英伟达的芯片,产品力是最核心的竞争力。”做AI芯片销售的日子,俊杰觉得很难受,没做成什么事情。

“就算我愿意死磕,老板也不容许一个销售没有业绩的死磕,研发或许可以在这个赛道死磕。”俊杰带着遗憾和无奈,加入了网约车司机的行列。

02 无谓低「存活率」的后浪

AI芯片公司的销售确实是一个“存活率”很低的岗位,转行而来的书豪清楚这个现实,但还是从研发岗转到了销售岗。

书豪的理由很简单,想要更多掌控感。

书豪毕业后进入的是汽车行业,2021年看到了中国芯片产业的热潮,也意识到国产芯片实现突破的必要性,转行进入了AI芯片行业。

因为从事的是AI算法方面的工作,书豪转行到AI芯片行业很顺利,也享受到了国内芯片行业热潮带来的薪资上涨。

“芯片从业者薪资翻倍,和个人的努力关系不大,主要还是因为行情好。”书豪觉得,“做研发和行业会绑定很深,掌控权也比较小,越接近市场自己的选择空间、掌控力越大。”

并且做技术遇到瓶颈突破的难度更大,和能力、时机都相关。

从研发转向销售,书豪工作打交道的对象从代码变成了客户,内心难免有些拉扯。

好在和纯商务型销售有所不同,技术型销售还可以发挥自己技术背景的优势,日常也主要和客户公司的CTO打交道,要谈技术趋势和产品路线。

“我刚转到销售岗位几个月,还没有体会到俊杰的绝望。”书豪认定,“现在是AI爆发的前夜,只要坚持总会等到一个时机。

泽宇和书豪坚持的理由一样,泽宇相信未来十年最大的机遇在AI行业,AI芯片也一定会成为国之重器,这也是泽宇选择从金融行业进入芯片行业的理由。

说来有趣,泽宇在学校学的是芯片设计,但2014年毕业的时候金融行业最火热,泽宇进入了金融行业工作,在2018年国内的芯片行业欣欣向荣时,金融行业遇到挑战,泽宇想进入芯片行业,这是他认为更有价值的工作。

虽然在金融行业和AI芯片公司都是市场相关的工作,但泽宇很快就体会到了两个行业的显著差别,“在金融公司的时候,接触10个项目基本能成八九家,到了芯片公司之后10个项目能成1个已经不错。”

“项目不成的原因有多种因素,有纯技术层面的原因,芯片性能不足以匹配客户需求,更多的原因是不知道到底怎么做。”泽宇也能体会到芯片销售的无力,比如要做工业客户,投了人力做了几个月,发现客户不买单。

“如果再换到教育行业的客户,又是不一样的需求,AI芯片在一个行业的成功落地经验没办法套用到另一个行业。”泽宇没有成就感,以前做金融项目面向大量用户,在很多地方都能看到自己参与的项目和产品,芯片赚的都是辛苦钱,项目也不是靠自己拿下,参与感和成就感都很弱。

拿不到项目,难免感到焦虑。泽宇以前在的金融公司人数不多,但利润不错,一年几千万利润,一两百人的公司日子过得很滋润,但现在AI大芯片公司不靠投资人的钱公司就很难活下去。

靠投资人生存的方式不长久,有的公司就出现了花钱买营收的情况,但泽宇现在所在的公司今年财务增长很好,虽然距离盈利还有距离,泽宇有悲观也心怀希望。

03想建AI生态,无奈困在KPI里

文涛对国产芯片也心怀希望,但日常的工作无奈不少。

文涛是一位芯片行业的老兵,他想在自己的半导体生涯里留下一些成果,于是从传统芯片行业到了AI芯片行业,做的工作也是最具挑战的生态建设。

一次投资人彦霖问文涛,“现在AI芯片的公司都在讲如何服务好客户,提供更大算力,但为什么没人讲如何服务好开发者?这是个意识问题,应该先服务好开发者。”

文涛有些无奈地说,“核心的问题还是在于回报周期。”

面向客户的业务,只要服务好客户,芯片公司就有立竿见影的收入,特别是现在各地智算中心的项目,10几亿甚至100亿的项目,CEO们在各方的压力之下,很难拒绝金额如此巨大的项目。了解更多AI芯片公司的现状和进展,添加作者微信BENSONEIT互通有无。

做开发者生态的回报周期很长,投入也很大,对于企业而言,特别是创业公司,在薪酬和绩效体系的约束下,更倾向于短打和短期回报,很难有耐心做开发者生态。

“我工作的中心应该是生态建设,但日常会被不断拉扯,要接待一些与建设生态关系不大的人。”文涛说这话时有些无奈。

文涛思考着,在国内建设一个统一、开放的AI芯片生态的可能性,但要让开发者和客户从CUDA生态迁移到新的生态,需要有新的变化。

我们可以押注一个为生成式AI定制芯片的机会,当这个市场的规模足够大且性价比是GPU数倍的时候,客户和开发者就有了迁移的动力。”文涛认为。

彦霖也认为现在还不是AI芯片的终局,IT行业一直有开源和闭源之争,比如Windows和Linux,安卓和iOS,AI行业也会是闭源和开源之争,芯片公司服务好开源生态,未来或许有突破的机会,能在商业市场和英伟达分一杯羹。

“现实的情况是一半海水,一半火焰,火的是对AI算力的需求,海水是落地周期,国产AI芯片的发展没有魔法,需要周期和耐心。”理想主义的文涛在现实里被拉扯着,有些无奈。

04 被残酷现实洗礼,散发理想主义光芒的工程师

同样遭受着残酷现实洗礼,却散发着理想主义光芒的,还有大量芯片工程师。

昊天博士毕业就进入了AI芯片行业,在公司里参与过架构设计,也做过芯片设计,可是美国的禁令迫使公司的项目停滞。

“我想过自己创业,也看了外面的机会,就是很不甘心。”昊天陷入了长时间的内耗,“我还这么年轻,想做出一番成就,GPGPU架构不行,用专用架构也可能跨一代工艺制程和GPU打一仗。

看着英伟达每年GTC发布新产品,用先进的工艺往前迭代,架构升级,系统升级,昊天非常着急,也很无奈。

在很长一段时间里昊天感到迷茫,新的项目没办法往前推进,自己无所事事,看不到未来在哪,看看其它公司的情况,也不是很乐观。

昊天是近期才想明白,关键在于自己给自己清晰的定位,不要想太多内耗。“我越来越把自己定位为一个工程师,工程师和科学家一个共同点是要钻研,区别在于工程师要实践。”

如今千卡和万卡集群已经成为了发展AI不可缺少的基础设施,昊天投入到了集群相关的研究和实践中,朝着自己的目标和理想努力。

志远也有过迷茫,麻木是他当下的状态。

志远也是在国产芯片的浪潮里加入芯片行业,从和芯片毫无关系的航天业进入AI芯片公司,志远运气不错加入了一个氛围很好的AI芯片初创公司。

“公司的组织架构严谨,做事情遇到问题的时候都相互支持和配合。”志远回忆起来也很感谢最初加入的AI芯片公司让自己从芯片小白,变成在AI芯片行业有所成绩的工程师。

工程师在成长,公司的产品在迭代,却卖的不好,志远和研发的同事们感觉到了无力,他们清楚和英伟达的差距,但想要追上一定需要更多时间和投入,也可能努力也追赶不上。

志远找了个机会跳到了一家技术上更具创新性的公司,以期能够有新的成就,可现实狠狠给了他一巴掌,连他都已经从小白已经有所积累,自己周围的同事却还对AI了解不深。

“我不悲观,但我麻木。”志远自认为是一个有理想做事的人,“但现实的情况是越想做点事情越难受,不如干脆不想。”

志远现在只想先熬过这一两年艰难的行情。

最近志远打开招聘平台,发现相比两年前行情好的时候,即便自己没有求职意向,也有不少猎头主动找来,现在状态改为求职也很难找到一个合适的机会。

“或许是因为行业成熟了,只有新组建的团队才需要大量招人。”志远可能没有意识到,芯片行业的猎头也在大量减少。

05「消失」的百万顾问

2021年行情好的时候,一个运气好的应届生猎头,打打电话也能一年回款一百万元,在猎头行业里被称为“百万顾问”。

“猎头圈百万顾问并不多见。”依琳回忆那时候的行情,“就算猎头不推进,企业的HR也会向前推进,就像是在给猎头送钱。”

行情延续到了2022年,那时候推荐高级别的人成功的概率也高。就算是只有一年经验的也能给芯片公司推,成功一个人也能收个8万、10万猎头费。

“我周围有猎头转型卖保险去了。”猎头依琳还在芯片行业坚守,“现在拿猎头费的门槛也很高,一家互联网大厂成功推荐一个200万年薪我们才有猎头费拿,有的公司还拖欠猎头费。”

这对依琳来说打击不算大,她在2020年进入猎头行业,2021年行情好的时候,公司里其他团队快速赚钱的时候,依琳还在摸索如何带团队。

“2022年公司里其他团队在冲刺,我的团队还都是新人,我错开了高峰。”依琳凭借着自己的努力,一边增加行业认知,一边扩大在芯片行业的人脉,实现了2023年业绩比2022年好。

合作下来,还是觉得平头哥、哲库这样的大公司的HR比较专业,初创公司HR的专业程度看运气。

依琳相信虽然现在芯片行业的行情很差,但差的行情总会过去。

同样没能赶上2021年芯片火热的行情,心怡做了两年芯片猎头就转向了。

心怡本来做互联网人才,但2022年互联网人才的需求在减少芯片的在增加,心怡尝试做芯片人才。

“我做互联网的时候做Web前端,看到芯片也有前端人才需求,就开始尝试。”心怡说,“后来才发现互联网的前端和芯片的前端完全不是一回事。”

从互联网转到芯片方向,心怡最大的感受是互联网人才容易找到联系方式,但态度大都不太耐烦,芯片人才要联系上更难,但人都很礼貌。

“后来发现不少做AI芯片编译器的人都是互联网做AI算法的人转型去做。”心怡解释,“因为互联网太卷了,卷学历,而且互联网搜广推能做的都已经做了,转做AI编译器是个不错的选择。”

除了互联网转型到芯片行业的人才,心怡还很喜欢做华为的人才,“其他家的人推荐成功的概率可能10%,推华为的人选成功的概率有70%甚至更高。”

2024年,芯片人才的需求在减少,互联网搜广推的需求又有点回升,具身智能也是新的热门方向,心怡已经将重心从芯片转向具身智能和AI Infra。

06 国产AI芯片必须成功

如果说一线销售和市场的悲观是最现实的反馈,那建设一个国产AI芯片生态带着理想主义的色彩。

如果一线工程师的无奈、迷茫和麻木是最真实的感受,那开发出能和英伟达一较高下的AI芯片也是他们坚持的理想主义。

芯片的热潮吸引来了无数追风的人,他们会随风而走,或者就此锚定自己坚守的方向。

离开的人不是不再看好国产AI芯片的未来,俊杰就相信等待AI芯片行业逐渐成熟,产业链上下游的人能力逐步提升,被CUDA捆绑的AI芯片市场有可能被打开。

留下的人也不敢保证国产AI芯片一定能成功,就像昊天和志远都在尝试不同的技术路线,却发现国产AI芯片想要成功,还有很多公司治理等非技术挑战。

打造开发者生态注定是漫长煎熬的过程,但文涛相信,中国不能没有自己的AI算力底座,不能没有对应的技术生态,这是他们这一代芯片从业者无法回避的使命。

在时代宏大的叙事背景里,在AI行业亢奋的喧嚣中,是这群AI芯片产业人艰难前行的卑微背影。

但所有愿意坚守在AI芯片行业的人,都有个梦想——国产AI芯片必须成功。雷峰网

你选择离开还是坚守?欢迎添加作者微信BENSONEIT分享你的故事。

文中俊杰、书豪、泽宇、文涛、彦霖、昊天、志远、依琳、心怡均为化名。雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/JUtCBy3KJMxcF0wO.html#comments Thu, 08 Aug 2024 15:24:00 +0800
Arm服务器CPU初创公司活下去,要卖5万还是50万颗芯片? //m.drvow.com/category/chipdesign/5uYGRHSjUw0jdNE5.html

作者|包永刚

编辑|王亚峰

“我很久没看Arm CPU的创业公司了,现在CPU的创业方向是RISC-V。”一位三年前重点关注Arm CPU创业公司的投资人已经有了新目标。

三年前阿里发布了Arm架构服务器CPU倚天710,这一年国内Arm服务器CPU创业火热,大概有十多个团队都想创业,有一些有趣的小故事,欢迎加作者微信BENSONEIT了解。

可惜,2021年芯片行业已经过了资本“大水漫灌”的时期,Arm服务器CPU没有像GPU和DPU创业公司那般受到资本追捧,加之Arm CPU的故事不如AI大芯片那般诱人,难度更大,投资也更多,项目成功启动的团队寥寥无几。

2024年,国内Arm服务器CPU的创业公司仅剩鸿钧微电子、遇贤微,平台模式的博瑞晶芯,以及信息较少的希奥端、熠知电子。

这些近3-4年内成立的的Arm服务器CPU公司们,如今已经到了流片的关键节点,就像是一个人到了高考决定人生下一个阶段的关键时刻。

Arm服务器CPU初创公司们高考的成绩,影响着自身的生死存亡,也关乎着国产CPU的未来,还将影响着全球CPU市场的格局。

在Arm服务器CPU的确定性明显高于AI大芯片的情况下,Arm服务器CPU公司面对的是年出货量5万还是50万颗才能发展壮大?

比GPU确定性更高,但错过热钱

Arm服务器CPU创业公司错过热钱,与Arm CPU在服务器领域的发展密切相关。

十多年前,Arm推出了服务器CPU架构,历经多家公司尝试,却迟迟不见起色。

见证了这段历史的晨光认为,Arm服务器CPU经历了三个阶段,才在2019年迎来了iPhone时刻。

最早是2010年左右,以Marvell和Annapurna Labs(2015年被AWS收购)为代表的公司推出了4核Arm 32位CPU试水服务器市场,那时候英特尔x86 CPU在服务器市场的占比高达95%,低功耗和低TCO(总体拥有成本)的Arm CPU没在服务器市场掀起涟漪。

后来随着云计算的兴起,又出现了以Cavium,AMCC、高通为代表的公司推出了Armv8架构的30-60核的服务器CPU,再次挑战英特尔在服务器CPU市场的霸主地位,找了包括云原生、云游戏在内的多种应用,突显Arm服务器CPU多线程的优势,但单核性能依旧不如英特尔服务器CPU没能成功。

直到2018年AWS推出第一代基于Arm架构的Graviton CPU,以及2019年推出第二代Graviton CPU,凭借着单核性能接近x86 CPU单核性能的突破,Graviton CPU在AWS的云服务中展现了多核、高性能、低功耗、低TCO的优势,Arm服务器CPU迎来了iPhone时刻。

此时国内也已经有华为、飞腾、华芯通都在Arm服务器CPU的赛道。

随着Graviton CPU在AWS云服务中的占比逐步提升,以及Arm在2019年推出面向服务器等市场的高性能Neoverse系列IP,Arm服务器CPU在x86统治的服务器CPU市场里打开了一条裂缝。

可为什么国内Arm服务器CPU初创公司创立的时间集中在2021年下半年?

“2019年美国对华为的禁令,华为一些Arm服务器CPU的人才到了阿里倚天710团队,后来倚天团队和华为的人离职创业,国内陆续出现了Arm服务器CPU创业公司。”熟悉Arm服务器CPU的俊杰认为,“除了人才的原因,投资人要选赛道,投完AI大芯片和DPU之后,2021年投资人才看向了资金需求更大以及系统级难度更高的服务器CPU。”

也正是因为CPU的创业热潮是在AI大芯片和DPU之后,资本可以投的钱已经减少,加之2021年也已经过了大量资本涌入半导体赛道的时候,Arm服务器CPU初创公司的融资金额相比AI大芯片公司少了很多。

“疫情有一些影响,当时我本来准备去看一个Arm服务器CPU的项目,但因为疫情改成了线上,最终没投。”芯片投资人明哲还是更想投AI大芯片,因为生成式AI的发展会让AI大芯片爆发。

在高性能CPU行业十几年的泽宇明白投资人的顾虑,“一方面,英伟达给所有人讲述了一个AI芯片诱人的故事,投资AI芯片看起来更有吸引力;另一方面,服务器CPU市场很难出现爆发式的需求增长,市场的确定性已经更高,投资两种芯片的逻辑不一样。”

Arm服务器芯片的老兵昊天粗略算了一笔账,大芯片公司基本要做2-3代产品才能有造血能力,如果使用5nm设计芯片,一代产品至少要7-10亿人民币,三代产品至少需要20-30亿,巨大的投资额会劝退不少投资人。

泽宇认为,“华为鲲鹏花费近200亿才实现了今天的成绩,初创公司不花50亿也很难做出有竞争力的产品。”

错过了热钱确实让一些想要做Arm服务器CPU创业的团队没能启动,留下的团队进入了“高考”阶段。

修炼三年,迎来高考

Arm服务器CPU不就是买IP回来“拼一拼”?

“商业IP也有很多坑,高性能CPU的设计本身门槛也比较高,需要芯片设计公司去解决。并且设计出芯片还不够,还要能够做到稳定量产。”昊天说,“真正的壁垒是工程化。”

俊杰也说,“把各种商业IP集成在一起并非容易的事情,这个过程会发现一些商业IP重要的BUG。”

产品定义,是Arm服务器CPU公司面临的首要问题。

应该定义多少核在产品上市的时候才有竞争力?应该定义多高的性能?DDR选8通道还是12通道?

俊杰认为,Arm服务器CPU的设计面临三个层面的挑战,一个是要定义好产品,这决定了可用性,还要解决用户好用的问题,最后要找到一个好的服务器OEM,提供一个稳定的平台这。

Arm服务器CPU性能的线性度、接口稳定性、通信延迟是其中两个重要的判断指标。

“上百核的CPU性能线性度,非常考验团队的设计能力。PCIe接口的稳定性也非常重要。同时,还要做到CPU之间互联通信的低时延。”泽宇指出。

晨光补充,“有已经商用的Arm服务器CPU有DDR和接口的问题,所以互联非常重要。比较厉害的公司会自己做互联技术。”进一步交流细节加作者微信BENSONEIT。

所以设计一颗Arm服务器CPU不仅是芯片,还涉及板卡,服务器才能稳定运行,是一个生态问题,不是买个IP拼起来那么简单。

雷峰网了解到,鸿钧微、博瑞晶芯、遇贤微都计划在今年流片。

芯片没有流片之前,投资人通过芯片设计的进度评估,一旦芯片流片回来,不仅能知道芯片的性能,很快也能知道芯片在市场上的实际竞争力。

养活自己,5万片还是50万片?

“AWS目前新增的实例中,使用自研Arm服务器CPU的比例已经接近50%,已经说明了市场的确定性,Arm服务器CPU的初创公司不需要再向投资人证明这个市场的确定性。并且Arm在服务器CPU在整个服务器市场的份额已经有10%,生态的问题也已经初步解决。”晨光指出。

经过十多年的努力,Arm服务器CPU已经基本解决了生态问题,包括MySQL在内的数据库等各种软件都能很好地运行在Arm CPU上。

再加上有Arm System Ready认证,只要是通过这一生态兼容性测试,Arm服务器CPU就可以相互兼容,相比AI芯片公司面临着芯片落地的软件生态问题,Arm服务器CPU初创公司的产品理论上只要生产出来就可以落地,不用解决生态问题。

在北美Arm服务器CPU的主要市场是云服务提供商,在国内还有信创市场。”昊天认为。

俊杰说“初创公司能够拿到Arm最新的IP,能够设计出更有竞争力的CPU,互联网和垂直行业市场都是机会。大家的打法类似,但都要深入行业。”

泽宇进一步细分,还说明了不同市场对于Arm服务器CPU的要求,“互联网公司要看Arm CPU的TCO,这个市场最近几年新增服务器的速度在减缓;第二个市场是运营商客户,移动云和电信云近几年增速比互联网公司快,且有国产化需求;第三类客户就是信创的垂直行业,比如金融和电力行业。”

信创市场从2023年下半年就开放了测试,通过专家的评估就有机会进入信创市场。

“信创领域注重自主可控,拥有架构授权的公司更有进入信创市场的机会。”泽宇认为。

国内目前拥有Arm服务器架构授权的公司是四家,包括很早就开始Arm服务器CPU研发的华为和飞腾,还有平头哥以及博瑞晶芯。

所有国内的服务器CPU提供方都面对着每年近400万台服务器出货量的市场。

按照一台服务器使用2颗CPU计算,内每年服务器CPU的需求大概800万颗,这其中很大一部分依旧是x86服务器,以未来国内50%都是Arm服务器CPU计算,总量就是400万。

“根据国内某大客户的招标看,一颗64核CPU的价格为1.5万-2万元,如果按照科创板对公司估值和财务指标要求看,一年卖5-6万片就够上市的门槛。”俊杰说。

“芯片本质要算账,现在的Arm服务器CPU几乎都是用5nm,芯片的销售额需要覆盖NRE(一次性工程费用),否则投入产出比算不过来。”泽宇计算,“一年销售50万片,投入和产出的帐才能算得过来。

以中国一年400万片Arm服务器CPU来计算,华为和飞腾已经占有优势,假设分走200万片的市场,剩下200万片理论上能养活4家初创公司。

但芯片行业是一个老大吃肉,老二喝汤的行业,上述的假设是否成立还需要市场的验证,但也表明了初创公司的Arm服务器CPU确定性很高。

抢下x86服务器CPU的蛋糕

要清楚,Arm服务器CPU最大的竞争对手不是同类的公司,而是x86服务器CPU。

所有的Arm服务器CPU首先对比的对象是x86服务器,如果相比x86没有TCO优势,互联网公司完全可以不选择Arm服务器CPU。”泽宇非常明确。

“Arm服务器CPU相比x86服务器CPU有算力密度,核数多和性价比的优势,比如都需要3000个核,单个CPU的核数越多,需要的CPU的数量就少,需要的服务器和机架数量就少,TCO就有优势。”昊天指出。

只有TCO还不够,对于已经习惯了x86服务器CPU的用户来说,即便是从英特尔的x86服务器,切换到AMD的x86服务器,都会给软件团队带来一系列工作,所以就算有20%-30%的性价比,客户选择Arm服务器CPU也会有顾虑。

“虽然Arm服务器的生态现在对客户来说是可用,但客户总是挑剔的,总希望有更好用,且更稳定的平台。”俊杰说。

Arm服务器CPU一定要在提供足够TCO优势的同时,满足客户差异化的需求,才能在云计算市场分英特尔x86服务器的一杯羹。

运营商和信创市场的逻辑有所不同,因为有自主可控的要求,如果Arm服务器CPU拥有架构授权,能够满足自主可控的要求,Arm服务器CPU在这两个市场将更容易分走x86 CPU的蛋糕。

就国内进入高考阶段的Arm服务器CPU的公司来说,博瑞晶芯融资较多且有架构授权可高灵活度自研,鸿钧微有比较坚实的团队,遇贤微说能用更少的成本设计出产品。

投资人也依旧在持续关注这个赛道,“包括服务器CPU在内的大芯片一定是国内要解决的问题,我一直在看大芯片公司,如果大芯片公司不只是做某一类芯片,而是规划做几种芯片像华为一样有系统级能力,对我来说更有吸引力。”明哲说。

互联网公司和运营商也是Arm服务器CPU发展的重要推动者,他们可能会采取自研+投资并举的策略。

至于CPU领域另一个发展迅猛的RISC-V,无论是投资人还是Arm服务器CPU领域的人,短期都不看好RISC-V在高性能计算市场的竞争力。

除了整个行业没有带头大哥在引领RISC-V的发展,在高性能计算市场的生态建设,以及碎片化的问题,都是需要面对的挑战。

和全球市场一样,服务器CPU市场正迎来x86和Arm阵营日益激烈的竞争,Arm服务器CPU的成功将会改变市场的格局。

对于国内的Arm服务器CPU初创公司来说,还拥有额外的信创市场机会,期待这些公司今年能够交出一张令人满意的成绩。更深度的Arm服务器CPU及AI芯片信息,欢迎加文章作者微信BENSONEIT互通有无

注,文中晨光,俊杰,明哲,泽宇,昊天均为化名 雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/5uYGRHSjUw0jdNE5.html#comments Mon, 20 May 2024 09:44:00 +0800
无剑联盟,RISC-V商业化闭环的临门一脚 //m.drvow.com/category/chipdesign/de05V78IVY9dWq2z.html

作者 | 包永刚

编辑 | 王    川

“要不要适配RISC-V?这应该是个很复杂的工作。”达摩院玄铁团队刚找到钉钉团队有些犹豫。

经过深入沟通,最终钉钉团队被达摩院团队说服,决定适配RISC-V。

在双方合作完成了对钉钉3.5 万源文件,20+三方库的编译,突破了关键软件框架兼容性等工作之后,钉钉成为了首个在RISC-V上跑通的商用IM产品,钉钉 IM、钉钉文档、钉钉视频会议功能都能够平稳运行。

“原来适配RISC-V没有想象中那么难。”钉钉团队发现万事开头难。

钉钉适配RISC-V的经验很快被应用到其它商业。阿里达摩院举办的2024玄铁RISC-V生态大会上,达摩院院长张建锋宣布福昕PDF、搜狗输入法等商业应用软件首次在基于玄铁RISC-V的处理器上跑通。

至此,RISC-V已经完成了从IP、处理器,到操作系统适配,再到跑通商业软件,RISC-V的生态正在成熟,基于高性能RISC-V处理器的应用不断涌现。

2024玄铁生态大会上,基于玄铁RISC-V处理器的开源笔记本电脑“如意BOOK”亮相。

达摩院院长张建锋

张建锋表示,“随着新型算力需求激增,RISC-V发展迎来蝶变,即将进入应用爆发期。达摩院将持续加大RISC-V的研发投入和生态共建,推动行业上下游协同创新发展。”

此时整个RISC-V行业都在思考,如使用RISC-V掘金?

达摩院给出的答案是——无剑联盟,这个探索RISC-V产业合作的新范式将如何加速RISC-V的产业化落地?

狂奔6年,RISC-V首次跑通商业软件

从2019年首款玄铁910发布,到如今钉钉、福昕PDF、搜狗输入法等商业软件在RISC-V上跑通,达摩院玄铁团队花了6年时间,让RISC-V进入了产业化闭环的最后一环。

为什么说跑通商业软件才进入RISC-V产业化闭环的最后一环?RISC-V只是一个开源指令集,要将指令集变成好用的商品,需要有用户可以直接使用的商业软件,这需要有从IP核,到处理器,再到操作系统的支撑,这背后是一系列艰难的历程。

达摩院玄铁团队早在2017年就开始研究芯片,2019年玄铁910的推出,打破了当时RISC-V处理器性能的天花板。

这对于技术积淀丰厚的玄铁团队来说并非难事,此后达摩院不断丰富RISC-V系列处理器产品家族,拥有了从低功耗、低成本到高性能、高能效的C、E、R系列的9款RISC-V处理器产品家族,出货已经超过40亿颗。

但想要基于玄铁IP设计处理器,依旧有很高的门槛。

为了降低开发难度,缩短产品研发周期,帮助客户设计出定制化芯片,达摩院玄铁团队推出了高性能异构、软硬件全栈芯片设计平台无剑芯片设计平台。

无剑芯片设计平台之上,还有剑池编译及开发工具,达摩院全栈的软件能力降低了RISC-V处理器的开发难度,但要实现落地绕不开操作系统。

RISC-V适配操作系统,不再是简单的技术挑战。

达摩院技术专家回忆,“我们是最早推动RISC-V兼容安卓的公司,这是给安卓做贡献,安卓表示欢迎,可是连安卓贡献者许可协议(CLA)都签不了。”

达摩院玄铁团队没放弃继续投入,2021年投入了很多的资源,重点进行内核、编译工具、基础库等与安卓系统做适配和优化,把性能调到最优。

2022年,谷歌与阿里达成公司层面的CLA,玄铁RISC-V移植安卓的代码被安卓AOSP社区收录进系统源代码,这是安卓官方首次对RISC-V架构的原生支持,玄铁团队功不可没。

为了加深彼此的了解与合作,达摩院玄铁团队派代表到美国与安卓团队负责人交流。

即便签下了CLA,安卓团队的负责人说,“我们曾经也适配过Arm之外的架构,后来我们投入了不少资源,最后这个架构还是没用起来,这个事情很难。”

安卓团队负责人的一盆冷水,没有浇灭达摩院玄铁团队对RISC-V的热情,继续投入资源,在做完RISC-V对安卓的大部分兼容性测试后,安卓团队的态度发生了明显变化。

“再次见到安卓团队负责人时,他的态度明显变得热情了。”达摩院玄铁团队也发现,安卓负责与达摩院对接的工程师,此时已经有一个很大的团队在做RISC-V兼容。

2023年10月,谷歌正式官宣安卓全面支持RISC- V架构。在适配安卓的过程中,阿里巴巴累计进行了12万余行代码的修改,对73万余个testcase做了测试。

张建锋透露,今年下半年,市面上就会有第一款基于RISC-V和安卓的终端设备。

2023年的玄铁生态大会,重点展示了玄铁基本完成国际及国内主流操作系统与RISC-V的全适配,包括安卓、Linux、OpenHarmony、Debian、Fedora、Gentoo、Ubuntu、龙蜥、deepin、openKylin、创维酷开系统、RTT等操作系统。

完成与操作系统的适配并不意味着就拥有了全部的功能,商业软件还需要重新编译适配。”达摩院技术专家指出。

这就出现了开头的故事,达摩院团队在集团内部的钉钉也碰壁,作为一个坚韧的团队,达摩院玄铁团队耗时近一年说服并完成了钉钉适配玄铁RISC-V处理器,这个经验被用到了适配福昕PDF,适配时间大幅缩短到不到一个月。

狂奔6年后,达摩院玄铁团队终于将RISC-V从IP牵引到了商用软件开始适配,扫清了RISC-V在各个领域落地从硬件到软件生态的障碍。

无剑联盟,实现RISC-V产业化的新范式

如何使用RISC-V掘金?这是RISC-V参与者都在探寻的答案。

与RISC-V落地需要从IP到商业软件的各个环节对应,RISC-V的产业化也需要不同组织的共同努力。

RISC-V International负责标准的制定。2023年6月由谷歌、英特尔、平头哥等13家企业发起的全球RISC-V软件生态计划“RISE”负责软件实现并贡献给社区,推动RISC-V生态的成熟。

加速RISC-V商业落地,也需要一个组织。

2024年玄铁生态大会上达摩院发起成立的无剑联盟恰逢其时,无剑联盟将通过构建开放、协同、普惠的RISC-V芯片服务体系,加速RISC-V产业化进程,首批成员有Arteris、芯昇科技、新思科技、Imagination、中国电信研究院、青岛海尔科技等头部企业及机构。

雷峰网了解到,2019年玄铁团队就牵头成立了IP平台联盟,成员覆盖了基本的模拟IP及常用的高速接口IP企业,这是无剑联盟的雏形。经过玄铁团队五年的实践探索,以及RISC-V生态和商业的逐步成熟,「无剑联盟」在2024年正式成立,首批成员包括从IP、EDA供应商,到网络、工具链优化及应用公司在内的芯片产业链上下游的公司,覆盖了更为丰富的生态圈层,都是已经与玄铁团队有深度合作,且在业界有影响力的公司。

无剑联盟希望通过业界有影响力公司的成功合作案例,为业界提供RISC-V落地成功案例和经验,联盟成员之间会在技术和商业上进行紧密合作。

比如,基于达摩院无剑600芯片设计平台,无剑联盟内的成员会先做好芯片的配置,大幅降低RISC-V芯片的开发难度。

Imagination和玄铁实现GPU和CPU高性能异构算力架构;Arteris与玄铁合作保证Arteris Ncore和FlexNoC片上网络互联IP及SoC自动化集成技术与玄铁RISC-V系列产品的互操作;玄铁与新思科技合作,做好基于玄铁处理器进行仿真、调试、验证,大幅缩短产品验证及上市时间,显著降低风险。

开发RISC-V的难度更低,无剑联盟内的芯片的需求方比如中国电信也能更方便地定制芯片。

达摩院芯片专家打了个比方,以前终端产品只能基于现有的芯片搭建产品,颗粒度很粗,有了无剑联盟,可以从更上游的阶段参与输入,甚至到指令集层面,颗粒度变得很小,可以做出有差异化的产品,实现在大闭环层面的产业创新。

这样看来,无剑联盟里EDA、IP的提供商能共同服务好SoC设计的客户,SoC设计公司能够加速产品上市时间,因为联盟内有明确的客户,SoC设计公司能够设计出更符合需求的芯片,客户也能进一步定制化芯片提升产品的竞争力,EDA、IP公司也能及时得到客户的反馈更好迭代产品,形成一个多赢的良性循环。

作为一个RISC-V产业合作的新范式,无剑联盟将首先聚焦在和业界有影响力的公司共同打造RISC-V产业化闭环的范例,补齐RISC-V产业化的最后一环,后续将持续吸引更多产业链公司加入,加速RISC-V产业化落地。

一旦RISC-V的产业化实现闭环,能进一步促进整个生态的投入,激发基于RISC-V的创新,RISC-V也将迎来蓬勃发展。

RISC-V在5G、AI高性能市场潜力巨大

硅谷芯片传奇Jim Keller在2024玄铁生态大会的演讲中指出,“RISC-V的潜力无限。例如,未来我们会迎来前所未见的AI软件应用,而RISC-V有望打造出下一代的AI引擎。”
知合计算CEO孟建熠说,“其它架构因为有兼容性问题,很难为了大模型快速迭代。RISC-V开放且灵活,还有低功耗和高能效的优势,这是架构优势,我们正在跟进。”

基于RISC-V的AI芯片已经渗透到多个行业。

在电力行业,AI巡视不仅能够更好地保障电网稳定运行,也能节省不少人力,国网智芯公司基于玄铁处理器研发面向工业应用的高能效、高安全、高可靠的AI芯片,用于变电智能巡视、源网荷储协同调度等场景,对于数智化电网建设发挥着积极作用。

ICT行业同样对于芯片有巨大需求,中国电信研究院采用玄铁RISC-V研发云桌面、AI边缘盒子等新硬件,打造“端-边-云”全面应用,带来全新的AI体验。

消费电子也是RISC-V不可错过的巨大市场。在智慧屏刚兴起的时候,创维酷开团队找到了达摩院玄铁团队,想看看是否有合适的方案。达摩院团队把具有软硬件全栈能力的曳影1520提供给了酷开团队。

“客户发现我们的产品不仅有很高的通用计算能力,智慧屏全新的语音识别、手势识别也能直接用RISC-V CPU的AI能力处理,不需要单独AI加速器,他们非常惊喜,双方也顺利展开了合作。”达摩院技术专家对此印象深刻。

RISC-V还在探索在AI应用能力的上限。达摩院还和中国科学院软件研究所合作的“如意BOOK”,基于性能强大的玄铁C910处理器,在openEuler操作系统上流畅运行钉钉、Libre Office等大型办公软件,首次打通了从底层芯片到操作系统到商用软件的RISC-V全链路。

RISC-V的灵活性在AI时代还有更大的发挥空间,在金融、机器人、5G等市场同样有很大的潜力。

在对安全性要求极高的金融行业,润开鸿联合达摩院在玄铁RISC-V上更好地发挥了OpenHarmony分布式技术应用优势,已经在金融、交通等行业落地。

机器人也是一个极具潜力的市场,这一市场可能会出现全新的操作系统,没有历史包袱且灵活RISC-V具备优势。亚博智能基于玄铁处理器的Mlik-V Meles开发板研发SLAM建图与避障导航小车,首次将RISC-V带入了ROS机器人领域。

5G也是RISC-V拥有优势的场景。比科奇芯片研发副总裁沈钲指出,“能效比是RISC-V的优势,并且得益于玄铁做好了上层的操作系统适配工作,使用RISC-V在客户的层面可以做到几乎无感。

2023年,玄铁IP的授权达到了高峰,并且授权核心从以往的MCU为主,转向了高性能核心为主,围绕玄铁处理器,一个蓬勃生长的RISC-V协同创新生态雏形已初步形成。

倪光南院士已连续第二年参加玄铁RISC-V生态大会,他说:“我们应加大开源贡献,推动开源创新,与世界协同,促进RISC-V生态繁荣,推动构建世界主流CPU领域新格局。”

作为国内RISC-V领域的一面旗帜,达摩院继续为RISC-V投入。

玄铁系列将面向低功耗、AI加速、车规及安全领域全面迭代升级。玄铁C907首次实现矩阵运算(Matrix)扩展,为未来AI加速计算提供更多选择。

下一代处理器C930也将于今年内推出。雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/de05V78IVY9dWq2z.html#comments Sun, 17 Mar 2024 15:32:00 +0800
英特尔宣布Altera独立运营,550亿美元的FPGA市场再迎变局 //m.drvow.com/category/chipdesign/TdDCGksZrPAJP1wg.html 2024年3月1日,英特尔宣布成立全新独立运营的FPGA公司——Altera。独立运营的Altera计划在未来2-3年内进行公开募股(IPO)。

此前英特尔数据中心和人工智能(DCAI)事业部总经理Sandra Rivera担任独立运营的Altera公司首席执行官。

英特尔在2015年6月以167亿美元收购Altera,被收购时Altera是全球第二大FPGA公司,九年后英特尔决定让FPGA业务独立运营,再次使用Altera作为公司名字,有种让Altera重生的味道。

对于Altera的独立运营,Arrow公司首席执行官Sean Kerins 表示,“Altera在FPGA创新上享有盛誉,在市场上很出名,大家对它也很熟悉。再想到英特尔会继续以各种方式支持Altera,这对我们的共同客户而言简直是两全其美的理想状况。”

独立运营的Altera对于整个FPGA行业举足轻重,将带来新的变化。

在被英特尔收购后,Altera FPGA的重心是高性能的数据重心和云计算,这给了中低端FPGA公司更大的生存空间,宣布独立运营之后Altera又将目光放在了嵌入式和低成本市场,可能给FPGA中低端市场带来的变化值得关注。

“我们预计未来五年FPGA的累计潜在市场将超过550亿美元。”Sandra也非常明确Altera的发展规划,“在这段过渡时期,我们的首要任务是保持与客户和合作伙伴之间的业务持续性。

要保持与客户合作的延续性,产品的延续性以及覆盖高中低端的产品组合也非常重要,Altera已经推出了三个系列产品,有1个系列产品即将推出,包括:

  • Agilex 9现已大规模生产。其提供业界领先的数据转换器,适用于需要高带宽混合信号FPGA的应用场景。

  • Agilex 7 F系列和I系列现已投入生产。该系列产品能够提供两倍的性能功耗比,专为诸如数据中心、网络等高带宽计算应用设计。

  • Agilex 5现已广泛推出。作为业界首个嵌入AI模块的FPGA,其能够为嵌入式边缘应用提供领先的性能,且每瓦性能提升最高可达1.6倍。

  • Agilex 3即将推出。其将为云计算、通信和智能边缘应用中的低复杂度功能提供领先、低功耗的FPGA系列产品。

Agilex 5作为嵌入AI模块的FPGA,既是延续与客户合作的产品,也是开拓AI市场的拳头产品。

“我们在构建Agilex 5时,始终谨记客户反馈的FPGA行业中缺少低功耗的中端FPGA。”Altera公司首席运营Shannon Poulin分享,“我们可谓拼尽全力降低功耗,优化了制程,在逻辑结构和IP上额外采用了功率门控的方法,努力提供一款出色的节能型中端FPGA。”

雷峰网了解到,运行Agilex 5的设备越多,运行频率越高,该系列在中端FPGA市场上就更具竞争力。

抓住客户痛点打造差异化的同时,Agilex 5也正在以更快速度推向客户,首批基于Agilex5的开发板现已开始接受订购。

Agilex 5抢先体验计划是PSG和Altera历史上罕见的大规模计划。数百家客户已经可以使用我们的软件和硬件。”Shannon说,“大约一个月后,我们会向所有客户全面开放。”

实际上,Agilex5的差异化竞争不止体现在解决客户对中端FPGA的痛点上,也体现在AI的价值上。

“AI愈发普遍,这将持续带动FPGA的采用,主要集中在产生大量数据的AI推理和嵌入式应用中。”Sandra称,“有超过75%的客户表示,他们计划在未来3-5年内在其AI解决方案中部署FPGA。”

也就是说,Agilex5的成功将意味着Altera在AI时代的优势。

Agilex 3可能是改变市场竞争格局的产品,因为Altera重新将目光转向需求量最大的嵌入式市场,Altera在很长一段时间并未重视这一市场,如今推出全新的产品,可能会搅动这一市场的格局。

无论如何,Altera的独立运营,就像当年英特尔收购Altera一样,又会给FPGA市场带来全新的变化,雷峰网将保持关注。

]]>
芯片设计 //m.drvow.com/category/chipdesign/TdDCGksZrPAJP1wg.html#comments Fri, 01 Mar 2024 17:21:00 +0800
阿里云第八代企业级实例g8i算力升级,整机性能提升85%,AI推理最高提速7倍 //m.drvow.com/category/chipdesign/brS3T67ZV6HnKdj3.html 如果说2023年是人工智能大模型元年,那么2024年或许就是各形态AI应用大规模落地元年。

据IDC预测,2024 年全球将涌现出超过5亿个新应用,相当于过去40年间出现的应用数总和。

而作为AI发展基础之一的算力,面临着越来越多的挑战。

如何打造新一代算力日益成为云厂商在思考的事情。

1月11日,阿里云宣布第八代企业级通用计算实例ECS g8i算力再升级,国内首发代号Emerald Rapids的第五代英特尔至强可扩展处理器,依托阿里云自研的“飞天+CIPU”架构体系,ECS g8i实例的整机性能最高提升85%,AI推理性能最高提升7倍,可支撑高达72B参数的大语言模型,帮助中小规模模型起建成本降低50%。

同时,新实例还提供了端到端安全防护,为企业构建可信AI应用提供强有力的隐私增强算力支撑。

阿里云弹性计算产品线总经理张献涛表示,“阿里云ECS g8i实例的强劲表现,证明了以CPU为中心的计算体系同样具备加速AI推理的巨大潜力,公共云不仅可胜任超大规模的AI模型,也为AI应用加速落地开辟了新路径。”

英特尔中国数据中心和人工智能集团至强客户解决方案事业部总经理李亚东表示:“最新上市的第五代英特尔至强® 可扩展处理器每个内核均内置 AI 加速功能,完全有能力处理要求严苛的 AI 工作负载。与上代相比,其AI训练性能提升多达 29%,AI推理能力提升高达 42%。我们希望借由阿里云第八代企业级实例(ECS g8i)共同助力开发者实现技术普惠,让 AI 技术无处不在。”

通用算力再提升,整机性能提升85%

作为企业级通用计算实例,ECS g8i实例在计算、存储、网络和安全等能力得到了全方位提升。

据雷峰网了解,从关键参数上看,ECS g8i实例的L3缓存容量提升到320MB,内存速率高达5600MT/s,整机性能提升85%,单核性能提升25%;存储方面,ESSD云盘提供100万 IOPS,全面搭载NVMe,存储延迟低至百微秒;网络方面,PPS高达3000万,标配阿里云自研eRDMA大规模加速能力,时延低至8微秒;安全方面,ECS g8i实例支持可信计算与加密计算等特性,全球率先支持机密虚拟机TDX技术,构建了全面的安全防护。

在E2E场景下,ECS g8i实例可将MySQL性能提升最高达60%,Redis和Nginx的性能分别提升40%和24%,面向游戏、视频直播、电商、金融、医疗、企业服务等行业提供强劲的算力支持,满足其在数据库、大数据、AI推理等应用场景下对性能的严苛要求。

此外,ECS g8i实例还提供了多种硬件原生加速能力,包括QAT和IAA等加速器。阿里云通过自研技术,将硬件加速能力更细颗粒度透传至实例虚拟机,小规格的ECS g8i实例也同样具备加速能力。其中,依托于QAT原生加解密加速器,ECS g8i实例在压缩/解压缩场景下性能最大可提升70倍,加解密性能提升4倍以上。

为AI提速,可支撑72B参数的大语言模型

生成式AI掀起的技术革命,正在推动计算范式发生根本性的变化。当前,AI大模型推理在算力上依然面临诸多挑战,例如首包延迟受限于并行处理能力与浮点运算能力,吞吐性能则受限于内存带宽和网络延迟。

阿里云ECS g8i实例针对这些难题都进行了相当程度的优化,包括内置指令集从AVX512升级到了Intel  AMX高级矩阵扩展加速技术,可让生成式AI更快地运行。

据雷峰网了解,相对于AVX512指令集,启用AMX AI加速后,ECS g8i 实例在int 8矩阵计算的性能最高提升7倍。

基于AMX AI加速能力,g8i可更迅速地响应中小规模参数模型,运行知识检索、问答系统及摘要生成等AI工作负载时,起建成本相比A10 GPU云服务器下降50%。此外,配合阿里云平台的Spot抢占式实例,成本优势将进一步凸显,进一步降低AI推理成本。

与此同时,基于自研eRDMA超低延时弹性网络,阿里云g8i实例集群拥有超低延时网络和高弹性优势,可轻松支撑72B参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过32batchsize的超大参数规模的AI模型负载,运行文生图、AI生成代码、虚拟助手以及创意辅助工具等AI工作负载。

以阿里云通义千问开源的Qwen-72B大模型为例,可在g8i实例eRDMA网络构建的集群实现高效运行,在输入小于500字情况下,首包延时小于3秒,每秒可生成7个Token。

 为安全加码,助力企业构建可信AI应用

安全方面,阿里云在全产品线构建了端到端的安全防护,可保障数据存储、数据传输、数据计算的全流程安全。

在最底层,基于CIPU的安全架构搭载安全芯片TPM作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力vTPM,提供实例启动过程核心组件的校验能力;在实例可信的基础上支持不同平台的机密计算能力,实现了运行态的内存数据隔离和加密的保护。

值得一提的是,此次升级的ECS g8i实例全量支持Trust Domain Extension TDX 技术能力,业务应用无需更改,即可部署到 TEE 之中,极大降低了技术门槛,并以极低的性能损耗为大模型等AI应用提供隐私增强算力,护航大模型的云上数据安全。 

以Qwen-Chat-7B模型为例,启用TDX后,既确保了模型推理的安全可信,也保护了数据的机密性和完整性。

“阿里云将不断深耕技术、持续产品创新,为企业提供更加稳定、强大、安全、弹性的计算服务,推动各行业的AI应用进入全量爆发时代。”张献涛表示。


]]>
芯片设计 //m.drvow.com/category/chipdesign/brS3T67ZV6HnKdj3.html#comments Thu, 11 Jan 2024 20:08:00 +0800
英伟达没有「魔法」,但如何打败它? //m.drvow.com/category/chipdesign/HNNNigbXThA6WX2f.html

作者|包永刚

编辑|王亚峰

“根本不可能超越英伟达。”资深芯片投资人思杰斩钉截铁地说,“就算AMD有比英伟达参数更强的芯片,也无法撼动英伟达在AI市场的地位。”

这几乎是AI芯片从业者的共识,无论是芯片巨头,还是有技术大牛的美英初创公司,想要坐上英伟达统治的加速计算的牌桌,和英伟达正面对抗的机会不大。

但如果商业竞争受到非商业力量的影响,就可能出现例外。

10月17号,美国商务部工业和安全局(BIS)更新的针对中国的AI芯片出口管制规定,给了国产高性能AI芯片公司一个赶超英伟达的机会。

“美国最新的出口管制规定发布后,许多客户来主动联系我,其中就有之前态度冷淡的客户。”AI芯片公司的销售安瑞明显感觉到,“买不到英伟达GPU的时候,客户考虑的不是谁更好用,而是谁能用。”

进一步收紧的禁令,给国内高性能AI芯片公司当头一棒,也限制了英伟达在中国市场的发展。

“我们必须放弃一切幻想,做国产替代。”这是美国最新的禁令之后在AI芯片圈常听到的一句话。

在芯片领域做国产替代,是一条无比艰难的路,但必须走上这条路的时候,国内AI芯片的从业者们都在琢磨一条赶超英伟达的路径。你心中的路径是什么?欢迎添加作者微信BENSONEIT探讨。

有人认为走一条完全不同的路才有超越的机会。

有人认为用英伟达的魔法也能打败英伟达。

还有人想到了商业模式创新的超越机会。

虽各持己见,但他们都非常清楚,要想要活下来,必须卷成本、卷软件,解决生产问题。

放弃一切幻想,国产芯片是唯一解

10月17日美国新的出口管制规定一发布,让本就抢手的英伟达H800 GPU坐上了过山车。

一卡难求的8卡H800 GPU服务器在禁令更新前价格已经高达210万元左右,美国禁令发布当天,价格马上跃升到了230-250万元。

一周之后,美国突然宣布本来在11月才生效的管制规定立即生效,瞬间将H800GPU服务器的价格推向顶峰,跳涨到350万元,相比禁令升级前的210万元,涨幅高达67%。

如今价格虽然稍微有所下降,但依旧在310-330万元的高位。

“10月底和11月,客户基本都在忙着抢货。抢不到货之后,大家都来认真谈国产芯片。”熟悉芯片市场的语晨同时看到,“美国的禁令就是一套组合拳,谁也无法忍受美国的朝令夕改,AI芯片公司不得不认真考虑下一代产品的方向,也要考虑国内代工的可能性。”

雷峰网了解到,10月17日的禁令升级之后,多家AI芯片公司都不得不改芯片设计,以符合美国新规的要求。

这次禁令进一步收紧,影响的范围比以往更大。

“2019年美国芯片禁令引发轩然大波的时候我已经在AI芯片行业,那时候还没有感受到AI芯片对我们来说生死攸关。”芯片软件工程师浩鑫这一次感受到,“如果我们没有强大的AI芯片,就可以被别人掐死,这事关民族的命运。”

在芯片行业十多年的子蕾同样感触颇深,“从美国的限制也可以看出,美国政府已经预判AI代表了真正的生产力,这是兵家必争之地。”

“我不知道最后谁能赢,但我知道如果我们输了会很惨,不仅会失去在科技上的领导力,还可能会被AI替代。”子蕾非常坚定,“不管是为了自己还是为了下一代,我们都必须站起来卷。”

美国和英国的公司,也和国内AI芯片公司一同被打了当头一棒。

英国初创公司Graphcore是少有的在国内有成建制团队的AI芯片公司,禁令发布之后,由于其芯片的特点,修改设计将使其产品不具备在中国市场的竞争力,Graphcore的员工的工作几乎就处于停滞状态,最后不得不解散中国团队。

英伟达同样被禁令限制,中国市场每年为英伟达的数据中心业务贡献上百亿美元的营收,不能向中国市场销售利润可观的高性能芯片,短期看是英伟达营收的损失,长期看是对中国市场的失控。

这也是英伟达一直在积极推出符合美国法规限制芯片的原因。

H20性能是H800的1/5左右,但价格不会太便宜,因为占用的是H800的产能,可能价格是H800的1/2或者2/3,这样的产品对于客户来说不够有吸引力,国内公司购买这样的产品也难以和美国公司竞争。”语晨还说,“预计能在今年底送测的H20,现在也要推迟到明年上半年了,这是国产芯片的机会。”

最强大的对手也被限制,AI又是不容落后的产业,国内的AI公司已经没有其它选择,必须放弃一切幻想,把国产芯片做起来。

禁令利空所有人,除了华为

就像中国的AI芯片公司是追赶英伟达的唯一机会是个例外,华为也是这次禁令限制下的例外。

2019年开始,华为就被美国限制,从那时开始,华为就开始了国产化,比这一次受影响的国内AI芯片公司早4年开始做国产替代,让其昇腾AI芯片也成为了这一次被争相购买的对象。

科大讯飞在2023第三季度业绩说明会上公开表示,华为昇腾910B已经基本做到可对标英伟达A100。

“这说明华为在某些地方做的确实不错。”芯片算法工程师奕森直言,“对于使用DSA(领域专用)架构的华为来说,芯片的范化性是一个问题。”

DSA可以视作为某一类模型专门设计的芯片,“其范化性体现在局部上,如果专为某一类模型设计的DSA芯片在这类模型的范化性还不够好,那就说明软件工作还没做到位。”奕森认为。

这就涉及到软件成熟度以及生态的问题,也就是英伟达的护城河所在。对于华为能否基于其自研架构,构建起像英伟达一样强大的软件生态,浩鑫和语晨有不同的看法。

“在2017年Caffe是主流AI框架的时候,英特尔花了大量的精力去做OpenCL版本的Caffe,目的就是希望让更多开发者使用,以抢占AI市场。”浩鑫说,“但因为只有英特尔去维护这套东西,最终还是没有撼动英伟达的地位。所以即便华为花大量的人力和资源去做算法和应用的适配,也很难构建起强大的生态。”

语晨认为昇腾至少能在国内的政企市场成功。

“考虑到国内的特殊情况,政企市场在必须考虑国产替代的背景下,华为至少可以在这个市场大量投入,让其昇腾芯片用起来。”语晨也说,“至于在商业化市场能否成功,现在还不好做出判断。”

从芯片的设计、公司所拥有的资源等因素综合考虑,华为是目前AI训练市场最有机会的中国公司。

非常熟悉AI芯片领域的云硕做出了乐观预测,“未来国内AI训练市场属于华为,非中国市场属于英伟达。”

但这有个前提,华为要顺利解决芯片制造的问题。

按照思杰的乐观估计,国内要扩产14nm芯片产线最快也要到2025年之后。国内14nm还不成熟,并且涉及到半导体材料和设备的出口管制,需要时间。

“良率也非常关键,直接影响着最终的成本,这是在商业市场竞争的基础。”思杰态度明确,“不过每年国内半导体材料和设备的公司都能给我一些惊喜,所以虽然短期悲观,但我长期依旧看好。

华为取得的成果,让那些想要通过创新赶超英伟达的人和公司有了信心。

英伟达没有魔法,用架构创新追赶

“ChatGPT对GPU的利用率只有个位数,对计算是巨大的浪费。”云硕指出,“不合理的存算比不利于生成式AI的普及。”

几十年没变的计算机系统结构迫切需要改变,这也是追赶英伟达的机会。

“大模型对于算力的需求呈现指数型增长,但GPU又贵功耗又高,GPU集群的线性度也随规模增大而下降,探索非冯诺依曼架构已经非常火热。”奕森早已体会到。

存算一体就是一种解决AI计算存算比不合理的思路,有一家国内头部互联网公司就在积极引入存算一体解决算力成本的问题。

存算的架构就适合大模型计算,因为存算一体的架构计算密度低,存储密度高。”奕森看到了存算一体架构在大模型时代的优势。

但这只是理论,“存算的大规模落地还要解决很多生产制造方面的问题。”奕森也看到了存算面临的挑战。

如果将存算一体视作一种特殊的DSA,和华为的昇腾一样,同样面临着范化性和生态的挑战。

AI训练一定需要一个范化能力很强的系统,但到底要达到什么程度的范化性,有所争论。浩鑫坚持认为必须是英伟达GPGPU的生态,奕森则认为只要有足够范化性就可以。

许多人和奕森的观点相似,于是就产生了CPU+DSA这种兼顾通用性和高性能,超越英伟达的思路。

“Pytorch原生就支持x86 CPU,英特尔本来有最好的机会通过CPU+DSA的路径赶超英伟达,不知道为什么英特尔没做成。”云硕有些不解。

子蕾也认为x86 CPU有很好的机会,“一般来说,一个模型调试阶段都是用CPU,用CPU上的精度作为在GPU上运行的精度要求,x86 CPU的生态非常好,结合加速器做加速很有机会,英特尔确实也有推出产品,只是可能之前没有押注大模型。”

CPU除了x86,还有Arm和RISC-V,RISC-V CPU是国内公司探索CPU+DSA路径的最佳选择。

由于RISC-V开源的特性,能够更积极响应市场需求。“看起来是RISC-V的CPU核心,实际上是AI核心,已经有公司使用RISC-V开始了探索。”子蕾观察到。

即便CPU+DSA的路径可以兼顾通用性和高性能,但英伟达最难以超越的还是CUDA生态,这是摆在想要走这条路线公司面前最难解决的问题。

子蕾对此并不悲观,“英伟达也没有什么魔法,CUDA生态也是英伟达一个个项目的实际经验,和模型适配积累出来的,硬件每两年就迭代一代,能复用的经验有限,软件的经验可以不断积累。如果我们认定国内一定要做出非GPU的生态,长期看,我相信我们能做出来。

相较之下,浩鑫就有些悲观,“英伟达的CUDA生态做了十几年,而且是在全球客户的需求之下一点点建立起的生态,就算有中国的客户需求,有决心和耐心,也很难建立起和英伟达CUDA生态相当的生态。”

浩鑫也不是完全悲观,“国内公司也可以联合起来做一套相对开放的类CUDA生态。”雷峰网了解到,有人在尝试拉拢国内的DSA路线的公司共建生态。

残酷的现实是,有的走DSA路线的公司,在一次次实际落地项目中迁移难度大的困难之下,已经开始想办法兼容英伟达CUDA生态。更多细节可以添加作者微信BENSONEIT互通有无。

用英伟达的「魔法」,赶超英伟达?

对于走英伟达CUDA兼容的路线,有一种观点,沿着英伟达的路永远不可能超越英伟达,当然这种观点大都来自走DSA路线的人。

“如果连追赶都做不到,何谈超越?”浩鑫坚持,“我不认为做CUDA兼容就不能超越英伟达。

追赶和超越的机会来自英伟达面临的难题。

没有人会否认英伟达已经在AI领域有显著的优势,并且没有丝毫松懈的状态,是一个非常难以挑战的对手。

但自英伟达2017年发布Volta架构GPU,增加了专用加速核心Tensor Core之后,英伟达此后每一代GPU的性能提升主要来自专用计算单元的部分。

“英伟达算力的增长也在放缓,其解决的办法不是在通用计算单元上发力,而是在专用计算单元上。”浩鑫发现,“即便是英伟达,开发者也很难用起其专用加速单元,英伟达也推出专门的加速库。”

顺着这个思路,把英伟达的CUDA生态看作两大部分,一个是基于通用计算单元CUDA Core的生态,另一个是以Tensor Core为代表的专用加速生态。

“我们做CUDA兼容可以只兼容CUDA Core的部分,Tensor Core的生态可以不做兼容。”浩鑫解释,“做英伟达CUDA Core生态兼容,可以降低客户的迁移难度。专用加速计算单元就是追赶和超越的机会。”对于这个观点的讨论,可以加作者微信BENSONEIT。

这个思路和用DSA超越的思路有相似之处,都是从专用加速方面切入,设计出比英伟达专用加速单元更好的架构。

“GPU也是特定时期设计出的产品,一定有它的局限性。”奕森也说。

语晨也认为做CUDA兼容有超越英伟达的机会,不过他是从推理性价比的角度。

“AI推理需求可能是训练需求的3-5倍,通过CUDA兼容,完全可以针对常用的大模型进行推理优化,实现相比英伟达几倍的推理性价比。”语晨说,“在商业竞争中,同等条件下比的就是性价比,CUDA兼容是很重要的条件。”

“一旦国内公司用上了国产GPU,就很难再切换回去。”浩鑫的想法是,“兼容CUDA是为了让用户更方便迁移,后续的特性演进完全可以和英伟达不一样,并且用户会跟随硬件供应商。”

这也解释了一个疑问,国产AI芯片公司兼容CUDA生态是不是在帮英伟达建生态?

这就像是WPS兼容Word,不兼容Word没人会用,但WPS兼容Word的初衷并没有帮Word建生态的想法,即便会有这样的效果,但这种贡献对Word的生态微不足道。

“CUDA兼容如果有1%没做好,就会有没法补上的漏洞。并且,兼容CUDA永远会比英伟达慢很多拍,处于被动地位。”奕森说不能忽视CUDA兼容的问题,“国家搞自主可控,CUDA兼容属于自主可控吗?”

看起来,通用+专用的AI计算架构已经成为行业共识,彼此都在相互渗透和影响,很难判断哪条路径更优。

无论哪条路径,都要共同面对一个问题——英伟达没有制造问题,也有比所有国内AI芯片公司多的资源,有全球顶尖的人才,在什么样的情况下有追赶和超越的机会?

不学英伟达卖整机,寻找商业模式创新的机会

理论上优秀的技术并不意味着最终会成功,历史已经无数次验证,商业和竞争影响成败。

我们不应该学英伟达。”云硕解释,“国内的AI芯片公司几乎都在学英伟达做整机,这确实有高校和政企客户的需求,芯片公司也能做高营收。英伟达可以做整机赚更高利润,但我们不应该这么做。”

英特尔能够在IBM统治的大型机时代成功,是因为英特尔只做了最难做的CPU,横向整合,和微软、戴尔、Oracle等公司一起抢占了IBM的市场。Arm更极致,只做了核心的芯片的IP,和谷歌安卓、不同芯片公司和OEM一起,成为了手机时代的王者。

“英伟达的GPU不单卖,必须是一个主板加8张GPU卡一起卖。或者直接卖一个DGX整机,DGX的高毛利意味着整机中的机箱、风扇等也毛利丰厚,帮英伟达提升整体毛利。”云硕认为,“这就是国产AI芯片公司的机会,国产芯片公司如果能够专注在打磨芯片性能和SDK上,联合上下游产业链一起去做产品,从商业的角度找机会超越英伟达。”

“单卖芯片可能连自己都养不活。而且要做一颗能适配各种系统的芯片,对芯片团队的要求特别高。”子蕾对于Arm的成功这样看,“Arm成功并不是因为他们做了IP,关键在于智能手机时代在一众操作系统的激烈竞争之后,最终成功的安卓和iOS,都选择了Arm芯片,一旦系统和芯片深度适配之后,就很难改变,这帮助了Arm走向成功。”

“英伟达就是AI领域的Arm+安卓,我不认为这种思路能成功。”语晨这样认为。

奕森倒是有更开放的态度,虽然不见得是英特尔或者Arm带来颠覆的思路,但商业模式创新一定是一种超越的思路。

就像对商业模式创新是否是超越英伟达路径的讨论一样,禁令之后,国内的AI芯片从业者更加意识到自己所从事的行业和工作的重要价值,对于国内高性能AI芯片公司更加乐观,这种乐观也有对生成式AI发展对算力需求的乐观。

这种背景之下,所有人都被限制,琢磨出一条超越英伟达的策略很重要,更现实的问题是要卷软件、卷成本、解决制造问题。

当然,对于所有AI芯片公司都需要先活下去,再谈追赶和超越。国产高性能AI芯片一直都是讨论的焦点,关于这个话题更多的交流请添加作者微信BENSONEIT。

文中思杰、安瑞、语晨、浩鑫、子蕾、奕森、云硕均为化名

]]>
芯片设计 //m.drvow.com/category/chipdesign/HNNNigbXThA6WX2f.html#comments Fri, 22 Dec 2023 10:03:00 +0800
为什么英伟达、AWS、阿里都喜欢Arm的服务器CPU? //m.drvow.com/category/chipdesign/LvxIXXV0i83MbnPx.html 耕耘多年后,基于Arm架构的CPU在服务器市场迎来了大幅增长,被众多客户喜欢并采用。

超大规模云服务商如亚马逊云服务 (AWS)、阿里巴巴、微软等自研CPU,都选择和Arm合作,这是为什么?

“答案非常简单,通过和Arm合作,他们能够根据自己的用例和基础设施来打造并优化解决方案。”Arm高级副总裁兼基础设施事业部总经理Mohamed Awad在2023 Arm Tech Symposia年度技术大会上表示。

与超大规模云服务商同样喜欢Arm服务器CPU可定制化特性的还有最重要的AI芯片提供商之一——英伟达。

在英伟达强大的GH200超级芯片中,包含了72颗Arm Neoverse核心,加上英伟达的GPU,GH200的AI性能较基于x86架构的系统可提升10倍。

为了满足更多客户在基础设施建设中的定制化需求,Arm还有两个重要举措。

为什么首选Arm Neoverse CPU?

GH200 Grace Hopper 超级芯片平台是英伟达今年5月发布的产品,专为处理海量的生成式AI任务而设计。拥有256个GH200超级芯片的NVIDIA DGX GH200超级计算机,其AI性能提升到了惊人的Exaflop(每秒一百万万亿次次算)级别。

如此强大的AI性能,关键在于系统架构的变革。

基础设施领域的传统系统架构

传统的服务器系统架构,内存通过PCIe,连接一个通用现成的CPU(也就是Host CPU),负责管理多个加速器。

“这种传统架构是过去市场上唯一可用的架构。”Mohamed Awad指出,“这个架构的问题在于,通用现成的CPU以及加速器之间的接口直接限制了产品最终的性能水平。因为所有的加速器都必须通过这个通用现成的CPU访问额外的内存,无法达到内存的一致性,加速器的性能无法被充分利用,也就无法很好地支持生成式AI的需求。”

面向新的应用需求,基础设施领域出现了现代化的系统架构

GH200超级芯片改变了传统架构,通过NVLink,让每一个CPU都单独和一个加速器相连,实现较强的内存一致性。其中的关键点之一就是可客制化的 CPU,为此,借助这样的架构,英伟达能够充分发挥GPU的效率,根据实际场景和用例实现了性能的最大化。

“只有了解最终用例,并且根据使用场景针对性地设计CPU,才能获得更好的效率,达到产品最佳的表现性能。”Mohamed Awad进一步表示,“英伟达携手Arm,借助了Arm技术带来的灵活性,设计出他们所需要的芯片以进一步优化系统,同时充分利用Arm强大的软件生态系统。”

接下来的问题是,英伟达提出的这种架构会成为生成式AI时代的主流吗?

“现在判断一个CPU对一个 GPU 作为加速器是不是未来的主趋势,或唯一趋势,仍为时尚早。”Mohamed Awad对雷峰网表示,“我们正处于计算加速的时代,在未来的架构当中,不管通过什么方式耦合,任何的通用CPU旁边都一定会有一个加速器。Arm的独特之处在于,能够帮助合作伙伴从头开始、根据所需构建定制化的 CPU,做好CPU和加速器之间的连接。”

由于x86提供的是标准的CPU芯片,所以GH200超级芯片平台中CPU最佳的选择只有Arm CPU,这也是Arm Neoverse受到欢迎的关键。

也就是说,标准化的CPU不能满足基础设施的定制化需求,可定制化成了Arm在服务器市场的杀手锏。

可定制化,Arm在服务器市场的「杀手锏」

今年八月,Arm推出了Arm Neoverse计算子系统 (CSS),促使Arm生态系统通过更低的成本、更少的风险以及更短的时间,打造出专用芯片。

Arm CSS的第一代产品Arm Neoverse CSS N2集成了Neoverse N2 平台,并通过验证配置且优化了功耗、性能与面积 (PPA)。

“通过Neoverse CSS能够帮助我们的合作伙伴进一步降低投资,加速整个生态系统对我们解决方案的可访问性,同时加速合作伙伴产品的上市时间。”Mohamed Awad表示。

雷峰网了解到,有Arm的客户通过使用Neoverse CSS,节省了长达80人/年的工程师时间。还有客户用了Neoverse CSS,项目从概念到流片仅用了13个月。

微软近期发布的Cobalt 100 CPU,也是基于Neoverse CSS。

“Arm Neoverse 在中国市场,特别是基础设施领域,有很多客户,过去三、四年发展也非常强劲。”Arm 中国区业务全球副总裁邹挺说,“Arm 也积极参与数据中心、云计算等本土的生态、开源软件社区,包括龙蜥社区等,帮助这些社区能更好地融入Arm全球生态系统中。”

Mohamed Awad也强调,中国是Arm非常重要的市场之一,中国合作伙伴基于Arm架构芯片的总出货量已累计达300亿颗,Arm在中国有近400家技术授权客户,这个数字每个月还在不断攀升。

Arm全球的生态也是满足客户差异化需求的关键所在,在Neoverse CSS 的基础之上,Arm推出了全面设计 (Arm Total Design) ,进一步结合生态系统的力量,简化定制芯片的开发流程,并且让交付变得更加容易、便捷。

Arm全面设计的推出,让ASIC 设计公司可以快速启动设计项目,并随时可将其设计方案提供给所需的客户;IP 供应商可以针对Neoverse CSS,进行预先集成、预先验证和预先优化高级IP;EDA合作伙伴可以无缝支持最先进的工具和流程,简化SoC设计;商业固件解决方案可早于芯片流片之前便开始开发;与此同时,Neoverse CSS的设计将经过专门优化,充分发挥领先的工艺节点的优势。

显然,在基础设施追求差异化的时代,Arm Neoverse CSS和Arm全面设计是当下满足差异化需求的最佳选择。

还要注意到,Arm已经转型为一家计算平台公司,如今Arm的全面计算解决方案 (Arm Total Compute Solutions)、Arm Neoverse平台、Arm Corstone 以及 SOAFEE 等计算平台都已经被广泛应用于移动、基础设施、物联网以及汽车等领域。

]]>
芯片设计 //m.drvow.com/category/chipdesign/LvxIXXV0i83MbnPx.html#comments Fri, 01 Dec 2023 09:41:00 +0800
数据量爆炸,如何让高性能计算「突变」? //m.drvow.com/category/chipdesign/OEd4vuWx8Vmwlwf6.html

作者 | 包永刚

编辑 | 王   川    

2016年AlphaGo与李世石的人际围棋大战结束后,芯片工程师刘强感受到了突如其来的变化。

6年没更新的PCIe3.0标准,在2017年突然升级到PCIe4.0。随后的2019年和2021年,PCIe5.0和PCIe6.0相继发布,这个速度让刘强感到意外。

“通常而言,通信协议标准大概5年演进一代,现在变成了2年就迭代一次。”刘强恍然大悟,AI应用持续爆发带来的大量数据,让高性能计算(HPC)和数据中心的数据传输带宽成为了瓶颈。

PCIe这个高速总线标准,就像是HPC和数据中心内部的高速公路,连接着计算、存储等组件,数据太多导致系统出现了拥塞。

与AI一样,自动驾驶汽车也考验着传统HPC系统。

新思科技总裁Sassine Ghazi在2023新思科技开发者大会上指出:“如今,一辆现代化的汽车上大概运行着1亿行代码,到2030年将超过3亿行。3亿行是个什么概念呢?比如新思科技,我们已经深耕软件行业多年,产品种类丰富而全面,我们公司有大约3亿行代码量。”

自动驾驶汽车、AI、云计算、短视频兴起带来的数据爆炸式增长,像是“突然”改变了HPC行业。

各种应用对数据中心系统计算、存储和网络带宽的性能要求更高,需求还各不相同,此时需要的是最全面的EDA工具和可配置的IP,而新思科技推出的业界领先的全面HPC和数据中心解决方案正是最优解。

数据爆发,高性能计算「突变」

高性能计算(HPC)这个概念在20世纪五六十年代出现时,只有气象、航天等少数应用有需求。

云计算、AI和自动驾驶汽车的飞速发展,短视频的兴起,在线购物席卷全球,即时通信软件不断普及,让高性能计算不再局限在少数领域。

如果把HPC硬件比作建房子,以前只有几个人能买得起房子,这是取少数几个人对房子需求的最大公约数,建出标准化的房子就足够。现在成千上万人都有买房子的需求,并且每个人对房子的功能和装修要求各不相同,必须要造出差异化的房子。

在芯片行业工作了20多年的芯片工程师赵伟,深切感受到这种突变是在短视频兴起之时。

“短视频兴起前,没人想过同一个视频会被上千万人甚至上亿人在各种手机、平板电脑、PC上观看。”赵伟意识到,“短视频的火爆需要上层软件对不同客户端做适配,下层的硬件和网络带宽也要做相应的匹配。”

随着短视频、线上购物、即时通信等行业的竞争日趋激烈,提升产品体验和实现差异化功能变成主旋律,上层需求向基座技术传导,HPC和数据中心硬件设施要全面升级。

服务器和云计算服务的芯片从纯CPU单一架构,走向了CPU+GPU,再朝着CPU+GPU+DPU的多架构方向,算力、系统复杂性都呈现指数级增加。

解决复杂问题一定要有系统性思维,作为全球EDA、IP和软件安全解决方案的领导者,新思科技前瞻性的提出了“SysMoore”理念。

Sassine Ghazi说,“如今,芯片设计已经从规模复杂性向系统复杂性转变,对软硬件的交叉点进行优化才是科技创新的真正推动力,因此新思科技提出了‘SysMoore’, 即从系统层面开展芯片设计,在传统芯片与系统之间进行优化。”

SysMoore时代,芯片行业面临着软件复杂性、系统复杂性、能效、信息安全和功能安全以及产品上市时间这五大关键挑战。这在HPC领域的体现尤为突出。

新思科技提供的业界最全HPC和数据中心解决方案,包含从芯片设计到实施部署、半导体IP、光互连,以及从芯片到软件的验证等领先技术,帮助开发者优化设计方案,并提升设计效率。

“端到端的解决方案对客户的支持更全面,能够降低客户的使用难度,更好更快地帮助客户产品落地。”新思科技中国区副总经理姚尧强调端到端解决方案的重要性。

全方位支持,也包括了新思科技能够提供从系统设计到芯片实现的差异化服务团队,最大化满足客户的所有差异化需求。

新思科技的专家顾问团队可以为合作伙伴提供差异化的端到端服务咨询方案,覆盖从执行专门任务、处理单个模块到全芯片实现的 SoC 开发全流程。无论开发者是要将设计迁移到先进的 FinFET 工艺节点,还是从 ASIC 切换到 CoT 流程,新思科技都可以通过定制化的服务帮助合作伙伴更快地完成芯片开发工作。

高性能计算追求差异化,需要灵活的PPAL满足

如同住户对房子有各种功能需求,也不能跳不出房子最基本的属性,在芯片行业这个基本属性就是PPA(Power,Performance,Area)。为了满足HPC用户普遍的实时性需求,还得加上低时延(Latency)。

HPC和数据中心最重要性能之一就是算力,这也是AI和自动驾驶汽车快速发展的基石。机构估算,训练ChatGPT5.0需要5万张英伟达的H100计算卡,按照一机8卡算,对应6250台服务器,这相当于一个中型数据中心的规模。

“算力就像是新时代的石油,推动着数智未来加速到来。但它不像石油资源取决于一个国家的诞生地,算力是一种可被生产出来的‘能源’。如果一个国家的算力基础设施足够好,算力就可以大量且低成本地生产出来。”姚尧做了一个形象的比喻,“如果一个国家能够拥有足够多的低成本的算力资源,就能充分解决药物研发、天气预报、疾病治疗等科学文明发展的关键问题,最终推动该国家乃至整个地球向更高文明等级发展,这是算力发展最重要的意义。这对于整个科技行业的从业者来说,是一个非常令人激动的时代,孕藏着巨大的机会。”

那如何生产出HPC和数据中心客户所需的高算力?

3DIC是高性能低功耗的最优解

过去几十年间,提高算力的主要方式是摩尔定律的演进。这种方式现在遇到了瓶颈,先进工艺不仅成本飙升而且技术难度指数级增长,而把芯片做大,良率也是不容忽视的挑战。

于是,芯片行业转向了3DIC。形象理解3DIC,就是以前的房子都是一层楼,要更大空间就需要增加房子的长度和宽度以增加面积(性能),而采用3DIC技术后,就可以从高度上增加房子的面积,也就是从2D到3D了。

“很早之前就有人提过2.5D的概念,但那时候摩尔定律一直在发展,业界没有很强的动力发展2.5D芯片。现在摩尔定律的发展越来越缓慢,大家更有动力发展3DIC。”新思科技的工程师解释道,“把大芯片做成几个小芯片,然后堆叠在一起,不仅性能和良率都能做得更高,还能降低功耗。”

3DIC是提升HPC和数据中心芯片PPA的完美选择,但是,设计3D芯片并非易事,芯片架构要从2D升级到3D,然而芯片开发者过去已经习惯了用自己熟悉的既定方法、工具和工作流来开发SoC,这对于难度和复杂度大幅增加的3DIC架构来说容易出错。

还有一个明显的差异,2D芯片设计完成后交给封装团队相对简单,但3D芯片对封装的要求更加严格,架构、设计、实现、IP创建/集成、封装团队都需要更紧密的协作。

目前,各种单点工具只能解决复杂的3DIC设计中细枝末节的难题,需要专为3DIC而生的工具。

新思科技3DIC Compiler正是为3DIC而生的统一芯片设计平台,为3D可视化、路径、探索、设计、实现、验证及签核提供了一体化的超高收敛性环境,全套的自动化功能可以降低设计的难度,减少迭代次数,缩短产品的上市时间。

其中的3D可视化,能够将复杂的线路更清晰的呈现,不仅能让开发者的设计更加直观,效率更高,设计优化也更好。

新思科技预计,2026年约20%的芯片系统将采用多裸晶芯片系统或3DIC技术,到2030年,这一比例将上升到40%。

借助3DIC Compiler,HPC芯片的PPA需求可以被满足,低延迟需求就需要靠高速接口IP来解决。

最新高速接口IP解决I/O瓶颈

在HPC和数据中心领域特别强调低延迟的理由非常简单,AI计算中数据搬移消耗的能耗远高于计算,并且数据传输的速度跟不上计算性能的提升,I/O已经成为了发展瓶颈,这也是PCIe和以太网在AI爆发之后会快速迭代的直接原因。

接口IP一直都是新思科技的优势产品,作为半导体IP领域的全球领导者,新思科技总是能超前地布局新产品的研发。

新思科技IP工程师分享:“标准快速变化的时代,市场只需要PCIe5.0的时候,我到底做一个PCIe5.0还是生态还未成熟的PCIe6.0?这时候了解客户的需求还不够,还需要有行业远见。

在综合评估了市场的需求之后,新思科技率先在业界推出了PCIe6.0 IP产品。除了产品定义的难题,还需要把产品做得足够灵活才能适应未来HPC和数据中心市场的需求。

PCIe3.0的时代,做好产品客户会主动来买。”新思科技IP工程师进一步解释,“现在不一样了,客户应用多样化之后,速率也已经不是唯一的评判标准。我们能做的就是提供可配置的IP,充分满足客户不同的需求。”

与PCIe一样,以太网标准也在近几年加速迭代。最新一代的以太网标准将可以提供224G的数据速率,为1.6T以太网的发展奠定基础。

224G以太网的设计面临着巨大的挑战,由于数据中心内前面板可插拔模块的密度已经接近极限,只剩下有限的空间可插拔光学模块使用,设计224G以太网就需要有功耗等方面的独特考量。

新思科技率先推出了224G以太网PHY IP,可以满足不断增长的高带宽和低延迟要求,同时提供超过IEEE 802.3和OIF标准电气规范要求的信号完整性和抖动性能。

在兼顾性能和低时延的同时,新思科技的HPC和数据中心解决方案也提供端到端高能效设计,覆盖从架构到签核全过程的低功耗方案能够满足高性能计算和数据中心系统目标,基于新思科技独一无二的Platform Architect,从架构层面就能确定如何做功耗权衡,并加快设计进度。

新思科技可视化的3DIC Compiler、可配置的高速接口IP、覆盖全流程低功耗解决方案,能够满足HPC和数据中心芯片的PPAL和差异化需求。但依旧面临着芯片计复杂度增加,工作量加大,对芯片工程师要求更高的挑战,AI将让这些问题迎刃而解。

用EDA+AI魔法「打败」复杂性难题

新思科技几年前就率先在业界开始了EDA+AI方面的探索,并在今年推出了业界首个AI驱动型全栈式EDA解决方案Synopsys.ai,包含了设计空间优化解决方案DSO.ai,验证空间优化解决方案VSO.ai,测试空间优化解决方案TSO.ai,模拟与制造优化解决方案。简而言之,它是从设计到制造全流程的全套解决方案。

“HPC和数据中心的系统变得越来越复杂,参与设计的工程师越多,出错的概率就越大。”新思科技工程师分享了AI技术与EDA工具融合的价值,“通过数据的训练,用AI去设计复杂的芯片效率更高,也能降低对人力的依赖,这在芯片人才紧缺的大环境下,AI+EDA的价值尤为明显。”

目前,新思科技DSO.ai已经实现超过270次商业流片。

测试流程用AI的价值也非常明显。TSO.ai平均能够降低20%-30%的测试成本。

“如果能将一颗芯片的测试时间从10秒减少到5秒,占用测试机台的时间减少,成本随之减少。”该工程师解释。

从芯片生命周期出发,破除系统稳定性难题

系统的复杂度越高,稳定性就越容易出现问题。想要破除稳定性的难题,最好的方式就是在芯片里装上多个传感器,就像是芯片房子里的“摄像头”

数据中心里有一个“未解之谜”——静默数据丢失,也就是一份数据在数次复制之后丢失了,查询系统日志也无法找到。这个问题的原因在业界一直没有一个被广泛可接受的解释。

给芯片装上传感器,对芯片生命周期管理,不仅有助于找到静默数据丢失的答案,还能提升数据中心从芯片到系统的稳定性。

任何的半导体器件都会出现一些随机的错误,这种随机的错误没办法重现,而有了芯片内部的传感器,有利于收集异常数据。

芯片生命周期管理的价值当然不限于此,传感器能够监控芯片的运行环境,更容易发现芯片的问题,也能够帮助下一代芯片的设计改进,提升复杂芯片和系统的稳定性。

以前只有少数公司能够高稳定性的HPC产品,如今,新思科技的芯片生命周期管理解决方案(Silicon Lifecycle Management, SLM)可以将芯片设计、测试验证、制造与部署的每一个阶段所产生的大量数据加以连接并整合到统一平台进行分析,优化包括芯片性能、速度、量产良率、品质管控以及上市时间等重要核心指标,从而帮助更多公司设计出性能更出色、稳定性更佳、具有差异化优势的芯片产品。

芯片市场的变化,给EDA公司带来了更多的挑战,特别是在HPC和数据中心这样对性能、延迟、稳定性要求更为苛刻的领域,想要解决越来越复杂的系统级挑战,只有从系统级出发,提供端到端的解决方案才能更好地应对日益复杂的设计挑战。

HPC的应用早已不再局限在少数应用领域,越来越多的HPC和数据中心的差异化需求之下,一旦硬件的能力跟上应用需求,HPC市场将在短时间内突变。新思科技是让这场变革的最佳助攻,在充分了解客户需求,洞见市场的基础上,率先布局,提供全面的产品,着眼当下也面向未来。雷峰网雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/OEd4vuWx8Vmwlwf6.html#comments Fri, 27 Oct 2023 15:29:00 +0800
生成式AI,高通等待已久的「进攻」机会 //m.drvow.com/category/chipdesign/3ZZUtbOWjiwE6eb9.html “我们正在进入将改变用户体验的生成式AI时代,也将创造移动行业和计算行业的全新周期。”高通公司总裁兼CEO安蒙在2023骁龙峰会上的这句话概括了高通面对的机会。

对于全球极少既能做好连接,又擅长计算的高通来说,生成式AI是拓展手机之外市场份额的绝佳机会。

移动连接这个刻在高通基因里的技术,高通已经做到了极致,拥有绝对的领导力。但计算对于高通来说还有很大的市场空间,比如PC、XR、汽车。

生成式AI恰好是给PC和汽车行业带来变革的技术,这也是2023骁龙峰会的重头戏,全新发布的4nm Oyron CPU、第三代骁龙8,最大的亮点都是高性能、高能效、强AI。

Oyron CPU超越了x86阵营里的最强者,也力压震撼业界的苹果M2 Max,确实是一款让人惊艳的产品。

但换个角度,高通在Arm PC领域耕耘几年收获不算丰硕,碰上了生成式AI的机会,必须拿出一款极具竞争力的产品,才有可能拓展其优势领域,给消费者和投资者更大的想象力。 

高通未来的潜力藏在Seamless里

Oyron CPU和第三代骁龙8绝对是值得最先介绍的产品,但要看清楚高通未来的机会所在,还是从骁龙Seamless说起。

高通技术公司高级副总裁兼手机、计算和XR业务总经理阿力克斯·卡图赞这样介绍,“骁龙Seamless是一个促进多终端体验的重大飞跃,真正打破生态系统壁垒。”

德勤发布了一个《2023年网联消费者调查》,调查报告指出了每个美国家庭目前平均拥有21台数字化终端,不同终端之间,尤其是不同制造商的终端之间信息传输通常并不顺畅的问题。

骁龙Seamless为这个解决问题而诞生,要让不同系统、不同制造商的智能手机、笔记本电脑、平板电脑、耳塞、智能手表和XR设备的自组织智能网络,共享信息等。

有了Seamless,安卓手机的照片可以直接拖到Arm处理器的Windows电脑上,还能直接用Windows电脑的鼠标操控复制文本到另一个品牌的平板电脑。

Seamless包含硬件和软件框的整体解决方案,基于高通的低功耗、低时延、蓝牙、Wi-Fi以及传感器中枢。

“我们与微软和Meta的合作,让大家看到了Android与Windows合作,将终端保留在一个封闭式生态系统里已经过时。”安蒙继续说,“人们可以选择自己想要的终端,而不是他们被允许选择的终端,这对于整个行业都是一个激动人心的时刻。”

如果Seamless能够真正打破生态系统壁垒,让不同OEM厂商、生态系统和操作系统更紧密的整合,这将会是一个双赢的解决结果。

消费者享受到了便利,拥有了选择权,高通能够将其强大的影响力从手机拓展至PC、汽车、XR设备领域。

换句话说,如果高通抓住了生成式AI带来变革的机会,Samless获得成功,高通就占据了进可攻退可守的有利位置,保持手机市场领先地位的同时,也能抢夺AI PC的市场机遇,还能享受XR和汽车这两个新增市场的红利。

Samless取得突破需要时间,高通没有坐等好运的降临,先用Oyron CPU主动出击。

必须拿出惊艳市场的定制Oyron CPU

高通在今年拿出的Oyron CPU确实让人惊艳,这并非高通的第一代Arm架构PC端CPU产品,可以说高通此前在PC领域的几代产品的尝试都算不上大获成功。

原因有很多,比如处理器性能和能效不足够打动客户,没有包括微软在内的软件和应用生态的全力支持。

但情况已经发生了变化,苹果用M系列芯片惊艳了市场,让消费者意识到Arm架构的PC处理器可以有比x86更高的性能和更低功耗,也让高通更清楚应该推出一款性能和能效足够惊艳的Arm CPU,其收购的Nuvia也加强了其设计高性能Arm CPU的能力。

对高通来说,在PC CPU领域大量投入还有一个更重要的理由,AI迎来了iPhone时刻。如果只是去替代x86 CPU,即便PC市场体量足够巨大,也只是一个存量市场,缺乏足够的想象力,AI爆发将给这个市场带来增长,所以高通看准的是AI PC的机会。

阿力克斯·卡图赞就表示,“未来用户在进行PC购买决策时,除CPU和GPU之外,还会考虑AI的性能和应用。

所以,要震撼业界,就需要有业界最强大的CPU、GPU和NPU。

高通确实做到了,Oryon CPU超越了性能和能效顶尖的苹果M2 Max,实现和M2 Max相同的单线程性能,Oyron CPU能耗减少30%。

Oyron单线程性能对比x86阵营CPU,超过了专门为高性能游戏终端而设计的i9-13980HX,实现相同性能功耗降低70%。

搭载定制Oyron CPU的全新骁龙X Elite多线程CPU性能也十分惊艳,Oryon的峰值性能比x86阵营竞品的高端十四核笔记本电脑芯片的峰值性能高60%,实现相同性能功耗能降低65%。

如果对比同为Arm架构的M2 Max CPU性能,Oyron的峰值性能高50%。这得益于Oyron的架构设计,其中的双核增强可以加速12个高性能CPU内核的2个,从而为用户提供超快响应。

“这不仅是骁龙、高通的高光时刻,也是整个Windows 生态系统的高光时刻。”安蒙说,“消费者不再需要在性能和能效之间做选择,可以两者兼得。厂商可以将骁龙X Elite应用于广泛的PC设计和配置,大家将看到我们拥有业内最出色能效的CPU。”

高通会把Oyron CPU的能力带到更多产品线,明年应用到骁龙8平台,此后会进入汽车、XR等产品线。

骁龙X Elite的 GPU性能也碾压竞品,在面向PC的热门3D图形基准测试显示,与性能领先的x86集成GPU相比,骁龙X Elite的性能领先高达80%,达到竞品的最高性能功耗可以降低80%。

如此惊艳的CPU性能和能效确实对消费者具有吸引力,但能够刺激消费者购买新PC的关键还是在AI。

骁龙X Elite的Hexagon NPU算力可以达到45 TOPS,性能达竞品近期发布NPU的4倍。融合CPU和GPU的AI引擎可以让骁龙X Elite的AI性能达到75TOPS。

6年时间,骁龙计算平台的AI性能就提高了100倍,这种指数级的性能提升带来的是全新的AI应用体验。

“TOPS不是量化终端侧AI性能的唯一方式,还要考虑AI模型的准确性和响应时间,以及用每秒生成token(tokens/s)来衡量的大语言模型处理速度。”阿力克斯·卡图赞分享了在搭载骁龙X Elite笔记本电脑上运行AI助手发挥出的强大算力。

骁龙X Elite的AI助手以30 tokens/s的速度,在终端侧运行70亿参数的Llama 2模型,实现快速准确的响应。

把这个速度具象一些,普通人每分钟可阅读约200-300个单词,相当于每秒处理5-7个tokens,也就是骁龙X Elite终端AI的书写速度比普通人的阅读速度更快。

阿力克·斯卡图赞介绍,“骁龙X Elite能够实现这一性能水平,得益于高通AI软件栈的大幅进步。在不影响准确性或性能的情况下,利用INT16、INT8、INT4等量化巨大的生成式模型,大幅节省功耗并减小内存占用。”

雷峰网了解到,在搭载骁龙X Elite的终端上可以运行超过130亿参数的生成式模型,无需云端资源。

有了强大的AI性能,就可以在AI PC上起草完整的电子邮件、转录会议记录,或者借助文本生成和图像生成工具快速进行研讨。

无论对于个人还是对于企业来说,AI PC都是提升效率的工具。

“通过使用现代AI PC,用户在骁龙终端上进行的处理越多,就能节省更多的云计算成本。”阿力克·卡图赞强调了云端和终端混合AI的价值。

但即便有微软、联想和HP的支持,Arm架构处理器运行Windows系统依旧面临着应用性兼容和生态等问题。

如果应用不是原生移植到Arm端,就必须通过转译的方式才能运行。另外,由于Arm PC对于Windows生态系统是较新的架构,PC的硬件生态系统,包括摄像头、鼠标、打印机等外设也会存在适配问题。还有,PC生态系统中常用的ODM厂商,过去几年适应了各种PCB和元器件的设计和生产,Arm PC也需要适应这些硬件生态系统。

阿力克斯·卡图赞对雷峰网表示,“通过高通的努力以及与微软的合作,我们成功地把很多热门应用移植到了Arm平台上。此外,我们还与微软合作,用户在转译模式下运行应用,将拥有和原生应用一样的使用体验。微软也在帮助我们改进生态系统中的应用兼容性,高通设立了一个庞大的团队,致力于提升硬件生态系统的兼容性。”

目前,微软的生产力应用,包括Word, Excel, Powerpoint, Edge, Teams, OneDrive, OneNote和Outlook等都是Arm原生。

另外,高通还给出了骁龙X Elite的三个参考设计,有利于OEM厂商更快推出产品,搭载骁龙X Elite的PC最早将在明年上市。

第三代骁龙8驱动手机大模型普及 

Arm PC是高通在短期内可以期待的新增长点,这个增长幅度在短期内将更加巨大,特别是有高性能、高能效以及AI的吸引力。

与PC一样,手机终端运行大模型也是一个明显的趋势,谷歌以及各大手机厂商都在探索手机端运行生成式AI模型的无限可能,这也是生成式AI给手机带来的变革。

虽然因为全新Oyron CPU和骁龙X Elite的发布,往年骁龙峰会的主角骁龙8的风头被抢走不少,但第三代骁龙8的升级并没有打折。

第三代骁龙8的CPU相比上代骁龙8,CPU性能提升高达30%,GPU性能提升25%,Hexagon NPU性能翻倍,集成最快的蜂窝调制解调器、最先进的Wi-Fi 7解决方案,和双蓝牙技术。

所有子系统都进行了升级,重点在AI和影像两个方面。

AI引擎的升级是得益于采用了增强架构提升能效,也面向生成式AI大幅提升了Hexagon NPU性能,使第三代骁龙8能够更好支持大语言模型、大视觉模型以及生成式AI应用。

这种升级带来了非常显著的提升,今年初高通在骁龙8终端上采用Stable Diffusion进行图像生成时需要超过15秒,在最新的第三代骁龙8上,运行这一模型仅需要0.57秒,这是一个跨越式的进步。

目前,第三代骁龙8能够在手机上运行100亿参数的生成式AI模型,以20 tokens/s的速度运行大语言模型。

小米已经在第三代骁龙8上能流畅运行自研的60亿参数大模型(6B)。

“小米自研的6B大模型,目前可以实现媲美更大参数量模型的能力,能够用于知识问答、文字扩写、表格生成、编写代码等。”小米集团总裁卢伟冰在骁龙峰会上介绍,“我们在端侧实现了不可思议的运行速度。面对1000 tokens的指令,生成首词只需要2.2秒,这是因为我们应用了业界最前沿的推测性解码技术。”

AI的升级也能够直接提升第三代骁龙8的影像水平。

比如,高通的合作伙伴慧鲤科技,面向第三代骁龙8开发了一个神经网络,能够重构照片缺失的部分,这一特性被称做“照片扩充”。如果一张照片就是朵花,能由AI“扩充”出一片花海。

有AI创作的美图,就需要识别AI图片。高通与Truepic合作,能够利用Snapdragon Security进行图片加密盖章,标示照片的真实性。

这些只是一部分端侧生成式AI应用,第三代骁龙8 AI性能的升级,让更多个性化的AI体验的实现成为可能,例如制定个性化的运动方案,更懂使用者的语音助手,基于使用者位置的餐厅和路线推荐。

“通过在终端侧运行这些强大的大型模型,用户无需再完全依赖云端。”阿力克斯·卡图赞强调,“在第三代骁龙8上,AI辅助特性将响应更快、更高效,并且由于在终端侧运行,所以更加隐私和安全。

2023骁龙峰会,应该是截至目前含AI量最高的一届峰会。虽然高通没有大呼All in AI,但从今年所有新品都大幅升级了AI性能,时时刻刻都展现了混合AI的价值,以及AI无处不在的未来。

对于高通来说,在端侧AI保持领先,在手机市场是守住基本盘,在PC市场是进攻的好机会。

如果实现Seamless的愿景,那汽车、XR以及其他新兴市场都将是高通未来的爆发点,那时候将无处不在的骁龙终端将从3亿个,实现跨越式增长。

]]>
芯片设计 //m.drvow.com/category/chipdesign/3ZZUtbOWjiwE6eb9.html#comments Thu, 26 Oct 2023 17:43:00 +0800
旗舰手机与PC显卡24倍的性能差,要靠渲染加速拉平 //m.drvow.com/category/chipdesign/kDecRyEVAdMlDfNR.html 手机游戏体验要媲美PC和游戏主机已经成为了旗舰手机的重要卖点。

但手机旗舰芯片和PC独立显卡还是有24倍的性能差距,这限制了手机游戏体验的提升,如何才能破局?

游戏体验的背后是取舍和博弈,如何平衡系统的算力、功耗、散热、续航能力是关键。我们率先提出了分布式计算的概念。”逐点半导体CEO熊挺在近日举行的新品发布会上介绍,简言之就是CPU、GPU进行少部分的渲染,再通过逐点的渲染加速引擎进行二级处理,不仅可以满足手机的低功耗需求,还能实现手游的高性能。

实际上,逐点半导体的渲染加速不只是一个手机显示芯片,而是一个整体的解决方案,是一个基于芯片、软件、系统、和生态包括内容和引擎这样一个整体的方案。

逐点半导体最新的渲染加速方案,能让制作精良的手游保持稳定的120帧游戏帧率,将720P的画质升级到2K,还能大幅降低CPU和GPU的功耗,具体是如何实现的? 

三大引擎提升四个维度的手游体验

直接影响移动游戏体验的有四个维度。”完美世界游戏副总裁徐丹指出,“第一个是比较直观的帧率,包括交互的流畅性。第二个是画质和效果。第三个是续航和待机。对于长时间玩游戏的玩家来说,握持稳控也非常重要。”

这四个维度之下,是对手机SoC处理能力以及功能的要求。随着手游市场的快速增长,手机SoC的性能也在不断升级,特别是旗舰级手机SoC,大幅升级CPU和GPU,还增加光线追踪以实现媲美PC端和游戏机的游戏体验。

与此同时,手游制作也呈现了精品化的趋势,空间分辨率,时间的分辨率(帧率)更高,光线追踪的应用,都需要更强的CPU和GPU。

“图像的处理最终会变成像素级的处理,涉及大量的数据。手游制作的越来越精良,屏幕的素质越来越高,即便手机SoC的GPU有很强的并行能力,也面临很大压力。”逐点半导体资深市场总监房军表示,“我们公司专门做视频和图像处理,看待这个事情的角度和传统的CPU、GPU、手机应用处理器公司不太一样。”

我们没有包袱,要以一个全新的视角解决这个问题。”房军进一步表示,“我们提出的渲染加速就是要对像素并行处理,利用我们的算法,加上固化的芯片,整个计算的范式不太一样,可以实现效率的大幅提升。”

以最新发布的逐点X7 Gen 2视觉处理器来看,集成了三大引擎,包括第四代的运动引擎、人工智能超分引擎以及多层画质引擎,能够提供4倍的帧率,4倍空间分辨率,以及更精准的色彩表现和身临其境的HDR效果。

X7 Gen 2视觉处理器是逐点首次引入基于高效神经网络算法的AI游戏超分技术。

“这个引擎建立在我们多年对运动、图像处理的认知之上,自主研发了高效的深度学习架构,内置神经网络处理器,通过模型的训练得到AI超分的效果。”熊挺特别强调,“三个引擎可以同时打开,效果也非常显著,可以让手机SoC上的CPU和GPU只需要做1/16的渲染工作,大幅节省功耗。

 

在当下非常流行的某大型沉浸式游戏上面一个简单的测试,在1080P分辨率和60帧的帧率下,在逐点X7 Gen 2视觉处理器的渲染加速支持下,整机的功耗可以节省2瓦,2瓦对于非常在意功耗的手机来说是一个非常大的数字。

渲染加速能够非常显著的解决手游发热、掉帧、画质不够、续航差这些痛点。”房军对雷峰网表示,“逐点的产品从X5到X7、X7 Gen 2,国内大部分的主流手机厂商都集成了我们的产品,包括一加、OPPO、vivo、vivo旗下的iQOO、荣耀、小米等品牌。”

加速渲染的效果如何?

逐点的视觉处理器如果装机量足够大,没有游戏开发商会拒绝,因为它接入成本相对不高,又能达到比较好的效果。”徐丹指出了渲染加速普及的关键。

也就是说,生态成为了关键。

为了将运动引擎、AI超分引擎和画质引擎的能力提供给游戏开发者,逐点构建了一个基于渲染加速的游戏生态系统,在游戏程序中集成逐点渲染加速SDK,游戏开发者可以调用视觉处理芯片的渲染能力并控制渲染参数。

熊挺介绍,“渲染加速SDK可以灵活分配CPU、GPU和渲染加速芯片的算力,把每个游戏的最终用户的体验的决定权交还给了游戏开发商,配合X7 Gen 2芯片上AI引擎,可以实现定向的超分AI模型训练,实现更好的游戏效果。”

目前,逐点半导体手游渲染加速引擎SDK已在《航海王热血航线》《晶核》《最佳球会》《女神异闻录:夜幕魅影》《天谕》等手游上完成集成工作。

徐丹以完美世界游戏的《女神异闻录:夜幕魅影》分享了与逐点合作实现的AI引擎训练的超分画面,实现了从720P到1440P的提升。

“《女神异闻录:夜幕魅影》是一个偏二次元的游戏,描边的锯齿感有些严重,通过经网络的超分仿真,提升到1440P之后,无论是远处的描边还是近处的描边提升都非常明显。”徐丹还提到在这次和逐点合作中,通过打通内容制作到终端呈现的显示通路,这个游戏在安卓端实现了稳定的120帧画面输出,这种提升让手游体验接近游戏主机体验的同时,还实现了CPU负载降低了19%,GPU负载降低了16%。

功耗是我们将这款游戏从端游移植到手游的最大阻碍,与逐点合作使用X7 Gen 2带来的功耗降低解决了这个问题。”徐丹非常满意。

除此之外,同样吸引徐丹的还有逐点的加速渲染的技术路径。逐点的运动引擎采用的是多帧图像采集优化的方式,手机SoC公司在手机上是采用单帧的方式。

“我们在PC端用的也是多帧抗锯齿,所以逐点的方案更契合我们。并且多帧的数据也更加准确。这也是我们希望和逐点保持长期合作的动力。”徐丹指出。

“我们相信创新的视觉处理的方案,以及游戏内容的加持,并配合针对每个游戏特点的调优,会把移动游戏的体验,提升到一个新的高度。”熊挺也表示,“为了充分展现高帧率、高画质手游的魅力,我们提出并建立了IRX游戏体验品牌,联合手机厂商和游戏生态合作伙伴,向最终的消费者宣传我们视觉处理方案的显著优势。”

 

]]>
芯片设计 //m.drvow.com/category/chipdesign/kDecRyEVAdMlDfNR.html#comments Tue, 24 Oct 2023 15:28:00 +0800
国产EDA一定要做全流程吗? //m.drvow.com/category/chipdesign/5ZyeFjSGUYZ1MQ6E.html

为什么要打造全流程的EDA工具?

用户们对于EDA工具的两大痛点是价格昂贵和难以使用。对此,上海合见工业软件集团CTO贺培鑫深有感触,“使用EDA工具的门槛已经非常高,如果还只是点工具,想要把整个流程做起来,然后收敛、能协同优化就会变得非常困难。“

如果国内的公司没办法做出全流程的EDA工具链,就没有办法真正地解决卡脖子的问题,这是行业共识。

提供全流程工具是不少新兴的国产EDA公司致力于达到的目标,谁能最先达成还不好下结论。

这些公司中,非常值得关注的是成立仅两年半的合见工软,他们在提供全流程EDA平台的新国产EDA多维演进战略已经奏效,在快速推出EDA和IP产品,最近就发布了5个新品。

打造全流程EDA难在哪?

国内已经有许多EDA的公司,但绝大部分都只能提单点工具,很少能做出全流程的工具链,这是因为这对企业的考验非常大。

“融资能力、产业资源或者产业链生态的支持,加上公司运营治理、人事财务等模块,如果每家公司都要这样做的话,负担确实会比较大。”上海合见工业软件集团联席总裁徐昀分享,“在合见创立之前讨论公司策略和战略时,我们首先考虑的是如何应对当前国产EDA面临的巨大挑战,明确了主要解决数字大芯片设计对EDA、对生态的需求,从创立一开始就奠定平台型的顶层设计,吸引了国际领军人才和成建制的团队,拥有资金基础和产品运营平台基础。”

人才、资金和技术只是能够提供全流程EDA工具的基础,更难的在于客户的接受和认可。毕竟在EDA领域,三大家长期占据技术和市场的主导权,想要说服客户接受国产EDA的难度巨大。

上海合见工业软件集团CTO贺培鑫对此持乐观态度,就算是巨头公司推出新工具,客户也会有顾虑,因为客户担心自己花那么多的时间和经费,最后因为用了新的工具,生产出来的芯片不工作,这可能会导致小型企业直接倒闭。

我们有一些优势。”贺培鑫对雷峰网表示,“我们在国内,无论是应用工程师还是产品工程师都可以直接到客户那里演示产品,更容易增加客户的信任。并且这些应用工程师和产品工程师和客户在同一个时区,讲相同的语言,能给客户提供更好的技术支持。”

“还有很关键的一点,我们的研发、市场和销售都要和客户交流,充分了解客户需求,为客户提供三大家产品没有解决的痛点,通过这样的方式,客户就会发现必须使用国产EDA工具,在这个过程中也会减少客户对国产EDA的顾虑。”贺培鑫非常清楚,“我们首先要做的是赶上国际领先的产品,然后下一代产品要超越既有的国际领先产品。”

如何快速打造全流程EDA工具?

想要在EDA领域实现超越的难度明显高于许多行业,但在国产需求的背景下,给中国EDA公司增加了成功的可能性。

合见工软打造全流程EDA工具的策略简单概括就是“新国产EDA多维演进战略”,具体可以体现在产品是研发+收购完善,产品类型是EDA+IP同步推进,人才是引进+自己培养的模式,简单来说就是在多方面都是双线甚至多线并行,目标就是打造一个平台型的EDA,提供全流程的EDA工具链。

如果对芯片设计的全流程稍加解释,会更容易理解全流程EDA工具的作用和价值。

设计一款AI、汽车或者5G的芯片,一开始都要先做系统设计,从抽象的层面看这是系统设计的最高层,包含着芯片、整机系统和软件。

系统设计完之后就需要选择各种IP,包括处理器的IP,比如选择Arm或者RISC-V,还有接口IP,则是PCIe或者DDR。

选完IP,进入数字实现阶段,这个过程需要使用大量的EDA工具,要把RTL code实现成网表,需要有前端、后端设计,还有各种验证工作。

接下来才能将设计验证好的芯片送到晶圆代工厂制造成芯片。

合见工软在近期发布的5款新品,覆盖了芯片设计的不同环节。

在最上层的系统层面,合见工软推出的是商用级虚拟原型设计与仿真工具套件UniVista V-Builder/vSpace,包括系统级原型设计工具V-Builder和虚拟原型仿真环境vSpace。

这个工具最大的价值就是帮助芯片公司缩短芯片上市时间。

“芯片公司开发SoC时,芯片还没有做回来,甚至芯片的RTL设计都还没有做好时,就想要开发软件,因为他们不想错失市场机会。”贺培鑫介绍,V-Builder能够在RTL code还没有做好之前就可以开发软件。vSpace工具则是在厂商有RTL code时,就能开始仿真验证,打造测试左移的作用,尽量同时优化整个系统的软件和硬件。

系统设计之后所需的IP,合见工软最新推出了UniVista PCIe Gen5 IP,这是首款自主知识产权的全国产PCIe Gen5完整解决方案,已成功应用在客户芯片中。

“随着设计复杂度的提升,我们发现客户在设计芯片的时候,会更多考虑IP和EDA。”上海合见工业软件集团 IP事业部总经理刘矛认为,“如果想做到业界领先的地位,IP策略必不可少,EDA+IP也非常符合合见工软整体的发展策略。”

在数字实现流程,合见工软新推出了测试向量自动生成工具UniVista Tespert ATPG。ATPG是为了确保设计的工作可以正常工作,在设计阶段用Tespert ATPG这样的工具自动地产生的测试向量,能够对芯片的所有功能做覆盖。

测试一定不能忽略,在芯片设计过程中测试成本在大芯片项目里已经占到成本的20%以上。

“20年前我刚进入EDA行业的时候,花了大概三五年时间告诉大家为什么要做DFT(可测试性设计)。如今DFT已经变得越来越重要,它可以从降低芯片设计公司的测试成本以及降低产品缺陷率两个维度帮助芯片设计公司。”上海合见工业软件集团副总裁敬伟透露,

“UniVista Tespert ATPG是我们发布的第一款DFT工具。虽然今年才正式发布,但客户从去年10月份就开始测试。已经有国内十几家客户做了接近二十个项目,客户的普遍反馈都是我们的产品在性能和覆盖率上已经站在了行业优秀水平。”

合见工软此次还发布了全场景验证硬件系统UniVista Unified Verification Hardware System(简称“UVHS”),全场景的意思是UVHS不仅可以做硬件仿真(Emulation),还可以做原型验证(Prototyping)。

雷峰网了解到,合见工软的UVHS可以缩短40%-60%的芯片流片(tape-out)时间。

芯片设计一般先做硬件仿真验证芯片的RTL code是否正确,验证芯片的性能和能效。然后才会进入原型验证。

“我们的UVHS这个系统既可以做硬件仿真,也可以做原型验证,覆盖了四个不同的使用的场景,所以我们叫它‘全场景验证布局’。”贺培鑫介绍。

在芯片制造封装的环节,合见工软也新推出了UniVista EDMPro电子系统研发管理平台。这是一个经过多家头部客户使用后迭代的产品,平台包含三个组件:RMS(资源库管理系统)、电子设计检查工具、电子设计评审系统。

“有了EDMPro系统,我们就真的可以满足电子系统和芯片设计可以一起联动合作的需求。”贺培鑫指出。

从系统设计工具,到数字实现工具,IP,合见工软正快速向着提供国产全流程EDA工具的方向靠近,帮助芯片公司缩短产品上市时间的同时,还在打通芯机联动的链条,也就是芯片设计公司和整机产品公司的充分联动。

合见工软的中国速度

从2021年3月1日正式开始运营,只有一条产品线一个产品,也就是合见工软最重要的软件产品叫数字验证仿真器UniVista Simulator。

经过两年半时间,无论是自研的产品还是通过并购整合,合见工软的产品线和人员数量都在快速扩张,这在当下的产业环境里并不容易。

“合见在创立之初,我们的核心团队想得还是蛮透彻,有平台化的想法,这个想法非常重要,现在证明我们的平台化实现得很好,整体的并购整合也成功,可以支持合见顺利推出产品并把客户服务好。”徐昀认为,“也得益于合见的双轮驱动企业发展策略和整体思路的构建,也就是人才和商业落地能力的双轮,合见工软才能在当下的产业环境中发展得比较快。”

合见工软发展的速度也是中国EDA新兴力量的典型代表。

短短两年半,合见工软完成了三个收购,一个是华桑,是验证硬件的硬件基础。还收购了北京云枢,是PCB系统级配合的基础,在PCB和系统级方面提供了重要的支撑。今年上半年完成收购的北京诺芮,是一个非常好的IP公司,controller IP的基础非常好,也有比较成型的客户和稳定的收入,技术产品积累也是非常强。

敬伟介绍,合见工软的客户已经有超过100家,完整覆盖了数字芯片的各种领域,从常见的高性能计算、AI、DPU、GPU、网络、手机、再到系统厂商,比如计算机,网络设备,汽车电子等。

合见工软正在用中国速度,打造平台型EDA产品,也是解决中国卡脖子问题的重要力量。

]]>
芯片设计 //m.drvow.com/category/chipdesign/5ZyeFjSGUYZ1MQ6E.html#comments Wed, 18 Oct 2023 17:25:00 +0800
手机厂商造出芯片需要多久? //m.drvow.com/category/chipdesign/2ApASLQ19OhLEK04.html 哲库的关停对于中国通讯行业乃至半导体都是一个影响深远的事件。

自2019年哲库成立起,OPPO前后花了上百亿,以大幅超出行业薪资水平为代价创建了国内一支近3000人才芯片团队。在国内手机品牌大多集中在ISP、电源等边缘产品线的研发时,大步向前的哲库,在无论是OPPO内部员工还是业界同行的视角中,极有可能成为第二个海思。但哲库突然收场,留给外界无数争议与想象。

与此相对的是,在海思遭受制裁后,国内太需要复刻一场“芯片”上的胜利了,可谁能承接得起这个使命?

手机企业造芯有多难


哲库在成立3年多的时间里,为OPPO先后带来了马里亚纳X和马里亚纳Y两块芯片,其中,马里亚纳X是一块NPU芯片,让OPPO首次在计算影像领域实现全链路垂直整合,包括芯片和自研算法整合、芯片和通用平台整合、芯片和深度定制传感器整合,完全服务于OPPO定制化的计算影像需求。

从能效上看,马里亚纳X芯片达到了业内领先的11.6TOPS/w;影像原始数据传输和计算位宽更是提高至20bits,大大提升数据传输能力,拥有20bit Ultra HDR动态范围能力、20bitRAW域处理和RGBWPro双通路处理的性能表现。在光线充足的场景中,前者能提供了更高的画质表现。

OPPO的自研芯片“马里亚纳X”

为此,OPPO因为马里亚纳X的发布,于2021年上榜了《麻省理工科技评论》“50家聪明公司”,之后的马里亚纳Y迭代也同样展示出优异的性能。从这两款芯片中可以看出,对比其他手机厂家,哲库在技术层面已经拉开了距离。

小米是手机厂商里布局比较早的一批。

外界对小米造芯普遍认知是始于2014年的松果电子,当时是以联芯的技术和团队为基础,于2017年首次发布“澎湃S1”芯片,并将其搭载到公司的小米5C手机上试水。

澎湃S1是一颗自研SoC芯片,采用28纳米制程,A53架构设计,主频最高可达2.2GHz。但澎湃S1遇到了所有手机厂商在自研芯片之路上都遇到的问题,即初代芯片的性能跟不上自身的产品的需求。从后来的市场反响来看,澎湃S1并没有受到市场好评,很多测评表示搭载S1的小米手机实机体验并不好。

而后,小米对芯片团队做了重新调整,松果电子分拆出南京大鱼半导体,用于AI和IoT芯片与解决方案的技术研发并独立融资,而其余松果团队将继续专注手机SoC芯片和AI芯片领域。根据相关人士给予雷峰网的说法,玄戒成立的初衷就是为了给小米的SoC芯片团队提供一个“编制”。

回过头来看,无论是小米还是OPPO,在造芯之路上都尝试用近3到4年的时间来快速突破,结果都并不顺利,也再次印证了半导体行业的规律。

十年能磨一剑是常态。

一个典型的案例就是海思。华为2004年成立海思半导体,直至成立五年以后才推出自己的第一块手机AP芯片K3V1。当时K3V1采用110nm制程,相比当时主流的65nm/45nm制程先天落后,加上选择了冷门的Windows Mobile操作系统,在华为内部甚至连工程机都不愿搭载K3V1。

直到2012年,K3V1的改进版本K3V2问世,采用Arm四核架构和40nm制造工艺,适用性大大提升,和已经进入28nm制程的高通、三星相比,K3V2仍然落后了整整一代,搭载搭载K3V2的华为D1、D2手机功耗翻车、发热严重。

2014年6月,华为发布荣耀6,搭载了海思的麒麟920芯片,除了自研AP外,BP芯片也搭载了自研的巴龙720——这是海思在K3V1后沉寂的三年里在手机芯片领域的最大成果,而此时的海思在手机SoC的探索才算步入正轨,而前后华为从0到1就是十来年。而这10年中,华为花费的不仅仅是时间,还有每年10亿人民币起步高额研发成本。

另一个例子则是行业龙头苹果,苹果用了十几年实现了在SoC上建立了技术护城河,但苹果至今也没能突破高通在基带芯片上的壁垒。后者的技术壁垒则是另一个天文数字,对于其他手机厂商而言,想要通过手机芯片来弯道超车,胜算又有几何?

芯片的制造是一个漫长且曲折的过程,从芯片技术的角度来说,对应的各个环节都需要大量的投入和时间。

一个被业内举得最多案例是手机芯片的流片,这个过程通常来说至少需要半年以上的时间,工程师在坐等流片反馈的过程中,不能充分发挥其价值,也给手机厂商增加了隐形的成本。

哲库是倒在了等待流片结果的前夜。

造芯是一场持久战

前哲库首席SoC架构师Nhon Quach博士通过领英发布了一些对哲库研发手机SoC芯片的细节叙述:

  • 第一代SoC是从头开始构建的,基于台积电N4P(4nm)工艺制程,并在2年半的时间内成功下线;

  • 团队解散前几乎每周每天都要工作16小时,在4个多月的时间内完成了Gen2版本,是基于台积电N3P(3nm)工艺制程中,应该能够在2024年第一季度之前下线。

这也印证了哲库在网上所传的进度:解散之前,哲库的第一代SoC已经在流片,第二代SoC的设计已经接近完成。同时,Nhon Quach也给出了自己的判断,在有足够资源和合适团队的情况下,就有可能在更短的时间内设计出高端的SoC芯片。

OPPO用哲库的例子告诉市场,短期烧钱确实可以快速推进,但在主业手机市场不断下行的情况下,再去超额投入是不理智的,结果未必不是OPPO先倒下。

当我们回顾海思成功的时候,不可以忽视的一点是,华为在动造手机芯片的念头时,在射频、功率、模拟以及通信芯片等方面已经有很深的积累,造手机芯片是顺势而为。而现阶段的手机厂商造芯,无论技术积累,还是研发团队建设,都要从空白做起。

其次是海思当时是建立在华为终端全方位的支持的基础上,加上彼时手机技术远未成熟,麒麟的出现虽然与同行有代差,但也并没有被拉得太大。

手机厂商要自研手机SoC,除了在芯片领域有足够的技术实力之外,还要求自己产品的量足够大,来支撑起自研芯片的生态,销量下滑反而让芯片研发的担子变得愈加沉重。

而当下手机芯片技术愈加成熟,但自研芯片所带来的收益和边际效益却是大幅度缩水,再加上芯片能力的代差过大,对于从零起步的各家而言,放弃先进的芯片去采用自研,无疑就是给对手递刀子。

也就是说今天任何一家手机厂商都无法复制海思的成长路线。对芯片的投入和规划,做好持久战是必然的,也是各家的共识,在策略上,是把SoC拆分成一个个板块,通过一块块的小芯片迭代,最终实现整块SoC的替换。

一直以来,各家都是这么做的,只不过OPPO迈的步子稍微大了点。小米陆续发布了ISP影像芯片澎湃C1和两款电池管理芯片,这些芯片的相同点是,它们都只是SoC芯片的模块之一,相比SoC要简单很多,但能给手机性能带来差异化的提升。

vivo在2021年9月推出了自研独立ISP芯片V1,作为通用处理器难以满足用户个性化或重度拍摄需求的补充,vivo的自研ISP已经迭代至第三代。荣耀近期也成立了自己的芯片公司,策略上和各家保持一致。哲库关停以后,小米的玄戒的进度相对来说是最快的。

6月初,上海玄戒技术有限公司发生工商变更,公司注册资本由15亿元增至19.2亿元,对应的是玄戒员工由原先的几百人到现在接近2千人,规模也在增大。

即便如此,小米给自己的研发预期定得很长。在5月份小米财报发布后的电话会议中,小米集团合伙人、总裁卢伟冰也做了一次表态:芯片业务对小米来说是一个必须要去做的事情,但小米会以十年以上的时间维度来去规划在芯片方面的投资。

同时,卢伟冰也强调,小米自研芯片的投入决心不会动摇,要充分意识到芯片投入的长期性、复杂性,尊重芯片行业的发展规律,做好持久战的准备。

就如雷军刚刚在武大的演讲时,分享了其做 MIUI 时的经验,没有着急推广,而是先找到100个用户,让这100个人先用起来。一个看似不靠谱的梦想,被分解成了一步又一步可实现的目标。

对于芯片来说,何尝又不是呢。(雷峰网)


]]>
芯片设计 //m.drvow.com/category/chipdesign/2ApASLQ19OhLEK04.html#comments Wed, 21 Jun 2023 15:40:00 +0800
摩尔线程CEO:我们的目标是先存活至少十年 //m.drvow.com/category/chipdesign/8YBJGOiUjPntChZt.html 如今的独立GPU市场里,有两家非常值得关注的公司——英特尔和摩尔线程。

英特尔不是GPU领域的新人,但它去年刚发布全新架构的第一款独立显卡,努力在这一市场开拓一片自己的天地。

摩尔线程是GPU领域里的新势力,在去年底发布第一款基于全功能GPU的游戏显卡 MTT S80,想要在GPU市场分一杯羹。

一个是国外芯片巨头,一个是成立不久的中国初创公司,它们的目标都是在英伟达统治的高性能GPU市场里占据一席之地。

摩尔线程创始人兼CEO张建中

相较英特尔,摩尔线程这样的初创公司面临着更大的挑战。如何才能在人才和资源都不占优的情况下,获得市场的认可?

有竞争力的产品是获得市场的重要因素,但更重要的是比竞争对手生存的更久。

“至少先存活十年,这是摩尔线程的首要短期目标。”摩尔线程创始人兼CEO张建中在2023夏季发布会的媒体交流环节表达了自己的长期主义。

资源有限,如何分配? 

英伟达最难以突破的是生态的护城河,这个护城河并非一天建成,是过去三十年间持续的投入。做一个简单的计算,不谈超越英伟达,假设投入和英伟达相当的人才和资源,以三倍的速追赶,至少需要十年时间才能接近英伟达的水平。

这个假设虽不严谨,但能体现追赶英伟达的难度之大,追赶者必须要有长期主义,也要有策略。

我从创业那天就讲‘元计算’,这是我们的目标,包含了人、场景、内容几大要素,还要智能化。我们也是按照这个目标进行人才储备和技术研发。”张建中再次表达了对元计算的看好。

“每年的技术方向都在往‘元计算’靠拢和发展,之前预想五年之内的发展程度,目前看来三年就能达到,比我们想象的快得多。

即便摩尔线程发展速度很快,但在资源和人才的限制下,不直接和英伟达对比,对比英特尔也能感觉到差距。

拥有超过一万名软件工程师的英特尔,显卡发布的一年时间里,其显卡驱动更新了21次,平均半年更新了10版。员工总数不及英特尔软件工程师数量零头的摩尔线程,发布首款游戏显卡后的半年里,更新了5次驱动。

这样看来,许多人眼里摩尔线程的大量融资,在公司业务发展的需求面前,依然显得资源有限。所以更重要的问题是,如何在有限的资源里发挥最大价值?

公司大部分资源配给软件,占比达到70%,软件当中的应用配比,元宇宙和AI结合更多一些。”张建中对雷峰网表示,“至于现阶段对于不同市场的优先级,面向信创市场开发工作已经基本做好,剩下主要是支持服务工作。游戏市场还在加大研发力度。

国产显卡新选择,MTTS70

“如果按照大学生的数量去计算,每年至少有一千多万的新增大学生,这一千多万大学生,如果有人尝试,哪怕有5%或10%,游戏显卡也是几百万的量,机会蛮大。”张建中看好游戏显卡市场的机会。

摩尔线程最近发布的新款游戏显卡产品是MTT S70,这是一款专为游戏和视频场景打造的产品。

MTT S70搭载摩尔线程第二颗全功能GPU芯片“春晓”,内含3584个MUSA计算核心, 在1.6G的主频下,能够提供11.2T FP32算力。显存搭配7GB高速GDDR6,带宽为392GB/s,支持多达4路8K30帧的超高清显示输出。

作为一款专为视频场景打造的产品,MTT S70对于剪映、OBS等视频直播和剪辑类软件可直接支持。

影响显卡体验的一个关键因素,是硬件之上的驱动。

摩尔线程发布首张游戏显卡发布后的近半年时间内,显卡Windows驱动已完成5次升级,支持的游戏数量超过60款,并完成了对50多款主板和30多款显示器的支持,兼容性得到极大提升。

驱动的升级伴随而来的是游戏性能平均提升约50%,《英雄联盟》和《穿越火线》等主流网游在摩尔线程游戏显卡上体验显著提升。

值得期待的是,摩尔线程即将于6月下旬发布基于DirectX 11的社区版驱动,新的驱动将让玩家能够解锁包括《原神》和《DOTA2》等备受瞩目的3A级游戏作品。这也将是国内首个真正支持DirectX 11游戏的中国GPU公司。

为了加速驱动的迭代速度,张建中也宣布在“摩卡玩家”社区启动“Alpha行动”,召集更多玩家对DirectX 11社区版驱动的使用和反馈。

“很多人买国产产品,有一定的自豪感。这能让国内的产品质量性能也会越来越好,尤其服务品质都是往上发展。”张建中看到了支持摩尔线程显卡的群体。

相比于爱国情怀,信创市场对于摩尔线程GPU更显刚需,这也是摩尔线程一个重要的市场。

数字办公和云桌面主打性能升级

摩尔线程2023夏季发布会的数字办公方案主打性能提升,要将国产化PC产品从“可用”推向“好用”。

为了保证基础的可用性,摩尔线程的GPU需要与上百种组合的国产CPU和操作系统版本适配。

“摩尔线程的驱动软件支持DKMS技术,可以快速适配不同操作系统的内核,从而使得开发效率提升数十倍。”张建中介绍。

目前,摩尔线程已经成功适配了麒麟、统信、openKylin、deepin、凝思、中科方德、普华等国产操作系统,与统信、麒麟OS完成了全面的兼容性认证,成为国内首家通过统信UHQL质量认证的GPU企业。

良好适配的下一步,才是更好的用户体验。

摩尔线程提供更丰富的图形特性支持,支持OpenGL 4.0和Vulkan 1.3的完整功能,并100%通过了接口兼容性测试。同时,摩尔线程全功能GPU还可以借助新的Tessellation等图形特性,为应用提供更加精细的几何纹理效果。

不要小看国产数字办公,国产CPU种类不少并且差异挺大,加上这个领域的办公软件非常多。”张建中颇有感触,“要保障所有软件在平台上都能够长时间稳定正常运行,有大量工作要做,比如测试、解bug、调优、调稳定等。”

摩尔线程也通过驱动的不断优化,实现了GPU整体性能较初次发布时提升2倍以上。更好的性能加速了近百款国产应用,包括办公类、视频会议类、影音类、浏览器类、视频剪辑类、设计类以及GIS类软件等。

据悉,摩尔线程的软硬件一体化方案陆续完成了10余家ODM和18家OEM厂商的产品导入,共同推出了30余款PC机型,应用于电信、金融、能源等数字经济关键行业。

张建中表达了在国产化数字办公领域持续深耕的态度,也介绍了全新的云桌面产品。

在中国信通院联合移动云、中国电信研究院、摩尔线程发布的《新型GPU云桌面发展白皮书 》中,明确定义了云桌面场景的体验标准。

基于该标准,在视频播放、网页浏览、Office办公和教育教学软件四个主要场景,搭载摩尔线程MTT S2000的单台服务器,能够同时支持超过40路高清用户,比传统只有CPU的方案,性能提升近5倍,整体的TCO降低60%以上。

全新的摩尔线程云桌面产品MT vGPU 2.1,带来了四大升级:

新增了对摩尔线程MTT S3000显卡的支持,单卡并发的虚拟机数量达到28个,并发性能提升40%;

新增了GPU超分技术和对SRIOV的支持,在不改变硬件资源的情况下,超分技术会使得虚拟机数量实现翻倍,从而大幅降低客户成本,SRIOV技术则能提供更好的QoS、隔离性和安全性,保护客户数据免受侵犯;

MT vGPU 2.1还将云桌面的整体体验升级到4K画质;

通过对驱动进行升级,MT vGPU 2.1更是增加了对Windows Server版的支持,扩展了硬件能力和应用的支持范围。

对于GPU云桌面有需求的教育或者办公机构,可以直接选择包括服务器、瘦终端和软件在内的端到端交付方案摩尔线程MCCX VDI云桌面一体机。

元宇宙与AI结合的未来

游戏显卡和信创市场是摩尔线程着眼的当下,元宇宙与AI的结合才是张建中的目标。

在构建一个全新的AI生态和兼容的选择中,张建中选择了后者。“创造生态系统是漫长的过程,我觉得融入一个世界是让你快速发展的最好策略。”

兼容也并非易事,“得做到硬件上兼容才可以软件兼容,硬件上要做到兼容,功能肯定要齐全。”这是张建中坚持要做全功能GPU的原因。

在软件兼容方面,摩尔线程推出了MUSA Toolkit 1.0软件工具包和“MUSIFY”代码移植工具。

MUSA Toolkit 1.0软件工具包包含MUSA驱动、运行时库、编译器、AI加速库、数学库、通信库等,可充分发挥摩尔线程GPU的计算能力。 

“MUSIFY”代码移植工具可快速将现有的CUDA程序迁移至MUSA,零成本完成CUDA代码自动移植,之后用户短时间内即可完成热点分析和针对性优化,大大缩短迁移优化的周期。

“硬件上得有一个原理上或者架构上的兼容性,所以摩尔线程去年发布的MUSA元计算统一系统架构才是我们核心。”张建中透露了摩尔线程能够实现零成本迁移的关键。

MUSA架构自然成为了摩尔线程构建生态的关键。摩尔线程已经启动了MUSA社区开发者计划,将为合作伙伴和开发者提供全套的MUSA开发工具、编程指南、系列教程和开源的框架及模型库等资源。

同时,摩尔线程将与第三方社区合作,推动新算法模型、计算系统和平台的开发,不断提升社区价值。

为了方便开发者,基于MUSA,用户可以复用PyTorch开源社区的大量模型算子,降低开发成本。

摩尔线程的这些努力,都是为了鼓励开发者探索元宇宙与AI的结合。

“我们鼓励我们的开发者把AI+图形+元宇宙的应用场景结合的更好,他们都是我们最重要的生态力量,我们会投入最大的精力和支持给他们。”张建中坚定看好AI与元宇宙的结合。

目前已经有合作案例。IDC服务商世纪互联在云端部署了摩尔线程千卡级别的GPU算力集群,成功将MTVERSE平台与虚幻引擎和云渲染流化技术结合,为51WORLD旗下的51Meet元宇宙高精度开放平台提供了计算加速,这是首个实现国产化闭环的元宇宙应用。

对于当下备受关注的AIGC内容创作,摩尔线程也给出了参考方案摩笔马良。

摩笔马良提供了多种接入方式,可以通过Web和小程序登录,也可以通过丰富的API供用户远程调用。

需要完整解决方案的用户,摩尔线程可以提供私有化部署能力,包括GPU集群、异构算力调度平台、API接口以及类似于摩笔马良的样板应用。

从摩尔线程2020年成立至今,摩尔线程已经飞速发展了两年多,取得了许多成绩,但张建中依然觉得还不够快。

我们公司有一个文化叫做光速,就算是这样,我们还觉得不够快,因为世界变化太快,政策和技术的爆发比我们想象的快。”张建中清楚自己应该怎么做。雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/8YBJGOiUjPntChZt.html#comments Tue, 06 Jun 2023 10:15:00 +0800
寒气持续笼罩市场,联发科为何加码旗舰? //m.drvow.com/category/chipdesign/RHtgyUrKeYTEBpN8.html 本周三,联发科发布新一代天玑9200+旗舰5G移动平台,新的移动平台以1368000+的跑分再一次刷新AnTuTu v9性能榜,并将在iQOO Neo新品首发。

而就在不久前,业界传出消费端库存比预期多的消息,IC行业近期恐难扭转芯片库存积压严重的局面。联发科一季度出货量为1.044亿颗,同比下降31%,出货量明显下滑。

在消费电子需求疲软的时期发布新一代移动平台,显然更加考验产品的市场竞争力。联发科在这一时间点发布天玑9200+,底气从何而来?

“最近的调研机构数据显示,其实在全球智能手机成长放缓的情况下,反倒高端手机的销量逆势增长。“MediaTek无线通信事业部副总经理李彦辑博士在发布会上解释道,”我们认为,接下来高端旗舰机将穿越市场变化,成为最关键的市场动力,因此联发科持续加码高端市场,为消费者带来旗舰产品体验。”

也就是说,尽管消费电子需求持续疲软,但消费者对于旗舰机反倒有更高的要求,拥有性能升级的天玑9200+ 5G旗舰移动平台,是刺激市场需求的动力。

那么,天玑9200+的旗舰体验究竟表现在哪些方面?

据李彦辑博士介绍,此次天玑9200+重点升级了性能、能效与游戏体验。

在联发科对台积电第二代4nm制程长达6个月的研发和调教,天玑9200+无论是CPU还是GPU,性能较上一代均有明显提升。

CPU方面,八核 CPU 包括1个主频高达 3.35GHz 的 Arm Cortex-X3 超大核、3个主频高达3.0GHz的 Arm Cortex-A715 大核和 4个主频为2.0GHz的 Arm Cortex-A510 能效核心。四个性能核主频提升10%,四个能效核提升11%。

最新Geekbench6.0跑分显示,与上一代天玑9200相比,天玑9200+单核性能提升10%,多核跑分提升5%。

另外,天玑9200+ GPU则搭载 11核GPU Immortalis-G715,与上一代移动平台采用GPU相同,不过峰值频率提升可达17%。

能效是天玑9200+此次重点升级的第二个关键点,联发科针对头部游戏进行了深度研究,探索出最适合游戏运行的CPU设计,从实现能效提升。

以最受欢迎的吃鸡游戏为例,联发科表示,天玑9200+的CPU调度可以在相同的功耗下呈现更好的性能表现,让用户享受更加稳定的帧数和更高的平均帧率;在相同的有游戏设定下,可以以更低的功耗让用户享受到更加持久的游戏体验,同时手机温度更友善。

功耗方面,天玑9200+在追求满帧性能的前提下,功耗对比竞品有最多高达21%的性能优势,也能给用户带来更好的游戏体验。

对于手游爱好者而言,极致的游戏体验最重要的在于整体的流畅度和电池的续航能力。

为了提升用户游戏体验,天玑9200+与多款头部游戏进行深度的技术合作,逐渐建立起自己的生态圈。

联发科发布的独家游戏自适应调控技术(MediaTek Adaptive Game Technology, MAGT),通过打通游戏应用与芯片平台之间的沟通管道,提供游戏应用即时系统信息,让游戏开发者对系统运行的状态有所了解并积极调整游戏配置,从而实现满帧的续航体验。

“天玑9200+能够达到12%的游戏功耗优化收益,如此卓越的游戏体验自发布以来获得众多手机品牌及游戏工作室的肯定。”李彦辑介绍到。

联发科展示了首个导入MAGT的游戏《王者荣耀》的运行表现,以120满帧运行一小时的同时也能优化功耗,以及在更重载的10人团战场景下,也是全程稳定无卡顿,平均帧率达到119.5。

在《暗黑破坏神:不朽》中,天玑9200+支持可变速率渲染技术VRS,得以让开发者集中GPU资源与玩家关注的画面,兼顾游戏性能和功耗,在《暗黑破坏神:不朽》中,功耗可以降低13%。

值得注意的是,打造旗舰的游戏体验一直都是联发科十分重视的领域,自2020年起,联发科就已经做出了在移动游戏领域的技术布局,主要分为光追技术布局和芯片技术布局两大方面,开发先行版移动光追SDK供开发者提早预研,一直到天玑9200实现硬件级光追落地,芯片技术方面支持64生态和Vulkan生态,目前已经能支持VRS,动态调整不同视觉区域的渲染率。

接下来,联发科将开启天玑生态圈的扩展,进入下一个里程碑。

当然旗舰级5G移动平台,不仅仅是在性能、能效和游戏体验方面的提升,在其他常规的通信、连接、影像

音频等方面,天玑9200+也表现优异。

集成5G R16调制解调器,支持4CC四载波聚合,可在广覆盖的 Sub-6GHz 全频段 5G 网络和高速毫米波网络之间流畅切换。此外,天玑 9200+ 支持Wi-Fi 7四路双频(2x2+2x2)并发,传输速率理论峰值可达6.5Gbps,同时支持蓝牙5.3。MediaTek HyperCoex 超连接技术助力智能手机同时连接 Wi-Fi 网络、新世代蓝牙音频 LE Audio和无线外设,让用户享受更高音质与更低时延。

在影像方面,天玑9200+采用MediaTek 第六代 AI 处理器 APU 690、MediaTek Imagiq 890 影像处理器和MediaTek MiraVision 890 移动显示技术,既能通过实时对焦和焦外成像调整技术创造专业的电影模式视频录制功能,又能在暗光环境下拍摄出更加明亮、细节更丰富的照片和视频。

“预测市场何时能回暖是一件很难的事情,但我们坚定保持高端产品战略,为用户提供最好的体验,才是应对市场变化的关键。我们接下来的里程碑是希望我们的产品能够与生态结合地更加紧密,让旗舰手机能够充分发挥所有的功能。”李彦辑说到。(雷峰网)

]]>
芯片设计 //m.drvow.com/category/chipdesign/RHtgyUrKeYTEBpN8.html#comments Wed, 10 May 2023 18:37:00 +0800
押注汽车市场的安谋科技,还想建一个AI开放生态 //m.drvow.com/category/chipdesign/McnxiW0YAMD1Q0RP.html “希望到2030年,我们能够实现支持中国自动驾驶成熟量产方案的落地。”安谋科技执行副总裁、产品研发负责人刘澍在周易X2发布会上如是说。

其实,安谋科技早已开始布局汽车市场。

去年发布了“星辰”STAR MC2 CPU车规级处理器,加上正在开发的车规安全类IP,以及Arm已有的车规ISP。本周最新发布的面相智能驾驶、手机影像AI等市场的周易X2,为安谋科技押注汽车市场又增加了新的砝码。

当然,为了繁荣AI市场,安谋科技还推出了“周易”NPU软件开源计划,安谋科技团推测算这可以节省50%的软件工作量。 

押注汽车市场 

为什么我们这么关心中国的汽车市场?”刘澍解释,“这和我们过去所看到的产业升级和新老格局的交替有重大的联系。手机行业在2000年前后基本上是国外品牌主宰,从功能机到智能机升级的过程中,市场上涌现了一大批新的品牌、新的势力。我们认为,智能汽车行业可能也会重现这样的格局,过去我们被欧美、日本品牌所垄断,未来中国市场和中国品牌势必在产业占有一席之地。

相比手机芯片的市场规模,汽车芯片目前看起来还比较小,但具有市场潜力。

刘澍表示,汽车自动驾驶应用对人工智能的需求越来越多,不光是ADAS有更多的摄像头、更多的雷达,会产生更多需要处理的数据,同时,车内车外的各种监视、辅助的决策系统,需要更高的帧率、更大的算力、更多人机交互、更多安全性需求等,这些都给对IP产品提出了更高的要求。

随着智能驾驶从L2到L3、L4的演进,汽车对芯片和IP的要求会越来越高。而最新推出的周易X2瞄准的正是中国新势力汽车品牌。

当然,周易X2不仅可以用于汽车领域,也可以应用于更大算力的边缘侧服务器类型,例如手机、PC、平板电脑等应用场景。

专为汽车市场需求优化的特性

与前代产品周易X1基于V1、V2架构不同,周易X2基于V3架构,也是首款基于V3架构的产品,带来了八大特性升级,包含:

第一,通过支持多核Cluster实现更大的算力,可以支持10T-320T子系统的算力。

第二,支持更好的i-Tiling的技术方案,大幅减少带宽需求,进一步提升计算效率,降低系统的成本。

第三,通过专门的硬件加速调度器实现实时的任务调度和管理。

第四,支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,计算效率与计算密度得到显著提升。

第五,优化的Transformer性能。

第六,增加了无损的权重压缩的技术,

第七,在低功耗领域进行技术升级,7nm工艺节点可以实现10TOP/W的能效。

第八,面向手持设备也做了专门的优化,比如拍照的AI去噪声,视频的超分辨率、插帧等。

安谋科技产品总监杨磊指出,面向车载领域,周易X2 NPU主要做的优化包括三个方面:

首先,基础的架构层面专门针对汽车的场景做了优化,通过多Cluster支持大算力的需求,既可以满足智能座舱几十T的算力需求,也能满足ADAS或智能驾驶几十到上百T的AI算力需求。

其次,为了满足汽车需要很高的计算精度的需求,周易X2通过混合精度既兼顾了功耗、面积也兼顾了计算的准确度来满足汽车场景的需要。

最后,周易X2 NPU也针对车载专用的算法进行定向的优化,典型的代表是Transformer模型结构,专门做优化。

“Transformer结构优化完的结果和我们自己相比,假设在算力相等的情况下,可以比上一代的周易 Z2 Transformer的性能提升10倍,是一个指数级的性能提升。”杨磊强调,

“通过面向汽车场景的这些优化,我们希望通过成熟的软件和硬件的IP产品,加快合作伙伴芯片的上市周期,以及最终的产品落地。我们可以看到国内很多汽车窗口的时间预测是在2025年,我们这样成熟的NPU的软件和硬件可以加快合作伙伴芯片开发和设计的速度,并缩短最终汽车落地的周期。”

据悉,周易X2 NPU现在已经到成熟阶段,可以正式交付客户,今年会有多款搭载周易X2 NPU的芯片产品面世。 

开源NPU软件

想要加速芯片的落地,软件生态非常重要。

安谋科技科技做过一个有意思的统计,过去一年国内60个用到NPU的芯片项目,其中大概55%的项目都用自研NPU,并且这些自研NPU都不相同。

杨磊说:“每换一个硬件平台,不单换硬件,可能整个软件的工具链都变了,这对应用开发来讲是极其复杂或者是痛苦的,因为要不停地换软件平台或者是硬件平台,这样极大地增大了应用开发或者说创新的代价和周期。”

“我们发现在软件部署的过程中存在很强烈的白盒开发的需求,希望工具链是以源代码的形式提供的,而不是一个黑盒,越是这种以算法和数据为核心的合作伙伴,越有强烈的软件工具链白盒的诉求。”杨磊同时表示。

据雷峰网了解,AI软件是影响AI落地的关键因素,想要把AI硬件用起来难度很高,学习成本和周期很高。

于是,基于上述的考虑,安谋科技推出了周易NPU软件开源计划。这个计划首先对外开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,并向相关合作伙伴提供“周易” Compass软件平台,包括软件模拟器、调试器、C编译器等在内的多种软件工具。

后续,安谋科技还将逐步开放更多资源,如模型量化、算子实现等源代码。

“开源的好处是能拥有一个统一的方案,即使是用别人的硬件,这个项目提供的也是同样的软件方案。”杨磊说,“我们最新的一代V3架构是免费授权,特别欢迎有自研NPU想法的合作伙伴也来兼容周易NPU的架构。我们的NPU团队大概有130个人,初步测算基本上可以节省65人/年以上的工作,我们也希望通过这样的手段,首先可以繁荣生态,另外也希望能借此加强合作伙伴的AI创新。”

目前,周易NPU软件开源计划已经有第一批合作伙伴率先加入,其中不乏来自AIoT、智能汽车、智能操作系统等领域的明星企业。

]]>
芯片设计 //m.drvow.com/category/chipdesign/McnxiW0YAMD1Q0RP.html#comments Wed, 29 Mar 2023 18:41:00 +0800
移动芯片新晋者瓴盛,搅动4G SoC市场 //m.drvow.com/category/chipdesign/7ZzRD3tbNXEqx3V9.html 现阶段的智能手机SoC市场似乎已经很久没有新鲜事了,高通和联发科在5G市场抢夺份额,4G市场基本只有联发科和展锐两个大玩家。

就在本月16日,沉闷已久的智能手机SoC市场迎来新的搅局者,成立仅4年的芯片设计公司瓴盛科技宣布发布首款4G智能手机芯片平台JR510,并搭载在小米公司新机POCO C40正式面向海外市场发布。

在5G普及进度低于预期,全球手机市场超过一半的出货量都是4G机型的当下,瓴盛科技JR510的发布,不仅能够填补4G SoC的结构性短缺,还能够为更新升级频率降低的4G SoC中低端市场带来更具差异化的用户体验。

不仅仅是“生”在好时机,瓴盛科技精准的市场定位,稳打稳扎的研发团队,以及产品综合的性能优势,都让其首款 4G SoC成为老玩家们不得不重视的对手。

5G芯片内卷严重,4G呈现长尾效应

“4G市场可能会是一个相当长尾的市场,除了中美的5G市场比较大之外,海外基本还停留在4G。根据相关数据,4G手机市场过去两年依然保持占比过半的终端出货量,加上全球经济萎缩和收入降低,整个市场对中低端机型的需求也许会更旺盛一些。”瓴盛科技CEO肖小毛对雷峰网说道。

前几年,这个世界像期待4G带给移动互联网的变化那样对5G抱有极大的期待,提供底层技术的主流芯片公司自然嗅觉灵敏,都希望能够在5G移动手机领域快速占领高地,争相在5G SoC上进行创新。为了能够在性能和功耗上比竞品更胜一筹,各家不惜重金前仆后继地用上5nm工艺制程,但工艺制程越先进,芯片公司需要承担的研发费用越沉重,为了平衡收支,伴随着5G的标准演进,不少主流芯片公司将越来越多的精力投入到中高端的5G芯片中去。

但5G市场的发展似乎不如预期,可以观察到的是,5G商用第三年,杀手级应用依然未出现,对于移动手机用户而言,5G除了比4G快一点,依然无法感受到有何不同,甚至曾有网友调侃道:“5G最大的作用是改变了何同学的生活”。

5G手机砍单的消息也随之而来,就在今年5月份,知名分析师郭明錤表示,不看好消费电子的需求,累计至今,中国大陆手机品牌厂已下砍手机订单2.7亿台,其中,联发科已对第4季5G芯片砍单达35%,高通8系也下调8%,后续旧款还会降价大拍卖。

反观4G手机市场,不少长期定位于中低端的芯片厂商在这一时间段在最新的营收榜单中排名上升,并依靠其在4G芯片市场上的表现,取得历史性突破。

据ABI Research数据显示,从2020年至2025年,5G市占比不断增加,4G市占比不断减少,但4G的市占比也将一直高于5G,未来很长一段时间里,4G和5G都将共存。

另外根据Counterpoint数据显示,2021年全球智能手机出货量为13.2亿部,其中5G智能手机出货量为5.3亿部左右,这意味着非5G智能手机出货量依然可观,且在短时间不会被5G智能手机所取代。

从全球市场的格局来说,目前全球除了中国,美国,韩国和日本以外,5G并没有真正上量,虽然5G已经到来,但4G的市场并没有随着5G到来衰减,仍会长期与5G并存,并且有很大的市场规模。

4G手机芯片市场长尾效应凸显,正是初创芯片公司入局移动手机芯片的绝佳时机。

全副武装的新晋者,搅局4G移动SoC

瓴盛科技很早就预见了这一机遇,经历四年准备,终于全副武装迎来了这一刻。

本月中旬,瓴盛科技宣布推出4G智能手机SoC JR510,该SoC采用了三星11nm FinFET工艺,八核ARM Cortex A55 CPU以及ARM Mali G52 GPU,其中,A55更强的处理器性能和NPU的引入,能够给客户带来新一代智能手机最好的体验,同时具备更长的续航能力。

值得注意的是,JR510首次在中低端智能芯片架构中,创新性地引入了独立硬件AI加速引擎(NPU),可提供1.2TOPS的AI算力,一方面能够增强手机在社交、多媒体、游戏、图像及视频处理方面的能力,另一方面可以降低能耗比。

在JR510之前,NPU通常只会用在中高端的智能芯片架构中,这意味着瓴盛推动了AI在智能手机里的全面普及,未来用户能够以更低的成本获得同4G高端智能手机几乎相同的拍摄和游戏体验。

瓴盛官方给出的AI Benchmark基准测试显示,由于有硬件AI加速引擎,JR510在MobileNet-V2模型测试得分高达302.1分;Inception-V3模型测试中,JR510得分36.9。

摄影方面,JR510支持双摄1600万+1600万,单摄可以达到2500万/2500万,最多能支持4摄产品,客户可以根据自己的喜好进行差异化定制。

连接方面,JR510采用全球通4G LTE Modem以及无线连接(WCN)技术,为满足外设存储产品设计需求,还支持最新的LPDDR4x内存,eMMC 5.1和UFS 2.1存储方案,并支持USB 2.0、SDIO 3.0、I2S、I2C、UART等外设接口。

雷峰网了解到,JR510芯片项目于2020年初正式启动,2021年8月成功流片,10月完成第一个版本送到小米手中,今年6月正式量产,用时将近18个月。

作为一家初创公司,瓴盛是如何能够在如此短的时间内成功量产一款手机SoC的?主要原因有三:

第一,产品市场定位明确,面向4G中低端移动市场;

第二,通信基带层面获得高通技术授权支持,能快速被全球通信市场认可;

第三,研发团队配置完备且本身拥有大型SoC及通讯基带SoC的研发经验。

“瓴盛科技是一家初创公司,初期定位于中低端手机芯片市场,主要是基于市场需求及经营策略方面的考虑。”肖小毛谈及瓴盛手机芯片的定位时表示。

目前移动通信终端市场总体规模依然很大,芯片方案提供商呈寡头势态,赢者通吃,且主流芯片厂商为提升产品的毛利率,将主要精力放在布局5G中高端芯片产品上,竞争激烈,对公司品牌影响力有更高要求,事实上初创公司并不适合参与其中。

而在4G芯片的中低端领域,目前的竞争格局相对稳定,且产品演进较慢,但用户仍然对产品性能提升有一定需求,这对瓴盛科技而言是一个很好的切入机会,可以从中寻找求得生存和发展的空间。

在研发JR510的过程中,瓴盛科技也透露虽然研发团队核心人员在进入瓴盛之前就同属一个团队且有过多年协作经验,节省掉了团队磨合的时间,但是在实际研发芯片的过程中,团队还是遇到了一些难点,例如团队第一次使用三星的11nm工艺,面临众多复杂的设计问题需要研究并解决。

不过,研发JR510已经不是瓴盛研发团队第一次使用三星11nm工艺了,瓴盛此前推出的AIoT芯片JR310,同样采用三星11nm工艺制程,因此研发JR510时,工艺切换已经顺畅许多,研发速度更快一步。

先天优势加后天努力,JR510从瓴盛诞生,沉闷已久4G SoC市场被注入新的活力。由于JR510能够在4G中低端市场为一些中小客户提供差异化的解决方面,目前已经有不少厂商在同瓴盛进行沟通,表达合作意向。

在4G深耕沉淀,不排除研发5G SoC

量产成功,首次合作就是品牌客户,意味着JR510已经成功了一大半,初次切入移动智能手机SoC取得成功之后,瓴盛科技未来会走向何方?

肖小毛表示,瓴盛4G SoC系列产品一定会基于初代产品继续进行迭代。“市场竞争的王道是性价比,具体的产品规划目前还未详细定制,需要同客户深度沟通,经过对比分析和市场预计,才能够做出合理的规划。”

对于是否会进入5G市场同主流芯片公司竞争,瓴盛表示不排除未来任何可能,但对初创公司而言,会先扎实做稳现有产品及市场后,等到5G芯片起量市场对中低端有需求之后,瓴盛才会开始进入5G市场。

“我们判断,2025年之前,5G起量可能会放缓,我们会持续观察市场,寻找合适的切入时间点。”肖小毛说道。

至于是否会进军高端市场,瓴盛科技认为,高端市场不仅需要更深厚的积累,也需要更强大的品牌影响力,如果没有在市场上站稳,贸然进入会比较危险。

瓴盛之前,不少刚入局芯片行业的公司想要自研手机SoC,但在后续发展过程中,或因流片失败而夭折,又或因目标定位不够清晰而惨淡收尾,鲜有成功案例。

瓴盛之后,想要自研手机SoC的初创公司,或许能够从瓴盛的成长中吸取一点成功经验,瞄准5G市场动力不足之下的4G市场机会,稳扎稳打,精准定位,也有可能快速开辟出属于自己的一番天地。

]]>
芯片设计 //m.drvow.com/category/chipdesign/7ZzRD3tbNXEqx3V9.html#comments Wed, 29 Jun 2022 17:28:00 +0800
国产EDA重大突破,数字验证调试系统多项空白被填补 //m.drvow.com/category/chipdesign/kABPJDcd3NXBPhzz.html 去年,集成570亿个晶体管,性能强大的苹果M1 Max处理器的横空出世让人大受震撼。

今年,英伟达最新款GPU H100拥有800亿个晶体管,并且大放豪言20个H100 GPU,也就是1.6万亿个晶体管,便可承托相当于全球互联网的流量。

处理器的性能越来越高,集成的晶体管数量越来越多,复杂度也越来越高,那如何才能保证其正常工作?

要让拥有百亿个晶体管的芯片正常工作的难度,就好比要用一个个细胞组成器官,并且能让器官能够正常的运作。这个实现的过程,验证是关键。

二三十年前,芯片的复杂度虽然难以和如今的5nm、4nm芯片相提并论,但芯片设计工程师为了确保芯片的功能与自己预期的一致,也需要在芯片制造前进行仿真验证。

后来,随着芯片集成的晶体管越来越多,越来越复杂,仅靠仿真实现充分验证的难度也越来越大,芯片工程师们意识到,芯片的功能、性能的验证都非常重要。于是,芯片验证的各种方法都相继出现,也有了专门的芯片验证工程师。

如今,典型的SoC(片上系统)芯片的项目研发中,验证占了70%的工作量,而其中的40%又是调试,整个验证过程繁杂且费时费力。

因此,想要保证设计出的芯片能够稳定高效运行,验证和调试的电子设计自动化(EDA,Electronics Design Automation)工具就至关重要,特别是在芯片设计复杂度不断提升与研发成本日益增高的当下。

“一方面,芯片验证场景日益复杂,从单纯的功能验证到今天面对整个系统级、场景级的验证;另一方面,面对激烈的市场竞争,芯片集成规模不断扩大,研发周期却不断缩短,验证的重要性日益突出。”燧原科技资深架构师鲍敏祺指出芯片前段验证面临的挑战。

可惜的是,芯片验证的挑战越来越大,但市场上已有的EDA验证和调试工具并不能很好地满足当下芯片设计的需求。

芯华章科技研发副总裁林扬淳认为,当前产业调试方案面对着缺乏创新、数据库碎片化以及性能局限等多重挑战。

这给没有历史包袱,又了解客户需求的新创EDA公司带来了巨大的机会。

芯华章首席市场战略官谢仲辉对雷峰网表示,一个优秀的,符合市场需求的EDA调试系统应该具备以下特性:

首先,需要支持很多验证手段,才能帮助如今的芯片设计做很好地调试和诊断。

其次,拥有几百亿个晶体管的芯片越来越复杂,为了能够快速呈现甚至定位出问题,需要好的数据格式以及算法,支持大量的数据读写,也就是说需要有高性能的支撑。

最后,为了能够更加智能化和快速呈现和定位问题,需要借助AI。因为传统的方式非常依赖验证工程师的经验,借助AI,能够显著提升效率。

看到这些需求,提供全面数字验证EDA的芯华章近日发布的数字验证调试系统晓Fusion Debug,不仅能够帮助芯片设计公司解决芯片设计过程中调试的难题,还填补了多项多产技术空白。

第一,昭晓Fusion Debug是一款基于创新架构的全面调试系统,能支持芯华章智V验证平台所有产品的通用调试底座技术,促成不同产品的协同作用。

这主要是得益于芯华章从开始就致力于底层框架和基础平台的研发,能够解决不同验证工具数据格式不同的问题,形成共同的数据库,包括XCDB(存储design HDL的信息)、XNDB(记录design netlist)、XEDB(压缩存储了信号波形)、XCovDB(记录覆盖率)。

据雷峰网了解,国内EDA公司有面向设计,比如布局布线或制造相关的数据库,但还没有针对全平台验证的数据库,芯华章填补了这一空白。

第二,昭晓Fusion Debug在单机模式能够带来2-3倍的性能提升,在分布式系统中可以支持额外5倍的速度提升。据悉,传统主流EDA更新换代每次有约10%-20%的提升,能够实现5倍的提升是一个巨大的突破。

能够实现性能飞跃的一个关键是数字波形格式。昭晓Fusion Debug采用完全自研的高性能数字波形格式XEDB,这一波形格式借助创新的数据格式和架构,具备高性能、高容量、高波形压缩比等特点,其提供的高效编码和压缩方案,在实际测试中可以带来比国际主流数字波形格式超8倍的压缩率。

与其它商业波形格式相比,XEDB的读写速度快至3倍,并支持分布式架构,可充分利用多台机器的物理资源来提升整体系统的性能,实测中表现出的波形写入速度可以比单机模式提高5倍以上。同时,借助设计推理引擎和高性能分析引擎提供的动力,昭晓Fusion Debug能够支持统一且高性能的编译,快速加载仿真结果和信号显示,轻松进行信号连接跟踪和根本原因分析。

第三,昭晓Fusion Debug的数据结构已经具备了深度学习框架,能够很容易支持AI技术。

EDA的智能化能够把一些繁琐、重复、需要依靠经验的工作借助AI,提升效率的同时降低对工程师的要求。比如,在调试过程中,如果一个5-10年的逻辑工程师需要花3-5天的时间找到问题的源头,有了AI后,一个经验比较少的工程师可能只需要1天就能找到问题,带来倍速的效率提升。

合肥市微电子研究院院长陈军宁和电子科技大学电子科学与工程学院副教授黄乐天从不同的角度指出,下一代EDA工具需要增强工具间的融合以及更智能化,在减少人力投入的同时,进一步充分利用机器学习、云计算等创新技术,从而提高芯片验证与设计效率。

不过,AI非常依赖算法和数据,国内EDA公司在数据的积累上显然没办法和巨头公司比较,那新创EDA公司还能有AI的优势吗?

谢仲辉认为,“数据和算法都非常关键。我们所做的是基于算法和建模的动作,先把底层的架构搭建起来,至于数据,未来我们将用平台化的理念服务客户,聚集更多的用户共同推动EDA智能化的发展。”

业界期待EDA调试工具智能化的同时,也在期待接口的开放。

平头哥上海半导体技术IP验证及软硬协同验证负责人张天放就说,“在实际应用中,各个芯片的产品调试特征不同,对调试会产生非常多样化的细分需求。我们希望能够在国产EDA工具里面看到一些开放的接口,便于进行二次开发。”

开放接口对于传统EDA公司来说,无论从商业还是技术的角度,都是一个很大的考验。但这也恰恰成为了新入局者的机会。

可以看到,昭晓Fusion Debug就提供丰富、可编程的数据接口,能让用户可针对不同调试场景进行定制化,并能贯通芯华章智V验证平台及支持用户现有的EDA工具。

雷峰网了解到,芯华章会提供相关的转换工具或接口,用户以及第三方的工具能够很方便的调用数据,并且发挥其自研数字波形格式XEDB的优势。

谢仲辉强调,“使用我们的开放接口能够让用户调用我们的数据完善验证和调试的流程,带来的是一定的灵活性,也能保持性能优势。”

但回到最初的问题,想要保证一款集成了几百亿个晶体管的芯片没有bug稳定运行可能吗?

这是一个灵魂拷问的问题,也是一个非常难回答的问题。

但可以明确的是,像昭晓Fusion Debug这样创新性产品的推出,能够更大程度满足当下芯片验证和调试的需求。

而要更好满足芯片设计的需求,需要整个业界朝着EDA 2.0方向努力,其中的关键路径包括开放和标准化、自动化和智能化、平台化和服务化三个方面。

EDA 2.0也是国产EDA产业实现快速发展的机遇。赛迪顾问的数据显示,2019年全球EDA市场规模为102.5亿美元,中国EDA市场规模约为5.8亿美元,占全球市场的5.6%,国内EDA厂商总营收不到4.2亿元,仅占全球市场份额的0.6%,国产化率仅10%左右。

国产EDA的强大,需要国内EDA学术界和产业界的共同努力。

]]>
芯片设计 //m.drvow.com/category/chipdesign/kABPJDcd3NXBPhzz.html#comments Tue, 17 May 2022 18:59:00 +0800
BAT造芯的三岔路:昆仑芯自食其力,平头哥狠角色, 腾讯慢吞吞 //m.drvow.com/category/chipdesign/HiptV35BskaHYZcL.html

作者:包永刚

编辑:王亚峰

互联网公司自研芯片的成功,除了要满足人人都能指点几句的“技术先进、产品好用”外,还有两座大山要跨过:说服自己、说服别人。

说服自己,芯片让公司的业务部门大规模使用;说服别人,能让客户放心把半条命交给你。

于BAT而言,自研芯片要跨过的第一大关,就是搞定自己人。

道理与这十多年来的BAT上云无异。

“业务部门把云用好了,功劳是云部门的。用不好系统崩了,锅是自己的。”这便是当年BAT核心业务上云遇到的现实矛盾。

“跨部门协作,尤其像IT基础设施的替换,若不是建立在对等互利的基础上,愿意孔融让梨的圣母型领导少之又少。”

纵使大家在同一只船上,只要每部门的KPI不同、高管的任务不一,牺牲小我、利好他人、成就大我之事的推进,举步维艰。

正如淘宝和京东商城的上云,过程绝不仅是在技术层面把系统搬到云上那么简单,更要让电商部门与云部门之间放下戒备、充分信任、利益捆绑,也需要企业最高领导人绝对支持、敢于兜底的决心。

否则无论是云,亦或是芯片,自研产品只能在集团内的创新业务或无关痛痒的场景中,小试牛刀,自娱自乐。

故事对外讲的震天响,产品对内躺在仓库无人问津。

与之相扣的是,任何销售行为,只有在能够说服自己的时候,才有机会说服别人。

因此,芯片的自用和外销,历来都是绑定在一起的。

所以当我们在讨论互联网厂商造芯谁更胜一筹时,不妨先看看谁的核心业务有大规模使用自研芯片。

否则一切谈论,只停留在纸面。

回归正题,其实全球互联网巨头们,早已经在自研芯片领域卷起来了。

已经拥有第四代张量处理器TPU的谷歌,在2021年将自研芯片的触角延伸到了手机SoC领域。亚马逊更是在去年底交出了8年推出3大系列9款自研芯片的成绩单,并在其AWS云服务中用上了大量自研芯片。

国内的互联网巨头们2021年在自研芯片领域也动作频频,先是3月份字节跳动正在组建芯片团队的消息爆出。6月份百度宣布将其芯片业务独立,成立昆仑芯科技。10月份的阿里云栖大会,全球首款5nm服务器CPU问世。相隔不到一个月,腾讯也首次公布了其三款自研芯片的进展。

互联网巨头们跨界自研芯片的出发点,业界的共识是对差异化的需求以及成本考量,也有资深人士认为提升技术形象也是重要原因。

虽然有着相似的出发点,但互联网巨头们自研芯片的路径各不相同。百度选择了拆分芯片业务,阿里云端高性能芯片自用,RISC-V芯片开源开放,腾讯想用尽可能少的投入撬动自研芯片。

目前来看,国内互联网公司遇到的问题比较类似:一是如上述所谈到的,还处于“说服自己”的阶段,核心业务部门并不完全买账,产品更多在话语权相对弱势的业务部门小范围使用。

其次,互联网公司天然不具备半导体团队的流程管理和考核经验。尤其当团队中既有大量互联网原生员工,也有不少传统芯片背景人员时,面对不同技术背景、做事风格迥然不同的两大类员工,互联网做派的管理方式、员工之间的协作配合,会产生较大的冲突。

与此同时,由于个别公司的芯片团队,其人员和资源投入力度有限,通常由两个一级事业群组建的临时联合项目组来推进。这种跨事业群的协作,在芯片这类研发周期较长的产品上,往往是最无奈也是非常糟糕的模式。

当这些问题确确实实映射在BAT身上时,中国互联网三巨头自研芯片,能否殊途同归?

内外因素交织,卷入自研芯片的BAT

相比谷歌和亚马逊两大巨头,国内互联网巨头自研芯片的整体进度稍慢。因此,不少芯片业内人士都认为,国内互联网巨头们自研芯片有两方面的原因:一方面是被国外互联网巨头卷入芯片领域,另一方面还有自主可控的需求。

当然,通过自研芯片提升技术形象,进而带来毛利率的提升,促进股价上涨也是不可忽略的目的。

2005年摩尔定律放缓之后,在自动驾驶、高性能计算、AI等日益庞大且多种多样的应用需求下,促使擅长软件和算法的科技巨头们,开始涉足不太擅长的芯片领域。

“当互联网巨头有了各自的专长,且都想越做越好。通用芯片只能满足八九成的需求,不能满足互联网巨头们差异化需求和发挥各自的专长,自然就开始自研芯片。”芯片行业资深人士J叔说。

接近昆仑芯科技的小川认为,百度自研芯片的两个关键因素,首先是业务的需求,其次是因为百度从2011年开始就用FPGA做AI加速,有了多年的积累在2018年转向AI芯片是自然而然的选择。

当然,自研芯片还包含了互联网巨头们对于成本的考量。

出发点相似,但互联网巨头们开始自研芯片的时间和决心为何有明显差别?

云岫资本合伙人赵占祥认为,“国外的巨头自研芯片更多是出于差异化和提升竞争力的需求。国内的巨头自研芯片还有供应链安全的考虑。”

这能够解释多家国内互联网巨头在2018年中美局势紧张前后开始布局芯片。

从业务层面看,有20年多芯片行业从业经历的张丁认为,“云计算业务是自研芯片的关键。云计算需要大量的基础设施,而自研芯片又和基础设施紧密相关,可以看到无论是国外的AWS还是国内的阿里云,自研芯片的动力都很大。腾讯是以应用和运营为核心的互联网公司,云计算业务在整个公司中的占比还相对较小,自研芯片的动力就很弱。”

超级电商与超级搜索,在海外市场上印证了是最容易带动云计算和芯片发展的互联网商业形态,诸如以超级电商为代表的亚马逊,以超级搜索为代表的Google和微软(Bing)。相反,Facebook这类社交基因的企业,其云与芯片的自研动力相对没那么强。

最有动力自研芯片的阿里,也被更多人看好。

不服就干的平头哥,看好者和看空者皆有

看好阿里自研芯片的业界人士们认为,阿里云是国内公有云市场份额第一,有更大的动力自研芯片,并且现在看来投入最多,也更有决心,再加上有前海思人才的加入,增加了阿里自研芯片成功的概率。

看空阿里自研芯片的一个理由则是公司内部目标诉求的不同。

阿里自研芯片的决心从其团队的命名——平头哥就可见一斑,平头哥是鼬科蜜獾属下唯一一种动物,其性情可以概括为“生死看淡、不服就干”。

平头哥在2018年亮相,由其收购的中天微系统和达摩院自研芯片业务整合而成,成立之初的目标就是推进云端一体化芯片布局,并在1年后相继发布云端和边缘芯片。

2019年7月,平头哥推出了当时业界最强性能RISC-V处理器玄铁710。两个月后,含光800 发布,号称全球最强云端AI推理芯片。

不过,即便官方表示含光800已经通过阿里云提供服务,在一些AI场景中对比GPU有 4-11倍的性能优势,但综合最终落地的情况,以及团队人员的调整等来看,不少业界人士都认为含光800并不算很成功。

EDA和IP行业的专家晔华认为,“系统厂商内部的支持和一定的采购量,已经足以支撑芯片团队继续做新的项目。很多芯片设计公司四五颗芯片也只有一两颗赚钱,同样的道理,互联网公司一个项目的成败,并不意味着公司大战略的成败,即便最初的项目不算成功,未来总会有很成功的项目,关键在于能够满足深度差异化的需求,以及服务于公司整体生态。”

雷峰网了解到,平头哥面向AI应用的自研芯片的技术路线会有所调整,新的芯片预计会在今年云栖大会发布。

阿里平头哥在边缘端芯片选择了RISC-V的技术路线,目前主要是提供RISC-V IP。对此,张丁表示,平头哥在边缘端布局RISC-V IP,可能比国外的互联网巨头在边缘端有更大的布局。J叔有不同的观点,他认为提供IP是最单纯的工作,因为提供IP不用做最终的商业化。

不过平头哥相比于其他互联网公司芯片团队来说,有着更强的组织保障。通俗讲,就是高层领导给予的资源支持,高出其他企业一个量级。

资源的支持,通常分为两种形式,一种是最常见的给人、给钱。另一种是赋予它更高的组织地位,让其他部门配合其发展。

消息人士称,首先阿里在平头哥上投入的财力和人力放在整个互联网圈都屈指可数,阿里云总裁张建锋更是在这两年赋予了平头哥非常高的组织地位,诸如天猫精灵等产品收归阿里云后,原本寄希望于用天猫精灵这一硬件产品,来带动IoT语音交互解决方案的销售,而在现阶段,一部分战略重心,已转变成为打磨压测、量产平头哥的终端芯片而生。

有着类似战略意义的产品和场景,均在不断提升着与平头哥的配合度,个别甚至是生而为平头哥服务。

如此力度的扶持,在其他公司身上罕见。

张丁就表示,“从自研芯片的动力、投入、人才以及布局来看,国内的互联网巨头自研芯片我最看好阿里。阿里去年发布的Arm架构高性能CPU是以前海思的人设计,他们有经验。”

J叔不看好阿里平头哥自研芯片的原因是,“芯片是一个软硬协同的系统工程,需要许多协作,但阿里集团的战略、内部团队和个人目标诉求不同,可能会成为阿里自研芯片成功的阻碍。中短期而言,我更看好百度自研芯片。

分拆的昆仑芯,面对商业市场竞争

2021年6月25日,百度芯片业务独立成为昆仑芯(北京)科技有限公司,百度芯片首席架构师欧阳剑担任昆仑芯科技CEO。

昆仑芯独立的初衷是希望能够发展壮大,本质是个定位问题。”小川说,“昆仑芯AI芯片是面向AI市场的通用芯片,在没有独立之前,团队其实也在做对外的商业化,只是规模比较小。独立之后,昆仑芯科技有更灵活的机制支持业务发展,能够更好的发展。”

其实百度近些年来一直有分拆硬科技类公司的习惯,如百图生科、小度科技等。当然这背后与百度集团的PS值(市销率:市值除以营收额)有一定关联,百度最近一年的PS值大概在3倍左右(腾讯约为7倍),而AI芯片公司寒武纪目前大概维持在20倍左右。因此昆仑若从一个三倍计价体系中分拆,进入到一个两位数的计价赛道中,无疑对昆仑身价的提升效果显著,而且芯片在早期往往作为成本中心而非营收中心,分拆更能让母集团的财报更漂亮。

独立之后的昆仑芯的变化显而易见。J叔说,“百度将芯片业务分拆之后,做好芯片至少符业务的利益。我从不同渠道了解到,欧阳剑确实投入了很多精力,经常和客户开会,和客户的工程师深入沟通,像他这样级别的人很少这么做。

张丁也说,“昆仑芯科技独立之后能看到他们在找不同的商业客户推广自己的方案。”

小川透露,昆仑芯独立后业务进展比较快,如今手上二代产品的的订单总金额已经过亿元。

昆仑芯接下来的发展要面对许多外界的不了解,比如昆仑芯AI芯片是否只支持百度飞桨?和百度有竞争关系的公司的数据和业务安全性如何保证?昆仑芯的性价比能否和市场上其它产品竞争?

"如果昆仑芯的产品有足够的竞争力,可以获得一些与百度没有直接竞争关系的互联网类公司的订单。"张丁认为。

J叔指出,“昆仑芯主要是用于AI推理,这并不涉及客户的具体算法和技术细节。如果昆仑芯科技愿意把心态放到赚辛苦钱,我认为昆仑芯还是能发展起来。

“昆仑AI芯片是面向公开市场的芯片,自然会支持国内外的主流框架,如百度飞桨、PyTorch及TensorFlow。小川透露,“昆仑芯科技目前的业务主要还是互联网、泛政府以及行业类客户,实际落地以AI推理应用为主,也兼顾了AI训练和部分高性能计算,近期已中标科研院所千万级别的AI训练订单。”

昆仑芯接下来的发展,更应该被看作一个独立的芯片初创公司。

据了解,昆仑芯科技目前还没有遇到单纯因为其百度背景而决定选择或者不选择合作的客户。

进展缓慢的腾讯自研芯片

腾讯自研芯片与其说是缓慢,不如说是本身投入力度有限。

与阿里和百度在自研芯片方面已经探索出一些成果不同,腾讯自研芯片动力不足以及其投入的不足,让业界人士也还没办法看清楚其自研芯片的现在和未来。

2021年11月的腾讯数字生态大会上,腾讯只是简单介绍了其三款自研芯片,紫霄、沧海、玄灵的简要特性,分别面向AI计算、视频转码、高性能网络(DPU芯片),除了紫霄已经流片并成功点亮之外,另外两款芯片的具体进展未知。

腾讯不止自研芯片进展慢,他们在阿里自研服务器好几年之后才开始自研服务器。”张丁说:“从互联网和IT发展历史来看,超级电商和超级搜索,对高性能的基础设施依赖极大,随时面临不确定性,以电商为例,既要保障用户体验,又要保证交易的安全性。而腾讯目前的核心业务如社交和游戏等,运行相对比较稳定,故障后果在可承受范围内,对倒逼基础设施迭代的推动力相对没那么强。对于很多业务,不要说推AI处理器,就算是把CPU换成GPU都很难,更换处理器带来的成本节省并不是他们团队最在意的,对用户有吸引力的新功能对于他们的团队更重要。”

腾讯自研芯片的进度不仅慢,自研的成分也相对偏低。雷峰网通过不同渠道了解到,其自研的AI芯片和DPU芯片都是腾讯投资的公司帮其做芯片设计,腾讯内部的团队主要负责软件以及工具链层面的工作。

腾讯想要用尽可能少的投入,借助外力,来撬动需要高额投入的芯片研发,这也符合腾讯的行事方式。

从公有云业务营收占比的角度,腾讯很难像谷歌亚马逊那样思考考虑自研芯片,其投入相对少的资源自研芯片也可以理解。”J叔说,“与外部的团队合作是腾讯自研芯片的一个好选择,无论是资金投入还是失败的成本,都可以降低。从腾讯的业务需求来看,DPU与云计算架构强相关,能够实现差异化。但我认为其自研CPU和GPU的价值更高,CPU是因为需求很大,GPU则和腾讯的游戏业务相关。”

张丁也表示,AWS的Arm架构CPU已经取得了一些效果,阿里的倚天710也是Arm架构。

腾讯自研芯片还有一个不确定性,是其目前自研芯片项目由CSIG和TEG两个事业群的联合项目组负责。

联合项目组的方式,其好处是可以借两个事业群之所长,劣势是由于两个组织之间目标不一、考核不一,缺乏统一的、强有力的组织保障,协作成本相对较高。

不过有两位资深人士都表示,在云计算市场,传统服务器芯片公司的地位依旧比较强势,无论是腾讯还是其他大厂,自研芯片会或多或少传达出一种“想部分取代原有芯片供应商”的信号,既会直接影响其与传统芯片公司的合作关系,也会间接引发公司内自研芯片部门和芯片采购部门之间的矛盾。

前面提到,腾讯在自研服务器以及自研芯片的进展相对较慢,这也意味着腾讯更依赖传统芯片巨头。作为英特尔的全球七大客户之一,腾讯长期享受着英特尔的特权服务,比如专属的销售服务团队,高级别技术专家的服务,差异化产品需求的满足,以及高额度的采购折扣。

因此平衡内外部矛盾,是企业们急需解决的问题。

尤其像腾讯这种用了十多年时间树立起的来“只为伙伴提供平台,不抢对方饭碗”的合作人设,在此问题面前,如何平衡好“自己做”和“帮助别人做 / 别人帮我做”之间的矛盾,变得异常的困难。

因此现阶段的腾讯把主导权交给外部芯片合作伙伴,既保护了自己十年如一日的合作立场,同时也有利于供养出自己的半导体生态,诸如互联网圈的京东、滴滴、美团、拼多多、虾皮。

有意思的是是,腾讯宣布自研芯片的当天,其股价小幅拉升。

长远看,自研芯片确实是互联网公司提升技术形象很好的加分项。

对于互联网巨头们来说,决定自研芯片本身就要考虑诸多内外交织的因素。更考验他们的是,一款芯片从研发到量产的周期以年来计算,这与互联网公司们快速迭代产品的习惯有显著差异,耐心、决心、尊重芯片产业的规律都决定着互联网巨头们自研芯片的成败。

当然,互联网巨头们自研芯片的成功与否,也将影响着全球芯片产业的竞争格局。这或许是芯片行业合久必分的一个开始。

跨界“造芯热潮”系列的下一篇文章将探讨手机大厂争相自研芯片的真相,欢迎添加策划人微信BENSONEIT(注明来意),爆料更多你知道的跨界造芯故事。

]]>
芯片设计 //m.drvow.com/category/chipdesign/HiptV35BskaHYZcL.html#comments Mon, 18 Apr 2022 19:00:00 +0800
全球首款3D晶圆级封装处理器IPU发布,突破7nm制程极限 //m.drvow.com/category/chipdesign/hbqTOXts9yqXDQ2j.html 雷峰网消息,本周四,总部位于英国的AI芯片公司Graphcore发布了新一代IPU产品Bow,这是其第三代IPU系统,发布即面向客户发货。与上一代IPU相比,Bow IPU性能提升40% ,能耗比提升了16%,电源效率也提升16%。

值得注意的是,这一次Bow IPU的性能提升并非主要依赖采用更先进的制程,Bow IPU采用了和上一代IPU相同的台积电 7nm,通过采用和台积电共同开发的先进硅晶圆堆叠技术(3D Wafer-on-Wafer)达到性能和能耗比的提升。

Bow作为世界首款3D WoW处理器,证明了芯片性能提升的范式从先进制程向先进封装转移的可行性。

新一代 IPU 性能提升40%,价格保持不变

2016年,Graphcore成立并开创了全新类型处理器架构IPU,因其在架构上的创新曾被英国半导体之父Hermann Hauser称之为是计算机历史上的第三次革命。

经历6年时间的发展,Graphcore的IPU逐渐在在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四,Graphcore又推出了第三代产品Bow IPU。

据Graphcore介绍,第三代IPU相对于上一代M2000,性能提高40%,每瓦性能提升16%,即能耗比实现16%的提升。不过,AI芯片的真实性能还需要放在不同的应用领域中讨论。为此,Graphcore也给出了在不同垂直领域中Bow的性能表现。

在图像方面,无论是典型的CNN网络,还是近期比较热门的Vision Transformer网络,以及深层次的文本到图片的网络,与上一代产品相比,Bow IPU都有30%到40%的性能提升,在EfficientNet-B4这一项中,接近理论上限值。

BERT训练模型是自然语言方面的经典模型,基于BERT,OpenAI提出了GPT-1、GPT-2、GPT-3等纵向扩展或横向扩展,通过更深的网络层次和更宽的网络宽度让模型的性能和精度进一步提高。

“我们可以看到,这些模型在我们最新的硬件形态上都有很大的性能提升。”Graphcore中国工程副总裁、AI算法科学家金琛介绍道。

不仅如此,转换到实际模型中的吞吐量,与IPU POD64相比,在计算机视觉的ResNet50 和 EifficientNet-B4 训练模型中,Bow Pod64的吞吐量能够达到34%和39%的性能提升。自然语言方面, BERT-Large Ph1 预训练模型和语音识别Conformer Large 训练模型,后者都有36%的吞吐量提升。

作为英伟达的竞争对手,Graphcore自然不忘将 Bow Pod16 与DGX-A100进行对比,实验数据表明,EfficientNet-B4的backbone的训练在DGX-A100上需要花费70个小时的训练时间,而在Bow Pod16上,只需要14小时左右。

接近理论极限的性能提升,Graphcore Bow IPU是如何实现的?

5nm不再是首选,采用先进封装性价比更高

从芯片的规格上看,Bow IPU是世界上第一款基于台积电的 3D Wafer-On-Wafer的处理器,单个封装中拥有超过600亿个晶体管,具有350 TeraFLOPS的人工智能计算的性能,是上一代MK2 IPU的1.4倍。片内存储较上一代来看没有变化,依然保持0.9GB的容量,不过吞吐量从47.5TB提高到了65TB。

“变化主要体现在,它是一个3D封装的处理器,晶体管的规模有所增加,算力和吞吐量均得到提升。” Graphcore大中华区总裁兼全球首席营收官卢涛说道。而在大家都关注的工艺制程上,Bow IPU 延续了上一代台积电 7nm 工艺制程,没有变化。

理论上,一颗芯片的性能提升很大程度上取决于工艺制程上的进步,但随着工艺制程越来越逼近物理极限,摩尔定律逐渐失效,业界不得不寻找新的技术方向来延续摩尔定律。其中,3D封装就是被业界广泛看好的技术方向。

中国工程院院士、浙江大学微纳电子学院院长吴汉明就曾在一次演讲中提到,如果将芯片制造和芯片封装相结合,也可以做到65nm工艺制程实现40nm工艺制程的性能功耗要求。

Bow IPU正好验证了吴院士的观点。

卢涛表示,Bow IPU产品性能的提升主要来源于3D WoW和新增的Die。

至于为何选择改变封装方式而不是更先进的工艺,卢涛则表示MK2 IPU有594亿个晶体管,大概823平方毫米,已经是7nm单个Die能够生产的最精密的芯片。

“我们评估从7nm、5nm,到3nm等不同工艺节点的收益时发现,从7nm到5nm的生产工艺提升所带来的收益不像以前从28nm到14nm一样,能够带来百分之几十的收益,而是降到了20%。这时候我们可以通过别的手段和方法获得同样的收益。”

通过3D堆叠的方式,Bow IPU的两个Die增加了晶体管的数量,其中一个Die(Colossus Die)和上一代一样,另一个Die主要用于提高跨Colossus Die的电源功率传输,优化Colossus Die的操作节点,从而转化为有效的时钟加速。

在同台积电的合作方面,卢涛告诉雷峰网,Graphcore在一年之前就同台积电合作了一颗测试芯片,与台积电的关系非常紧密,加上AI处理器本身规模较大,需要一些新技术支持落地,而从台积电的角度而言,新的技术也需要有需求的产品共同推进。

值得一提的是,虽然封装方式有所变化,但Bow IPU开箱即用,与前一代产品百分之百软件兼容,不用修改任何代码,老用户无需做任何软件适配工作就能获得性能提升,价格保持不变。

目前,美国国家实验室Pacific Northwest已经基于Bow IPU尝试做一些基于Transformer的模型以及图神经网络,面向计算化学和网络安全方面的应用,且给出了比较正面的反馈。

延续3D封装,开发超越人脑的超级智能机器

Bow IPU使用3D封装只是起点,面向未来,Graphcore正在开发一款可以用来超越人脑处理的超级智能机器。

Graphcore将这款正在研发的产品命名为Good Computer,一方面希望计算机能够为这个世界带来正面的影响,另一方面致敬著名计算机科学家Good。

基于3D WoW,预计未来Good Computer将包含8192个IPU,提供超过10 Exa-Flops的AI算力,实现4 PB的存储,可以助力超过500万亿参数规模的人工智能模型的开发。

取决于不同的配置,Good Computer价格将在100万美元到1.5亿美元之间。

卢涛表示,开发Good Computer还是会沿用IPU的体系结构,IPU的存储是在处理器里面,虽然不叫类脑、内存计算或存算一体,但从某种程度上而言,IPU的运作机理接近大脑计算的工作原理,只是把计算和存储相结合。

另外,Graphcore也将从软件方面更有效支持稀疏化以达到类脑的计算量。

雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/hbqTOXts9yqXDQ2j.html#comments Thu, 03 Mar 2022 19:57:00 +0800
AI比人类更懂芯片设计? //m.drvow.com/category/chipdesign/OvGtxvjza1ANUlJB.html 优化功耗、性能和面积(PPA)一直是芯片设计中的三个重要目标。但即使是最好的设备和经验最丰富的工程团队也无法保证优化结果的稳定性。

优化PPA的过程正受到越来越多因素的制约:应用、IP和其他组件的可用性不同,工程师对不同工具和方法的熟悉程度也不尽相同。例如,同样的设计目标既可以用更大的处理器实现更高性能,也可以用更小、更专业的处理元件更紧密的结合软件来实现。因此,即使在相同领域和相同的功率设计目标下,也会有许多不同的方法可以实现相同的目标。并且方案优劣的评价标准也是因领域和供应商的具体需求而异的。

另外,由于对芯片安全性的需求不断增加,优化过程变得愈加复杂。根据设备使用场景的重要性,其安全需求也各不相同。安全级别的高低会影响芯片功率和性能的设计,进一步影响IC制造成本、上市时间、交货时间和供应商的竞争力。

为了缕清这些因素,EDA供应商开始寻求人工智能和机器学习技术的帮助。芯片供应商们正致力于将各种AI功能集成到工具流中。根据麻省理工学院和德克萨斯大学奥斯汀分校的研究人员的论文,迄今为止该领域研究成果喜人。研究人员表示,使用了深度强化学习算法的设备在某些任务上的表现已经超过了人类。

在六个小时的实验中,研究人员通过对比使用强化学习的图卷积神经网络方法、传统的黑盒优化方法(贝叶斯优化、进化算法)、随机搜索方法、具有五年经验的设计师这四者的成果得到结论:带有迁移学习的强化学习方法可以取得更好的效果。换言之,基于人工智能的工具可以使晶体管设计更加高效。

如今,包括谷歌、英伟达、新思科技、Cadence、三星和西门子在内的许多公司都已经有在芯片设计中使用人工智能的计划,其中部分公司甚至已经在生产中进行这种尝试。

人工智能如何改变芯片设计格局?

直到今天,人们在设计芯片的过程中仍然在使用各种设计工具进行电路、逻辑门、布线、布局的仿真和验证。这么做是为了最大限度的减少可能的错误并且节约时间和成本,但这个过程相当乏味且耗时。

图 1:半导体设计流程中的各个步骤。 资料来源:eInfochips

设计芯片的流程有很多步骤:一般从确定芯片的规格和架构开始,然后遵循上面流程图中的各个步骤。在设计完成后,设计文件(GDS II)将会被发送给工厂。

当摩尔定律有效时,这个流程只需要根据实际情况进行微调即可。但随着制程红利正在消失,FinFET时代到来。由于先进制程研发成本的增高,芯片制造商们不得不开始寻找新的方法来实现PPA的优化。这种新变化显著增加了芯片设计流程的复杂程度,并使得按期交付芯片愈加困难。

“设计一个28nm芯片的平均成本仅为4000万美元,”IBS首席执行官Handel Jones说,“但现在设计一个7nm芯片的成本是2.17亿美元,设计一个5nm芯片的成本则是4.16亿美元,设计一个3nm芯片的成本甚至达到了5.9亿美元。”

 随着芯片的迭代,晶体管数量已经从几千个增加到了数十亿个。这使得芯片上晶体管排布设计的异构性越来越高,并且它们通常都会采用某种先进封装工艺。与之前只需要考虑如何将更多的晶体管排列在同一空间不同,现在芯片设计中还需要考虑到功率密度、热预算需求、各种类型的机械和电气应力、邻近效应以及工作环境等复杂因素。这使得设计过程耗时大大增加,同时也堆高了设计成本。更糟糕的是,芯片制造商间的持续竞争迫使他们必须在更短时间内实现芯片的迭代,否则就会在竞争中处于劣势。这导致了芯片制造商没有试错机会:一次设计失误就代表着巨额损失。

人工智能如何提高芯片开发效率?

将人工智能引入到芯片设计的流程中有利于减少流程复杂性、减少错误并缩短开发周期。

例如,在芯片设计中布线过程的90%已经实现了自动化,仅需要一位经验丰富的设计师完成最后10%的工作即可。人工智能的参与可以将这最后10%的时间进一步缩短。

图 2:人工智能的作用越来越大。 资料来源:寒武纪人工智能研究

“这一切都是为了效率,”Rambus的研究员Steven Woo说,“本质上不论是人类设计师还是人工智能,其目的都是为了实现芯片优化,但人工智能显然在这一过程中更有效率。我们会对算法模型进行预训练以让其更好的工作。由于引入了强化学习算法,随着时间推移基于人工智能的设计工具会变得越来越强大。假以时日它将能够向设计人员提供几乎无错误的解决方案,这种方案优化PPA的效率会比传统方案要高得多。此外,同样由于效率的原因,芯片之间数据交换的速度也非常重要,因为AI需要快速访问大量数据。”

许多人都支持Steven Woo的这一观点。西门子IC设计部门工程总监约翰.史纳比表示:“人工智能将使得芯片设计流程进一步自动化,尤其是在芯片布局的设计过程中。实践已经证明,在模拟电路中采用机器学习方案可以提高生产力。在布局设计上,AI可以用于生成FinFET节点中的最佳器件布局建议,以最大程度的减少互连寄生效应。当芯片设计涉及加速度计和陀螺仪等微机电系统时,AI能够参与参数化的设计流程,以与人类合作设计IC和MEMS器件。这将使得设计人员能够更快完成MEMS、IC的软硬件集成,使设计工作变得更加轻松。”

人工智能如何学习?

AI“智能”的基础是它可以在短时间内进行大量的识别和匹配工作,但遗憾的是AI并不能像人类一样“学习”知识。事实上,人工智能获取知识的方式和人类有着本质的不同。一般来讲,在算法应用之前需要将包含了大量数据的训练集或输入到算法初始模型中进行训练。在经过长时间训练之后,算法才能算得上拥有了“智能”。

(雷峰网编者注:AI的“智能”来自于其在数据集中进行大量尝试和策略调整而得到的不同情况下的最优解。在实际生产遇到的新场景中AI将这些最优解策略与实际情况进行匹配,从而得出相对实际场景最优的答案。这里举个例子来解释人工智能学习和人类学习过程的不同:人类可以在课堂上记住“1+1=2”的结论,并将其应用到“一个苹果旁边摆上另一个苹果”的场景中,从而得到“这里有两个苹果”的结论。而人工智能的学习过程则更像猩猩:通过两次将单个苹果摆在面前数出两个苹果,并将这一过程重复成千上万次。猩猩就可以在下一次面对“一个香蕉旁边摆着另一个香蕉”的场景时,得到“面前有两个香蕉”的结论。)

此外,人工智能还可利用强化学习方法(RL)来指导训练结果。RL是一种机器学习技术,可以为AI的学习过程加入奖惩机制。

在一个引入了奖惩机制模型的人工智能算法中,AI的学习总是从初始状态开始,并会输出一些随机结果。然后设计师会对该结果做出判断,当该结果被接受时,将视为对模型进行了“奖励”,模型会继续向着这个趋势进行优化。相反的,当该结果被设计师拒绝时,将视为对该模型的“惩罚”。模型会调整策略方向。无论是设计师拒绝还是接受该结果,算法模型都会进入在调整后进行下一次迭代,并输出新的结果以让设计师接受或拒绝。因此随着RL学习过程的持续进行,人工智能算法将会变得越来越完善。

西门子工业软件高级副总裁兼总经理Ravi Subramanian为机器学习进一步做了解释:“机器学习是人工智能的一个子集,指的是机器无需外部编程实现自我进化的过程。传统设备的运行规则遵循计算机语言中if-then-else语句的‘二极管’逻辑和线性顺序。但机器学习方法能够使设备不断从自身采集到的数据中获得反馈,从而指导设备下一步的行动。”

Subramanian表示,要让AI进行学习,需要三个前提条件:

其一是需要一个数据集,即一个包含了大量数据的库。数据可以是RTLIP、GDSII、C语言或SPICE表格等多种形式。(雷峰网编者注:数据集就是人工智能算法的初始输入,将数据集输入算法相当于给AI“例题”进行学习)

其二是需要一个算法模型。这个模型使得AI系统能够完成观测、学习、反馈等任务。基于这个前提使用了人工智能算法的设备才能根据每一次结果的输出动态调节自身策略,而不是和传统设备一样仅根据输入的程序运行。

其三是需要一个目标函数。并且设计一个围绕着这个目标函数的奖惩机制,以完成强化学习过程。(雷峰网编者注:目标函数是指一个规定“最优解”定义的函数。每次训练完成后,将会通过该函数输出一个返回值,一般称作τ,可以看做是算法每次“考试”后的分数。设计人员将会根据τ值与目标函数期望值的差距来决定对算法模型的奖惩)

“人工智能本身并不会做决定”,他解释说,“谷歌人工智能研究负责人Francois Chollet的说法很准确,他将人工智能定义为系统对数据进行分析后应用在陌生场景中的能力。”

汽车可以通过衡量每加仑油能行驶的里程或者每次充电后的最大行驶里程来衡量其续航优劣。但人工智能系统不同,每个人工智能系统的设计都是独一无二的,设计系统的工具也是各不相同的。但整个芯片行业都报告基于人工智能的芯片设计工具提高了生产力。

例如,谷歌将人工智能应用于芯片布图规划,并发现他们可以在不到六个小时的时间里完成从前工程师动辄需要数月的工作。无论是人类还是人工智能,两者都可以通过PPA优化得到满足制造标准的芯片设计结果,但在生产流程中引入了人工智能的企业生产效率显然更高。

“将人工智能应用于芯片设计过程肯定会提高芯片性能,”Cadence 数字与签核集团产品管理组总监 Rod Metcalfe 说。“例如,在设计过程中使用了人工智能的5nm移动CPU可以提高14%的性能,7%的耗散功率和5%的晶体管密度,这对于芯片设计很重要。”

这些改进在其他应用中也得到了体现。Synopsys 人工智能解决方案高级总监 Stelios Diamantidis 表示:“使用基于 AI 的设计技术,我们的客户表示他们能够与传统设计方法相比降低25%的功耗,这种提升是惊人的。”

AI在芯片设计领域的未来

对大多数人而言,难以想象将10亿个晶体管集成到一颗芯片中。但根据2021年6月新思科技的报告,他们已经制造出了一种含有1.2万亿个晶体管、400000个AI内核,面积为46225mm2的芯片。这是使用传统工具的人类设计师无论如何也达不到的技术高度。

Cambrian AI Research 创始人兼首席分析师 Karl Freund 表示:“在芯片设计流程中引入人工智能来提高效率现在已是大势所趋,至少对主要芯片供应商而言是这样的。像Synopsys DSO.AI这样的系统正在为公司节省时间和金钱,并生产出功耗更低、性能更高、面积更小的芯片。现在,业界正将注意力转向优化物理设计之外的下一步,例如系统、软件算法的优化和设计验证。整个行业都在从这些创新中受益,消费者也将能用到性能更强劲,功耗更低,更便宜的芯片。”

所有主要的EDA公司都在致力于将AI功能加入到他们的芯片设计流程中。并且,人工智能不仅可以帮助他们将更多东西塞进更小的空间里,还可以帮助他们将更多东西塞进更大的空间里。

图 3:Cerebras 的晶圆尺寸芯片。 资料来源:大脑系统

Cerebras Systems 的第二代芯片采用7nm工艺开发,包含2.6万亿个晶体管和 850,000 个 AI内核。这是目前世界上由人工智能设计的最大的芯片,它和一个盘子的大小相当。相比之下,世界上最大的GPU也仅有540亿个晶体管。Cerebras 的芯片有40 GB片上内存来支持 AI 计算。要设计这种体量的芯片,必须使用基于人工智能技术的芯片设计工具。

未来,在PPA问题之外,人工智能还可以在集成芯片安全性等领域提供帮助。

西门子的Subramanian指出,人工智能已经在至少四个领域得到了应用:1、创建一种设计和验证IC的新方法;2、减少设计过程中的错误并既减少设计时间;3、构建一个基于机器学习原理的新计算架构;4、构建基于人工智能算法的芯片。

结论

当问题能够被人工智能理解的方式明确定义时,人工智能在设计中的效果最好。(编者注:即需要将实际生产中的种种情况准确的转化为目标函数的一部分。)因此,IC设计者必须先考虑是否存在与人工智能适应、学习、概括能力相关的问题,设计好目标函数。这样人工智能才能够准确的将这些知识/规则运用到不熟悉的场景中。

“了解是否存在非常适合人工智能的问题是第一步,也是最重要的一步,” Subramanian说,“这也可能是有人工智能参与的芯片设计流程中最关键的一环。”

到目前为止,已经有很多领域显示出人工智能的优势,并且无疑未来人工智能会在更多领域中显现出这种优势。

曾经人们对于AI可能会昙花一现的顾虑已经消失。如今站在面向未来的交叉路口上,人们正憧憬的眺望。一个新问题此时在人们的脑中回荡:“人工智能还能够做什么?”这个问题的答案或许就是交叉路口上应该竖起的路标。


]]>
芯片设计 //m.drvow.com/category/chipdesign/OvGtxvjza1ANUlJB.html#comments Thu, 17 Feb 2022 18:41:00 +0800
AI芯片创业公司们走到分岔口 //m.drvow.com/category/chipdesign/cQ9qpk6MrseCtTJU.html 距离2016年左右的AI芯片创业热潮已经过去五年多,从团队组建,到芯片设计、再到产品落地,AI芯片公司们到了交出一份答卷的时间。

Graphcore大中华区总裁兼全球首席营收官卢涛

Graphcore大中华区总裁兼全球首席营收官卢涛对雷峰网表示,“2022年AI芯片公司的竞争会更加激烈,因为不同的公司选择了不同的策略和路径,今年开始能看得更加清晰。”

实际上,从2020年开始,大部分AI芯片公司都开启了芯片的落地,然而由于AI芯片与传统芯片有明显的差别,芯片提供者与使用者之间的认知差异,加上疫情的影响,和全球蔓延的缺芯潮,AI芯片的落地和大规模使用面临重重挑战。

2021年,业界更加关注AI的部署,包括对机器学习框架的关注,支持的模型,以及集群的管理和调度管理。

想要成为AI芯片的佼佼者,有哪三个秘诀?

AI芯片公司面前的七个台阶

AI热潮催生了大量的芯片初创公司,初创公司要成功落地全新类型的AI芯片,挑战当前巨头,可以以攀登珠穆朗玛峰来比喻。

卢涛认为,如果今天的巨头在珠穆朗玛峰上,想要达到巨头的高度,需要攀登七个台阶。

第一个台阶是组建团队,第二个台阶是宣讲理念,第三个台阶是设计出芯片,第四个台阶是有芯片且能给客户送样品做测试,第五个台阶是有产品有落地,第六个台阶是有产品,有很多落地的,第七个台阶是有很大的市场份额。卢涛认为Graphcore处于第五到第六个台阶间。

处于这个阶段的公司,表明其已经解决了许多技术挑战。AI计算与传统的CPU有显著的差别,过去5-10年间,CPU的应用都十分明确,比如Web服务、数据库服务、存储服务等。但AI整体面向的应用有许多创新和研究,整体呈高度动态化。

在这样的情况下,AI芯片的落地更显艰难,步骤大致可以分为三个,首先,要用AI芯片的性能优势吸引客户,接下来客户会考虑软件移植的难度以及时间,在历经验证之后,才能实现大规模部署。

这个过程可以说是漫长而又挑战重重。其中一个非常大的挑战就是AI芯片提供者和使用者之间认知的差异。“从我们的角度而言,虽然这种认知的差异有所改善,但挑战仍然持续存在。”卢涛说,“比如,不少用户可能觉得我们的IPU性能表现好,并想能在不修改代码的情况下迁移到IPU,这就需要我们在软件和生态方面做大量的工作。”

AI软件和生态的建设,要求对某个具体的应用领域有比较完整的认知,实现整个业务端到端的配合,不仅仅是AI,还包括AI芯片与其它设备、系统的配合,运维管理等。

卢涛指出,“作为计算平台的提供者,要让最终用户把我们的平台用好,生态非常重要,生态建设能够降低用户的使用门槛。同时,垂直案例也非常重要,通过‘打样板’,能够显著加速在某一行业的应用。当然,加强与AI平台厂商的合作同样关键。AI领域有两种用户,一种是AI开发者,有了案例就可以做相应的开发,还有一种是AI平台型企业,他们可以把AI技术封装以提供给其他人员使用。”

对于有计算机背景的开发者或研究员,他们可以基于TensorFlow、PyTorch和百度飞桨等进行编程,如果不具备这个能力,就需要借助更高级的框架,比如Hugging Face来降低开发门槛,简化开发。这两者的开发难度有显著差别,如果用PyTorch实现一个业务,可能需要两百行代码,但采用Hugging Face,可能用50行代码就可以完成。

成为AI芯片领先者的三个关键

不难发现,想要实现AI芯片的大规模落地,减小AI芯片提供者和使用者之间的认知差是关键,这其中的关键又是软件和生态的建设。

但要成为AI芯片领域的领导者,卢涛认为有三个关键:预判+冒一点风险+一点运气。

“Graphcore在2016年成立时,只能追赶。对于新的领域,如果能提前预判,就可能在领域里具备领先性。”卢涛具体解释。

2016年,传统的机器视觉模型ResNet已经存在,这时候Graphcore需要追赶,作为追赶者需要做一些预判发现机会。2020年,Graphcore关注到了Transformer技术,这种技术本来是用于自然语言处理的底层技术,但业界出现了用Transformer做计算视觉的趋势,Graphcore率先开始支持。

到2021年下半年,一些基于Transformer的视觉模型,比如ViT成为了热门。由于有提前的预判,Graphcore对于新的基于Transformer的视觉模型以及GNN都有很好的支持,很多创新和前沿的模型比GPU支持得更好。

正是凭借着创新的IPU硬件和不断完善的Poplar软件生态,Graphcore在2021年有不少应用案例。在2021年下半年,安捷数科利用IPU进行气象预测、精准灌溉、防灾减灾。深势科技完成分子动力学模拟软件DeePMD-kit向IPU硬件的迁移,探索基于分子动力学模拟的科学计算、药物设计、材料设计和新型能源等场景。

在金融保险领域,牛津-英仕曼用IPU进行股价预测;Tractable与Graphcore达成合作,加速事故和灾害恢复。电信方面,Graphcore与韩国电信合作发布了IPU云。在城市环境可持续发展领域,升哲科技基于IPU进行城市相关可持续发展方面的应用。在医疗、生命科学领域,Graphcore与斯坦福大学医学院合作,使用IPU以“医疗+隐私计算”为核心方向进行了一些研究和探索。

但这些应用案例多为前沿技术和应用的探索,不是大规模的商业应用。对此卢涛表示,“商业领域内,我们有一些大规模应用的客户,他们更关注于自身业务给客户带来的价值,很少和技术厂商一同发布新闻。前沿的研究更加开放,研究者也希望结果能让更多人看到,自然会有更多可以分享的案例。”

他也同时透露,2022年,Graphcore会有一些和国内公有云厂商的IPU产品发布,也会有新的硬件产品的发布。Graphcore也会在一些相关的AI应用领域中会进一步加深合作,比如AI辅助科研、自动驾驶等是他们2022年在AI应用或垂直领域中比较重要的方向。

值得一提的是,Graphcore的IPU与CPU的硬件解耦,有助于IPU更好的拓展市场。比如在BERT训练中,Graphcore采用一台2颗CPU的服务器和64颗IPU,比例为1:32,在计算机视觉模型中的比例则基本为1:8。但如果是英伟达或者英特尔的系统,无论何种场景和模型,都会有一个固定的CPU和GPU比例,比如1:4或1:2。

写在最后

AI芯片的竞争最终依旧会演变为生态、商业的竞争。在AI芯片的早期阶段,虽然参与者众多,但各自都在团队组建和产品开发的阶段,AI芯片公司间并没有真正的竞争关系。随着AI芯片的发布,以及落地的推进,AI芯片公司之间的竞争才真正开始。

当越来越多的领域和客户开始关注AI的规模应用和落地时,自然会加剧AI芯片公司之间的竞争,这时候,已经不再单纯比拼硬件性能,软件和生态才更能打动最终用户。

2022年,我们将看到AI芯片公司间的竞争日趋激烈,我们也将慢慢看到AI芯片公司们真正的实力。雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/cQ9qpk6MrseCtTJU.html#comments Tue, 25 Jan 2022 11:08:00 +0800
UWB芯片设计公司瀚巍微电子完成Pre-A+轮融资 //m.drvow.com/category/chipdesign/OWSHWQlYsAj8Duqn.html 雷峰网1月12日消息,低功耗UWB(超宽带)芯片设计公司瀚巍微电子(MKSemi) 宣布完成Pre-A+轮融资。本轮融总额8000多万人民币,将用于产品研发,市场扩展以及人才引进。本轮融资由光速中国和高榕资本联合领投、启明创投和常春藤资本跟投。

瀚巍微电子成立于2019年,由多位资深数模混合信号设计领域的专家领衔,专注于UWB芯片及方案的设计开发。瀚巍的低功耗UWB技术,可增加电子产品的电池寿命,使在尺寸要求极其严苛的无线传感器端产品上增加UWB定位功能成为可能。

UWB超宽带技术源于20世纪60年代,通过超大带宽,实现低功率谱密度上的快速数据传输。目前苹果、三星等巨头均开始在手机、智能手表、智能音箱及手机配件中集成UWB技术。据市场调研公司ABI Research透露,尽管UWB的生态还处于早期阶段,但整个行业正在快速成长。预计到2026年,内置UWB技术产品的出货量,将从2020年的1.43亿部,增长到13亿部。

在完成Per A+的同时,瀚巍正式发布其最新款UWB无线SoC(系统级芯片)产品MK8000,该芯片功耗低、系统集成度高,满足当下智能手机和物联网产品对UWB芯片的需求。

联合创始人、CEO张一峰博士表示,现阶段瀚巍正积极开展与手机平台公司的密切合作,并同时加速推广新产品MK8000在消费类电子和工业互联网产品领域的应用,例如智能家居,智慧城市,汽车,可穿戴产品以及健康监控设备等。

此轮融资之前,瀚巍微电子于2020年年底完成了数千万人民币的Pre-A轮投资,由OPPO领投,中芯聚源投资和联发科跟投。

]]>
芯片设计 //m.drvow.com/category/chipdesign/OWSHWQlYsAj8Duqn.html#comments Wed, 12 Jan 2022 14:46:00 +0800
国家级基金领投,EDA公司芯华章宣布获得数亿Pre-B+轮融资 //m.drvow.com/category/chipdesign/i9Ak3utrzLBEOwXT.html 雷峰网消息,2022年1月5日,EDA(集成电路设计工具)智能软件和系统领先企业芯华章宣布完成数亿元Pre-B+轮融资,由国家制造业转型升级基金旗下的国开制造业转型升级基金领投。

据悉,本轮融资将加大产品研发投入,并加快新一代EDA的下一阶段研究及技术创新。

芯华章董事长兼CEO王礼宾说:“非常荣幸芯华章能得到国家级基金的认可,这是对过去近两年团队日夜兼程交付成果的莫大肯定。我们深信,中国在数字化领域,尤其在人工智能、云计算、汽车电子等方面,将会逐渐引领全球。芯华章作为中国本土的EDA供应商,我们的一大优势是离这个充满爆发力的市场很近,我们将以客户需求为导向、以终为始来推进研发并搭建生态。未来,我们将坚守初心,以更多的原创技术赋能产业,让更多系统应用的创新得以实现。”

芯华章成立于2020年3月,公司名字寓意开启芯片产业的华力篇章。虽然成立时间不久,但芯华章推出产品的速度很快,也获得了多轮融资。

2020年11月26日,芯华章推出支持国产计算架构的全新仿真技术,以及成本最多能节省4倍的高性能多功能可编程适配解决方案。

2021年11月,芯华章又推出四款产品:高性能FPGA原型验证系统桦捷(HuaPro-P1)、国内领先的数字仿真器穹鼎(GalaxSim-1.0)、新一代智能验证系统穹景(GalaxPSS)、国内率先基于字级建模的可扩展形式化验证工具穹瀚(GalaxFV)。

资本也十分看好芯华章,公开信息显示,从成立至今,芯华章对外宣布了6轮融资消息,金额都是亿元人民币级别。雷峰网

]]>
芯片设计 //m.drvow.com/category/chipdesign/i9Ak3utrzLBEOwXT.html#comments Wed, 05 Jan 2022 17:48:00 +0800
国产EDA觉醒时代:从港中文走出来的ICCAD竞赛冠军 //m.drvow.com/category/chipdesign/g39w2kEoqs8L688U.html 2014年博士毕业那年,摆在魏星面前的无非三条路:一,去美国Cadence、Synopsys或Mentor工作,像他在港中文的大多数同学一样;二,找一家互联网企业上班,像他以前在清华EDA实验室的许多师兄师姐一样;三,自己创业,留在国内继续研究EDA。

最终,这位天之骄子选择了当时对他来说性价比最低、也是最艰难的第三条路——创业。

与师兄魏星相比,2019年毕业的陈耿杰与贝泽华要「幸运」得多。

在他们毕业这一年,美国宣布对华为制裁,不允许华为在芯片制造中使用由美国设计、生产或授权的EDA软件工具。一夜之间,EDA成中国卡脖子技术,华为、中芯等等大厂开始大量招募EDA研发人才,他们也由此有了一个更大的舞台,可以留在国内研究EDA。去年,陈耿杰与贝泽华就加入了华为。

近两年,「EDA人才培养」成为解决中国卡脖子问题的话题聚焦点。相比当下的人才短缺,大众鲜少讨论、但更值得关注的是:2019年以前,国内的EDA人才如何生存?EDA软件公司又是如何夹缝求生?

而EDA人才的去向,从十年前的「大多从事互联网」,到如今「炙手可热、供不应求」,正是国内EDA行业变迁的缩影。


一、创业(上)

2014年,魏星与同门师兄弟刁屹、林德基,以及他们共同的博士导师吴有亮(David Wu)一起创立了奇捷科技(Easy-Logic),次年在离香港中文大学不远处的香港科学园落地,是香港第一家从事EDA软件工具研究的企业。

图注:香港科学园

奇捷科技的创业目标,是研发出一款能够自动处理功能性工程变更(Functional ECO)问题的EDA工具。

EDA的全称为「Electronic design automation」(电子设计自动化),主要用于辅助芯片设计,是芯片制造的两大核心技术之一(另一项是光刻机)。根据不同功能,EDA工具可以分为数字设计、模拟设计、晶圆制造、封装与系统等五大类,其中数字设计又可以分为前端设计与后端设计,奇捷科技团队要研究的ECO工具便属于后端。

这个想法,源于魏星与团队在读博期间参加ICCAD的CAD竞赛经历:

2012年,魏星与林德基、刁屹组队参加CAD竞赛。当时,他们挑战的是美国EDA三巨头之一Cadence所出的Problem A——寻找功能性工程变更(Functional ECO)的最小逻辑差,团队经过五个月的努力,最终提出了出色的ECO算法,获得了第一名。

ICCAD竞赛的前身为台湾在1999年创办的CAD比赛,自2012年列入ICCAD。每一年,ICCAD竞赛会出三道题,分别为Problem A、B、C,覆盖前端与后端,由Cadence、Synopsys、IBM等工业巨头出题,题目往往是它们在实际生产中遇到的问题,并提供工业级数据进行测试,每年都会吸引全球近200支队伍参赛,是EDA领域影响力最大的国际学术竞赛。

魏星与团队代表港中文在ICCAD竞赛中首次夺冠,不仅拉开了港中文在ICCAD竞赛中表现突出的序幕,其算法的性能甚至比Cadence自己的工具还优越,更是给他与团队带来了巨大的鼓舞。

此后两年(2013年、2014年),魏星与团队又连续夺冠,2013年港中文更是一举拿下A、B、C三道题的冠军。2012年至今,ICCAD的CAD竞赛一共产生了30个冠军,香港中文大学拿了11个(排名全球第一),奇捷科技的创始团队便贡献了3个。

图注:ICCAD2012 港中文冠军团队,从左到右分别为刁屹、吴有亮、林德基与魏星

连续三年在全球顶尖EDA竞赛中夺冠的经历,使魏星等人对ECO工具的研发信心倍增。

2014年,魏星博士毕业,自然考虑就业。

那时,港中文的大多数EDA毕业生会选择去美国的EDA软件设计公司Cadence或Synopsys工作,因为无论是香港或大陆,EDA产业的发展均处于几近荒芜的状态,就业机会少,薪资待遇也不具备优势。但魏星并不想去美国,一是有时差,二是往返飞行时间太长。

要留在国内发展,原先也大概率是进互联网或金融行业。EDA就相当于计算机系里的「数学系」,里面用到了非常多数学知识与数学模型,只要学好EDA,无论是去互联网大厂写代码,还是去金融行业做模型,都非常容易。EDA在国内火起来之前,魏星在清华EDA实验室的许多师兄师姐毕业后基本都进了互联网大厂;国内其他EDA重点高校,像复旦大学早年培养的EDA毕业生也大多转了金融行业。

但对魏星来说,明明他们在EDA这一块有所造诣、却要转行,多少有些不甘心。

那一年,恰巧魏星的导师吴有亮六十岁退休。吴有亮带领的实验室是港中文在研究ECO上的独一脉,在逻辑优化、逻辑验证、逻辑等价性变换等方向做了许多研究。魏星等人是吴的关门弟子,如果他们毕业后不继续研究,那么ECO这一脉就断了。

EDA的底层是算法,魏星本人对算法设计与程序研究也比较感兴趣,因此,综合多个因素,又有前三次ICCAD竞赛的冠军算法「壮胆」,没有想太多,他就决定了要创业。


二、创业(下)

「后面就有点上了贼船下不来的感觉了。」魏星调侃自己道。

ECO,全称为「Engineering Change Order」,即「逻辑功能更正」,即使在拥有数十多年发展历史的EDA领域也属于小众分支、后起之秀。目前,在美国EDA三巨头中,也只有Cadence研发出了一款Conformal ECO,Synopsys称已进行到Beta Version(测试版),Mentor Graphics则毫无进展。

简单来说,ECO的作用是「局部补丁」,伴随着芯片功能设计的日益复杂化而出现,主要是为了减少芯片设计中因发现某一流程出错而需重新调整的时间长度,降本增效。

当前,芯片设计的全流程耗时越来越长,动辄上千万个逻辑单元,从开始设计功能到最后流片,往往要一年以上。假设一款芯片设计已经用了九个月,布局布线也已完成,即将流片时才发现第一步的逻辑功能出错(如将「红黄蓝」写成「红黄绿」),需要修改。由于后面的步骤都是基于第一步,如果将第一步推翻,后面的步骤也会跟着失效,相当于整个芯片要重新设计。对于芯片厂商来说,这意味着成本会大幅增加。

这时,ECO工具就派上了用场:当芯片设计进行到后期,若发现前期的逻辑功能存在错误,则可以通过逻辑补丁对局部电路进行调整。比方说,一个逻辑功能由10万个逻辑单元构成,使用ECO工具可以只调整数十个、或数百个逻辑单元,其余单元不变,即可将问题解决掉,也无需重新设计芯片。

听起来是一个神奇的工具,但在奇捷科技刚成立时,大陆的许多公司并不知道ECO是什么,也不了解它的重要性。他们去联系芯片公司,得到的回答往往是:「EDA软件是什么?要买就直接买设备与器材,买一个软件好像很亏。」

没有市场、没有融资、没有人才,魏星回头看,感慨道:「直到2019年年底之前,这个(创业的)过程都是很痛苦的。」

2018年,经过四年的艰苦研究,奇捷科技推出了第一个ECO工具版本——EasyECO。虽然是首款国产逻辑功能自动更正软件,但并没有受到市场的追捧,在客户的心中认可度并不高,即使有人愿意出钱购买,价格也不高。而那时候,奇捷科技的账面已经几近归零,接近大半年发不出工资,「当时差一点就倒闭了」。

马死落地行,他们开始找投融资。当时大陆对EDA或ECO几乎没有概念,他们也找不到投资。后来,他们找到了台湾的联发科(MTK),联发科觉得EasyECO有一定的技术含量,联合香港科学院一起投资了200万美元,奇捷科技才活了过来。

在这期间,魏星、刁屹与林德基三人的博士导师吴有亮也出了很大的力,无论是技术研发、发展策略还是资金援助。魏星回忆,在奇捷刚成立时,很难拉到投资,吴有亮就以股东借款的名义,在公司最困难的时候个人垫了两百万多港币。

问魏星是否后悔过创业、错失互联网大厂的百万年薪,他答:

「如果是已经在大厂里拿过年薪百万,那可能很难下定决心去创业,因为你会经历工资很低的状态。但因为我们一毕业就创业,没有真正拿过一百万,不知道年薪百万是什么感受,所以容易接受一点。」


三、2019年之殇

每一个行业的发展都有可以被列入史册的时间点。对于中国的EDA行业来说,2019年无疑是一个划时代里程碑。

2019年5月17日,美国商务部宣布将华为列入实体清单,断供美国芯片与软件,断供现代高端芯片设计必需的EDA工具。「芯片热」一时席卷大陆,原先国内各个籍籍无名的EDA软件公司也突然引起了人们的关注。

纵观EDA在全球的发展,我国EDA存在两个极具警示性的特征:

一,EDA是一个已经在全球、尤其是美国走了四十多年的行业,商业化模式十分成熟稳定,但在中国大陆却是一个新兴领域,处于朝阳蓬勃的上升期;

二,在全球任一EDA软件开发团队中,华人所占的比例往往最大,但在中国大陆,EDA人才数量却极少,处于严重短缺的状态。

据《中国集成电路产业人才白皮书(2019-2020年版)》显示,至2022年,我国前后端全行业人才需求将达到74.45万人,EDA领军人才尤其稀缺。

事实上,EDA人才的「流失」,无论是赴美工作,还是转行,都是因为2019年以前国内的EDA人才没有什么用武之地,行业薪资竞争力也大大不如互联网与金融,EDA软件公司与芯片公司亦然。魏星与奇捷科技便是一个例子。

EDA在美国的商业化始于上世纪八十年代,三巨头Mentor Graphics、Synopsys与Cadence均在这一时期创立,分别是1981年、1986年与1988年。而我国大陆地区较有竞争力的EDA公司华大九天成立于2009年,「EDA第一股」概论电子成立于2010年,其余大大小小的公司更是晚于美国三巨头30年以上。

技术的竞争背后往往是人才的较量,但人才的持续成长又往往要依托产业的成熟发展。

我国对EDA人才的培养计划并非近两年才开始。上世纪八十年代,欧美也曾在EDA软件上对中国限制出口,促使国内开始研发EDA。1986年,「863计划」便将EDA列为技术攻破重点之一,清华大学计算机系的EDA实验室与复旦大学专用集成电路与系统国家重点实验室等高校团队在承担科研任务的同时,也培养了一大批EDA人才。

1993年,国内自主研发的EDA「熊猫系统」问世,但没多久,欧美就放弃了对中国的EDA封锁于禁售,美国的EDA企业也相继进入中国市场,出现了「造不如买、买不如租」的局面。国产集成电路产业倾向于采用国外现成的成熟软件,国产EDA软件也丧失了发展的机会。

国产EDA软件公司夹缝求生,市场不买账,收入自然减少,人员薪资待遇随之下滑,发展空间小,转行或出国实是环境所趋。

但2019年的钟声敲响后,人们开始意识到基础研究的价值,「国产替代」成为解决卡脖子问题的先锋。原先在美国EDA三巨头工作的华人纷纷回国创业,政策与资金向EDA倾斜,数十家EDA创业公司如雨后春笋,互联网大厂也开始搞硬件,EDA人才也顿时变得炙手可热。

今年8月,招商证券电子研究团队发布《半导体行业深度专题之十—EDA篇:蓄势待发,国产EDA迎黄金时代》报告,统计了Synopsys和Cadence在国内的营收,显示2020年Synopsys在中国大陆的营收为4.21亿美元,占其总收入比例约11.4%,Cadence在中国大陆的营收4.07亿美元,占其总收入比例约15.2%,合计8.28亿美元。这也意味着,国产EDA公司具有近10亿美元的国产替代空间。

人们相信,「多点布局下,国内EDA生态逐渐形成,国产EDA迎黄金时代。」


四、幸运儿

与师兄魏星相比,2019年博士毕业的陈耿杰与贝泽华无疑称得上是时代的幸运儿。

陈耿杰与贝泽华的本科分别毕业于中山大学电子系与上海交通大学计算机系,两人同时在2015年进入香港中文大学计算机科学与工程系,师从EDA领域知名女性科学家杨凤如(Evangeline Young)教授,又先后在2015年、2016年带队在CAD竞赛中夺冠,更在2020年与2021年前后脚入职华为2012实验室。

图注:ICCAD2016B 港中文团队领奖现场,杨凤如(左二)、陈耿杰(左三)与贝泽华(右二)出席了颁奖典礼

在他们博士毕业那会,大陆的EDA相关岗位已经大幅增加,薪资待遇也好于从前。贝泽华描述,2015年开始读博时,他连EDA究竟是什么都不太清楚,但在2019年毕业时,已经可以胜任芯片公司的EDA岗位,专业对口的就业机会也明显增加。

他觉得自己很幸运,在2015年本科毕业、正处于迷茫期的时候,做了一个正确的选择。

杨凤如一年只招收两到三名学生,凡事亲力亲为。当时,贝泽华在考虑读博时,实际上并没有明确的人生规划,杨凤如在港中文的博士招生委员会里捞起了他的简历,给他发了一封邮件解释「学习EDA不需要太多的学科基础,主要是组合逻辑或数学优化问题」,邀请他去面试她的PhD,于是贝泽华去面试、顺利拿到了offer。

图注:贝泽华

在EDA不为绝大多数青年学子所知时,更多人是因为「巧合」而选择EDA,比如贝泽华,比如魏星。在魏星本科毕业、保送研究生时,他之所以选择读EDA,也是因为他的成绩处于保送名单末端,只能服从分配,最后进了当时「大家都不去的、有空缺名额」的EDA实验室。

但深入EDA的学习与研究后,他们都爱上了这门「有趣又有用」的学科。如魏星所说,EDA在集成电路中属于底层研究,支撑着上面的芯片设计、集成板卡与更上层的移动应用等,只需要解决好EDA领域内的问题,但对算法的要求又极高,这种「独立又专注」的问题特性很吸引他们。

相形之下,陈耿杰是少数主动选择EDA的人。他形容,EDA就是一个「用来解决硬件设计的软件」,他本科学的是电子专业,偏硬件,同时又接触过一些软件,对软硬件都很感兴趣,于是就折中地选择了EDA这个「软硬兼施」的专业,主动联系杨凤如、希望去港中文读博。

读博后,陈耿杰在EDA研究上取得了卓越的成就:博士还没开始读就获得了2015年CAD竞赛Problem A的冠军(2016、2018也夺冠),2017年ICCAD最佳论文奖(港中文第一位),2018年ACM SIGDA学生研究竞赛第一名,2019年ISPD竞赛冠军,2019年ACM学生研究竞赛第一名,2020年ACM杰出博士论文奖(EDA方向),2021年ASPDAC最佳论文奖。

图注:2019年,陈耿杰(左)在ACM学生研究竞赛中获得第一名,由图灵奖得主Yann LeCun(右)颁奖

博士期间,陈耿杰分别在美国的Cadence与Synopsys实习过,但毕业后,他并没有考虑赴美,而是加入了当时刚成立不到一年的EDA初创公司鸿芯微纳,负责先进技术节点启动的布局布线。呆了一年多后,觉得自己的成长不大,就跳去了华为。

贝泽华在博士期间曾获得2016年与2019年CAD竞赛冠军,并获得两次最佳论文提名(DAC 2016与ISPD 2019),也曾在Cadence与Synopsys实习。毕业后,原先他是计划进入Cadence,也拿到了offer,但呆了快一年后,也离开了Cadence、加入华为。

「当时想的是,Cadence既有经验,又有专家支持,经验能力慢慢积累就好了。因为里面都是十几年的工具了,已经十分成熟,每个人负责自己的职责、在上面添砖加瓦就行。而华为的项目很多是从0到1,经验和能力的积累会快很多。」贝泽华复盘。

在EDA研发被寄予解决中国卡脖子问题的手段,新时代的EDA青年,如贝泽华,如陈耿杰,所面临的责任也被赋予了新的意义。除了是一份养家糊口的工作,他们在参与研究EDA的过程中也有了不一样的感受:

「因为是解决卡脖子问题,所以有一种使命感,虽然我们也不会经常把这个挂在嘴边。」陈耿杰谈道。


五、转机

对一介小小的EDA创业者魏星来说,2019年也是一个重要的转折点。

2018年推出EasyECO后,他们开始在全世界与Cadence的Conformal ECO竞争。大部分情况下,由于名气小、工具新、研发支持不足,奇捷科技都是以失败收场。但2019年,在一次争取三星订单的过程中,他们打败了Cadence。

当时,三星有一个紧急的项目要用ECO工具修改逻辑单元。他们先是用了Cadence的Conformal ECO,发现要加四千多个逻辑单元,无异于推倒重来,工程师的心态十分崩溃。后来,他们采用了魏星等人开发的EasyECO,只需加四五十个逻辑单元就将问题改正,喜出望外,就选择了购买奇捷科技的工具。

「评价ECO工具的性能好坏,标准很简单,就是看修改的逻辑单元数量。如果要修改几千个逻辑单元,要一两个月的时间,工程师就很痛苦,相当于他要重做。但如果只修改几十个逻辑单元,一天就可以完成,工程师就很高兴。」魏星解释,「ECO工具的底层是算法。如果核心算法运行地好,就能快速求解出近似最优解,快速解决问题。」

之后,三星的其他部分也购买了奇捷科技的ECO工具,成为了奇捷科技最大的客户。

「我们现在有十几个客户,都是我们一点一点打下来的。」魏星自豪地谈道。他对AI科技评论回忆,从2020年开始,他既当CEO又当CTO,满世界跑,2019年有小半年都在台湾,光AMD就去了五六次。飞廉价航班,住平价旅馆,如此辗转。

虽然艰苦,但几年下来,随着产品在市场的认可度提高,魏星等人开始越来越有成就感:「我们去AMD也是直接测试他们的5nm电路。如果我们不开这个公司,可能我们很难有机会去与这样的国际芯片巨头合作,获得他们的重视,还能与Cadence的工具去PK。」

据介绍,2018年与2019年,奇捷科技的年收入都不超过100万人民币,今年预计可以达到100万美元,自负盈亏指日可待。

2019年以后,随着国内对EDA商业工具的关注度在上升,他们在融资方面也顺利了许多,不久前也完成了近4000万元的A轮融资。

除了EasyECO,奇捷科技接下来还计划向市场推出 Formal Arithmetic Verifier(FAV)算数逻辑形式验证工具与Easy-iPlace智能布局布线工具。在2014年的CAD竞赛中,FAV工具的完成率达到了100%,设立了算数逻辑形式验证工具的行业基准。而Easy-iPlace则可以使芯片的曼哈顿总导向长度减少1-3%,从而获得经过优化的布局结果。

如今,奇捷科技已成为国产ECO的独角兽。魏星笑道:「我们不敢说自己是世界第一,因为还有Cadence的Conformal,但至少也可以排得上世界第二了!」


六、EDA人才回流与培养

纵观港中文历年EDA毕业生的去向,我们不难发现:早些年,港中文所培养的大部分EDA博士毕业生都去了美国硅谷,但随着国家对EDA的重视加大,越来越多博士生选择回到大陆发展。

近两年,虽然大陆各高校开始加大对EDA人才培养的投入,但终究起步晚,人才供应数量有限。而作为一所老牌名校,港中文计算机系从上世纪90年代开始研究EDA、培养EDA研究生,一定程度上可以弥补我国大陆在领军人才一块的不足。

港中文最早的EDA带头人是黄泽权(Chak-Kuen Wong)教授。他于1970年在哥伦比亚大学获得博士学位,而后加入美国IBM研究院从事EDA相关研究,1995年回到港中文任教,1996年出版EDA经典教材《An Introduction to VLSI Physical Design》,之后港中文就逐步建立起了世界级的EDA研究团队。黄泽权本人更凭借在EDA领域的成就入选IEEE Fellow与ACM Fellow。

图注:黄泽权教授

二十多年来,港中文在EDA上持续投入。目前,港中文EDA方向有7位名师(如下图),研究范围覆盖了系统设计、架构设计、逻辑物理综合、测试与验证、制造与封装等EDA领域,近六年来在EDA领域国际顶会DAC&ICCAD上共计发表论文94篇(系统设计10篇、架构设计23篇、逻辑物理综合20篇、测试与验证21篇、制造与封装20篇),研究积累可谓深厚。

根据计算机领域的世界学术排名 CS Ranking,港中文在EDA (design automation)领域一直稳居世界前列,自2021年已经排名世界第一。

在人才培养中,港中文重视实践与知识的「传帮带」,如:自2012年起,他们每一年都会参加ICCAD、ISPD等等学术竞赛,鼓励学生去各大芯片设计公司实习,以此来锻炼他们的实战能力。魏星、陈耿杰与贝泽华等人都认为,CAD竞赛的参赛经历对他们学习EDA有很大帮助。

知识传承上,港中文的教师在招生上也十分积极主动。除了贝泽华,2019年与2020年CAD竞赛的冠军成员汪方舟也是在杨凤如的游说下选择了攻读EDA博士:

「当时与Evan(杨凤如)聊,觉得她是一个非常和蔼可亲的人,学生毕业后的去向也都挺好的。第二是看到老师组里的师兄师姐都很优秀,觉得可以从大家那里学到很多东西。」

图注:ICCAD2019C 港中文团队,最右为汪方舟

汪方舟的本科就读于香港城市大学。2019年毕业时,他身边的大多数同学都选择了热门的人工智能方向,而他想「做点不一样的东西」。于是,导师抛出橄榄枝后,他没有犹豫太多,就接受了offer。

这时,EDA在国内已经火起来,汪方舟的成长机会也多了许多。比如,在考虑实习时,他的选择已经不仅仅限于Cadence与Synopsys,还有国内的各大需要EDA工具研发的平台。今年,他就选择了进入华为诺亚方舟实验室实习。这样的机会,对于2012年代表港中文在CAD竞赛中首次夺冠的魏星来说,是不可想象的。

不过,据汪方舟介绍,目前在华为从事EDA的人,相较于美国三大家,大多是硕士,博士较少。这说明,培养高端的EDA人才仍是当务之急。

「其实EDA的门槛没有大家想象的那么高。」汪方舟分享自己的学习心得。他认为,EDA领域的问题并不难理解,只要努力提高编程能力、能用代码将想到的算法实现出来,同时多看相关书籍(比如《VLSI Physical Design: From Graph Partitioning to Timing Closure》),关注新兴研究,「不是EDA本科生也能很快上手」。雷峰网

从企业用人的角度来看,魏星则认为,EDA人才的培养一定要与芯片设计公司合作。「芯片行业的技术应用性很强,开发工业软件不能光凭想象。」在技术壁垒加深的情况下,鼓励高校学生去参加有工业界密切参与的学生竞赛(比如ICCAD竞赛)是一个不错的选择。


七、走在未来

问大陆EDA行业距离成熟期还差什么,魏星与贝泽华都不约而同地回答:「时间。」

关于时间,魏星还提到另一个维度:市场应给予新兴的EDA创业公司更多的耐心与宽容。

他认为,奇捷科技能从「差点倒闭」到「自负盈亏」,一是因为团队从参加ICCAD竞赛时就研发出了不错的算法,「底层算法是决定一个EDA工具成败的关键因素」;二是入场早,而EDA领域需要长时间的研发积累,「如果没个三五年的积累,很难让芯片设计公司接受我们的工具」。

而笔者认为,在关于时间的思考上,我们还可以有一个新的视角:未雨绸缪。也就是说,在科技的研究上,我们是否可以赶在一项技术真正被外国卡脖子之前主动去投入研发,即使当下的实际产值并不高?

这样「吃力不讨好」的事,显然企业是不会干的,只能由国家出钱、高校主导。然而,如果没有企业所提供的实际岗位与生产探索,预防卡脖子行动的闭环又是无法完成的,因为即使高校培养出了优秀的人才,没有就业机会,最终也是白忙一场。雷峰网

不过,单就EDA人才的成长与机遇来看,我们至少可以说一句「他们熬出头了」。但在未来的十年里,我们是否可以迎来国产EDA的黄金时代,人才只是其中的一个因素。

愿彻底的觉醒,愿不再酣睡。雷峰网

参考链接:

1. https://www.cpr.cuhk.edu.hk/en/press/cuhk-faculty-of-engineering-phd-student-receives-the-first-place-in-acm-student-research-competition-for-research-on-vlsi-routing/

2. https://mp.weixin.qq.com/s/u0SYUPc6XTvQ3vly-l_mkQ

3. https://www.eet-china.com/mp/a68540.html

4. https://www.sohu.com/a/506605446_166680

5. https://www.163.com/dy/article/FTARKTPS0511RIVP.html

6. http://csrankings.org/#/index?da&world

]]>
芯片设计 //m.drvow.com/category/chipdesign/g39w2kEoqs8L688U.html#comments Thu, 30 Dec 2021 15:24:00 +0800
从进口替代到全球一流!中国第一家上市的芯片设计公司,成立仅用『5分钟』 //m.drvow.com/category/chipdesign/Wmx1kywIqLdwAqRl.html 巨头林立的芯片行业,想要实现跨越式超越的难度超乎想象,因此,国内大多芯片公司只能从某一细分市场实现突破。但也正因为有了这些芯片公司的单点技术突破,加上资本、政策的共同努力,中国芯片产业才能有整体赶上甚至超越全球领先者们的机会。

为此,雷峰网策划了“中国芯片行业隐性冠军”系列文章,让更多人认识那些过去几十年默默投入的半导体人和公司,了解他们在细分市场实现突破背后的故事以及未来的可能性。

这是本系列的第二篇文章。


2019年开市的科创板,首批挂牌上市的25家企业中,芯片公司就有5家。此后的两年间,中国芯片公司迎来了上市潮,到2021年7月22日科创板开市两周年时,科创板已经有32家芯片公司上市,总市值超过1万亿。

2021年8月4日,科创板又迎来了一家创造了多个中国第一的芯片公司——复旦微电子。

复旦微电子是国内第一家发起式股份公司的集成电路设计企业,是第一家在港资本市场上市的国内芯片设计企业,还是第一家集成电路布图设计登记企业。

2021年8月4日,复旦微电子成功登陆上交所科创板,股票代码:688385.SH,形成“A+H”资本格局

让人意外的是,公司创始人仅花了5分钟就达成了组建复旦微电子的意向,创立2年就成功上市,23年后的今天已经推出比肩全球顶尖水平的FPGA。

从复旦微电子的发展历程中,可以看到中国芯片人的坚守和家国情怀,可以看到成百上千家中国芯片设计公司从进口替代到赶上甚至超越全球顶尖芯片公司艰难历程的缩影,也能看到中国芯片行业几十年间的变迁和未来走向。

复旦微电子的故事,要从享有世界盛誉的我国著名物理学家谢希德教授讲起。

三代人的努力,5分钟决定创立

50年代从美国回来的谢希德教授,在复旦大学开创了半导体物理的基础研究,为复旦微电子的成立培养了一位核心人物章倩苓教授。

复旦微成立的另一位核心人物是叶仰林教授,他到国外访问学者的时候,不仅看到了晶圆代工厂的出现将会影响全球半导体产业的格局,还看到了中国半导体产业和世界领先水平的差距。回国后,叶仰林教授向复旦大学贷款100万元,在1985年与章倩苓教授等人共同成立了复旦大学专用集成电路与系统国家重点实验室。

1998年复旦微电子揭牌成立,成为中国集成电路设计业第一家发起式股份公司

实验室能够培养人才,但想要留住被国外芯片公司吸引走的人才,还得靠企业。于是,叶仰林教授有了创立公司留住人才,发展国内芯片产业的想法。但成立并管理一家公司不是叶教授擅长的领域,资金也是个大问题。

叶教授1994年和在上海农投工作的施雷谈起了自己成立公司的想法。

施雷与芯片和叶教授颇有缘分,他在1985年考入中国科技大学管理科学系,中国科技大学把每个学生都当科学家培养,虽然是管理系的学生,但施雷也要和物理系一起上物理电路课,对集成电路了解不少。在复旦大学上管理系研究生的时候,施雷和叶教授实验室的人关系很好,毕业后到了投资公司,依旧和叶教授维持紧密的联系,这也是叶教授会和施雷谈起成立公司想法的关键。

可惜,叶教授在1995年突发疾病去世了,成立芯片公司也被搁置。不过,施雷一直没有忘记叶教授想要成立芯片公司留住人才的心愿,1997年他从上海农投到了上海商投,开始为成立芯片公司寻找资金。

“投资公司的领导不太懂集成电路,但他们知道国家需要芯片,也需要芯片人才,于是同意投资300万。”施雷对雷峰网说,“拿到300万投资后,我就去和当时复旦大学专用集成电路与系统国家重点实验室的副主任俞军谈了5分钟,就达成了组建复旦微电子的意向。”

在复旦微电子内部,这被戏称为“5分钟决议”。

经过三代人的努力,1998年7月,12位受过高等教育、有实际工作经验,在国内半导体行业中知名度较高的优秀青年,放弃出国机会,激扬着报效国家的崇高理想,满怀着追赶世界微电子行业制高点的雄心壮志,在黄浦江畔复旦大学的一个院落,成立了上海复旦微电子。

由于资金不足,12位青年还拿出各自的积蓄,凑了六百余万元,成立了中国集成电路设计行业第一家发起式股份公司,施雷担任上海复旦微电子股份有限公司董事总经理。

刚成立的复旦微电子,在复旦大学一个50平米的小房间里,开始了第一款芯片的设计。

复旦微电子成立时的一个办公地点,复旦大学水房

替代进口芯片起步,生死关头融资1亿港币

与大部分中国芯片公司一样,刚成立的复旦微电子也从进口替代开始。“当时,用于电话机的飞利浦TEA 1062芯片需求很大,恰好这款芯片的生产线就在上海的漕河泾,还对外开放。我们在研究了这款芯片之后,根据中国市场通话噪声大的特点,设计出了更符合中国市场的芯片开始销售。”施雷说。

仅一年时间,这款芯片就销售了200万颗。就这样,复旦微电子创始团队的12个人分成了两三个模拟芯片的项目组,根据市场需求设计芯片。

但集成电路行业是一个高投入的行业,复旦微成立时仅有的600多万元远远不够。

在那段时间里,芯片设计所需的工具EDA软件只能买便宜的,测试设备只能用别人不用的再修一修,办公室的环境也很艰辛。到了2000年,眼看复旦微的资金即将见底,一个机会出现了。

2000年香港创业板开板前,在上海举办了一个创业板和香港联交所的交流会。“交流会的前一天晚上,我和负责交流会的蔡敏勇主任一起上电台,结束后蔡主任告诉我明天有一个香港创业板的交流会,已经定了50家企业,问我是否愿意作为第51家企业候补参加。”施雷印象深刻。

第二天,施雷代表复旦微电子候补参加了香港创业板的交流会。由于复旦微是一家股份公司,上市不需要改制,另外,成立仅两年的复旦微没有历史包袱,有利于上市,在解决了重重挑战之后,复旦微电子最终在2000年8月4日成功在香港创业板上市,成功募资1亿港币。

2000年8月,复旦微电子在香港创业板上市

获得1亿港币的复旦微电子解决了资金的燃眉之急,团队规模也从12人增至50多人,继续沿着进口替代的方向向前发展。2002年初,复旦微电子增发H股成功,又获得了1亿港币。

“有了四年产品定义经验的积累,客户资源,以及2亿港元的融资,生存基本有了保障之后,我们就开始从逆向设计转向正向设计。”施雷说,“如果我们不自己定义芯片,设计超大规模的集成电路,永远也不可能成为一流的公司。”

2002年,复旦微电子已经成功设计出当时代表国内CPU研制最高水平的高性能嵌入式32位微处理器神威Ⅰ号,拥有完全自主知识产权,并且一次流片成功。这是一款可以载入中国芯片史的产品。

从2003年开始,复旦微电子大举迈入了自主定义芯片的阶段,选择从技术门槛相对较低的智能卡开始,设计各种类型芯片。

经过几年的发展,智能卡业务取得不错的成绩之后,复旦微电子准备进军难度更高的大规模集成电路。2006年左右,国家鼓励发展核心基础技术,特别是四大通用芯片CPU、GPU、FPGA、DSP,以及对存储芯片。这些芯片难度最高,被国外芯片巨头垄断市场,但自主化和中国巨大的市场规模也给中国芯片公司带来了机会。

施雷提出了一套“丛林法则”,要抢占国外大公司的市场份额,就要成为“狼”,把自己放在强者的地位,才有生存和对话的资格。

于是,团队规模已经达到几百人的复旦微电子顺势而为,进入了高手统治的存储和高性能FPGA领域。

把挫折转化为产品基因,推出全球一流FPGA

想要在持续且迅速迭代的芯片领域取得成功,技术实力和战略都更显重要。复旦微电子和复旦大学联合启动的FPGA项目取得了瞩目的成功,连续研发出了国内首款百万门级FPGA、千万门级FPGA、亿门级FPGA,填补了国产高端FPGA的空白。FPGA中文叫做现场可编程逻辑门阵列,门的数量越多,性能会更高,可以完成更复杂的处理任务。

而成功的背后并非一帆风顺,复旦微电子在FPGA领域刚开始也遭遇了一个巨大的挫折。由于没有经验,复旦微电子2007年的第一代FPGA性能很高,但由于没有配套的软件工具链的支持,很难在实际应用中使用。

“芯片的性能有时候恰恰是不重要的参数,要让芯片配合软件很好地运行挑战更大。”施雷说,“想要设计出高端芯片,方法论很重要。”

到了第二代FPGA,复旦微电子吸取了第一代产品的惨痛经验,充分考虑了软硬结合,最终成功推出了被规模应用的第二代FPGA芯片。

自此之后,软硬融合写入了复旦微电子的产品基因之中,与全球领先的芯片巨头一样,用软硬结合的产品和生态保持其产品的竞争力。用软硬结合的MCU,也在MCU市场也收获颇丰。

迈向高性能高端芯片的过程中,复旦微电子也成功实现了转型。2007年之前,复旦微电子一直处于亏损或者微利的状态,到了2011年左右,复旦微电子开始转向盈利,并且盈利高速增长。《福布斯亚洲》杂志2011年评选复旦微电子为“最佳中小上市企业”,这也是对复旦微电子成功转型的认可。

施雷回忆,复旦微电子的营收有几个关键节点,我们用了四五年实现了营收1亿,之后又花了四五年才实现税后利润1个亿。

2014年1月,复旦微电子从香港创业板转入主板,销售额也保持快速增长,2016年销售收入12亿元,2017年销售超过14亿元,2018年上半年同样增长势头良好,但下半年突如其来的贸易战,改变了增长的势头。2019年,FPGA市场的竞争更加激烈,复旦微电子面临着着巨大的竞争压力。

但即便在这样的压力下,施雷和公司管理层仍然坚定持续投入研发,在2019年研发投入超过5亿元,外界充满了质疑和不解的声音。

复旦微电子集团总部大楼

显然,持续的高额研发投入也已经成为复旦微电子的基因。对于高科技行业,这是一个正向激励,持续的高额研发投入让复旦微电子的整体毛利率高于业内同行水平。

施雷介绍,复旦微电子2019年的高额研发投入的重要用途是14/16nm 10亿门级FPGA和PSoC的研发。10亿门级FPGA已经是全球顶级水平,PSoC则是FPGA演进的方向。

2020年,复旦微电子全年销售额达到近17亿元,这是回应外界质疑最好的方式之一。

“FPGA继续发展的形态会发生改变。”施雷认为,“业界都看到了FPGA与AI结合的优势,因此FPGA和各种专用加速器结合,比如AI加速器集成为一个计算平台是未来的趋势。我们和国外领先的FPGA公司都在朝这个方向发展,这是一个新的形态,我们目前对这个芯片的命名是PSoC。”

FMQL45AIT(简称青龙筋斗云),国际首款自定义全新架构的可重构AI芯片

“当我们的产品走到行业顶尖水平,芯片形态发生变化的时候,客户比我们知道PSoC的用途和优势。”

施雷向雷峰网透露:“我们如今的成绩是四五年前种下的种子,复旦微电子的PSoC目前只是提供样片阶段,但已获得非常好的市场反馈。新一轮的快速增长才刚开始,而我们也将坚持创新,持续保持行业的领先地位。”

在施雷心里,复旦微电子的目标,或者说中国芯片公司的成功是设计出全新的芯片,让全球对中国的芯片公司刮目相看。

写在最后

正如一个伟人的成功无法复制,一家成功的企业也无法复制。

复旦微电子1998以600多万元的资金成立,到2021年市值超过400亿元,23年间,从初创的12人,壮大到1400多人的团队,开发了具有自主知识产权的5个系列200多种产品。

复旦微电子12位敢想敢为、有家国情怀的年轻人,在国家力量、时代机遇、资本的助推下,以及不忘初心的坚守下,以发展中国微电子事业为己任,致力于让所有的国产电子产品都有一颗中国芯。

复旦微电子的发展历程,是许多中国芯片公司发展的缩影,他们从替代进口芯片开始,从简单的模拟芯片切入,把握时代的机遇,利用资本的力量,从芯片的逆向设计转向自主研发,熬过多年的持续高投入和亏损之后,成功研发出大规模集成电路,最终跻身高端芯片的行列。

“不要觉得许多国产芯片不够高级。”施雷说,”没有竞争力的芯片都无法销售,只要有客户购买,就值得被尊重。”

这是施雷对国产芯片的态度,国产芯片的真正强大,不是沿着已有的产品形态设计出性能最强的芯片,而是设计出全新的软硬融合的芯片,满足用户需求。

他同时也认为,经过几十年的努力,国内的芯片产业发展至今并非不堪一击,但仍然要保持开放合作的态度。随着更多资本的进入,大量人才的加入,以及国产芯片被更多人接受,进入后摩尔定律时代,中国人有可能将芯片发扬光大。

]]>
芯片设计 //m.drvow.com/category/chipdesign/Wmx1kywIqLdwAqRl.html#comments Tue, 23 Nov 2021 21:41:00 +0800
高通:2024 年苹果芯片业务所占百分比将降为个位数 //m.drvow.com/category/chipdesign/6rPUCGesT0fMxHMz.html

高通股价周二收盘上涨 7.9%,此前高通在投资者大会上发布了看涨预测。

在11月16日的投资者大会上,高通公司宣布将持续扩展其半导体业务,以满足对其技术的需求带来的日益增长的机遇。

同时,高通表示其增长不依赖于与任何单一客户的关系,例如向苹果销售调制解调器芯片。

高通公司总裁兼首席执行官安蒙在会上提道:“高通公司正迎来有史以来最大的发展机遇,助力赋能万物智能互联的世界。高通公司独具优势,除智能手机之外我们还将在众多领域实现业务增长,我们的业务正在快速多元化,并非依靠单一行业或单一客户。”

高通目前为苹果设备提供无线芯片,但表示预计仅提供2023年iPhone所需调制解调器芯片的20%。高通的报告称,2021年芯片总销售额为270亿美元。但是,公司管理人士拒绝透露目前苹果公司的收入占公司总收入的比例。

高通表示,预计到2024年,其名为QCT的整个芯片业务将至少增长12%。同时,高通也预计,到2024年底,其与苹果的业务在其芯片业务中所占的比例将降至为“个位数”百分比,且该数字会极低。

这意味着高通的芯片业务增长不再与“高通&苹果合作”紧密相连。

“随着我们继续投资领先的射频前端技术,有机会供应给苹果。但就苹果而言,除了计划中的假设,我们不会做任何假设。关于苹果的一切,我们都应该考虑它的积极面。”安蒙说道。

现场,苹果公司的代表没有对高通的规划置评。

早在2019年,苹果就收购了英特尔的调制解调器业务,目前正在研发自己的无线5G技术,但尚未公开讨论其调制解调器计划。

高通首席财务官阿卡什·帕尔基瓦拉(Akash Palkhiwala)表示,高通在手机领域的主要策略是为高端Android设备提供动力。

在高通投资者日到来之际,分析师一直在跟踪高通和苹果的各方面动作。

伯恩斯坦分析师斯泰西·拉斯贡 (Stacy Rasgon) 在本周一的一份笔记中写道:“苹果最终将自己的芯片组内部化的潜力仍然充满悬念,相信许多投资者也正在寻求某种清晰的答案,他们有可能会在没有苹果芯片的情况下承保盈利能力水平。”

虽然高通公司以手机无线芯片和处理器的供应商而闻名,但高通的业务已经多样化,目前超过三分之一的销售额是由驱动其他类型设备(如PC、汽车和虚拟现实耳机)的芯片产生的。

这可以通过高通在投资者大会上设定的“未来三个财年的全新财务目标”反映出来。

●  到 2024 财年,QCT 半导体业务营收将实现中双位数(mid-teens)的复合年均增长率,运营利润率将超过 30%
- 到 2024 财年,智能手机和射频前端业务营收的增长率至少将与可服务市场(SAM)12% 的复合年均增长率持平
- 汽车业务年营收将在未来 5 年增长至 35 亿美元,在未来 10 年增长至 80 亿美元
- 2024 财年,物联网业务年营收将增长至 90 亿美元
● QTL 技术许可业务预计将保持现有的营收规模和利润水平

另外,高通还表示,虽然其2021汽车业务的销售额不到10亿美元,但是在未来10年的销售额可能达到80亿美元,其中一部分的销售额将通过高通与宝马的合作来实现。

高通将最新的前沿驾驶辅助技术与 Snapdragon Ride™ 平台引入宝马集团下一代先进驾驶辅助系统(ADAS)和自动驾驶(AD)平台。宝马下一代自动驾驶软件栈将基于 Snapdragon Ride 视觉系统级芯片(SoC)、视觉感知以及由高通车对云服务平台管理的 ADAS 中央计算 SoC 控制器而打造。

简而言之,也即是高通公司将为宝马的自动驾驶汽车提供芯片。

谈及到双方的合作,安蒙表示:“高通与宝马集团的合作开启了汽车领域的全新时代,作为领先的科技企业,双方将共同设计与开发骁龙™数字底盘的关键元素,赋能下一代汽车。我们为这一里程碑式的合作感到自豪,期待双方合作打造的产品尽快落地。”

雷锋网雷锋网雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/6rPUCGesT0fMxHMz.html#comments Wed, 17 Nov 2021 23:53:00 +0800
又一 FPGA 芯片公司登陆科创板,首日市值暴涨170% //m.drvow.com/category/chipdesign/fUyxaI3pxlLcpoew.html 11月12日,芯片设计公司安路科技正式上市科创板,本次发行股份数量5010万股,每股发行价26元人民币。截止当日收盘,安路科技每股价格上涨至70.25元,较发行价上涨170.19%,总市值达到281.07亿元。

安路科技的招股说明书显示,本次发行拟募集10亿元,约40%用于新一代现场可编程阵列芯片研发及产业化项目研究,约30%用于现场可编程系统级芯片研发项目,约30%用于发展与科技储备资金。

招股书显示,安路科技不存在控股股东和实际控制人。华大半导体有限公司直接持股33.34%、上海安芯及其一致行动人持股26.10%、国家集成电路产业投资基金股份有限公司直接持股11.18%、深圳思齐和上海科创投则分别持股9.67%、6.21%。

三年营收增长翻倍,55%用于研发

招股书显示,安路科技在报告期内业务规模增长翻倍,2018 年、2019 年及 2020 年安路科技营业收入分别为2852.03万元、1.22亿元、2.81亿元。

在净利润方面,2018 年、2019 年及 2020 年,公司净利润为为-889.96万元、3,589.46万元、-618.71万元。截至报告期末,公司存在未弥补亏损的情形尚未消除。安路科技表示,由于公司 FPGA 芯片和专用 EDA 软件等业务较为复杂且新品的研发难度较大,在报告期及未来可预见的期间内,公司将会保持较大的研发支出。

在研发投入方面,最近三年安路科技累计研发投入为 23,849.31 万元,占最近三年累积营业收入的比例为 55.22%。从公司的研发项目情况可以发现,安路科技的研发投入主要集中FPGA 芯片的研发,2020年就投入了8000万元,占所有研发项目投入比例最高。

主打国内市场,营收来源主要来自FPGA

公司的主营业务营收主要来自FPGA 芯片业务,2020年的营收全部来自该业务,包括ELF(低端)、EAGLE(中端)、PHOENIX(高端)三大系列产品。

从业务收入占比来看,安路科技主要的营收来源还是以低端产品为主——ELF系列,占总营收的72.79%,目前已经升级为第三代产品,主要应用在工业控制、网络通信、数据中心领域。

按产品划分的主营业务收入情况

按销售地域划分的收入构成来看,安路科技的主要市场还是在国内,2018年、2019年、2020年分别占营收的74.03%、85.85%、81.35%。

根据Frost&Sullivan预计集成电路市场,在 2025 年将达到 4,750.3 亿美元,2021 年至 2025 年期间年复合增长率达到5.5%。从长远看来,安路科技的国外市场或许将进一步拓宽。

在毛利率方面,2018年、2019年、2020年综合毛利率分别为 30.09%、34.42%、34.18%。其中,2020 年推出的 PHOENIX 系列产品毛利率达 52.39%,高于当年的综合毛利率。另外,安路科技也表示,公司主要产品毛利率主要受下游市场需求、产品售价、产品结构、原材料及封装测试成本及公司技术水平等多种因素影响。

值得一提是,公司正在开发出高端的FPGA产品,PHOENIX在去年实现量产,带来公司在高端市场上点的突破。在国际FPGA巨头们走向被并购的道路之后,国产FPGA冲击高端的做法,将会如何?值得期待。

 雷锋网雷锋网雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/fUyxaI3pxlLcpoew.html#comments Mon, 15 Nov 2021 11:04:00 +0800
高通要用AR眼镜推元宇宙一把 //m.drvow.com/category/chipdesign/416YYfM6yjTgztfy.html 10月底,Facebook更名为Meta,这是Facebook转变为“元宇宙公司”的重要一步,也让元宇宙引发更多讨论。

元宇宙并没有一个清晰明确的定义,简单理解,元宇宙就是现实世界在虚拟世界的一个映射。

既然要映射现实世界,难度可想而知,AR、VR、MR(统称XR)应该是目前与元宇宙联系比较紧密的设备,但XR设备依旧处于早期,想要实现元宇宙,推动XR设备的发展是关键。

今天,在XR领域投入十年的高通推出了头戴式AR开发套件骁龙Spaces XR开发者平台,目标是降低开发者开发AR应用的门槛,实现AR应用的跨平台运行,推动AR的普及,以及元宇宙的发展。

元宇宙与XR

元宇宙是热词,但并非新概念。

1992年的科幻小说《雪崩》里写道,“只要带上耳机和目镜,找到一个终端,就可以通过连接进入由计算机模拟的另一个三维现实。每个人,都可以在这个与真实世界平行的虚拟空间中拥有自己的分身。”

29年前就被提出的元宇宙概念,在2021年“一夜成名”,与今年元宇宙第一股多人在线创作沙盒游戏平台Roblox的上市有紧密关系,也离不开Facebook、腾讯、英伟达、字节跳动等巨头的参与。

大部分人看到了Facebook更名Meta,却容易忽略Facebook推出的VR设备Oculus Quest2,也是与元宇宙密切相关的智能设备,自2020年10月发售后出货量屡创新高,这是Facebook要转型元宇宙公司的底气所在。

Roblox认为,一个真正的元宇宙产品应该拥有8个属性:身份、朋友、沉浸感、低延迟、多元化、随地、经济系统和文明。XR设备显然拥有其中多个特性。

高通技术公司副总裁兼XR业务总经理司宏国(Hugo Swart)对雷峰网表示:“元宇宙和XR紧密相联,人们在虚拟世界中可以拥有自己的化身,实现协作、沟通、学习和娱乐等体验。许多人将元宇宙称之为‘实体互联网(Embodied Internet)’,这意味着需要在空间中进行编程计算和处理。”

司宏国也从计算和交互的概念去解释当下和即将发生的变革,“过去的几十年,人们一直通过2D屏幕(笔记本、智能手机、平板电脑)完成计算功能。有了VR和AR技术,计算已经演进到了空间计算的阶段。也就是说,传统意义上的屏幕消失,整个世界都成了你的‘主屏’,而这一转型刚刚开始。”

XR从纵向整合到横向扩张

实际上,高通一直在推动与元宇宙密切相关的XR的发展。2007年,高通就启动了首个基于智能手机的AR研发项目,此后又推出XR专用芯片组——骁龙XR1和骁龙XR2。在2018年,高通和合作伙伴Nreal等引入了AR眼镜概念,2019年AR眼镜成为了产品品类。

在这个过程中,整个AR、VR行业也经历了高峰和低谷。2015年,国内VR的投资规模从2.7亿上升至24亿,一年内翻了8倍。随后的2016年,被称为“VR元年”。

然而很快,由于许多技术挑战没有解决,VR设备眩晕感强烈,游戏和内容不多,体验不好的VR设备未能普及,VR投资泡沫也随之破灭,行业陷入低谷。

但随着技术的完善,以及软件和应用生态的逐步发展,XR设备在完成了更好的纵向整合后,各种形态的产品,包括AR眼镜、智能眼镜、以及商用VR一体机都能提供更好的体验,被更多消费者接受。

今年,XR行业无论是发布的产品数量还是出货量,似乎都预示着XR行业的发展又迎来了一个新的高点。IDC预计,2021年全球VR出货量将达到830万台,较2020年全年增长50.2%。

“这一行业目前还处于相对早期的发展阶段,我们期待这类设备的出货量在明年开始增长,并在2023年达到更高的成熟度。”司宏国预计。

当更多人拥有了XR设备之后,想要进一步吸引更多人使用XR设备,应用就成为了关键,而应用丰富的关键是软件开发平台。在这一行业耕耘了十多年的高通收购了世界上最早发布移动AR应用,负责AR软件开发套件开发的Wikitude之后,今天宣布推出头戴式AR开发套件骁龙Spaces XR开发者平台。

骁龙Spaces平台能够提供环境和用户理解功能,为开发者带来用于打造可感知用户并能与用户智能互动、适应用户所在室内物理空间的头戴式AR体验的工具。一些主要环境理解特性包括:空间映射与空间网格、遮挡、平面探测、物体与图像识别和追踪、本地锚点及其持久性以及场景理解。具备用户理解能力的机器感知特性包括定位追踪和手势识别。

简单来说,骁龙Spaces可帮助开发者构建两种类型的应用,一类是从零开始打造3D体验,一类为支持AR特性,即AR作为现有移动应用的扩展。骁龙Spaces有三个重要特点:成熟的技术和创新;开放、跨终端AR生态系统;开发者优先的平台。

“我想强调骁龙Spaces的开放性,它符合OpenXR标准,降低了开发者利用骁龙Spaces的门槛。同时,我们也和Epic Games和Unity在引擎方面展开合作,便于熟悉这类3D工具的开发者将应用迁移至骁龙Spaces平台。”司宏国说,“如果每家OEM都各自研发底层功能可能会导致孤岛效应,因为开发者很难把应用从一个平台复制到另一个平台。而骁龙Spaces能够跨终端运行,OPPO、小米、联想、Motorola和Niantic等厂商都宣布支持。我们还与移动运营商生态系统展开合作,包括NTT DOCOMO、T-Mobile和德国电信,共同推动AR发展。”

雷峰网了解到,骁龙Spaces既支持智能手机,也支持眼镜设备,包括采用骁龙XR1平台和XR2平台的眼镜设备。

AR有潜力替代智能手机

骁龙Spaces的三个特性中,开发者优先的特性让人有些意外。

过去,高通通常是面向OEM客户提供核心技术和特性支持,这次却将开发者视为骁龙Spaces的关键客户,并推出“骁龙Spaces探路者计划”,AR创新者或企业可以提前获得平台技术、项目资助、联合营销与推广和硬件开发套件的支持,包括健身、桌面游戏等应用开发者,正式的面市时间为2022年春季。

高通为何做出改变?

“我们发现行业中出现了开发或打造空间体验和3D体验全新模式,在新模式下,如果每家OEM、ODM厂商都推出自己的开发平台,对于开发者会很困难。”司宏国解释:对于高通,我们一边继续向OEM客户提供支持,帮助他们在分发渠道上推出新应用并保持差异化优势;与此同时,也为开发者提供通用的平台,帮助开发者更轻松地在骁龙Spaces平台上打造出色的空间体验。”

不难看出,在AR硬件逐步完善的时候,想要推动AR快速发展,就需要靠开发者和应用,作为这一领域的重要推动者,推出软件平台骁龙Spaces符合产业需求。

但骁龙Spaces是否会成为智能手机时代的安卓?司宏国明确,“我们不会针对骁龙Spaces收费。”

实际上,高通看好的是AR当下的发展和未来潜力。

“我们看到VR在短期内的发展势头更加迅猛,特别是在游戏、健身、B2B等领域,以及对元宇宙概念的实践方面。但我们认为AR眼镜在未来甚至有潜力替代智能手机。”司宏国说。

“我们期待在接下来三到五年,AR眼镜、智能眼镜、以及商用VR一体机设备会逐渐走向融合,最终形成一种终极设备形态,能够实现所有体验。但对于VR、MR设备,实现这一趋势可能还要花更长的时间,因为这些设备的显示模块支持光学透视,它们的部署方式有很大差别。”

写在最后

元宇宙的概念在2021年火了,在XR领域投入了十多年的高通能成为受益者。当然,耕耘多年,提供底层技术支撑,经历了XR行业起伏的高通,更希望在已经有超过50款搭骁龙平台的XR设备发布之后,继续提升硬件的同时,用开发平台更快推动市场发展。

关键的问题在于,提供软件开发者平台并非高通的强项,但高通可以发挥巨头公司的优势,通过收购获得相应的技术和人才,通过收购Clay AIR和Wikitude,通过硬件和软件的产品组合,有希望以更快的速度推动XR的发展,让XR成为高通新的增长点,也能成为元宇宙时代的领导者。

还需要看到,高通优先选择了AR。

]]>
芯片设计 //m.drvow.com/category/chipdesign/416YYfM6yjTgztfy.html#comments Tue, 09 Nov 2021 22:02:00 +0800
客户自研高性能CPU,英特尔王锐:有信心赢回客户 //m.drvow.com/category/chipdesign/00w5lvtWrEIammdN.html 英特尔在半导体先进制程上进展缓慢的几年间,来自同为x86 CPU阵营的AMD,以及来自Arm阵营的多位竞争者,让英特尔无论在消费级酷睿CPU还是企业级至强CPU市场都面临不小压力。

今年上任的英特尔新任CEO帕特·基辛格(Pat Gelsinger),正在努力改变这样的局面。

3月,帕特·基辛格就宣布了英特尔IDM2.0战略;

4月,英特尔推出了第三代英特尔至强可扩展处理器;

6月,Six Five峰会上,英特尔全新基础设施处理器IPU面世;

7月,帕特又公布了英特尔有史以来最详细的制程工艺和封装技术路线图,并表示英特尔要在2025年回归制程的领导力;

8月,英特尔架构日公布了第一个高性能混合架构Alder Lake,全新的高性能独立GPU架构,全新IPU架构,以及数据中心GPU架构的详细信息。

本周,Intel On技术创新峰会上,英特尔推出Alder Lake 12代酷睿处理器,架构进行了十年来最大的转变,性能大幅提升。同时,英特尔强调软件优先,进一步加强开发者生态。

帕特·基辛格上任后的一系列动作,目标就是向外界释放一个明确的信息——英特尔回来了!

英特尔真的回来了吗?

如何看待竞争?

相比英特尔今年的一系列战略和新产品发布,外界更加关注的是英特尔如何应对当下市场的竞争。英特尔在桌面和高性能CPU市场长期保持领导力,然而10nm制程的受挫,让AMD有机会借台积电的先进半导体工艺赢得桌面CPU市场,苹果这位大客户发布的自研M1芯片,更是给英特尔带来不小压力。

消费级CPU市场面临竞争的同时,英特尔在利润丰厚的高性能计算CPU市场也迎来了新的竞争对手。云计算和AI等需求,让亚马逊、阿里都自研了Arm架构的服务器CPU。英特尔在最擅长的CPU领域可谓腹背受敌。

英特尔公司高级副总裁、英特尔中国区董事长王锐

对于这样的处境,今年9月份晋升为英特尔公司高级副总裁、英特尔中国区董事长的王锐在Intel On技术创新峰会期间与雷锋网交流时坦诚的表示:“过去几年英特尔的执行方面慢了一些,不能为我们的客户提供他们所需求的差异化。所以从某种角度上,客户做出这样的选择。”

她也同时表示,“市场上有竞争并不是坏事,特别是站在全球角度来考虑更是如此。当我们有最领先的芯片时,我们就有信心重新和合作伙伴去洽谈、协同,再看看能不能赢回他们的生意。

就像科技巨头们下定决心要自研芯片十分艰难一样,尝到自研芯片的甜头后也很难回头。一个很好的例子就是微软和苹果,两家公司一个是开放系统的代表,一个是封闭系统的代表,一开始封闭系统赢了,然后开放系统赢了,然后又回到封闭系统。

想要赢回这些客户,最好的办法就是推出比他们自研芯片更强的芯片,或者寻找新的合作方式。此时,先进半导体制程又变得非常重要。

赢回客户的基础——制程领先

先进制程是半导体产业持续前进的基础,英特尔过去几十年间也是凭借先进的半导体制程保持领导力。然而,2015年开始摩尔定律开始放缓,摩尔定律失效的言论也不绝于耳。

Intel On技术创新峰会上,基辛格说,“摩尔定律仍然有效,我们将在未来十年保持摩尔定律,甚至比摩尔定律更快。”基辛格并不是在喊口号,根据他之前公布的路线路,英特尔将在未来四年迭代五代制程。

在摩尔定律持续有效的时间里,半导体制程每18个月到两年迭代一次。英特尔要用比摩尔定律更快的速度赶上目前的业界领导者。

“我们是以短跑的速度在跑马拉松。”王锐如此形容英特尔如今的状态以及表达其重回制程领导力的决心。

她也同时解释,摩尔定律不是物理定律,它是经济定律。如果说按照非常科班的、原始的视角看待,确实有后摩尔定律。但摩尔定律的精髓是提供经济价值,所以只要有技术突破,找到解决方案,继续提供经济价值,就可以维持摩尔定律。

对于英特尔而言,执行力是其重新获得制程领导力的关键。

“过去几年里,我们在执行方面有一些挫折,摔了几个跟头”王锐说:“英特尔过去已经用年复一年,一次次按时推出的一代又一代的产品证明了英特尔最著称的就是英特尔的执行力,我们最大的竞争对手是自己。”

一旦英特尔重新拥有了先进制程的领导力,就拥有了赢回客户的技术基础,同时还能和自研芯片的客户有进行新的合作。英特尔IDM2.0最核心的变化就是将为客户提供芯片代工服务。“我们不仅可以为客户提供先进制程,在同样的制程下,我们的先进封装技术也可以帮助我们的客户。”王锐指出。

更开放生态才是最强竞争力

先进制程技术的领导力是英特尔最基础和最核心的竞争力,但基于先进制程和硬件的生态才是其竞争力的全部。

王锐说:“英特尔非常清楚自身的优势以及面临的市场竞争,在新一代更有竞争力的高性能CPU Sapphire Rapids发布之前,我们的生态发挥了重要作用。想要打造新的高性能计算数据中心生态,整个架构的投入非常大,而且这是一个长期的投入。”

靠着生态的优势,英特尔在先进制程重回领先位置之前,也在通过架构创新提供更具性价比的CPU。

英特尔客户端计算事业部副总裁Sunil Kaimal在Intel On技术创新峰会上说:“12代英特尔酷睿处理器Alder Lake,基于Intel 7的制程工艺,采用了高性能混合架构,包含性能核与能效核,带来了极大的越代性能提升。这是在过去十年以来,x86架构最大的转变。同时,我们与微软深厚的合作伙伴关系,双方的紧密协作,能够智能、充分发挥最新一代酷睿处理器性能核和能效核的优势,在真实场景中实现更高性能和效率。”

Geekbench 5资料库中的12代酷睿Core i9-12900K搭配Windows 11平台的跑分成绩显示,CPU单线程得分1834,多线程得分17370,比AMD的最新一代16核旗舰CPU Ryzen 9 5950X单核和多核性能分别高11%和5.6%,比苹果最新推出的最强劲的M1 Max的多核跑分12559也有明显优势。

更为重要的是,英特尔也在适应新需求下客户对算力的需求。以前,英特尔的态度是,客户需要的下一代CPU是他们提供的CPU。

“我们早已知道,复杂多样的数字社会,我们必须和最终用户更接近,有共同发展的机制,才能为用户提供差异化的解决方案和服务。”王锐进一步表示,“为了弥补和最终用户还有一段距离的天生短板,我们和合作伙伴紧密结合。”

这种紧密体现在英特尔软件优先以及更注重开发者社区建设。

软件是离开发者和客户最近的产品,对于大部分的开发者和客户而言,他们并不关心底层的硬件架构,以及硬件的调度方法,能让他们买单的是足够易用、稳定的软件和更高的性价比。

英特尔已经推出了跨硬件架构(CPU、GPU、FPGA、ASIC)的统一开发平台oneAPI,并不断完善其性能,包括最新宣布的oneAPI 2022加入了900项新的功能,以及推出完整的英特尔开发者目录降低开发者使用和发挥英特尔硬件的难度,降低开发者的创新门槛。

同样重要的是,英特尔以更开放的心态建设生态。帕特·基辛格提出的是要为开发者提供开放、有选择、可信任的开源生态。这既是英特尔的目标,也是英特尔的挑战。

“一个开源社区的打造并不容易,即便像英特尔、阿里这样有雄厚实力的公司,也难以仅靠一家公司就打造出整个生态,我们要和众多合作伙伴共同发力。”王锐说,“英特尔是和众多合作伙伴一起跑马拉松。”

写在最后

“回看英特尔的历史,他们并没有犯过重大错误。”这是一位国产CPU资深专家此前对雷锋网说过的话。

英特尔在很长一段时间里的成功,先进制程是基础,然而过去几年间英特尔在这一领域的落后,成为了其近来面临激烈竞争的关键。当然,英特尔也面临着数字化时代客户对算力差异化需求的新挑战。

这也是帕特·基辛格上任后,不仅公布了重回制程领导力计划,以及强调软件优先,还恢复了为开发者举办的峰会Intel On(此前叫IDF)背后的逻辑。

技术出身,曾经为英特尔工作多年的帕特·基辛格,何时能让英特尔真正王者归来?

]]>
芯片设计 //m.drvow.com/category/chipdesign/00w5lvtWrEIammdN.html#comments Sat, 30 Oct 2021 10:07:00 +0800
全栈开源RISC-V处理器,平头哥为何舍弃眼前利益? //m.drvow.com/category/chipdesign/8RRzfDhb4WFOWpgL.html 阿里在2021云栖大会期间阿里云智能总裁张建锋宣布了一个让人意外的消息,全栈开源平头哥玄铁RISC-V系列处理器。这是系列处理器与基础软件的全球首次全栈开源,也正是让人意外的关键。

玄铁RISC-V系列是已经拥有150多家客户、超500个授权数,出货超25亿颗的国内应用规模最大的国产CPU IP。

玄铁RISC-V系列处理器全栈开源,就意味着平头哥将因为开源而损失IP授权费。平头哥为什么要牺牲短期利益推动RISC-V生态的发展?

 

全球首次全栈开源处理器与基础软件

RISC-V是一个源自伯克利大学的指令集,虽然指令集开源,但要用指令集设计出芯片,还有大量的工作,特别是设计出一款经过量产验证的处理器。RISC-V社区有许多可免费下载的RISC-V处理器代码,但这些开源的设计许多都没有经过硅验证,这就意味着有大量漏洞。

使用RISC-V开源社区IP设计芯片的嘉楠科技创始人、董事长兼首席执行官张楠赓此前就对雷锋网说,“使用RISC-V虽然省去不少IP授权费,但是我们研发周期也会更长一些。”

平头哥此次开源的玄铁系列RISC-V IP,都是经过量产验证的IP,包括玄铁E902、E906、C906、C910,以及基于玄铁的多操作系统的全栈软件及工具。

值得单独介绍的是玄铁C910,这是一款高性能RISC-V IP,这款IP的架构将经过产品验证的指令技术与RISC-V精简指令技术融合,稳定性比原始RISC-V提升的同时,性能有平均20%的提升。而且,玄铁C910能够全面适配AliOS、FreeRTOS、RT-Thread、Linux、Android等操作系统,性能可以满足5G、网络通信、人工智能、自动驾驶等领域需求,被超过百款芯片采用。

相比没有经过量产验证的开源IP,开发者通过平头哥Github和芯片开放社区(Open Chip Community)下载的玄铁源代码既可以用于开发产品,也能用于RISC-V和芯片设计的学习。这是因为,平头哥开源的IP具备完整的验证和流片的条件,商业公司可以用开源IP设计产品。

同时,开源IP的模块拆分和命名规则都极其规范,代码有很强的可读性,对于想要学习RISC-V和了解芯片设计的开发者有非常高的价值。

平头哥副总裁孟建熠与雷锋网交流时指出,“经过过去几年的实践,我们发现仅靠平头哥推动RISC-V的发展力量远远不够。所以我们把玄铁开源,让整个社区的开发者都能在开源的基础上做软硬件适配,推动RISC-V架构往更深层次演进。”

平头哥过去几年一直在努力推动RISC-V的发展,玄铁C910 2019年面世之时就对外开放,可以下载其FPGA代码。随后,平头哥又推出了面向AIoT的一站式芯片设计平台“无剑100 Open”,能够提供集芯片架构、基础软件、算法与开发工具于一体的整体解决方案。

“这次我们从IP到基础软件全栈开源,希望能给行业提供一个从RISC-V架构扩展,到SoC平台适配,再到基础软件适配优化的体系。”孟建熠表示。

为什么牺牲短期营收?

全栈开源玄铁处理器IP,一定会减少平头哥的营收,但平头哥选择这样做有多方面的考虑。

首先,推动开源硬件的发展本身就是在无人区探索,此前并没有成功的案例。对于开发者而言,使用开源软件有成本低的吸引力。但硬件开发流程复杂、时间周期长,试错代价昂贵,只有经过验证的开源处理器才可能被广泛应用和接受。

“对于RISC-V这种开放架构,需要相比传统授权更加开放模式,才能不断支持创新的发展。” 孟建熠说,“RISC-V社区开源核不是稀缺资源,但如何让这些开源核具有稳定、可靠和持续演进的能力,推动开源核与开源软件的生态融合,以及让这些开源核成为量产芯片是关键。”

平头哥全栈开源玄铁对整个生态有利,但此前已经获得玄铁IP授权的公司的权益如何保障?孟建熠说:“除了开源的核,我们还会持续推进RISC-V架构新技术的发展以及开发对应的新核,提供给我们的商业合作伙伴。”

更关键的问题是,作为一家商业公司,平头哥全栈开源玄铁IP牺牲短期利益,推动整个RISC-V生态发展的意义和目的何在?

“普通IP公司所有的回报来自IP授权费,阿里是从云端一体的大生态来看待,思考也和普通IP公司有所不同,我们的生态需要更多定制化、普惠芯片连接我们的生态,进一步推动我们云端一体的生态繁荣。”孟建熠表示。

“我们第一步考虑的是让RISC-V的技术和生态更加完善,降低创新成本。当RISC-V生态成熟的时候,作为这个生态的推动者和建设者,阿里也会是这个生态的受益者之一。”

可以理解为,平头哥开源全栈处理器IP,目的并非要与传统芯片公司竞争,而是为了更好服务自身业务,保持竞争力。并且,半导体IP也不是一个值得阿里这样体量公司争抢的生意。

市场研究机构IBS的数据显示,全球半导体IP市场将从2018年的46亿美元增至2027年的101亿美元,年均复合增速达9.13%。半导体IP公司几乎都是小而美,即便是广为人知的Arm,其2020年营收达到创纪录的19.8亿美元,相比芯片设计公司英特尔779亿美元的年营收,差距明显。并且IP公司需要长期持续的大规模投入,才能保持产品的竞争力。

RISC-V芯片冲出IoT市场

既然阿里用更高的视角看待在RISC-V领域的投入,目标是端云一体的大生态,以及RISC-V生态繁荣会带来的机会,那RISC-V的发展情况值得关注。

RISC-V基金会首席执行官Calista Redmond曾透露,截至2020年底,全球范围内RISC-V芯片(SoC、IP和FPGA)已推出93款,覆盖了云端、移动、高性能运算、机器学习、自动驾驶等产业。

实际上,RISC-V芯片应用最广的是在边缘的IoT市场。原因很简单,RISC-V社区有许多免费的CPU IP,并且边缘的IoT设备所需的处理器对性能和软件工具链的要求都不高,这就有利于RISC-V处理器的大规模应用和普及,包括MCU、蓝牙、语音等芯片,中国市场尤其明显。

“RISC-V在IoT市场的突破相对容易,中国的产业链优势也在此。”孟建熠认为。

但RISC-V要成功必须突破对性能和软件生态有更高要求的应用。平头哥在这个过程中也发挥着重要作用,今年10月13日,平头哥宣布玄铁910成功兼容安卓系统,可运行Chrome浏览器等应用。

“我们的初衷是去验证RISC-V处理器是否能承担浏览器、Java这种交互很强应用的压力。安卓的软件栈很厚,通过移植,能够进一步探索RISC-V架构的完整性和能力的极限。”孟建熠解释。

Android 10系统顺畅运行在平头哥玄铁910 RISC-V处理器上

兼容安卓系统是RISC-V发展的一个重要里程碑,也是RISC-V迈向高性能计算的关键。

雷锋网了解到,基于RISC-V的应用处理器(AP)正陆续推向市场,比如全志基于玄铁C906核心的D1 AIoT开发板,支持64bit RISC-V指令集并支持Linux系统。更多RISC-V应用处理器的芯片和开发板也会陆续推出,这将进一步推动RISC-V向高性能市场拓展。

写在最后

RISC-V是相比x86和Arm是一个新兴的指令集,凭借其开放、灵活、低功耗等特点,RISC-V Foundation吸引了全球包括谷歌、阿里巴巴、三星、华为、英伟达、西部数据等500多家企业和机构成为其会员。

与巨头公司只是将RISC-V芯片用于自家的产品之中不同,阿里平头哥的RISC-V芯片不仅用于自研芯片之中,还对外提供RISC-V IP。如今,平头哥全栈开源其经过量产验证的IP产品,对于整个RISC-V生态的发展是一个重要的贡献。

至于全栈开源IP产品之后,平头哥未来的商业模式,目标是服务阿里的云端一体的生态,但具体如何实现良性循环,平头哥并没有透露,应该也在不断的探索,毕竟开源硬件目前还没有成功的案例。

基于平头哥对于RISC-V生态的贡献程度,其有可能成为开源硬件领域的RedHat吗?


想要了解更多RISC-V的技术和行业发展趋势,请期待GAIR 2021全球人工智能与机器人峰会集成电路高峰论坛的RISC-V分论坛,论坛将邀请国内芯片领域顶尖学者,包括平头哥在内的国内RISC-V芯片发展的重要力量,以及最有行业洞见的投资人,共同深入、全方位RISC-V技术突破、产品落地、生态建设、市场机遇,更多信息请关注GAIR 2021官网,或直接与论坛负责人联系(微信:bensoneit)获得最新信息和进入社群交流的机会。

]]>
芯片设计 //m.drvow.com/category/chipdesign/8RRzfDhb4WFOWpgL.html#comments Fri, 29 Oct 2021 19:27:00 +0800
10年芯片圈扫地僧,踩对两次苹果浪潮,5年成就TWS耳机电源芯片龙头 //m.drvow.com/category/chipdesign/SNMDijnnu6K1yrVI.html 巨头林立的芯片行业,想要实现跨越式超越的难度超乎想象,因此,国内大多芯片公司只能从巨头忽视的某一细分市场实现突破。但也正因为有了这些芯片公司的单点技术突破,加上资本、政策的共同努力,中国芯片产业才能有整体赶上甚至超越全球领先者们的机会。

为此,雷锋网策划了“中国芯片行业隐性冠军”系列文章,让更多人认识那些过去几十年默默投入的半导体人和公司,了解他们在细分市场实现突破背后的故事以及未来的可能性。

苹果在2010年发布的iPhone4,开启了智能手机的时代,也改变了许多公司和个人的命运。进入苹果供应链的企业,赚的盆满钵满。即便没有进入苹果供应链,因为智能手机带来全新市场机会也让他们从中受益,比如移动电源、真无线立体声(TWS)耳机。

2000年进入芯片行业的董官斌就是其中一位。他在iPhone4发布后的2011年开启全新创业旅程,创业两年后凭借敏锐的市场嗅觉,抓住了手机移动电源需求爆发的机遇,解决生存问题。

2016年,苹果AirPods引爆了TWS耳机市场,有了移动电源市场经验的董官斌再次抓住机会,在2020年实现了公司年营收过亿的里程碑。

董官斌创立的思远半导体专注于锂电池的电源管理芯片,这是极难引起普通消费者关注的芯片,但却是所有电子设备必不可少的芯片,因为它影响续航、充电等体验。也正因为如此,董官斌称自己和思远半导体是芯片圈的扫地僧。

踩对两次苹果浪潮的董官斌,正在朝着公司年营收从亿级到十亿级的目标奋斗。这一次,董官斌依旧会关注苹果可能会带来的下一次机遇,但他并不认定可穿戴的市场还会是苹果主导。

创业十年,营收从0到过亿,市场环境迅速变化,董官斌是受益于苹果成功的一个代表,也是深圳创业者的一个缩影,思远半导体如今的成就,能让我们明白芯片公司如何用不变应对不断变化的市场,也能说明中国半导体行业坚定长期主义的重要性。

思远半导体总经理董官斌

10年扫地僧,坚定电源芯片市场,开启10年创业长路

董官斌2000年从机械电子专业毕业,加入了一家芯片公司从事研发工作,但他对芯片行业非常陌生,更别说这家公司的主营业务模拟芯片。四年后,董官斌到了一家主营电脑配件的公司继续做研发,但此时也产生了换行的想法。

“那时候对行业的理解不够深刻,也看不清未来,所以有了换行业的想法。”董官斌对雷锋网说,“思考了几个月之后,我还是决定留在芯片行业,并且明确了一定要去深圳。”

董官斌2007年到深圳工作,从研发转到销售岗位,他发现那时深圳的生活成本低于北京和上海,并且有成熟的电子产业链,非常适合创业。

2011年,在深圳注册成立了思远半导体, 第一年借用朋友的办公室办公。

“创立思远半导体的时候,我们的目标很简单,前三年解决生存问题,并且一定要找到一个值得进入的市场。”董官斌说,“我们用最简单的方法,最少的投入开始创业。因为我和合伙人对模拟芯片的整个流程都很熟悉,我们就自己开发芯片,那时候差不多每天两三点才睡觉。”

经过半年的努力,董官斌和合伙人成功开发了第一款芯片。在创业的前三年里,他们只有一个客户,专为这个客户做定制服务,总共量产了将近60颗芯片。

虽然在创业的前三年里,思远只服务了一个客户,但他们已经看到了移动电源市场的机会。并且,董官斌也逐渐明确坚持在电源管理芯片领域。按照他的说法,他曾经在电源管理芯片和触控芯片之间犹豫过,最终选择了电源管理芯片,原因是无论电子设备如何发展,都需要电源管理芯片,并且他做了决定之后就没再犹豫过。

移动电源爆发,拿下第一笔100万颗芯片订单

董官斌发现移动电源市场的机会是一次与明微电子总经理李照华的交流,李照华说市场上都在找充电宝的电源IC,可能是思远的机会。获得了重要的市场信息,但董官斌还是谨慎全面的做了分析之后才决定进入这一市场。

“iPhone带火的智能手机有一个特点,不能更换电池,这样外出时手机充电不方便,移动电源的需求应运而生。那时多普达和HTC是主流的智能手机,安卓后台偷跑程序耗电量很大,我们就想如果有备用电源随时可以补电,就能解决用户痛点,所以最终决定进入这个市场。”董官斌回忆。

于是,董官斌在2012年决定进入移动电源市场,到了2013年底,经过无数次的尝试,一一解决技术难题,思远针对移动电源推出了第一款电源管理芯片,正式进军移动电源市场。

从今天往回看,思远完美踩在了移动电源爆发的时间点,2012年移动电源市场的需求开始出现,到了2013年市场迅速增长,一年后的2014年开始井喷式增长。

但在产品量产和获得客户之前,董官斌说心里仍然在打鼓。

幸运的是,在代理商的介绍下,思远移动电源的第一笔订单就卖了100万颗芯片。因为这个大客户在移动电源终端市场具有领导力,思远的第一颗移动电源芯片MP2310被客户争抢采用,2014年-2015年间共出货3000多万颗。

思远的第一颗移动电源芯片能够大卖关键的原因还是性价比。

“当时市场上最火的是矽力杰和台湾致新的同步升压IC,一个移动电源需要三颗分立的芯片:充电IC加MCU再加升压IC,整体成本很高。”董官斌说,“我们第一代移动电源芯片将分立的芯片集成为一颗系统芯片,并且系统芯片比单颗升压芯片还便宜,所以获得了大量客户的高度认可。”

就这样,2016年,思远在主流1A移动电源SoC市场出货量排名行业第一。 2017年在移动电源芯片市场的出货突破了8000万颗。

在这个过程中,思远成功引领了移动电源电源管理芯片的发展,集成式的SoC成为了主流,有一批分立器件的公司退出市场。

但思远在这个市场的表现也并非完美无缺,随着市场的发展,同质化竞争越来越严重,2015年开始,移动电源的需求逐渐从小电流转向大电流充电,那时思远在大电流充电方面的技术还在积累,丢掉了部分市场。

好在消费电子市场的日新月异总会带来新的机会,2015年之后手机电池的容量变大,还增加了快充功能,再加上共享充电宝的火热,移动电源市场进入平稳期。

在移动电源管理芯片市场依旧维持不错市场份额的董官斌,开始总结经验,准备为TWS耳机的机遇全力以赴。

敢为人先,获得TWS耳机芯片销量冠军

就像是历史重演,又或是董官斌成功的秘诀之一,他再一次率先捕捉到了市场对电源芯片的需求,这一次是TWS(真无线立体声)耳机。

TWS耳机火爆之前,市场上已经有大量的蓝牙无线耳机,只是因为技术的限制,无线耳机只能主耳机连接手机,再由线缆将音频信号传输到从耳机,产品形态只能是单耳式或挂脖式。

图片来自高通

2016年,苹果最新发布的iPhone7/7Plus取消了3.5mm耳机接口,同时推出了全新TWS耳机AirPods。不过AirPods销售日期推迟,上市后需要等待至少一个半月时间才能收到新产品,这也没阻挡消费者对AirPods的购买热情。

但即便如此,2017年时苹果是否能引爆了TWS耳机市场仍然存疑。“一次和做蓝牙芯片的朋友交流,他一直强调要我关注TWS市场,接下来会迎来爆发。”董官斌说,“真正要下定决心进入一个新市场,即便有之前在移动电源市场的经验,也并不简单。”

思远的第一个TWS客户是主动找上门,采用的是移动电源的电源管理芯片。

“早期的产品更多的是关注能用,对于体验的关注并不多。我们的电源管理芯片之所以会被采用,因为移动电源和TWS耳机对电源管理芯片的需求有相似性,加上思远的芯片有功耗低和小电流关断的优势。所以即便移动电源的芯片对于TWS耳机不是最优选择,但在那个时间点是合适的选择。”董官斌讲述。

最终让董官斌决定专为TWS耳机设计电源管理芯片的关键是市场的增长。2017年,思远面向TWS客户出货的芯片从几十万增长到了几百万,到了2018年,出货的量级又快速增长到千万级别。

在2019年,思远的TWS电源管理芯片出货量已经突破1亿颗,市场占有率排名行业第一,小米、OPPO、一加、realme、魅族、传音、1MORE等知名品牌厂商都与思远建立了合作关系。

不过,思远是在2018年9月才正式启动专为TWS耳机设计电源管理芯片的项目,在此之前超过8个月的时间都在服务客户的同时收集市场信息。

“移动电源市场的经验告诉我们不能在眼前的客户上花更多时间,而应该直接去了解品牌和客户的复杂需求,然后满足这些需求。”董官斌说:“我们把TWS耳机原来需要3-4颗IC的方案,精简到只需要1颗思远电源管理IC,再加上MCU就可以实现所有功能。不仅芯片整体的面积减小,电气性能也不输国际品牌,在某些关键技术上还更符合系统需求。”

又一次,凭借更高集成度的芯片,思远首款专为TWS打造的电源管理芯片SY8801在2019年5月推出,2020年大规模量产,获得了百度、网易、漫步者、哈曼、JBL等国内外知名品牌厂商的青睐,全年销售额成功突破亿元,同时获得了知名投资机构石溪资本的A轮投资。

2021年3月,旭日大数据发布的TWS电源管理IC出货量排行显示,思远半导体当月出货2430万颗芯片,超过排名第二的德州仪器。对于思远超越巨头的成功,董官斌谦虚地认为,可能是“老虎”打盹。

紧接着,思远又进入了TWS耳机端的电源管理芯片市场。

“一开始没有进入TWS耳机端电源芯片市场,只做了电池仓的电源管理芯片,主要还是因为市场那时不够明朗。”董官斌说,“我们的耳机端电源管理芯片把电路板面积缩小了70%,功耗更低,而且包含了十几个功能,让这颗芯片也大受市场欢迎。”

按照董官斌对消费电子市场的观察,消费电子产品的迭代周期是2年左右一代,差不多有3个迭代的周期市场完成洗牌,时间大概持续6年。如此计算,TWS耳机市场还有3-4年的高速增长期。

董官斌认为,接下来TWS的电源芯片会朝着更高效率、更高集成度发展,功能会增加快充、无线充电等。

“TWS耳机作为音频设备的属性已经基本确定,市场的接受度也已经很高,但未来会朝着更复杂产品方向发展,会集成哪些传感器和新功能,现在还不够明确。”这是董官斌的观点。

显然,对于思远这样体量相对较小的公司而言,紧跟市场需求推出高性价比的产品是当下的生存之道。但即便在移动电源和TWS的电源管理芯片细分市场都市占率足够高,对于想要做大做强的思远来说,还要继续向前迈进。

把亿元营收变成十亿级

消费电子市场的优势是需求量巨大,但总体毛利率偏低,并且一旦跟不上市场的变化就很容易被淘汰。

董官斌在芯片行业做了20年扫地僧,创业10年的经验告诉他,在消费电子领域,关注苹果是对的,并且苹果还会继续在消费电子市场领跑,至于可穿戴市场,不见得还会是一家独大,所以苹果能否独占可穿戴市场保持很强的领导力,答案并不那么明确。

“无论如何,想要保持市场竞争力,一定要紧密和客户合作,深挖客户需求。”董官斌总结。

2022年,思远即将迈入公司新十年的征程,过去十年中,思远的产品从无到有,主要市场从移动电源到TWS耳机,团队人数从2人到近百人,营收从零到过亿,近两年年营收保持50%的复合增长率。

对于下一个十年,董官斌的目标是加速把1亿元营收变为1亿美元营收。

显然,仅靠消费电子难度不小。为此,董官斌把目标看向了工业电子和汽车电子市场。

“工业电子和汽车电子市场的变化相对缓慢,市场总体的规模相比消费电子市场小,但这两个市场有更高的毛利率,这既可以补全思远的产品线,也能够提升公司整体的毛利率。”董官斌这样规划思远未来10年的发展。

汽车电子和工业电子是典型的企业市场,与思远擅长的消费电子市场无论在产品特性,市场需求方面都有较大的不同,但董官斌说一定会投入,这是思远发展必须做出的选择,目前也有和这两个市场潜在客户的交流,思远未来要逐年降低消费电子产品营收的占比,进行多元化布局和实现更高毛利率。

“中国芯片行业的发展还是围绕系统的创新,创新的系统会带来对芯片新的需求。”董官斌进一步指出,“虽然模拟芯片对先进制程的追求不如数字芯片那么快,但也在持续发展。过去十年间,限制中国模拟芯片行业发展和提升竞争力的关键还是先进制造,如今国内的先进制造的水平与国际先进水平的差距越来越小,另外,先进封装技术的发展也有利于包括我们在内的模拟芯片公司的发展和产品竞争力的提升。”

模拟芯片并不常被关注,但又是电子设备中必不可少的芯片。从事这个行业20年的董官斌,把自己比作扫地僧,他认为无论是国家的科技行业还是芯片行业,都需要大量默默投入,研究、开发和构建底层技术和产品的人。

“只有默默投入,坚持长期主义,我们的核心能力才能打磨的越来越强,才能迅速适应不同市场,各种系统的需求。”董官斌说,“也只有这样,我们才能完成接下来十年走向全球市场,再持续发展十年的目标。”

写在最后

雷锋网与董官斌的深度交流持续了两个小时,从这位在芯片行业耕耘了20年,带领思远走过10年的掌舵者身上,我们看到了一位中国芯片行业长期主义的代表。他并不擅长讲故事,说概念,只是用产品拿下市场。

回看思远在消费电子市场的成功,准确踩在由苹果引发的新市场爆发的时间点,用集成度更高的芯片赢得市场是共性,不同的是产品需求和功能,成功并非是简单的复制,本质还是因为愿意把年营收的15%持续投入研发,不断积累核心技术。

思远是深圳创业公司的代表,更是众多已经在芯片细分市场实现突破的代表,他们不讲高大上的概念,不包装自己,却在多次的试错和实践中练就了敏锐的市场洞察力。

他们在众多的竞争对手中靠性价比赢得市场,却又比别人目光更长远,愿意用时间、精力去打磨出更具竞争力的产品,实现领跑。

随着中国系统公司的不断成长,以及先进制造的进步,中国芯片设计公司有机会在十年后追上全球领先水平,走向全球,那时候才是谈超越的时候。

正如董官斌一直强调的,无论是芯片公司还是芯片人才,甚至是国内的整个芯片产业,一定要坚定长期主义,找到技术和行业的发展规律,不断提升核心竞争力,才有可能成功。

董官斌判断,随着中国芯片产业的发展,未来中国的芯片公司也一定会出现许多并购。“如果十年后思远还在,那说明中国芯片行业的并购已经都完成,如果十年后没有了思远,说明并购潮已经提前。”

]]>
芯片设计 //m.drvow.com/category/chipdesign/SNMDijnnu6K1yrVI.html#comments Thu, 28 Oct 2021 21:32:00 +0800
全球首款5nm服务器CPU“倚天710” 问世!阿里自研芯片的终点在哪? //m.drvow.com/category/chipdesign/2qgIwMKQcirWmYHw.html 全球高性能CPU市场又增加了一个重磅玩家。

2021年10月19日云栖大会,阿里巴巴旗下半导体公司平头哥发布自研为云而生的高性能CPU倚天710,同时还推出搭载倚天710的“磐久”云原生服务器。这是继2018年云栖大会发布的含光800云端AI推理芯片之后,平头哥最新的自研芯片,也表明其自研高性能芯片的设计能力从专用AI芯片走向了通用CPU芯片。

阿里云智能总裁、达摩院院长张建锋

雷锋网了解到,倚天710采用最新的Armv9架构,基于最先进的5nm工艺,单芯片集成600亿晶体管,CPU核心数高达128个,最高主频为3.2GHZ。倚天710不仅是全球首款采用5nm工艺的服务器芯片,也集成了最新的内存DDR5和PCIE5.0。

也就是说,从架构到制造工艺,从CPU核心到内存和接口,倚天710都拥有当下CPU最先进的技术。

标准测试集SPECint2017的数据显示,倚天710的分数达到440,超出业界标杆20%,能效比提升50%以上。

阿里花费数亿美元打造一款高性能CPU的价值和目的何在? 

倚天710集最先进技术于一身

概括倚天710的特性,那就是集先进技术于一身。

先看最底层指令集架构,倚天710采用的是Arm今年三月才发布的面向新十年的Armv9架构。根据Arm发布的产品,雷锋网预计倚天710采用的是Arm Neoverse N2核心,兼具性能和能效。

一般而言,Arm只会为其最新的架构选择少数几家合作伙伴,阿里平头哥作为首个宣布采用Armv9架构的公司,不仅显示了双方在合作上的深入,也能体现出平头哥在芯片设计领域的能力。

基于最新的指令集,倚天710包含了高达128个核心。之所以说是高达,是因为今年3月AMD发布的最新一代服务器CPU EPYC,最高为64核128线程,4月英特尔发布的第三代至强可扩展处理器,核心数是40核。

与倚天710核数更为接近的,是同样采用Arm架构的Ampere(安晟培)在2020年投产的80核云原生服务器CPU Ampere Altra。Ampere的128核CPU计划在今年第三季度投产,同样采用5nm工艺。

倚天710即将在阿里云数据中心部署,然后逐步服务云上企业。

再从底层架构转向制造工艺,倚天710采用的是5nm工艺,这一节点已经被应用于苹果A15芯片,但倚天710是首个采用5nm工艺的服务器CPU。最新的架构加上最新的工艺,自然会对芯片设计的能力有较高要求。

但相比之下,解决上百个核心带来的带宽瓶颈更考验平头哥。过去数年间,处理器核心性能的提升速度远超带宽的性能提升速度,这限制了CPU计算性能的提升,就像是“茶壶里面倒饺子”。

据悉,为了解决带宽瓶颈,平头哥对片上互联作了特殊优化,采用新的流控算法,降低系统反压,有效提升了系统效率和扩展性,使单核高性能有效地转化为整个系统的高性能。

另外,倚天710通过新的系统地址到DRAM地址的转换机制,支持安全、非安全隔离、多NUMA、异常通道隔离多种特性,同时DRAM读写效率大幅度提升。

除了从芯片设计的前端进行优化,倚天710在后端物理实现方面也克服了诸多挑战,包括灵活调度多达30种不同EDA软件、深度定制时钟网络和定制IP技术。

倚天710还采用了先进封装技术,集成业界最领先的内存DDR5和接口PCIE5.0技术,有效提升芯片的传输速率,并且可适配云的不同应用场景,最终实现了性能和能效的优势。

花费数亿美元打造云CPU的价值

倚天710集成如此多先进技术,也意味着这款芯片的成本非常高昂。

市场研究机构International Business Strategies (IBS)的研究数据显示,28nm之后芯片的成本迅速上升。28nm工艺的成本为0.629亿美元,到了7nm和5nm,芯片的成本迅速暴增,5nm将增至4.76亿美元。

来源BIS

芯片是一个典型需要以量取胜的行业,一款芯片从设计到制造,采用先进制程成本高达数亿美元,只有芯片有足够大的量,才能拥有成本优势,这也是为什么只有手机这样的产品才能持续采用最先进的制程。

倚天710作为一款阿里为云而定制的芯片,阿里明确表示不对外出售,这意味着其出货量难以达到手机的数亿量级。那么,从单颗芯片成本的角度看,平头哥自研一款5nm的CPU芯片很难实现芯片的以量取胜。但如果从总体拥有成本和公司整体的竞争力来分析,自研高性能CPU有非常重要的价值。

IDC最新今年7月发布的2021年第一季度中国公有云市场数据显示,季度内IaaS+PaaS市场规模达46.32亿美元(301亿人民币),其中阿里云排名第一,市场份额为40%。另据Gartner 2021年报告,云基础设施和平台市场呈现稳固、集中格局,在全球范围,超过90%的云市场向亚马逊、微软、阿里云、谷歌等前四家云厂商集中。

阿里云作为芯片的最大使用者之一,在全球建设了数百个云数据中心,能够支撑阿里自研芯片。

但更重要的是,阿里云的竞争对手们也正在通过自研芯片来增强自身优势。亚马逊自研的Arm CPU已经展现出优势,谷歌的TPU也已经在云中被广泛使用。

这样看来,阿里为云研发CPU和AI芯片成为其提供差异化服务,保持领导力的关键。

同样,阿里自研芯片的优势也已经展现,2020年10月30日开始,淘宝用户的搜索请求均由含光800处理,其支持的淘宝主搜全链路吞吐率性能达到GPU性能的3倍左右。在杭州城市大脑的业务测试中,1颗含光800的算力相当于10颗GPU。

同时,基于对自身业务理解定制的AI芯片也能让阿里云提供更多更好的AI云服务,比如图像搜索、场景识别、视频内容识别、自然语言处理等场景。

因此,无论从总体拥有成本,还是公司战略的角度,自研芯片是阿里云的必然选择。并且自研的芯片越早应用,自研芯片的决心越坚定,越有利于阿里云提供高性能,差异化的云服务,保持和提升领导力。

可以看到,倚天710从前端架构设计到后端物理实现都是自研,并且集成了最先进的技术。

阿里成芯片公司?

从2018年阿里平头哥成立到现在,短短三年间阿里已经拥有了自研AI芯片含光800,自研云端CPU倚天710,还开发了十多款玄铁系列嵌入式RISC-V指令集CPU IP核,累计出货量超过25亿颗。

这不禁让人疑问,阿里是要取代现有的芯片公司了吗?

答案是否定的,以阿里为代表的科技巨头自研芯片的核心原因是市场上的芯片性能越来越难以满足其包括AI在内的新兴业务,以及提供差异化功能的需求。另外,最先进的CPU和GPU售价高昂,且功耗高,此时基于对自身业务的理解有针对性开发芯片成为了一个更好的选择。

阿里云智能总裁、达摩院院长张建锋表示:“基于阿里云‘一云多芯’和‘做深基础’的商业策略,我们发布倚天710,希望满足客户多样性的计算需求。我们将继续与英特尔、英伟达、AMD等合作伙伴保持密切合作。”

对于第三方芯片公司来说,其业务的核心是尽可能多销售芯片。

但对于阿里这样的系统公司,直接为用户提供系统级服务,芯片只是其提供更好、更具差异化服务的关键,销售芯片并非其目标,既然如此,芯片的开发和应用策略和路径和传统芯片公司并不会相同。

比如,倚天710与飞天操作系统协同,能为云上客户提供高性价比的云服务。还有,基于从云到端的芯片,阿里能够更好的发展其AIoT生态,构建一个更强大的生态。

从处理器到服务器,再到操作系统,阿里正在从系统层级实现全面的自主,增强竞争力。

]]>
芯片设计 //m.drvow.com/category/chipdesign/2qgIwMKQcirWmYHw.html#comments Tue, 19 Oct 2021 12:42:00 +0800
英特尔下一个时代的『CPU』,10倍以上性能提升,1000倍能耗降低 //m.drvow.com/category/chipdesign/C5lm6oDaYJjpMTav.html 芯片行业有一种说法:“算力可以换一切”。

也就是当芯片算力足够大的时候,许多难题都能迎刃而解,这也解释了摩尔定律如此受关注的原因。但随着AI、大数据的发展,传统的芯片越来越难以满足新兴应用的需求,业界需要全新类别的芯片。

量子计算、神经拟态计算(也称类脑计算)是两个重要的突破方向。相比量子计算,神经拟态计算的关注度略低一些,但神经拟态计算已经被英特尔证明在一些应用中,可以带来至少10倍的性能提升,同时实现1000倍的能耗降低。

英特尔神经拟态计算实验室总监Mike Davies在近日宣布英特尔第二代神经拟态芯片Loihi2后与雷锋网的交流中说:“英特尔可能不是第一家将神经形态技术商业化的公司,因为英特尔的规模,我们正在寻找巨大的机会。所以,我们必须以十亿美元的水平看待所有的商业机会。我们并不急于商业化,但当我们商业化的时候,希望这是一项通用技术,可以像CPU、GPU在多种应用中为广大客户提供巨大价值。”

从某种意义上来说,无论是英特尔正在探索的量子计算还是神经拟态芯片,都有可能成为地位可以比肩现有CPU的“下一个时代的CPU”。

Mike说至少要在3年后才可能看到英特尔正式推出神经拟态的商业化产品,但Loihi已经取得的成果值得我们期待神经拟态芯片的时代。

神经拟态芯片与传统芯片有何本质差别?

谈论神经拟态芯片的优势之前,先解释一下神经拟态计算这种全新的计算方式。神经拟态计算受到生物学原理的启发,基于对现代神经科学的理解,从晶体管到架构设计,算法以及软件来模仿人脑的运算。

神经拟态计算与传统芯片和传统处理方式有很多不同,比如,人脑中没有单独的存储器,没有动态随机存取存储器,没有哈希层级结构,没有共享存储器等等。“存储”和“处理器”错综复杂地深绕在人脑里,在人脑的结构中有“神经元”的存在。

系统编程层面也有很大的区别,传统的CPU或GPU结构以顺序操作或指令/程序来思考,在神经拟态芯片中,计算过程需要神经元单元的互动。神经拟态芯片处理答案的步骤也许不按照程序的执行步骤,更多的是根据动态的交换反应。

当然也有相似之处,在电脑中,以数字化核心相互交流基于事件的信息,叫做脉冲,这点和人脑传递信息的方式相似。

相比传统计算与神经拟态计算原理的区别,更多人应该更加关心神经拟态计算表现在应用中的优势。Mike说:“有一系列问题人脑可以很好地处理,所以我们可以期待神经拟态计算对于真实数据的处理速度或反应时延的性能效率提升,尤其是对于真实数据样本的适应力或快速学习能力的提升。”

神经拟态芯片擅长处理哪些任务?

2017年时,英特尔就对外公布了其第一代神经拟态芯片Loihi,随后便开始与业界共同探索神经拟态计算的可能性和可以发挥优势的场景,并建立了神经拟态研究社区(INRC),如今已经有将近150个成员机构。

INRC今年新增的成员包括福特(Ford)、佐治亚理工学院(Georgia Institute of Technology)、美国西南研究院(SwRI)、美国菲力尔公司(Teledyne FLIR)。

“我们调查了最近所有的结果,研究了IEEE文献,在很多不同的领域都得出,Loihi的结果超过了使用最好的CPU和GPU算出的结果,其中很多出自感知领域。”Mike表示“特别是和新的事件相机传感器(新型视觉传感器)集成时,神经拟态芯片能够以非常低的功率水平来执行手势识别和其他视觉推理任务。”

比如气味传感器,与基于传统深度学习的方法相比较,神经拟态计算可以有效地学习多达三千倍的数据。

在机器人学习方面,基于神经拟态计算也展现出在机器手臂系统变化中的鲁棒性,在一些实时出现的偏差中,Loihi也可以识别到,然后可以回归预期轨道重新布局电路。

“过去的几个月中,神经拟态计算在量化优化领域取得了非常好的结果。”Mike兴奋的表示。

相比而言,英特尔与德国铁路公司的合作更能展现神经拟态计算未来的应用前景。Mike介绍,“使用Loihi解决铁路调度问题,速度比德国铁路公司运营的Dion's使用的先进商业云计算处理器快一个数量级以上,这是1000倍的低能耗。这表明高阶规划决策优化问题可以在以前根本不可能实现的形式因素中得到支持。”

还有一个例子,一些早期的研究显示,热扩散方程(一个基本的物理行为属性)已经在Loihi中建模,桑迪亚国家实验室完成的这项研究极大地减少了科学计算存在功耗过大方面问题的可能性。

“我们对Loihi的结果非常满意。但与此同时,我们发现了硬件的一些限制。”Mike同时指出。

迈向下一个CPU时代

更强大的硬件

“我们有了一个编程性极强的神经元,可配置性极强的神经元模型,但它是一个固定功能类型的神经元。”Mike进一步表示,“自然界没有单一的神经元,实际上有1000种不同类型的神经元,它们在大脑中有许多不同类型的动态。我们想尝试支持的应用确实需要更多的灵活性,以使芯片中的神经元更加多样化。”

雷锋网了解到,英特尔通过一个微码指令集来解决灵活性的问题,这个微码指令集定义了神经元模型,几乎可以编程任意的模型,涵盖了研究界试图探索的不同类型的方法。

“我们还扩展了脉冲的概念,这将提升结果的精确度,还可以缩小网络的大小,以支持特定的问题。”Mike介绍,“在功能上,我们在Loihi2上还加强了芯片的学习能力。”

这些研究层面和功能层面的进步需要更强大的硬件支撑。在电路层面,Loihi 2比Loihi 1快2到10倍,这取决于特定的瓶颈和你测量的特定参数。例如,基于模拟的结果显示,在前馈神经网络中,Loihi2比Loihi快10倍。

工作负荷层面,Loihi2的神经元的数量提升了8倍,同时将芯片的面积缩小了一半(芯片总内存大致相同),即基于核心大小为0.21 mm2的Loihi 2,最多支持 8192个神经元,对比核心尺寸为0.41 mm2的Loihi,最多支持1024个神经元。

Mike解释,“第一代Loihi做了固定分配,芯片中的每个核心都支持1024个神经元。但我们发现,在许多应用中,神经元的数量是一个有限的因素,芯片中的其它内存资源却没有得到充分利用。因此,Loihi 2的架构允许资源在有限的程度上进行交换,同时不影响架构的格式和效率,从而当应用工作负载受限于神经元数量时(通常会发生),能够提供更多的资源来扩展到更多的神经元。

与此匹配,需要先进的半导体制造工艺。“神经拟态计算的架构相对于其他架构需要更大的资源密度,Intel 4制程能够提供更大的晶体管密度,我们可以在同样大小的芯片上放置更大的神经网络。”Mike还说,

“与以往的制程技术相比,Intel 4制程节点采用的极紫外光刻(EUV)技术简化了布局设计规则,使Loihi 2的快速开发成为可能。”

采用预生产版本的Intel 4制程其实还有英特尔展示其先进制程领导力的作用。需要指出的是,神经拟态架构是一个非常同质的架构,这对于仍处于产量优化过程中的早期工艺来说有很大优势,因为它可以容忍大量的缺陷。

“神经拟态架构比其他架构更能够从Intel4预生产过程中受益。”Mike表示。

不过,要解决更多实际问题还需要用Loihi2构建系统。为此,Loihi2的扩展能力也进行了提升,有了4倍速度的接口,还新增了两个接口,可以在3个维度上进行扩展。

同时,Loihi2对芯片间的连接进行了压缩,让许多工作负载的扩展提供了10倍以上的带宽,在减少拥堵和该架构扩展到更大网络的能力方面,综合提高了60倍以上。

总体而言,Loihi2的诸多改进,是为了减少支持相同程度能力所需的网络规模,从而获得更快的处理速度和更低的功耗。

软件是神经拟态芯片大规模商用的关键

“Loihi 2与第一代一样,属于通用的神经拟态架构。展望未来,我们希望能构建一种新的可编程处理器架构,类似CPU或GPU,不针对特定的应用,适合用于填充组合技术。”Mike展望。

纵观成功的CPU和GPU,都有非常易于使用软件及软件生态。显然,神经拟态计算芯片想要成为像CPU一样的通用芯片,软件非常关键。

Mike也说,“过去三年使用Loihi的过程,我们吸取到一个重要经验,软件对神经拟态领域进展的限制和硬件一样关键。”

此前,想要使用神经拟态芯片,都需要从头开始开发软件,这就像每个人都在重新创造世界。借鉴深度学习领域成功的TensorFlow和PyTorch,加上在神经拟态领域的经验和需求分析,英特尔专为神经拟态计算打造了开源软件框架Lava。

Mike强调,“我们不会把Lava作为英特尔的一个成品发布给全世界使用,但这确实是与外界合作的起点。我们现在已经在GitHub上发布了这个软件框架,它借鉴了英特尔在这个领域观察到的东西,也借鉴了英特尔第一代软件开发获得的经验,也就是称之为NX软件开发工具包的NX SDK。”

开源框架Lava有一个重要特性,无论是将应用程序的成分映射到传统的CPU或GPU上,还是将其分解成神经过程然后运行在神经拟态芯片上都可以。

“在使用Loihi 2研究芯片时,仍然需要通过英特尔相关法律程序的批准,这对很多想要参与这项研究的人来说是一个障碍。”Mike表示,“我们将为Lava提供一个开源许可证,这意味着开发人员可以自由进入并将这个框架移植到其他神经拟态芯片上。这是关键的一步,能够扩大开源社区,并将所有这些探索神经拟态研究的不同方向的努力和付出汇集在一起,至少在软件层面,可以更快速地实现商用落地。”

雷锋网了解到,Lava使用的是Python语言,这在一定程度减轻了采用Lava的难度。

“我想说的是,构建算法的方式,对于巨大的芯片来说是比学习编程语言而言更困难的障碍。”Mike对雷锋网表示,“可以尝试轻松过渡到使用神经形态芯片,但我们认为最大的挑战还是当前编程所需要使用的特定语言。在未来,我们或其他为Lava做出贡献的人可能会引入新的语言或特定领域的语言,因为很明显它可以提高生产力。”

写在最后

对于英特尔而言,全面的产品组合是其保持当下以及可见的未来竞争力的关键。而对神经拟态计算和量子计算的探索,则关乎长远未来的技术领导力。正如Mike所说,神经拟态计算的大规模商用还有很长一段路要走,但英特尔一旦商用神经拟态计算芯片,瞄准的是十亿美元的市场。

也就是说,英特尔研究神经拟态计算和量子计算,瞄准的是下一个CPU/GPU级别的产品。

Loihi已经取得的成果,以及如今宣布的Loihi2,不仅能够释放出其在先进计算领域的进展,更能通过Intel4制程将其现在的竞争力和未来的竞争力很好地连接在一起,共同展示英特尔的未来。

但在先进计算的探索中,除了需要实力,也需要运气。

]]>
芯片设计 //m.drvow.com/category/chipdesign/C5lm6oDaYJjpMTav.html#comments Thu, 14 Oct 2021 16:58:00 +0800
这里有一份物联网芯片和汽车芯片安全的设计指南 | CNCC2021 //m.drvow.com/category/chipdesign/Gvqrlc158qwbAFtP.html 芯片总因其高性能而受到关注,安全性却时常被忽略。近年来,芯片安全事件多次引发业界广泛关注。2018年,英特尔、AMD、ARM处理器中的Meltdown和Spectre漏洞,几乎威胁到了所有人的电脑和智能手机的安全。

今年又有研究报告指出,高通公司芯片中的一个新漏洞可能会影响全球30%的安卓手机。

随着联网设备的增加,一旦芯片出现安全问题,影响的范围将远超以往,物联网设备的安全性就显得更加重要。

全球移动通信系统协会(GSMA)的统计数据显示,2020年全球物联网设备连接数量高达126亿个。GSMA同时预测,2025年全球物联网设备(包括蜂窝及非蜂窝)联网数量将达到约246亿个。

那么,如何才能保证海量联网设备的安全?

另外,随着汽车的智能化和网联化发展,汽车的安全又如何保障?

提升物联网芯片安全的矛盾问题何在?

物联网设备的连接数在高速增长,全球物联网安全的费用支出也在不断增加。市场分析机构Gartner调查数据指出,近20%的企业或相关机构在过去三年内至少遭受一次基于物联网的攻击。Gartner在早期预测,为防范安全威胁,2020年底全球物联网安全费用支出将达到24.57亿美元。但实际上,想要提升物联网芯片的安全性需要解决一个关键矛盾问题。

湖南大学教授/博导、国家优青基金获得者、湖南大学芯片安全技术及应用研究所所长、CCF容错专委秘书长张吉良教授告诉雷锋网,“物联网芯片安全最大的痛点是,在计算资源、存储资源和功耗严重受限的物联网环境中,芯片安全机制的代价与安全性之间的矛盾。”

密钥安全存储和基于密钥的加解密计算是基本的芯片安全机制,也是芯片安全的两大基础功能,但传统安全机制存在容易受到物理攻击和难以适应资源受限的物联网设备的问题。

更具体地说,一方面,传统密钥一般通过非易失性存储器或者熔丝进行存储,现有的基于电子显微镜和微探针等物理攻击方式有可能从芯片中获取这些密钥,这就面临着容易受到物理攻击的问题。当然,可以通过增加防篡改功能的密钥安全存储提升芯片的安全性,但这带来的成本开销对于物联网芯片来说是难以承受的。

另一方面,传统芯片密钥管理复杂且加解密计算复杂度高,像在物联网这样的轻量级终端设备上,在算法引擎功能、性能、功耗方面都难以承载。

因此,想要提升物联网芯片的安全性,就必须解决芯片安全机制的代价与安全性之间的矛盾。

同时,与物联网芯片一样,亟需提升芯片安全性的还有汽车行业。

汽车芯片安全性的痛点是什么?

汽车的智能化和网联化是两大发展方向,但是已经有相关影视作品给我们展示了智能化和网联化带来的潜在风险,诸如通过远程攻击并控制汽车,会带来不可预测的损失。显然,相比普通的物联网设备,联网汽车的安全性更关乎每个人的安全。

汽车安全的核心,自然也离不开芯片。如今的汽车芯片无论在性能、稳定性和安全性要求上都高于消费电子产品,也有像ISO26262这样的针对汽车芯片的功能安全标准。不过,汽车芯片的核心技术长期被国外企业管控,在当今复杂多变的国际形势下,制约了我国汽车产业的自主可控发展。

因此,对于我国的汽车芯片公司而言,不仅要解决汽车芯片的功能安全问题,还要面对供应安全的问题。

“现有的汽车芯片在计算性能、存储容量与通信能力等方面难以支持复杂行驶条件下的计算与控制需求,芯片架构需持续创新,但是诸如采用多核异构计算的架构导致汽车芯片的功能安全设计难度日益增加,同时还要满足汽车领域的低成本、低功耗等要求。国内芯片设计企业尚未完全掌握汽车芯片的功能安全设计保障技术,缺少具有一定竞争力的可实用核心产品,这是我国汽车芯片安全方面的一大挑战。” 清华大学教授、清华大学移动计算研究中心副主任李兆麟博士说。

“另一方面,我国汽车芯片的功能安全标准体系不健全,行业未形成统一技术框架,缺少必要的第三方的测试手段和评价与认证能力,致使整车企业缺乏方法和工具来判断国内自主研制的汽车芯片的安全性,同时,国内尚未建立健全完善的自主研制汽车芯片产品的应用体系。”

如何提升芯片安全性?

不难发现,从普通的物联网芯片到汽车芯片,在安全性的提升上,都面临着技术和成本的挑战,这也是芯片安全性容易被忽略的重要原因。

想要提升芯片的安全性,从设计到应用的全流程都有优化的空间。

“EDA软件可以在芯片设计初期就帮助用户快速计算芯片的安全等级能力和指标,快速迭代芯片设计代码,降低设计复杂度并保障芯片设计的功能安全性。” 上海芯思维信息科技有限公司CEO刘志鹏博士指出。

EDA工具支持的常用故障类型是SA0、SA1、SET和SEU,故障注入仿真旨在帮助功能安全芯片设计厂商自动计算SPFM(单点故障覆盖率),LFM(潜在故障覆盖率)以及DC(安全机制诊断覆盖率)等技术指标。

芯片完成流片和封测后,还需要进行加速环境应力测试、加速寿命模拟测试、电气特性确认测试等。

雷锋网了解到,正常完成一批可靠性测试实验通常需要两个月甚至更多时间,而厂商一般需要完成三批次的可靠性测试才算完成可靠性验证。此外,可靠性测试很多测试项需要在第三方实验室进行测试,测试板、测试座、测试费等都是一笔不小的开销。

但无论对于汽车芯片还是物联网芯片,成本都非常敏感,因此想要提升安全性必须达到可靠性与测试成本的折衷。

安徽大学集成电路学院教师宋钛博士说,“业界引入了新的测试概念——适应性测试。它依靠机器学习的数据统计,根据缺陷特征预测缺陷芯片。基于故障数据建立预测模型,对可靠性低的芯片不必测试直接剔除。这很像测试专家经常根据经验对缺陷进行预判,但经验有时会出错。而基于机器学习的测试方法依托数据,并且能根据数据的变化而调整预测模型。”

不止于此,芯片的可信芯片设计与测试还有更多值得探讨的话题。

2021年10月30日13:00-16:00, CNCC 2021的“可信芯片设计与测试:从物联网芯片到汽车电子”论坛,安徽大学副教授、博士生导师、安徽大学芯片设计与测试研究所所长、CCF容错计算专委委员、CCF集成电路设计专业组委员、CCF/IEEE高级会员闫爱斌担任论坛主席。

论坛的六位重磅专家(清华大学教授/博导、国家杰青基金获得者、集成电路学院副院长尹首一博士;清华大学教授/博导、清华大学移动计算研究中心副主任李兆麟博士;湖南大学教授/博导、国家优青基金获得者、湖南大学芯片安全技术及应用研究所所长、CCF容错专委秘书长张吉良博士;安徽大学集成电路学院教师宋钛博士;昆仑芯(北京)科技有限公司资深研发工程师罗航;上海芯思维信息科技有限公司CEO刘志鹏)将会向您分享:

  • 如何设计毫瓦级超低功耗神经网络处理器,将人工智能普及到移动与物联网设备;

  • 智能汽车芯片的可靠和安全技术要求,以及对汽车芯片短缺问题的认识和思考;

  • PUF芯片安全技术面临哪些机遇与挑战;

  • 机器学习技术在芯片测试中的应用;

  • 新时代企业的芯片算力解决方案及可信计算实践等。

如果您关注芯片安全,敬请关注CNCC 2021的“可信芯片设计与测试:从物联网芯片到汽车电子”论坛。

另外,CNCC还有其它芯片论坛将深入讨论开源芯片的软硬件协同敏捷设计,面向人工智能芯片的编程语言和编译器。

CNCC 2021是计算机领域年度盛会,将于10月28-30日在深圳召开。今年大会主题是“计算赋能加速数字化转型”,本届大会共开设了111个技术论坛,涉及32个研究方向,无论从数量、质量还是覆盖,都开创了历史之最,将为参会者带来学术、技术、产业、教育、科普等方面的全方位体验。

CNCC是计算领域学术界、产业界、教育界的年度盛会,宏观探讨技术发展趋势,今年预计参会人数将达到万人。每年特邀报告的座上嘉宾汇聚了院士、图领奖得主、国内外名校学者、名企领军人物、各领域极具影响力的业内专家,豪华的嘉宾阵容凸显着CNCC的顶级行业水准及业内影响力。

今年的特邀嘉宾包括ACM图灵奖获得者John Hopcroft教授和Barbara Liskov教授,南加州大学计算机科学系和空间研究所Yolanda Gil教授,陈维江、冯登国、郭光灿、孙凝晖、王怀民等多位院士,及众多深具业内影响力的专家。

大会期间还将首次举办“会员之夜”大型主题狂欢活动,让参会者畅快交流。雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/Gvqrlc158qwbAFtP.html#comments Tue, 12 Oct 2021 11:27:00 +0800
前博通副总裁创业,9个月流片,性能赶超对手十多年迭代的高端视觉芯片 //m.drvow.com/category/chipdesign/TBedRz5rxU2KOjtM.html 想要在资金、技术、人才门槛“三高”的芯片领域沿着领先者走过的路实现弯道超车,可能性微乎其微,创新则可以颠覆传统。

前博通副总裁、紫光展锐CTO仇肖莘2019年5月创立的爱芯元智(原爱芯科技)仅用时一年四个月就量产了一款可以与竞争对手迭代十多年的高端视觉芯片比拼的产品。

“ISP(Image Signal Processor,图像信号处理器)经过十几二十年的发展性能已经达到传统算法的极致,我们引入AI的方式颠覆传统的ISP设计,同时提升ISP的性能天花板。”爱芯元智创始人兼首席执行官仇肖莘对雷锋网表示。

用AI颠覆传统的ISP,有哪些关键?

感知+计算的大市场

爱芯元智(原爱芯科技)成立的2019年并非AI芯片初创公司大量成立的时间点,之所以选择在2019年创业,仇肖莘说,“我非常看好感知+计算芯片的应用前景。ISP是感知的关键,但这个技术沿着传统的方式很难有很大的提升,如果把ISP和AI计算结合起来,不仅能够提升ISP,也有广阔的应用市场,包括智慧交通、智慧城市、运动相机、翻译笔等。”

看好市场的机遇是一方面,仇肖莘的个人经历也决定了爱芯的创立时间。她本硕毕业于清华大学自动化专业,并在美国南加州大学取得了电子工程博士学位。在2018年9月加入紫光展锐任CTO之前,仇肖莘一直在国外工作,曾在AT&T Labs任职并获得研究卓越奖,也曾任博通公司副总裁。2019年,创业并且聚焦感知和计算成为她新的的选择。“我们希望做AI视觉芯片行业的开拓者,同时也坚持长期主义。”仇肖莘说。

明确了目标,坚定了信念后,仇肖莘迅速集结了一批参与过10颗以上的芯片设计和生产的核心成员,业务范围涵盖芯片的设计、生产,软件和硬件。“我现在可以说,爱芯元智已经有非常完整的芯片团队,负责芯片从设计到生产到应用的各个环节。”仇肖莘表示。

团队的完善带来了产品的快速量产。雷锋网了解到,爱芯元智的首颗人工智能视觉芯片AX 630A在2019年8月立项,9个月后的2020年5月流片,7月31号回片后一次成功点亮,12月进入量产状态,今年6月正式风险量产。

“AX630A是我们目前的旗舰产品。这款新品第一版就流片成功,既没有做MPW,也没做任何Metal Fix。”仇肖莘自信的表示。

颠覆传统ISP的两大关键

爱芯元智的首款旗舰产品AX630A功耗约3W,可实现57.6TOPS@800MHz 2w4f算力,等效算力到达28.8TOPS@800MHz INT4。如果对比市场同类产品,竞品以int8运行Resnet50的网络,AX630A以混合精度的方式运行Resnet50,在最终精度几乎相同的情况下,爱芯的芯片每秒处理的图像帧数是竞品的十倍多。

 

能够实现一个数量级性能差距的关键是爱芯元智自研的混合精度NPU以及联合设计的AI ISP。要用AI颠覆ISP,首先需要解决AI芯片面临的内存墙挑战。所谓的内存墙,是由于内存性能远小于计算性能,内存不能高效将数据传输到计算核心,带来高功耗和有效率计算性能不高的问题。

目前业内通过多种方式解决内存墙的挑战,包括存算一体、可重构计算等。爱芯解决内存墙挑战的方式是混合精度。

“AI模型有非常多层,在端侧,目前主流的方式是每一层都读取8位整数(int8),但实际上,在最终模型精度不变的情况下,并不是每一层都需要读取8位数,中间层的数据表达4位甚至2位就足够,不同的层用不同的数据精度表达就是混合精度。”仇肖莘表示,

“采用混合精度设计AI芯片可以降低对内存的需求,比如原来每层网络都读取8位数据,用混合精度表示可能平均只需要4位的精度就足够,这样不仅能够在相同的芯片面积下提供更大的算力而且对内存的带宽需求就可以减少为原来的四分之一,也就解决了内存墙的问题。”

要用混合精度的方式设计AI芯片的挑战在于需要芯片和算法的协同设计,既然是协同设计,就需要同时非常了解算法和芯片架构,用算法指导AI芯片的硬件设计,同时又要思考AI芯片的设计反过来对算法实现的影响。

也就是说,硬件可以提升算法的效率,而算法又可以绕过硬件的限制,这是一个在算法灵活性和硬件效率间寻求最佳平衡点的难题。

“我们是业内第一个设计且量产端侧混合精度AI芯片的公司。”仇肖莘说。

解决AI芯片的内存墙挑战只是第一步,接下来需要思考的是如何将AI与ISP结合超越传统ISP,真正实现颠覆。

“传统的ISP流水线(pipeline)有十几到二十个模块,我们将ISP流水线中最重要的几个模块,包括高动态、3D降噪等AI化处理,将AI处理融入到ISP流水线中。”仇肖莘透露。

爱芯元智ISP负责人、系统架构师张兴解释,“用AI的方式实现ISP流水线中的关键模块,我们就能够不断迭代和优化AI模型,不断提升画质。AX630A从去年7月底回片到现在,我们的模型每半个月更新一版效果,效果实现了质的飞跃。”

仇肖莘说:“如果用传统的方式,我们没有办法在第一代芯片就达到行业内迭代了十多年的高端水平。通过AI定义ISP,我们的第一代芯片就赶上了行业高端ISP,并且在某些性能上实现了超越。”

也就是说,传统ISP需要通过芯片按年来迭代的方式,才能不断完善ISP,而爱芯将ISP中的关键模块AI化,ISP的迭代周期大幅缩短到以周来计算,提升了ISP的迭代速度的同时,还提高了ISP的灵活性能够匹配不同传感器。

“如果是没有协同设计的ISP和NPU,很难实现将ISP流水线中的关键模块软件化或者说AI化。我们之所以率先量产AI ISP不仅因为这两个核心IP都是自主研发,联合设计也非常关键。”仇肖莘特别指出。

“高算力的AI ISP有很多好处,比如可以提升图像的信噪比,把原来被埋在噪声里的信号恢复出来。或者,大算力也能够实现大规模的智能分析,用于智慧城市等。还有,大算力能够满足视频流处理需求的同时,实现更好的夜间视频效果。”

要知道,视频流的处理对ISP有较高要求,每帧的处理时间只有33毫秒,这对ISP是极大的考验。

注:视频截图已做人物隐私保护

从爱芯展示的视频看,AX630A在多路视频结构化智能分析、大规模智能分析和夜间视频效果中确实有显著提升。这款芯片也已经被华东地区的大客户采用。

普及AI ISP 

“手机业界已经发现在AI算力的支持下,AI算法已经超越了传统ISP算法的效果,因此目前主流的趋势是用AI算法替代传统算法,或者将AI算法与传统算法结合。”张兴指出。

近来,手机业界也掀起了自研芯片潮流,头部手机公司纷纷研发起ISP,本质原因是影像和显示功能是消费者最容易感知,也最愿意买单的功能,自研ISP能够在提升手机影像相关性能的同时实现差异化,并且相比研发SoC,自研ISP的投入产出比最高。

作为率先量产AI ISP的公司,爱芯不会错过这一市场。爱芯的第二款产品,也是其定位主流的产品AX620A也已经在今年5月流片,7月下旬已经回片,目前一切顺利,预计在2022年第一季度客户会出货搭载AX620A的产品。

AX620A的功耗小于1W,可以实现28.8 TOPS @800MHz 2w4f(等效算力 14.4 TOPS @800MHz INT4)的性能,因其主流产品定位AX620A的性能低于AX630A,但因为ISP和NPU都是新一代,所以在单核性能和能效及图像效果上相比旗舰产品AX630A都有所升级。

仇肖莘透露,“我们设计AX620A的时候还是希望能做手机的前处理ISP,所以功耗控制是一个大的设计目标。在这一应用市场,预计明年会有好消息和大家分享。”

AI ISP应用于手机和智慧城市等场景的效果一旦被市场认可,竞争对手就会迅速跟进,这也促进了爱芯的快速成长。“我们一定要比别人超前几步,否则很容易被人追上。我们的目标是在初期迅速让产品成系列,并且有相应的客户支持,客户用起来之后,后续的产品迭代就会比较慎重,每一代产品都需要有亮点。”仇肖莘谈及爱芯的产品规划。

雷锋网了解到,随着爱芯芯片的量产,爱芯的团队人数从年初的140多人迅速扩增到了如今的300人,并且软件团队的人数大约是硬件团队人数的1.5倍左右。

“我们的芯片明年会有比较大的出货量。爱芯元智最终的目标还是成为视觉处理领域的头部企业,所以我们一定要成规模。同时,我们现在选择投资人的时候,也更看重可能带来的协同性。”仇肖莘说。 

小结

爱芯元智的成立时间早已过了AI最热的时间,但爱芯用技术和定位证明,只要满足市场需求的产品就能够迅速获得市场认可。视觉作为AI落地的重要方向,相比许多AI芯片初创公司仅提供AI加速器的方法,爱芯元智的AI ISP使用的场景以及易用性的更加明确,这也是其产品能迅速落地的关键。

不过,要发挥混合精度NPU和AI ISP的优势,还有很多技术关卡需要持续突破,这对成立不久的爱芯来说,有大量软件层面的工作需要做,对使用的客户来说,也有一定的技术门槛。

爱芯元智已经用自研核心IP表明了其想要在这一市场做大的决心。能否达成,拭目以待。

]]>
芯片设计 //m.drvow.com/category/chipdesign/TBedRz5rxU2KOjtM.html#comments Thu, 30 Sep 2021 14:05:00 +0800
紫光展锐如何冲上手机处理器市场的全球第四? //m.drvow.com/category/chipdesign/5BmhfrJe3GM13SeU.html 曾经稳固的4G手机芯片市场格局,在5G时代已经开始发生变化。

联发科凭借高性价比的中高端5G芯片表现比手机芯片一哥高通更加亮眼。紫光展锐也在内部大刀阔斧改革以及新的战略之下,今年第二季度在手机芯片市场占有率排名第四,公开市场第三。

“方向正确是赢多赢少的事,方向错误是输多输少的事。”这是紫光展锐CEO楚庆反复强调的观点。

这就引出了两个问题,展锐做对了什么能够冲进手机处理器市场的前五?紫光未来的潜力有多大?

冲上手机处理器市场第四位

市场调研机构counterpoint上月发布的统计数据显示,紫光展锐2021年第二季度在全球智能手机应用处理器(AP)市场占有率为8.4%,仅看公开市场(不包括苹果)排名第三。这是值得紫光展锐庆贺的成绩,因为这是在其2020年市场占有率被单独统计后,一年内实现了翻倍。更早的2018和2019年,紫光展锐在这一市场的占有率被归入“其它”,不单独展示。

紫光展锐能迅速提升市场占有率,最核心的原因还战略的调整。“战略方向决定事业成败。”楚庆说:“过去展锐的经营颓势,一大主要因素就是掉进了‘低端陷阱’。”

“低端陷阱”是展锐在第一届内部战略与管理峰会上,新管理团队总结出的一个概念。楚庆在今天的展锐UP ·2021线上生态峰会上首次解释了“低端陷阱”的含义。

“过去展锐只做低端产品,只适应那些低端客户,这会得到两种反馈:一种是现金,另一种是需求。低端产品得到的现金一定是少的,而需求如果不是面向未来,只是让你开发越低端的产品,这就造成了恶性循环——你既没有足够的资金投入到开发,客户也没有对你提出更高的诉求,最终你既不想去创新,也没有能力去创新,就像掉到一个陷阱里一样。”

摆脱低端陷阱,以楚庆为首的新管理团队2018年开启了公司大调整。雷锋网此前介绍过,展锐在2018年及之前的6年,业务连续下滑,几乎没有任何新产品,对于展锐那样体量的芯片公司,一年起码要有100个订单才合理。

楚庆上任起,展锐几乎更换了所有的管理者,自上而下大换血。2018年底,展锐的员工硕士学位人数占比大概是40%,2021年4月已经达到了85%,团队的平均年龄也从差不多37岁降到了32.8岁。

人才对于芯片企业而言是更加重要的核心资产,有了新的团队和人才队伍,还需要让企业走在正确的道路上。

“‘5G当先’已成为了展锐的一种战略选择。”楚庆表示,“我们所处的行业,要求展锐必须扛起两面大旗,一是5G技术,要保证5G技术必须领先,R16就是展现责任心的一次具体行动,支持中国5G生态链领先全球。另一个是半导体技术,必须进入先进技术领域,并扎根其中。”

5G当先的战略下,楚庆用了展锐当时一半的研发力量(2000人做头)投入5G。2020年5月15日,展锐首款5G智能手机芯片正式商用量产,与国际领先厂商的差距为六个月左右,跻身全球5G第一梯队。“2021年2月4日,展锐第二套5G芯片回片,开创全球最早的6nm,甩掉了半导体技术长期落后的帽子!”楚庆在两个月前转发《展锐上半年经营业绩报告》时配上了这样的转发语。

今年7月,展锐宣布联合联通成功完成全球首个基于3GPP R16协议版本的业务验证,这是5G R16标准迈向商用的重要里程碑,也是展锐5G技术创新的又一成果。

5G其实与先进半导体技术相辅相成。展锐2020年发布的唐古拉T770是全球第一颗基于台积电6nm工艺制造的5G SoC。展锐的手机芯片从12nm跨越10nm和7nm,再到6nm EUV工艺,首次实现了工艺领先。

今天的峰会上,紫光展锐执行副总裁周晨曝光了其6nm 5G芯片的跑分成绩,超过40万分的成绩表明表明其已经能够达到业界主流中高端5G智能手机的性能水平。

但帮助展锐快速提升市场份额的,4G更为关键。

“展锐在4G智能机成功逆袭,是因为制定了正确的战略。”楚庆表示,“在5G来临之际,大公司没有别的选择,只能精力全投到5G上,完全忽略了4G。我们在这个时候杀一个‘回马枪’,利用最高效的组织方式开发了T610/618,而且在很短的时间内推向了市场,结果这一战不光为我们赢得了生机,还赢得了声誉。”

雷锋网了解到,目前展锐在4G领域既有顶线的T610/618,也有面向中间层和主打性价比的多元全线产品,4G业务布局形成一个立体战略架构。

“小公司相对于大公司而言,唯一的优势就是战略优势,如果不能抓住,必然失败。”楚庆这样说。

这让展锐以冲刺的速度提升了其在手机市场的占有率。2021展锐成功进入荣耀、realme等手机品牌,并持续获得包括海信、TCL、中兴、联想、摩托罗拉、诺基亚等品牌厂商在内的全球128个国家超五百家客户的订单。

2021上半年,展锐营收同比增长240%,其中5G手机业务收入同比增长1458%。

紫光展锐未来的可能性

虽然有市场机构预测,展锐处理器今年下半年在中国智能手机品牌的份额有望达到10%,但手机市场的增长空间有限,潜力还是在于手机之外的消费以及行业市场。统计和预测数据表明,全球范围内物与物连接的数量正在快速增加,已经超过了人与人之间的连接数量。

5G出现之前,移动通信主要围绕人与人之间的通信,支撑起丰富的消费级业务。5G定义物间通信为主要场景,推动物联网产业爆发。为了以先进可靠的技术承载数字世界的生态,展锐有三大技术底座,分别是马卡鲁通信技术平台,AIactiver技术平台和先进半导体技术平台。

展锐高级副总裁夏晓菲介绍,马卡鲁是展锐的5G通信技术平台,为客户提供方便快捷的一栈式解决方案。AI技术平台AIactiver,通过异构硬件、全栈软件和业务深度融合,优化了原生用户体验的同时,也向客户提供完整的二次开发平台和定制服务,帮助生态合作伙伴高效便捷的开发丰富的AI应用。先进半导体技术平台将包含SoC、射频、电源芯片等多个领域,以及先进封装技术。

实际上,展锐在5G行业市场也已经开始快速发展。Counterpoint的第二季度全球蜂窝物联网市场跟踪报告显示,展锐是全球前五大蜂窝物联网芯片厂商中唯一一家同比增速超过100%的玩家。

同时,展锐在多个典型行业领域都取得了优异表现:在公网对讲机领域,展锐产品的国内市场份额接近80%;金融POS领域国内市占率50%;云喇叭国内市占率70%;OTT领域Wi-Fi份额60%,市占率全国第一;在快递车的换电充电领域,展锐在全国市场份额接近六成。

展锐高级副总裁、工业电子事业部总经理黄宇宁指出,展锐2021年上半年在工业电子领域实现了业务销售收入同比增长153%的成绩。

不过,市场需求依旧整个芯片行业面临的挑战。楚庆认为,目前的缺货并不是因为真实需求的大幅增长而造成的供应不足,囤货更多属于一种投机行为。

“芯片供应商都在加大马力供货,从一些关键供应链的产能增加情况来看,去年年底到今年年初已经做了大规模的投入,预计明年二季度这笔投入会变成现实的产能,所以明年二季度到三季度之间可能是一个拐点,有可能从芯片缺货时代迈向供应充足时代。”楚庆预测。

因此,如何面对芯片供应紧缺充足的时代,以及发现并抢占真正爆发的应用市场,才是展锐未来增长的关键。

楚庆透露,展锐已经有应对芯片供应紧张缓解的准备。

同时,为了能够更好服务客户,展锐成立了一个新的部门——解决方案管理部。“我们把几乎原来研发力量30%的人力都投了进去,就是为了给生态伙伴提供更好的支持、更好的服务,不光是要变得更高效,而且还要更精准,这是我们的决心。”楚庆解释。

小结

楚庆领导的新展锐自2018年以来已经交出了漂亮的成绩单,在5G以及发展国产高端芯片的大背景下,展锐抓住了机遇,战略调整的价值也被证明。但这种势头能否保持,一方面仍要看其领导团队的执行力以及能否在战略指引下持续保持高效。另一方面,只是迈进5G和高端芯片市场的展锐,想要站稳难度不小,毕竟这个行业如今仅剩的竞争者,每一个都比展锐强大。

还有一个问题,紫光集团的破产重组会在多大程度上影响展锐的发展。雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/5BmhfrJe3GM13SeU.html#comments Thu, 16 Sep 2021 18:06:00 +0800
Arm正在x86统治的高性能CPU市场“披荆斩棘” //m.drvow.com/category/chipdesign/3HBCaQnHjpWfzjtb.html 摩尔定律持续发挥作用的几十年间,无数应用受益于芯片性能的快速提升,芯片市场的格局也在这个过程中逐步稳定,x86 CPU在桌面和高性能计算市场占有绝对优势,Arm CPU统治移动互联网市场。

然而,随着摩尔定律的放缓,市场的格局也开始发生变化。能效比优势明显的Arm CPU经过三年多的努力,已经在x86 CPU统治的云计算、HPC市场取得了值得关注的成绩。并且,正在快速增长的DPU和5G市场,Arm也雄心勃勃。

三年推两代产品

2018年10,Arm推出了Arm Neoverse,这是面向云到边缘基础设施产品,Arm承诺Neoverse平台效能30%的年增长率将持续到2022年及以后。要知道,那时候摩尔定律给传统CPU带来的提升已经不足10%。

Arm Neoverse规划了三个系列产品,同时考虑性能、功率、面积(PPA),擅长可扩展的N系列;提供最佳性能,相对会消耗更多面积和功耗的V系列;主要关注效率,在功耗和面积的缩减上进行优化的E系列。

2019年,第一代Neoverse N1推出,性能相比Cosmos平台提升60%,是2018年提出的目标的两倍。同时推出的还有Neoverse E系列处理器。

2020年发布的Neoverse N2,在保持相同水平的功率和面积效率之余,相比Neoverse N1单线程性能提升了40%。强调性能的Neoverse V1的单线程性能相比Neoverse N1更是提升超过50%。

单核性能大幅提升的Arm Neoverse CPU今年接连交出成绩单。今年3月,安晟培半导体(Ampere Computing)发布 “首款云原生处理器”Ampere Altra,拥有80个64位Arm 处理器内核,雷锋网此前的文章介绍过,这是Ampere在2020年流片的产品。不久后,甲骨文就发布了Ampere A1 Compute。

到了7月,基于网络基础设施提供CDN内容分发网络与减缓DDoS攻击的服务提供商Cloudflare首次采用基于Arm架构服务器进行部署。据悉,相较于2013年设计的服务器,Cloudflare基于Arm架构的系统可以安全地处理10倍以上的互联网请求。

在高性能计算领域,日本国立研究开发法人理化学研究所(RIKEN)与富士通公司共同基于Arm架构开发的超级计算机“富岳”连续第三次名列国际超级计算机500 大(TOP500)排行榜的第一名。

Arm为什么能够迅速拓展高性能计算市场?

Arm接连交出的漂亮成绩单背后,是市场需求的变化。

“面对未来基础设施的多样化要求,传统的通用解决方案已经不再适用。云服务提供商和超大型互联网公司正在推动的创新达到了一个前所未有的水平。这些都在驱动整个数据中心的优化逐渐从上层应用迁移到整机,并进一步扩展到服务器处理器。”Arm基础设施事业部全球高级总监邹挺进一步表示。

“通过Neoverse,Arm和广泛生态合作伙伴系统正在提供一个独特的平台,来实现未来针对服务器芯片的解决方案。其中,AWS Graviton2所带来的强劲发展势头就是这个共同愿景的非常有力的证明。”

性能的提升给有差异化需求的云计算提供商针对Arm高性能CPU进行优化的动力。目前,百度智能云数据库积极发展 Arm 平台数据库产品,已经完成Arm架构的全栈代码改造和性能优化,性能打平传统架构平台。

腾讯也持续在 Arm 架构上进行优化与实践工作,通过性能测试、数据交流、技术研讨等形式不断推动JDK在Arm架构的发展。据悉,KonaJDK团队目前完成了JDK8和JDK11等版本的优化,后续也计划支持JDK17等版本,未来也会加大投入完善JDK对Arm架构的支持。

“基础设施市场变化非常快速,也在不断发展,为了满足这个市场的多样性与快速变化,必然会出现不同类型的计算解决方案。”邹挺进一步表示。

“一方面,我们看到超大型互联网客户通过Arm IP定制服务器芯片,满足特殊应用场景需求。另一方面,也有大量企业客户对标准化Arm服务器芯片带来的高性价比、优异的TCO(总体拥有成本)表现有着很浓烈的兴趣,这也给独立的 Arm 服务器芯片厂商带来非常广阔的市场前景。”

邹挺认为,Arm在云领域上我们已经取得了最相对领先的成功。同时,在中国市场Arm重点关注的领域是云数据中心/超大型互联网领域、和5G网络/电信市场。

加大软件生态投入站稳高性能CPU市场

5G的蓬勃发展,也给Arm带来了新的机会。英伟达将在其5G平台上扩大对Arm架构的支持。

另外,在即将爆发的DPU市场,Arm Neoverse也被多款产品采用。两个月前,Marvell 发布了基于Neoverse N2平台的DPU。上月的英特尔架构日,英特尔透露了其首款IPU产品的信息,让人有些意外的是其款IPU集成了Arm Neoverse N1 CPU。

邹挺认为,DPU 连接到主机系统,并通过 PCI-Express 插槽供电,再加上DPU支持专用的工作负载加速器和数据包处理功能,所以DPU中的处理器能否提供出色的每瓦性能至关重要。Neoverse N系列能够提供行业领先的每瓦性能表现,是DPU核心的最佳选择。

有业内人士也告诉雷锋网,Arm能够提供更加成熟的软件工具链也是其在高性能CPU和DPU市场被采用的重要原因。

Arm当然也看到了这一点,并且正在加强其在高性能CPU软件生态方面的建设。据了解,在Armv8时代的十年,Arm软件开发人员所投入的研发时间超过了 1,000 万个人时。在Armv9时代的十年,Arm软件开发人员的投入时间大概率会超过3,000万个人时。

具体到基础设施领域,邹挺介绍,“通过过去十年的努力,Arm现在拥有大量的OSS项目,ISV也已经支持Arm 64位架构。在Docker Hub上为Arm编写的容器镜像数量超过10万。同时,在Arm硬件上进行CI/CD构建的时间已经多达每个月超过100万分钟。”

企业级云原生软件的支持上,Arm的合作伙伴红帽近期也宣布其Openshift on Arm开发者预览版也在中国落地。

Arm在云计算、HPC、5G所需的高性能CPU市场的软件生态正在成熟,高性能计算CPU的市场也正在迎来新的变化。雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/3HBCaQnHjpWfzjtb.html#comments Thu, 02 Sep 2021 18:24:00 +0800
深度揭秘:百亿美元 DPU 芯片市场的『三国杀』 //m.drvow.com/category/chipdesign/pPrI3PQNZEbg2ZN6.html 全球芯片行业近年来技术、产品、市场的变革,都与摩尔定律的放缓直接相关。AI芯片就是典型代表,当传统的CPU、GPU依靠摩尔定律带来的芯片性能提升不足以满足AI、大数据的需求时,大量的AI芯片应运而生。

继AI芯片之后,DPU(Data Processing Unit)芯片又成了各大芯片巨头、互联网巨头、初创公司争相研发的新产品,也是近年来资本热衷投资的方向,所有的参与者都希望在市场爆发前抢占先机。

不同于CPU和GPU,DPU是典型的应用驱动型芯片,传统芯片巨头有丰富的芯片设计经验但对应用场景的理解不够深入,互联网巨头深刻理解自身业务需求但芯片设计经验不足,初创公司各有所长。

多位业内人士告诉雷锋网,DPU芯片市场将在2-3年后爆发。在全新的DPU赛场,谁能脱颖而出主导市场?

到底是IPU还是DPU?

探讨新鲜的DPU,不妨从命名开始。DPU的概念最早由美国一家名为Fungible的初创公司提出,但将DPU概念带入大众视野的是英伟达。在Fungible提出DPU概念的2019年,英伟达以69亿美元收购了Mellanox,一年后的2020年,英伟达基于Mellanox的产品发布了DPU,DPU的概念一炮而红。

今年6月,英特尔公布了IPU(Infrastructure Processing Unit,基础设施处理器)的愿景。

英特尔公司数据平台事业部首席技术官Guido Appenzeller对雷锋网表示,“DPU和IPU在功能上没有根本性差别,只是命名不同。我个人认为,IPU这个名称要好很多,因为IPU的作用就是处理基础设施功能,这是其与众不同之处。”

“IPU和DPU都有其合理性,目前看将两者画等号问题不大。不过我更倾向于使用DPU的命名。”中科驭数CEO鄢贵海表示,“如果将处理器按照结构划分,可以分为以控制为中心和数据为中心两大类,DPU是以数据为中心,强调的是吞吐量、运算的高效性等,以DPU命名也比较贴切。”

中科驭数是2018年成立于北京的DPU初创公司,在7月底宣布获得了数亿元的A轮融资。

2020年刚成立,在今年7月宣布获得数千万元Pre-A轮融资的DPU初创公司大禹智芯也更倾向于DPU的命名方式。

大禹智芯CEO李爽说:“IPU更多是从应用场景的角度命名,DPU则是描述产品的功能,如果类比CPU和GPU的命名方式,我觉得DPU更合适。英特尔用IPU也很合理,毕竟这类产品还没有形成标准,大公司想要自己定一个标准,而且,IPU中也包含intel的首字母。”

无论是IPU还是DPU,都是全新的命名,那全新的命名代表的是全新的产品吗?李爽和Guido Appenzeller认为属于全新的产品。鄢贵海则认为DPU只能视为全新的商品,实际上DPU的技术已经发展了很多年。

“DPU是一个I/O密集型专用处理器,早在40年前,IBM也有功能类似的产品,他们叫做I/O控制器。因此,DPU的技术要素之前已经存在,只不过当时的重要性没有凸显,如今是通过DPU这样一个产品来进行集中体现。”鄢贵海解释。

李爽提出,“我们不应该把重点放在寻找DPU的定义上,而应该更多关注DPU要解决哪些问题。”

为什么需要DPU/IPU?

DPU诞生的背景是带宽与计算性能的增速失调。CPU的性能从5-10年前每年30%的增幅,到三年前大概只有每年不到3%的性能增幅。而网络带宽每年依旧还有35%左右的增长。”鄢贵海指出:“处理性能和带宽增速的比例从原来的大概1:1,变成了现在的1:10左右。”

当有10倍以上的差距时,就需要思考新的架构。因为原来的架构没办法进行平行扩展,这时候就需要专用的系统。所以DPU不能简单讲是一颗芯片,它是一个系统。”李爽认为,“DPU实际上是架构转移。”

Guido Appenzeller从另外一个维度去解释IPU的诞生。“传统数据中心内只有一个主人。而在云中,工作负载和系统则分别属于租户和云系统提供商,我们看到这两种架构开始分离。”他说,“IPU是一个新兴的架构,专门运行云服务提供商的软件,租赁这些服务器的租户的软件则在CPU上运行。”

用一个形象的比喻来解释传统数据中心与云服务提供商数据中心架构的不同,传统的数据中心就像是家庭场景,客厅、厨房、餐厅都在一个大的区域内,有一个明确的主人。而云服务提供商的数据中心则像是酒店,客房、餐厅是分开的,酒店客人和工作人员也同样分开。

Guido Appenzeller认为IPU带来了三个显著优势,首先,加入IPU的架构可以清晰地区分租户区和云服务提供商区。其次,可以把基础设施功能转移到专门优化的IPU上,实现性能的大幅提升。最后,IPU把数据中心变成了无磁盘架构,无需再给每台服务器配备磁盘。

根据Facebook给出的数据,基于微服务的现代应用占用了大量的CPU循环,从31%-83%不等,比如在Web应用中,83%的CPU循环被用于开销,包括传输、压缩、解压缩、加密等功能。如果把这些开销从CPU转移到IPU,云服务提供商就可以把整个CPU租给客户。

鄢贵海也表示,数据中心东西流量与南北流量大约是4:1,东西流量统计的是数据中心节点之间流量,这表明底层基础设施之间消耗的计算资源远大于对外提供服务消耗的资源。目前来看,网络卸载能力是客户对DPU最刚性的需求。

接下来值得关心的问题就是这种新产品的技术路线。

有哪些类型的DPU/IPU?

李爽认为,目前DPU有三种技术架构,一种是Arm多核或MIPS多核,一种是CPU+FPGA的架构,一种是ASIC SoC的架构。前两种已经被验证过,优劣势也比较明显。多核架构具有通用性,整个技术栈偏软件为主。

Guido Appenzeller只将IPU分为两类架构,第一个是专用ASIC IPU;第二个是基于FPGA的IPU。“每一类都有自己的优势和劣势。基于FPGA的IPU能快速实施新协议,应对不断变化的要求或新协议。专用ASIC IPU可以实现性能和效率的最大化。

“在美国和中国,六大云服务提供商目前使用基于FPGA的IPU。随着带宽变高,我们看到他们缓慢地转向专用ASIC IPU。因为存在很多专利协议,所以不会发生快速转变。” Guido Appenzeller指出IPU发展的趋势。

鄢贵海也认同这个趋势,“Arm/MIPS多核的方式在实际的应用系统中未必能真正发挥优势,FPGA的方式可以在接口上省去一些功夫,但重要的部分没有突破,我觉得是避重就轻。ASIC的限制条件更少,能进行更多的定制,实现更大的差异化,差异化越大才能有更大的优势。

“通过与客户的沟通我们发现,市场对于DPU的认可度非常高,但还没有一款很好的DPU能够满足客户需求,大家都在期待一款好的产品。”李爽指出市场都在期待一款优秀的DPU。

这里需要强调的是,虽然目前IPU/DPU与智能网卡(SmartNIC)在形态和功能上有一些类似,但他们本质上是不同类别的产品。Guido Appenzeller解释,IPU 具有本地控制平面,这意味着IPU可以控制CPU,而SmartNIC更多的是卸载,由CPU管理,处于CPU的控制系统中。

一款有竞争力的DPU/IPU有哪些特性?

正如对于AI芯片的评价还没有公认的评价体系,想要评价尚在探索阶段的DPU也并不容易。“如果评价AI芯片的性能已经很困难,我觉得评价DPU的性能会更困难。由于DPU本身功能的多样性,导致我们去衡量它的时候需要的不是一个指标而是一套完整的指标。”鄢贵海指出。

比如,衡量DPU的网络加速功能,网络带宽是关键指标。DPU支持虚拟化,OVS的转发容量又是关键。考量DPU的数据压缩/解压缩,加密和解密性能,在非对称的性能中选择哪一个作为关键指标又是问题。

李爽指出,无论如何,DPU的处理性能一定要大于端口的能力。

Guido Appenzeller说:“设计一款出色的 IPU有很多挑战。我认为最难的部分是获得加速器和流水线,因为它们负责做大部分工作,能够确保具有非常高的性能、非常低的延迟,特别是对大规模云提供商影响最大。”

当然,对于一款芯片来说,物理指标,包括性能、功耗和面积依然可以作为衡量一款DPU的重要维度。但更重要的衡量维度是整个DPU系统,因为DPU是典型的场景驱动芯片。

“CPU、GPU这些传统的芯片都有标准的框架和技术定义,芯片设计公司按照定义去设计芯片,到了用户端最困难的其实是驱动和软件框架。所以最后会发现在芯片硬件性能相似的时候,比拼的是硬件和软件的衔接。”李爽进一步表示,“DPU是一个全新的系统,没有参考设计。这时候只有充分理解客户的需求,从底层硬件架构到软件设计出一套新型的芯片系统满足客户需求是非常大的挑战。”

“要设计一款有竞争力的DPU,一定要对场景有非常深刻的理解。”李爽强调。

对于这一点,英特尔已经用产品证明,其首款产品是一款200G的ASIC IPU,是与一家顶级云服务提供商共同合作开发,实现更高的性能,包括数据包处理,安全性和隔离性等。

鄢贵海也说:“像DPU这样应用驱动的芯片,其性能最终要体现在应用侧。要在应用侧发挥出DPU领先的性能,我认为软件会成为一个重要的瓶颈。”

 “这一点我们在之前已经感受到,在做网络二、三层协议卸载的时候,为了能够充分发挥性能,几乎要重构底层的BSP网络协议,但同时要保证API的不变。”鄢贵海说,“整个DPU系统的性能要提升,不仅要对应用层有足够深度的了解,还需要有包括网络、虚拟化、存储、高速总线协议方面的专业知识。因此需要一套非常好的设计方法和流程,将具备不同设计能力,对不同领域有深度了解的人和设计整合起来。”

“英伟达DPU的软件栈DOCA是在复制了他们在GPU+CUDA领域的成功。客户有学习和迁移的门槛,也是需要慎重考虑是否采用的选择。”这是李爽和鄢贵海的共识。因此大禹智芯和中科驭数都是通过在软件层面投入大量的工作,取不同客户需求的最大公约数提供相应功能,在API层面尽量兼容客户已有的习惯,最大化降低客户的使用门槛和迁移成本。

“目前我们还没有准备好谈论软件,今年晚些时候会有更多相关消息。” Guido Appenzeller表示。

那么,DPU系统的竞争,会朝着什么方向发展?

2-3年后正式开启DPU赛场

有意思的是,此次与雷锋网深度交流的三家DPU提供商,硬件路线都各有特色。英特尔是典型的传统芯片巨头的代表,他们拥有ASIC IPU和FPGA IPU两条产品线。中科驭数选择的是ASIC IPU的路线。大禹智芯采用Arm、FPGA、ASIC根据场景不同组合的路线。

ASIC一般而言是在牺牲一定的灵活性的前提下获得高效处理能力。对于采用ASIC IPU路线的中科驭数,鄢贵海对灵活性的看法是,“如果分工过于细致但共享度不够,可能会损失效率,但如果有足够的共享程度,分工带来的潜在灵活性损失会被极大弥补,这一点我倒不是特别担心。而过分追求灵活性,也可能丧失DPU异构计算的潜力。

大禹智芯坚持DPU的通用性。李爽解释:“我们的目标是构建面向云计算市场的通用DPU。所以在软件可以复用,硬件采用多种方案。这实际也是降低风险的方式,先配合上层应用定义好软件,在这个过程中不断提取对硬件的定义,减少因为对场景理解不够透彻可能导致的芯片设计偏差。”

据悉,大禹智芯会使用Arm的IP以及第三方的FPGA,ASIC则是自己的芯片团队设计。

至于最终的落地情况,中科驭数FPGA版本的DPU已经与上交所、华泰证券、中泰证券、国泰君安等十余家头部客户建立合作,其产品的性能、稳定性已经在实际应用场景中验证。即将推出的下一代产品会向数据中心、5G边缘计算等领域扩展。

大禹智芯首要的目标市场与英特尔一样都是云服务提供商。李爽说,“我们的目标客户是那些对于DPU的需求量不小,但又不够支撑其自研的公司。这样对于客户和我们试错成本都比较低。我们的策略是不做定制,要做DPU产品服务提供商。”

大禹智芯、中科驭数都把自己定位为中立的DPU供应商提供领域通用的芯片,核心的原因还是看到了这一市场未来的前景。头豹研究院预测,中国DPU市场规模预计将在2025年达到37.4亿美元。全球DPU市场规模2025年预计将达到135.7亿美元。

中国DPU市场规模,2020-2025年预测,来源:头豹研究院

报告同时指出,数通市场是DPU最大的应用市场,其中裸金属服务其对DPU存在刚需。DPU在电信市场的应用主要为边缘计算场景,渗透率不足5%。针对智能驾驶领域的DPU仍在探索阶段,预计在2023年DPU才有望布局在智能驾驶领域。

Guido Appenzeller 认为“从根本上来说,运营模式类似云就非常适合采用IPU。”

“未来2-3年市场会爆发,因为现在各家公司的DPU从今年开始设计,硬件系统大概需要2-3年的时间。我认为近三年大家都没有竞争关系,是在比赛谁先把产品推向市场。”李爽表示。

鄢贵海同样认为,“2-3年后市场陆续会有DPU产品推出,那时候DPU的竞争会更强调先进制程、先进封装。我认为未来DPU的竞争一定是异构系统的竞争。

Guido Appenzeller 对于当下DPU市场的态度是,“有几家初创公司正在开发DPU,而且拥有许多有趣的技术和产品,这对所有厂商来说都是非常有益的。从长远来看,我认为云端的几乎每个服务器都会有类似 IPU 的东西,这显然是一个很大的市场。渐渐地,这不再是一个初创市场,而是由大公司主导的市场。

但除了传统的芯片巨头和初创公司,头部的云厂商们也在自研DPU产品。亚马逊云科技(AWS)2013年开始就开始研究将网络、存储等之前由CPU处理的任务卸载到网卡上,并推出了相应的产品。阿里云也在其神龙服务器核心组件中应用了专用芯片,统一支持网络、I/O、存储和外设的虚拟化。

此时,DPU的性能和成本优势都是竞争的关键。李爽预估,云服务提供商采用DPU后可以带来十倍的性能提升,TCO(总体拥有成本)能下降超过10%。鄢贵海在有很多限制条件下做出的预估更加乐观,TCO下降可以达到30%。

让人更加期待的是,当IPU/DPU让云服务提供商拥有更强的能力之后,未来可能创造的新产品和新应用。

资本在加持,玩家在增加,传统芯片巨头、初创公司、自研DPU的头部云服务提供商,谁会成为最终统治市场的2-3家DPU提供商?

]]>
芯片设计 //m.drvow.com/category/chipdesign/pPrI3PQNZEbg2ZN6.html#comments Thu, 02 Sep 2021 14:03:00 +0800
英伟达预计9月初寻求欧盟批准,收购Arm或无法如期完成 //m.drvow.com/category/chipdesign/3EIaKZNaJrsG4T6l.html 雷锋网消息,据路透社报道,知情人士透露,英伟达可能会在下月初寻求欧盟反垄断机构对其400亿美元收购Arm的批准,而欧盟监管机构预计将在初步调查后展开全面审查。

今年6月,有三位知情人士透露,由于欧盟反垄断机构提出的问题比英伟达预期的问题多得多,英伟达至今尚未向欧盟委员提出收购批准申请。同时欧盟反垄断机构的官员已经向英伟达表明,如果英伟达无法在月底之前提交批准申请,由于欧洲假期耽误,将要等到9月才能正常进行审查。

结合来看,这只是欧洲假期结束英伟达提出收购批准申请。

消息人士称,向欧盟委员会提出批准该交易的请求将启动为期 25 个工作日的初步审查。不过,英伟达在此期间不太可能做出让步,这将促使欧盟进行为期90个工作日的全面调查。

由此一来,英伟达可能无法在2022年3月的最后期限内完成交易。

当然,欧盟委员会并非英伟达收购Arm的唯一阻碍。Arm的总部位于英国,基于国家安全问题,英国竞争和市场管理局(Competition and Markets Authority)在今年7月20日向英国文化部长Oliver Dowden提交了一份报告书。

本月初,彭博社援引一位知情人士的消息,报告表示英伟达的收购对英国国家安全表达了担忧,英国目前倾向于拒绝收购。

另一位未透露姓名的知情人士称,出于国家安全考虑,英国可能会对这笔收购进行更深入的审查。

英伟达的一位发言人对此回应,“这项交易将有利于Arm、以及其客户。我们正在通过监管程序,期待与欧盟委员会合作解决可能存在的任何问题。”

实际上,英伟达这家全球最大的GPU和人工智能芯片提供商去年宣布将以400亿美元收购Arm的交易后就立即引发了半导体行业的强烈反对。

长期以来,Arm 一直是一个中立的芯片提供商,将关键知识产权授权给众多芯片公司,包括高通公司、三星电子和苹果公司等,其中一些是英伟达的竞争对手,高通就公开表示不支持英伟达收购Arm。

不过,这笔交易也有一些支持者,英伟达表示,它已经获得了 Arm客户博通、联发科和 Marvell的支持。

除了欧盟和英国,中国也是这笔交易能否达成的关键。今6月,一位中国的反垄断律师告诉英国《金融时报》,中国的调查可能会使这笔交易超过英伟达在2020年9月给出的18个月窗口期。

根据英伟达和Arm的收购协议,两家公司可以选择将最后期限延长至2022年9月。同时,在没有得到政府的许可的情况下,任何一方都可以宣布退出,终止协议。

参考链接:https://www.reuters.com/technology/nvidia-set-seek-eu-okay-54-bln-arm-deal-sources-2021-08-27/ 雷锋网雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/3EIaKZNaJrsG4T6l.html#comments Sat, 28 Aug 2021 12:31:00 +0800
自研IP出货将超1亿片,Arm中国秀出“涡轮发动机”XPU //m.drvow.com/category/chipdesign/kXG3z8hhwffYRS6O.html 2018年开始独立运营的合资公司安谋科技(Arm China),三年后的今天在强调CPU+XPU“双轮驱动”战略的同时,发布了全新业务品牌“核芯动力”,为的是满足越来越多的智能数据流处理需求。

“核芯动力“的标志很像一个涡轮发动机,是我们希望通过技术给产业提供核芯动力的愿望。”安谋科技执行董事长兼CEO吴雄昂解释,“标志左边是一个A,代表了我们在Arm CPU架构上的传承。中间的X代表了XPU架构给产业提供更好的动能。A+X代表着我们希望提供完整的解决方案。同时,右边是很多的i元素,代表了创新、智能以及无限的可能,无限的合作伙伴。”

安谋科技的涡轮发动机,到底要驱动什么?

核芯动力是什么?

安谋科技作为合资公司,继承了Arm在中国的CPU业务,自2018年成立,帮助Arm CPU累计出货量超过200多亿片。同时,安谋科技的自研IP也取得成果,4条产品线全部量产,有上亿片的出货量,全国有90多家合作伙伴,29家实现流片和量产。安谋科技的员工数量也已经超过800人。

更具体地说,安谋科技在2018年的11月就发布了自主研发的AI专用处理器IP周易NPU,并且在2020年十月发布周易Z2。

安谋科技自研CPU 星辰在2020年实现量产。

自主研发的信息安全IP系列产品山海SPU的首代产品是安谋科技独立运营的第二年发布,并在2021年4月发布了第二代产品山海S12。

去年底,安谋科技又公布了全新“玲珑”多媒体产品线,包含玲珑ISP和玲珑VPU,搭载玲珑ISP的产品预计在今年底实现量产。

显然,安谋科技不仅从独立运营之初就开始布局自研产品线,从AI到视觉到安全,而且实现了产品的商用,自研XPU产品芯片出货量2021年将超过1亿片。但为什么选择在今年的这个时间节点宣布新的业务品牌,安谋科技并未选择回答雷锋网的这一问题,但可以从核芯动力的含义中找到一些答案。

摩尔定律的放缓,让所有类别的处理器想要借助先进制程提升性能的难度越来越大,但AI、智能汽车、高性能计算对计算性能的要求却越来越高,单一的计算架构已经很难满足不同应用,不同客户的多元化需求。

以自动驾驶为例,摄像头的清晰度每过几年就翻倍,从2K、4K到8K,摄像头数量也从2个、4个到8个、12个,这些摄像头产生的数据流都必须被实时性地处理,才能保障行车安全。而这些海量的数据流必须有一个全新的计算架构才能提供百倍算力的提升。

可以看到,英特尔已经通过收购拥有了全面的计算架构,并且在近几年一直在强调XPU战略。Arm在今年四月发布最新一代架构Armv9的时候,也非常强调全面计算的理念。安谋中国今天发布的核芯动力新业务品牌,同样也是要解决智能数据流计算的挑战,目标用开放的智能数据流融合计算架构,推动中国本土XPU生态的创新。

与英特尔的XPU定义有所区别,安谋科技对XPU的定义是“开放的智能数据流融合计算平台正”。更具体的说,是基于超域架构(xDSA)的XPU可以针对不同应用,将处理AI、视频、图像等功能的计算单元组成不同的解决方案,来解决海量智能数据流的处理效率和功耗问题,满足客户多元化的需求。

安谋科技新业务副总裁张晓波解释,安谋科技重新定义了新的融合计算架构,即超域架构,其中主要核心是以高密度数据流处理为中心的专有核心计算单元,同时域处理部分也引入了智能架构,另外,也会支持架构扩展进行算力的堆叠。

也就是说,安谋科技的XPU以及核芯动力新品牌,从整个业界的角度来说,并非一个全新的概念,而是顺应时代潮流的一个重要举措。当然,这其中也包含了这家国内最大CPU IP提供商自有优势的体现,还有对于未来的判断。

瞄准三大应用,开源NPU指令集建设生态

张晓波说,XPU的新架构具有灵活、高效、专用及支持丰富产品组合等特性。XPU产品构建出的子系统可以完美地支持智能物联网、自动驾驶及新型数据中心等。

安谋科技执行董事长兼CEO吴雄昂

“以往,客户需要从不同的IP提供商那里购买不同的IP再进行整合,这样面临比较大的挑战。我们的XPU不仅可以省去客户需要多方采购和集成IP的挑战,同时,针对场景优化的XPU能够提供更有竞争力的解决方案。”吴雄昂在发布会后的沟通环节表示,“针对场景定制和优化也是安谋科技XPU的不同之处。”

在整个芯片业界都在朝着XPU路径迈进的当下,谁能更好满足新兴市场的需求无疑能在未来的竞争中占有更多优势。AI作为当下最为关键的技术之一,如何用CPU+GPU+AI在众多应用场景中发挥出价值非常关键。

2021年7月15日,在中国半导体协会的指导下,安谋科技和上下游50多家企业成立智能计算产业技术创新联合体(ONIA), 共同发布全球首个开源的神经网络处理器指令集架构(NPU ISA)。

“这是中国首发、全球开源的神经网络处理器指令集架构。”吴雄昂说:“我们通过共建共享、开放创新的模式,希望形成产学研投的联动,推动自主核心技术的落地与演进。”

安谋科技预计,到2021年底,ONIA囊括中国集成电路产、学、研的会员单位将突破100家。

为了进一步支持创新,支持开源开放,安谋科技也会针对创新联合体的会员,提供周易NPU的免费授权。另外,还会联合安创加速器,孵化10家基于开源架构和XPU的创业企业。

“我们周易NPU的团队有100多人,在国内属于很大的团队,产品也非常领先。”吴雄昂也说,“国内也有许多公司有团队在做NPU,并且也有不错的产品。我们推开放NPU ISA的目的是希望整个业界能实现NPU ISA和工具自由,以更高的效率和更低的成本实现AI的更多落地。”

吴雄昂同时确认,开源并不适用于安谋中国的所有IP产品。而且即便NPU ISA开源,也可以给通过给客户提供定制化服务获得营收。

还有一点,安谋科技的XPU目前仅针对国内市场,暂时没有面向国外市场的计划。

这就不难看出,安谋科技开源NPU ISA只是想要借助开源的方式,和合作伙伴共赢,帮助需要NPU的客户以更低成本实现落地,在这个过程中安谋科技能够完善AI生态,实现在AI领域的领先。

雷锋网认为,学界对于安谋科技的开源NPU ISA会兴趣更大,但对于已有NPU以及希望在AI领域掌握核心技术的公司,很难被开源的NPU ISA打动。

小结

国内最大CPU IP提供商的光环,并非安谋科技完全靠自己努力获得的光环。因此,对于有更高追求的安谋科技来说,在XPU的时代,以自研的IP产品,通过开源的方式去吸引更多合作伙伴,建立真正自主的生态是一个非常巨大的机遇,也是一个明智的举措。

但如何把握好兼容Arm CPU和核芯动力之间的平衡,应该会是安谋科技未来会面临的问题。

Arm的NPU Ethos以及ISP IP产品,在国内的发展,是否会面临阻力?

注,文中配图来自安谋科技雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/kXG3z8hhwffYRS6O.html#comments Thu, 26 Aug 2021 18:30:00 +0800
发射全新架构“火箭”,英特尔两年“登月” //m.drvow.com/category/chipdesign/1DLGukTafkS1x3fq.html 本周四,英特尔架构日用长达近两个半小时的时间介绍了其在架构创新以及相关新产品方面的进展。英特尔高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri说:“架构是硬件和软件的‘炼金术’。”

英特尔高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri

2016年,AMD发布全新CPU微架构ZEN,帮助其在桌面CPU市场几年间迅速接近甚至超越英特尔。今天,英特尔发布了全新的CPU架构和两个核心,将移动SoC中已广泛应用的CPU大小核(BIG.LITTLE)架构率先引入桌面级CPU中。

英特尔在升级“看家”产品CPU的同时,也带来了独立GPU更详细的信息。特别值得关注的是,英特尔首次展示了耗时近两年,堪比登月难度创新后的产品Ponte Vecchio GPU,包含1000亿个晶体管,这是英特尔迄今为止最高的计算密度产品,能提供业界最顶级的AI性能。

不止于此,英特尔还进一步介绍了全新的基础设施处理器(IPU)。

从CPU到GPU再到IPU,每一个新的架构和产品都是其XPU架构战略的体现,也用实际产品证明了芯片异构的时代,软件优先的重要性。无论如何,英特尔全新的CPU值得消费者期待,而其GPU以及IPU,也将成为竞争对手重点关注的产品。

4年处理能力提升1000倍

AI、元宇宙、AR,都需要超高性能的处理器。每一位追求创新的客户都给英特尔一个问题,到2025,英特尔能让我们的工作负载处理能力有1000x(千倍级)的提升吗?

“这个要求只给了我们4年时间,而1000倍可是摩尔定律的5次方。” Raja说,“为了在2025年满足1000x(千倍级)提升的需求,我们要在每个技术领域,实现至少4倍左右的摩尔定律提升,这些领域包括制程工艺、封装、内存和互连,架构是将它们与软件结合起来的‘炼金术’。这些技术的集合可以作为乘法因子,与4倍的提升相结合,就能提供处理繁重的工作负载所需的千倍提升,这同时例证了为何如今是成为架构师的大好时代。”

2019年,两位图灵奖得主 John L. Hennessy 和 David A. Patterson发表长报告展望,未来的十年将是计算机体系架构领域的“新的黄金十年”。

已经准备好先进制程(Intel7、Intel4、Intel3、Intel20A,以及外部代工厂),先进封装技术(EMIB、Foveros),内存(傲腾)和互联技术的英特尔,处理能力可以像火箭一样跃升吗?

这需要先看英特尔的看家本领——CPU。

要以大小核的方法,夺回CPU领先优势

“我们的首要目标是,打造世界上极高能效的x86 CPU内核。与此同时大幅缩小芯片尺寸,以便多核工作负载可以根据需要,使用尽可能多的内核进行拓展。我们还希望提供更宽的频率范围,以满足更高需求的工作负载。”英特尔院士,英特尔x86能效核的首席架构师Stephen Robinson介绍,

“基于全新的微架构,全新的CPU内核在多核性能方面实现了突破,首款产品是Alder Lake。”

Alder Lake是英特尔首个性能混合架构,采用Intel7制程,搭载两款新一代x86内核以及智能英特尔硬件线程调度器。

先看能效核,也叫E-Core。与英特尔迄今为止最多产的CPU微架构Skylake相比,其可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。如果看吞吐量,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。

实际上,英特尔是利用各种技术,在不耗费处理器功率的情况下对工作负载进行优先级排序,并通过每周期指令数(IPC)改进功能直接提高性能,具体的功能包括:

  • 拥有5000个条目的分支目标缓存区,实现更准确的分支预测

  • 64KB指令缓存,在不耗费内存子系统功率的情况下保存可用指令

  • 英特尔的首款按需指令长度解码器,可生成预解码信息

  • 英特尔的簇乱序执行解码器,可在保持能效的同时,每周期解码多达6条指令

  • 后端宽度(Wide Back End)具备5组宽度分配(Five-wide allocation)和8组宽度引退、256个乱序窗口入口和17个执行端口

  • 支持英特尔®控制流强制技术和英特尔®虚拟化技术重定向保护等功能

  • 实现了AVX指令集以及支持整数人工智能操作的新扩展

再看性能核,也叫P-Core,这是英特尔迄今为止性能最高的CPU内核,它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。

更宽、更深、更智能的性能核架构具体的体现是:

  • 更宽:解码器由4个增至6个,6µop 缓存增至8µop,分配由5路增至6路,执行端口由10个增至12个

  • 更深:更大的物理寄存器文件(physical register files),拥有512条目的重排序缓冲区

  • 更智能:提高了分支预测准确度,降低了有效的一级时延,优化了二级的全写入预测带宽

与第11代酷睿架构(Cypress Cove内核)相比,在相同频率下,性能核在一系列工作负载上平均提升了约19%。

拥有AI硬件加速器是英特尔CPU独有的功能,这一特性在性能核上进一步通过软件结合硬件来提升。凭借英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,AI加速可以提升约8倍(每个内核每周期可进行2048次int8运算)。AMX可是用过软件的方法,由此就不难理解英特尔一直强调软件优先的原因。

“能效核并不意味着性能就低,只是其优化的方向与性能核不同。”英特尔研究院副总裁、英特尔中国研究院院长宋继强告诉雷锋网。

拥有了不同的内核,就像是拥有了更多武器,能够充分发挥武器的杀伤力才是高手称霸的关键。所以,英特尔开发了独特的硬件线程调度器,能够从开始就动态、智能地分配工作负载,从而优化系统以在真实场景中实现更高的性能和效率。

“英特尔硬件线程调度器与其它调度器一个非常大的区别就是动态、智能地分配工作负载,在合适的时间把合适的线程分配给合适的内核,同时还与操作系统无缝配合。”宋继强指出。

全新性能混合Alder Lake架构CPU由于采用了单一、高度可扩展的SoC架构,这就让其可以支持从超便携式笔记本,到发烧级,到商用台式机的所有客户端设备。

全新的性能核微架构也会用于利润丰厚的数据中心CPU市场,也就是下一代英特尔至强可扩展处理器,代号Sapphire Rapids,其核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。

可见,AMD用Zen赶超英特尔,如今英特尔要用Alder Lake反超。这也让我们更期待今年底将会出货的搭载Alder Lake CPU的PC产品。同样,英特尔捍卫其在服务器CPU市场的领导力,代号Sapphire Rapids的下一代至强可扩展处理器也非常重要。

再入独立GPU市场,挑战登月级难度

相比看家本领的CPU产品,英特尔过去两次挑战独立GPU市场,都以失败告终。再一次进入独立GPU市场的英特尔面临的是更大的挑战。

“我们面临的是将近持续十年之久的问题。英特尔在吞吐量计算密度和对高带宽内存的支持方面都落后。这两者都是 HPC和AI的基本指标,也是GPU架构的基石。”Raja给出了图表展示英特尔与业界领先水平的差距。

Raja还同时说,“当2017年GPU架构开始为AI数据类型的矩阵处理添加特殊引擎时,问题变得更糟。我们真的很想尽快缩小这个差距,所以我们需要一个堪比登月难度的创新产品。”

今天英特尔架构日上,详细介绍的全新的独立显卡微架构Xe HPG,采用新的Xe内核,聚焦计算、可编程、可扩展,并全面支持DirectX 12 Ultimate。基于全新独立显卡微架构Xe HPG的首款产品是Alchemist,Alchemist SoC能够提供出色的可扩展性和计算效率,并拥有以下关键架构特征:

  • 多达8个具有固定功能的渲染切片,专为DirectX 12 Ultimate设计

  • 全新Xe内核,拥有16个矢量引擎和16个矩阵引擎(被称为XMX,即Xe Matrix eXtension)、高速缓存和共享内部显存

  • 支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光线追踪单元

  • 通过架构、逻辑设计、电路设计、制程工艺技术和软件优化,相比Xe LP微架构实现1.5倍的频率提升和1.5倍的每瓦性能提升1

  • 使用台积电的N6制程节点(通常叫做台积电6nm)上进行制造

与全新的CPU微架构一样,英特尔全新的GPU微架构也采用了软件优先设计的方法。

“英特尔很早就与开发者、API 和领先的游戏引擎厂商展开合作,共同为游戏发烧友设计英特尔新款独立GPU。这款全新可扩展Xe HPG架构,采用了软件优先的设计方法,从而为游戏玩家和创作者带来高性能表现并减少画面卡顿。” 英特尔CEO 帕特·基辛格表示。

雷锋网了解到,英特尔已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,使计算密集型游戏的吞吐量提高了15%(至多80%),游戏加载时间缩短了25%。同样能体现软件优先的特性是XeSS。

XeSS与CPU中的AMX一样可以进行AI加速,利用Alchemist的内置XMX AI加速,带来了一种可实现高性能和高保真视觉的全新升频技术,让那些只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行。

从正在试产阶段的Alchemist  SoC的演示视频可以看到,包括真实游戏展示,虚幻引擎5测试良好。想要用上英特尔全新的Alchemist GPU,最早一批要到2022年第一季度上市,错过了圣诞季的消费热潮,不知能否赶上春节。

除了确定性较高的Alchemist,英特尔还规划了Battlemage、Celestial和Druid 的消费级独立GPU产品,英特尔还为这一系列产品推出了全新的品牌名称锐炫。

但最能展现英特尔在独立、高性能GPU市场决心的产品还是基于Xe HPC微架构的Ponte Vecchio,这是英特尔迄今为止最复杂的SoC,包含1000亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。

“不到两年前,我分享了我们为Ponte Vecchio设定的目标。看到这样非凡的芯片工程以及雄心勃勃的软件计划在我们的实验室内成为现实,这对于我们来说是令人难以置信的时刻。对于我们来说,这已经不再是似乎不可能的登月难度的创新产品。”Raja同时也表示,

“整个项目尚未成功,我们还有很多工作要做。但是,我们迫不及待地希望大家加入我们的旅程,在明年初把这个架构带给所有客户。”

之所以说Ponte Vecchio的难度堪比登月,是因为要设计这样一款产品难在从无到有,面对的是新的SOC架构、新的IP 架构、新的内存架构、新的I/O架构、新的封装技术、新的供电技术、新的互连、新的信号完整性技术、新的可靠性方法、全新的软件、以及新的验证方法。

“保守地说,Ponte Vecchio是我在30年的芯片开发生涯中开发的最复杂的芯片。实际上,我甚至不确定把它称为芯片是否准确,它是包含诸多芯片的集合。”英特尔Ponte Vecchio首席架构师Masooma Bhaiwala感叹。

架构日上,Masooma Bhaiwala英特尔展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。基于Ponte Vecchio的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过 2 TBps的连接带宽。

雷锋网了解到,基础单元是Ponte Vecchio的连接组织,它是基于Intel 7制程工艺的大型芯片,针对Foveros技术进行了优化。Xe 链路单元提供了GPU之间的连接,支持每单元8个链路,该单元已被添加到“极光”(Aurora)百亿亿次级超级计算机的扩展解决方案中。

异构时代的IPU

IPU(基础设施处理器)是CPU和GPU之外,英特尔架构日的第三个重要产品。英特尔在不久前提出IPU的概念,这一产品的目标是使云和通信服务提供商减少在中央处理器(CPU)方面的开销。

英特尔数据平台事业部首席技术官Guido Appenzeller介绍,英特尔认识到单一产品无法满足所有需求,因此对其IPU架构进行了更深入的研究,并推出了以下IPU家族的新成员。目前的IPU基本上使用两类架构:一类是专用ASIC IPU;一类是基于FPGA的IPU。

基于FPGA的IPU能快速实施新协议,应对不断变化的要求或新协议。例如,在这些FPGA上实现未公开的专有协议。专用ASIC IPU可以实现性能和效率的最大化。

“两者实际上都不同于经典的SmartNIC,后者缺乏执行基础设施控制面的能力。对于不同类型的基础设施加速,没有适用所有情况的方案。因此,英特尔将继续投资于这两类IPU以及SmartNIC。”Guido Appenzeller同时表示。

Mount Evans是英特尔的首个ASIC IPU。据悉,这是英特尔与一家一流的云服务提供商共同设计和开发的,融合了多代FPGA SmartNIC的经验。

“接下来将迎来两款基FPGA的IPU新产品,分别面向云(Oak Springs Canyon)和通信(Arrow Creek)市场。” Guido Appenzeller介绍,

Oaks Springs Canyon是基于FPGA的IPU,采用了英特尔的Agilex FPGA 和至强D片上系统。还采用了英特尔开放式FPGA开发堆栈(英特尔OFS),这是一个可扩展、开源软硬件基础设施堆栈,能够满足新兴云服务提供商对于部署100GB工作负载的需求。Oak Springs Canyon还包括一个加固的加密模块,以线速性能保护所有基础设施流量、存储和网络。

Arrow Creek是一个加速开发平台,基于Agilex FPGA和e810 100GB以太网控制器。它源自英特尔PAC-N3000,后者目前已经被全球各地的顶级通信服务提供商所采用,Arrow Creek将帮助电信运营商提供灵活的加速工作负载。

成就异构芯片时代——oneAPI

“在软件领域,要开启堪比登月难度的创新计划。我们需要一个编程框架,让软件开发者在编程时无需考虑不同的CPU和加速器组合,很多人认为这是不可能的任务,我们创造了oneAPI,让开发者能够摆脱专有语言和编程模型。”Raja说,

“oneAPI行业计划提供了一个开放、基于标准、跨架构、跨矢量的统一软件堆栈。这个行业规范的第一个版本已于去年9月发布,其中规定了一个通用硬件抽象层、数据并行编程语言以及全面的高性能函数库,涉及数学、深度学习、数据分析和视频处理领域。

目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI库。oneAPI工具包拥有超过20万次单独安装,市场上部署的300多个应用程序采用了 oneAPI的统一编程模型。

据悉,临时的oneAPI 1.1版已经在5月发布,增加了面向深度学习工作负载和高级光线追踪函数库的全新图形接口。预计oneAPI1.1正式版将在今年末之前完成。

写在最后

从CPU到GPU再到IPU,从微架构到封装、存储、互联再到软件,从六大技术支柱到异构再到软件优先。英特尔正在用全新的产品组合,技术路线和策略面对AI和5G时代的竞争。

接下来的市场竞争格局的变化,难以准确预测。但英特尔有勇气说出自己在技术上的巨大挑战,以及宣布IDM 2.0,都释放出积极的信号,一个更加开放的英特尔正在积极拥抱新的市场和竞争。

]]>
芯片设计 //m.drvow.com/category/chipdesign/1DLGukTafkS1x3fq.html#comments Fri, 20 Aug 2021 21:08:00 +0800
小米 OV 集体自研 ISP 芯片的背后,真相并不简单 //m.drvow.com/category/chipdesign/pJtIiR3lGWVkwLWI.html 过去十多年,中国的手机厂商们借高通和联发科的SoC芯片,推动了智能手机的普及,同时也跻身全球手机行业的前列。然而,随着手机市场竞争的加剧,以及消费者对手机使用体验的更高追求,通用的手机SoC成为了手机巨头们提升竞争力的瓶颈。

于是,小米、OPPO、VIVO相继走上了自研芯片的道路,他们的终极目标是自研SoC芯片,但当下都聚焦ISP(Image Signal Processor,图像信号处理器)的研发。手机巨头们为什么都选择从自研ISP芯片入门?消费者需求、手机厂商的技术积累、ISP的技术特性、手机市场的未来趋势等都是关键原因,这也是本文将详细解答的问题。

至于手机巨头们自研芯片能否成功?多位业内资深人士都告诉雷锋网,这在于手机厂商的决心。

图片来自techthelead

“困”在芯片里的手机巨头,踏上自研之路

2013年12月,中国开启4G时代。三年后的2016年,国产手机开始全面崛起,这一年,苹果和三星在中国的市场份额开始下降,华为、OPPO和VIVO的市场份额高速增长,小米也凭借超高性价比迅速占领市场。

两大市场研究机构Counterpoint和canalys 2021年第二季度的数据显示,小米、OPPO、VIVO位列全球五大手机厂商之列,分别排名第二、第三和第五位,合计市场份额超过35%。小米创始人董事长兼首席执行官雷军更是在近日放出豪言,“5至10年后,小米会成世界第一的手机公司。”

跻身全球前五的三大手机厂商们有一个共同点,每一代手机功能的重大提升都与高通、联发科当年最新的SoC的特性密切相关。这也让他们面临一个共同的挑战,在增长乏力的手机市场,想要实现性能和体验的差异被芯片制约。

自研芯片是一条被证明可行的路径,苹果、华为和三星都通过自研芯片实现了差异化,并成功占领了高端手机市场。实际上,要冲击世界第一的小米早在2014年就踏上了芯片自研之路,在2017年发布了首款手机SoC澎湃S1,但体验不尽人意。

有业内人士对雷锋网表示:“澎拜S1失败一个非常关键的原因是太急于求成。”

研发SoC受挫,小米又在2019年研发了一款ISP芯片澎湃C1,这款芯片与2021年3月发布的小米折叠屏手机MIX FOLD同时亮相,能够实现更好的3A(自动对焦,自动白平衡,自动曝光)处理,自研ISP+自研算法也顺势成为这款旗舰手机的一大卖点。

图片来自小米

这边MIX FOLD已经开卖,那边OPPO和VIVO也在自研芯片的道路上快步前行。

2019年9月,VIVO执行副总裁胡柏山透露其在2018年初就开始考虑深度参与SoC的设计中,并在当年年底发布了与三星联合研发的SoC芯片Exynos 980。虽然已经深度参与SoC研发,但自研才是VIVO的目标。界面新闻7月报道,VIVO内部代号“悦影”的首款自研芯片即将推出,可能也是ISP芯片,将会在X70系列手机上首发。

OPPO公布自研芯片的进展相对较晚,2020年2月OPPO CEO特别助理发布内部文章提出了芯片、软件开发、云服务的三大计划,其中芯片项目名为“马里亚纳计划”。有消息人士爆料,OPPO自研的首款芯片也是ISP芯片,将在2022年初上市的Find X4系列手机上首发。

这就意味着,“困”在第三方手机SoC里的三大手机巨头,明年将会进入新一轮的芯片比拼。但为什么是ISP芯片?

自研ISP的四大理由

自2017年全球手机市场增速开始下降,手机厂商们的竞争就愈加激烈。今日头条发布的2018年手机行业营销白皮书指出,2018年手机功能营销的竞争点趋于集中,AI类特性有8个、屏幕类5个、解锁方式和配色各4个,其中,AI功能又以AI拍照和摄影类居多。

此后的三年间,手机行业对于摄像头的关注只增不减,2020腾讯手机行业洞察白皮书指出,消费者对摄像头、用途和电池的关注度显著提升,其中摄像头的关注度增长率仅次于操作系统。

“影像系统其实是一个很长的链条,包括前端传感器、镜头、马达,承载图像处理的核心部件——ISP芯片,以及后端标定和调优等过程。”安谋科技高级产品经理柴卫华对雷锋网表示。

图片来自三星

“相同的镜头和传感器经过不同的ISP,也会有不同的效果。”爱芯科技ISP负责人、系统架构师张兴同时表示,“ISP的价值是提升图像质量。但ISP是非标准化的芯片IP,既有客观的性能指标,比如摄像头的数量、分辨率帧率、带宽、功耗、延迟等。也有比较难以完全客观化的图像评价指标,包括亮度指标(动态范围、对比度、曝光准确和速度等)、色彩相关指标(饱和度、色彩准确度、悦目程度等)、清晰度等。从经验中来,关于图像主观和客观的测试,大概有40-60种甚至更多。” 爱芯科技是一家AI视觉芯片创业公司,AI ISP是其自研技术之一。

虽然对于好画质很难有统一的标准,但亮度、色彩和清晰度也有一些客观指标,比如有标准的颜色模型衡量色差。“在客观指标达到一定程度之后,客户通常也会根据不同的需求去调整主观指标。ISP的一个特点是有很多的可调参数,工程师可以调整设计好的ISP硬件参数以适应不同的环境。一款好的通用ISP,要提供有足够灵活性和具备可扩展性。”柴卫华指出。

影像功能是消费者关注的重点,而ISP是实现差异化的关键,并且手机出货量巨大,自研芯片如果成功最终可以转化为整机的成本优势,这是手机巨头们选择自研ISP的初始动力,也是第一个理由。

“华为能够用自研的NPU+ISP实现独具特色的AI拍照功能,相比之下,使用高通和联发科SoC的手机厂商发挥的空间会受到限制。”耀途资本投资总监于光说,“由于硬件迭代的周期比较长,手机厂商的需求也不能被快速满足,特别是差异化的需求,自研ISP芯片实现硬件和软件的紧密结合是一个不错的选择。”

张兴进一步解释,ISP一旦设计完成,可供调的参数大致就确定了,但是这些参数是有限的,如果想要提供调试出所有风格的可调参数,芯片面积又会很大到无法承受,这中间需要进行平衡。

想要实现差异化的手机厂商们,在影像系统领域有了多年的积累,也就有了自研ISP的底气,这也是手机厂商选择自研ISP的第二个理由。

研发ISP芯片的可行性是手机厂商坚定迈入自研芯片之路的关键,也是第三个理由。亿智电子创始人兼CEO陈峰说:“由于ISP芯片更加专用,研发ISP在生态上的限制小很多。研发ISP的主要挑战主要有三点:由于图像算法每年都有新的方法,技术在不断迭代;另外,图像的效果需要在满足图像测试客观指标之外,也需要在主观效果可调整性上下功夫;最后是需要适应不同的场景,ISP要能够做到自适应调整好各个环境下的参数。”

芯片公司最宽的护城河就是生态,既然ISP芯片的生态限制相对较小,再加上手机厂商在算法以及对场景需求的理解上已经有丰富的经验,并且已经各有特色,特别是在场景适应方面,手机厂商都有丰富的经验。

手机厂商研发ISP,还有适应未来视频摄影+AI功能竞争的长远价值,这是第四个理由。

“手机厂商已经在拍照中享受到了AI算法带来的好处,包括超级夜景、AI美颜等功能,从趋势来看未来几年,AI拍照最火的几个功能会从拍照推向视频。这就需要一颗高效的AI ISP芯片,以及将AI算法和传统ISP进行更好的结合。”张兴认为。

柴卫华也认为:“随着短视频的需求发展,手机也越来越重视视频拍摄的性能。视频流对于ISP除了有画质的要求之外,非常重要的挑战就是实时性。要实时处理4K甚至8K视频的海量数据,呈现完美的影像效果,处理器性能、算法优异、存储带宽和与系统延迟都是挑战。”

AI是提升拍照和视频效果的关键。陈峰指出,目前AI与ISP结合主要有两种形式,一种是ISP For AI,这种结合方式主要用于检测或识别功能的产品,目标是保证检测或识别的准确率,比如人脸门禁以及辅助驾驶。另一种是AI For ISP,这种结合是用AI替换ISP中的一个或多个图像增强算法,在包括HDR(高动态范围)、夜景降噪、超级分辨率等方面有较好的效果。

近几年,手机业界发现在目前AI算力的支持下,AI算法已经超越了传统ISP算法的效果,因此目前主流的趋势是用AI算法替代一个传统算法,或者将AI算法与传统算法结合。张兴进一步表示,“要充分发挥NPU算力与ISP结合的价值,实现真正意义上的AI ISP,需要在设计的最初就将两个IP结合起来设计。如果是买来的IP,两者结合实现好的功能难度很大,即便实现,也会有大量的功耗和芯片面积的浪费。”

陈峰具体指出,“在视频应用领域,效果稍微好的AI降噪算法,实时处理1080p@30fps视频就需要10Tops以上的算力,目前这种应用方案还比较少。”

总体看来,消费者对手机更好拍照和摄影功能的追求是原动力,在手机厂商有手机多年影像技术积累的前提下,自研ISP芯片成为了手机厂商可实现的目标,而将AI+ISP的能力从拍照延伸至视频领域能够提升手机厂商当下和未来的竞争力。自研ISP芯片自然成了手机厂商们不约而同的选择。

冲击高端成败的关键在“决心”

接下来的关注点是,自研ISP芯片到底能带来哪些不同?已经发布的小米澎湃C1,官方的说法是自研ISP将数字信号处理效率提升100%,可以进行更精细、更先进的3A处理。

业内一位资深人士说:“澎湃C1实际上是一个协处理器,或者说Pre-ISP,在SoC ISP前进行图像处理,相对而言会比较容易处理,能够辅助处理一些特定场景的应用。不过,由于是在SoC外单独增加了一颗芯片,因此无论是成本还是功耗都会有所增加。”

至于实际的使用体验是否有明显的速度和质的提升,还需要更多的用户反馈。

手机厂商的自研ISP要从卖点真正转化为差异化优势,ISP团队非常重要。“ISP的发展一直在进步,远还没到成熟的阶段。要设计出有竞争力的ISP芯片,取决于队伍自身的成熟性。有公司做了十多年ISP,也没有进入行业的一流水平。当然,这也与一家公司对于ISP的认知以及投入有很大的关系。”张兴表示。

业内资深人士也表示,“手机厂商自研芯片成败的关键在于投入的决心,特别是SoC。”

但国内整个芯片行业都缺人才,想要组建有丰富经验的ISP团队挑战巨大。柴卫华说:“ISP研究与发展涉及到算法、电路设计、系统整合、器件调较、画质调优等多方面。因此相应的人才要求不仅专,而且广,除了需要掌握数学、物理、计算机、集成电路的知识,还需要有光学、颜色等学科知识。国内在这一领域的积累还比较有限,所以相关人才也比较缺乏。”

“国内在手机ISP领域有丰富经验的人才本来就比较有限,不过现在华为海思的不稳定,展锐也有一些相关的人才,这都是其它公司获取人才的机会。”业内资深人士表示。

“即便能设计出有竞争力的ISP。要让消费者对手机厂商的自研芯片有认知也需要时间,我认为这至少需要2-3代的迭代。” 一位芯片行业的分析师对雷锋网表示,“我认为小米和OPPO自研芯片从现金流的角度会更有优势,而VIVO挑战会更大一些。”

该分析师同时表示:“自研ISP主要会用于高端手机,因此对高通的影响可能会大一些。”

有意思的是,联发科在今年七月份发布了天玑5G开放架构的平台,基于其旗舰SoC为手机厂商提供更接近底层的开放资源,包括相机、显示器、图形、AI处理单元、传感器和无线连接等子系统。这既可以理解为顺应手机厂商自研芯片追求差异化的趋势,也可以理解为阻挡手机厂商自研SoC的举措。

无论如何,自研芯片都是手机厂商站上手机市场金字塔顶端的必选项,但这条路在时间、技术和资本投入方面都充满挑战,高通和联发科在手机SoC领域都有几十年的积累,苹果和华为也是经历十多年的努力和迭代才取得了如今的成就,而小米、OPPO、VIVO才刚刚开始。

小米ISP芯片架构师左坤隆在《强国基石》的纪录片中透露,ISP只是小米自研芯片的起点,其SoC同样也在研发中。

据悉,小米和OPPO都在上海大力招聘芯片人才,有消息称OPPO芯片团队的人数已经超过千人。他们是要直接要研发一款SoC芯片还是会研发其它单芯片?上述分析师认为电源管理芯片是不错的选择,因为快充也是手机的一大卖点。

于光指出,在电源管理芯片市场已经有一些不错的创业公司,手机巨头们在这一领域也已经投资了多家公司。

热闹过后,谁会是下一个拥有自研SoC高端手机玩家?

]]>
芯片设计 //m.drvow.com/category/chipdesign/pJtIiR3lGWVkwLWI.html#comments Wed, 18 Aug 2021 14:06:00 +0800
嘉楠科技战略投资Pixelworks中国全资子公司,加强AI芯片生态竞争力 //m.drvow.com/category/chipdesign/IVEcn8Gd2YT4PrnW.html 雷锋网消息,嘉楠科技今天宣布战略投资全球领先的创新视频和显示处理解决方案提供商Pixelworks在中国的全资子公司逐点半导体(上海)有限公司。据悉,此次战略投资还包括上海超越摩尔股权投资基金合伙企业(有限合伙)、青岛超越智芯创业投资合伙企业(有限合伙)、芯原微电子(上海)股份有限公司、和北京屹唐长厚显示芯片创业投资中心(有限合伙)四家公司。

上月,嘉楠科技创始人、董事长兼首席执行官张楠赓与雷锋网深入交流时就透露,嘉楠最早会在今年下半年公布在软件方面的合作进展。

显然,今天宣布战略投资逐点半导体(上海)有限公司正是嘉楠科技在算法、软件方面的重要布局。这一战略投资能够拓宽嘉楠科技在AI芯片领域的布局,尤其是结合嘉楠科技勘智AI系列芯片的功能和算法能力。

嘉楠科技在芯片设计方面有深厚积累,2013成立之后一直在芯片设计方面连续突破,设计了55nm、28nm、16nm制程芯片,2018年成为全球首家推出7nm制程芯片,目前正在推进5nm制程芯片的研发,成为全球为数不多能够设计最先制程芯片的公司。

2018年,嘉楠科技发布了第一款边缘AI芯片——勘智K210,在机器人、智能家居、STAEM教育、疫情防控等多个场景已经实现落地和商业量产。2021年7月,嘉楠科技又推出了新一代AI芯片勘智K510,目标场景主要是高清航拍器、视频会议、机器人、STEAM教育、工业相机和辅助驾驶。

不过,强大的硬件需要匹配的软件。张楠赓此前表示,他早已意识到缺乏软件人员的问题,但他并不打算采用大量招聘软件人才的方式解决这一问题,而是保持嘉楠硬件的基因,通过与更专业的合作伙伴共同解决软件方面的挑战。

Pixelworks能够与嘉楠科技实现互补,Pixelworks成立于1997年,2000年在纳斯达克上市,在视频与图像基本处理IP方面积累了300多项专利。不过,在显示和视频处理领域有超过20年的经验Pixelworks被众多消费者认识是因为其产品多次出现在智能手机中。

2020年,智能手机厂商纷纷推出支持HDR及高刷新率(90Hz及以上)的旗舰智能手机,包括OnePlus 8 系列、OPPO Find X2系列、黑鲨3系列等,这些手机都采用了Pixelworks的视觉处理器。最新发布的iQOO Neo5、OnePlus 9 系列,华硕ROG 5系列,TCL 20 Pro 5G,和OPPO Find X3等手机也都采用了Pixelworks的技术。

智能手机对显示效果更高的追求被更多的中国消费者认识,雷锋网此前的文章也介绍过Pixelworks的技术。当然,这家公司也很早就在中国设立了研发中心,2003年Pixelworks在上海张江成立了芯片设计中心,目前已经拥有130名员工。

可以预见,嘉楠科技与Pixelworks的合作能够进一步加强嘉楠科技在AI芯片生态布局,特别是在图像处理方面的研发和场景落地能力,进而提升勘智AI的整体竞争力,加速其商业化进展。

]]>
芯片设计 //m.drvow.com/category/chipdesign/IVEcn8Gd2YT4PrnW.html#comments Wed, 11 Aug 2021 19:05:00 +0800
火爆TWS耳机芯片赛道里的“单项冠军” //m.drvow.com/category/chipdesign/GO61qNVjZGCPJi1f.html 2016年苹果的秋季发布会,苹果的王牌产品iPhone7/7Plus没能让消费者眼前一亮,反倒是为配合手机上取消3.5mm耳机接口而推出的全新产品AirPods无线耳机引发消费者强烈的兴趣。

即便AirPods销售日期推迟,以及上市后需要等待至少一个半月时间才能收到新产品,也没能阻挡众多消费者对于这款无线耳机的购买热情。市场研究机构Strategy Analytics今年的报告显示,2020年真无线立体声(TWS)蓝牙耳机的销量超过了3亿,苹果AirPods的市场份额近一半。

图片来自苹果

“AirPods给用户更舒服的产品使用体验,大家迅速接受了这个新的产品形态。站在巨人的肩膀才能看的更远,我们当时义无反顾地进入TWS市场,确信这个市场一定能够成长起来,今天看来我们的预判是对的。”思远半导体总经理董官斌在公司10周年庆典的媒体沟通中这样说道。

思远半导体总经理董官斌

站在巨人肩膀上的思远半导体在今年也成为了TWS耳机电源管理芯片市场的冠军。旭日大数据发布的2021年3月TWS电源管理IC出货量排行显示,思远半导体当月出货2430万颗芯片,超过排名第二的德州仪器。

历经10年消费电子行业起落的思远半导体因TWS市场的火爆被更多人关注,但其“夺冠”的背后,有一段值得回味的往事。

TWS耳机里的“单项冠军”

在AirPods之前的无线耳机,并没有完全实现无线,这是由于技术限制,上一代无线耳机只能主耳机连接手机,再由线缆将音频信号传输到从耳机,产品形态就成了挂脖式。

图片来自高通

AirPods的革命性在于,解决了手机与蓝牙无线耳机之间的连接技术挑战,两只耳机可以同时与手机连接,左右耳不再分主从,实现了真无线立体声道无线分离使用,还能保持声音同步。

当然,AirPods获得消费者青睐还有一个关键原因,苹果测试表明AirPods搭配充电盒使用续航时间可超过24小时。

真无线立体声加上长续航,AirPods就这样引爆了TWS无线耳机市场。经历两年时间,2018年底开始,与AirPods售价相差十倍的TWS耳机开始推向市场,TWS耳机进入全民普及时代。市场研究机构Counterpoint的数据显示,全球TWS耳机市场在2020年销量达到2.33亿部,同比增长78%。Counterpoint同时预测,TWS耳机2021年销量将达到3.1亿部,同比增长33%。

图表来自Counterpoint

高速增长的市场给这一产业链上的公司带来了巨大机遇,比如影响TWS耳机体验的电源管理芯片,电源管理芯片在电子设备系统中的作用是对电能进行变换、分配、检测等,直接关乎整体的产品体验,电池供电的移动设备对于电源管理芯片的要求也更高。

“2017年市场还没爆发的时候,我们就义无反顾地进入TWS市场,今天看来这个预判是正确的。”董官斌说:“用户的使用习惯一旦形成,品牌客户一定会跟进。我们首先占领白牌市场,在白牌市场站稳脚跟后,迅速抓住品牌客户,最终形成了市场领先的优势。”

雷锋网了解到,思远半导体在TWS市场,芯片的出货量已经从白牌客户占比70%,过渡到品牌客户占比达到50%,接下来品牌客户的占比会超越白牌客户达到80%的出货量。

总体而言,思远半导体近两年在TWS耳机充电仓SoC市场累计出货7亿颗芯片,已经申请、获得了超过60项自主知识产权,市场占有率排名第一,客户包括小米、OPPO、一加、realme、传音、魅族、1MORE、百度、网易、漫步者、JBL、Anker、哈曼、摩托罗拉等。

对于今年三月份思远的TWS电源管理芯片出货超越模拟芯片龙头TI的成绩,董官斌谦虚地认为,可能是“老虎”打盹。他也同时指出了国内芯片公司的优势,包括本地化服务快速响应客户需求,充分满足客户需求,还有缩短产品上市时间。

“过去几十年,很多系统定义都由欧美企业完成。国产芯片想从根本上解决问题,还是要解决底层的系统问题。”董官斌对雷锋网表示:“过去十年,我们一直专注电源和电池芯片的开发,实现了基础关键技术的突破,几乎完成了所有相关基础技术架构的积累。”

单项冠军10年里的3次突破

董官斌2011年在深圳创立思远半导体的时候,其实是从零开始。那时候,国内的电源管理芯片公司并不多,但董官斌还是选择进入这个市场。“之所以选择电源管理芯片这个领域,是因为所有电子产品里都需要电源管理芯片,市场的量足够大。另外,这个市场不断变化会不断带来新的需求,机会一直都有。”董官斌解释。

董官斌最开始有创业的想法是受到复星创业故事的激励,创业之前,董官斌积累了十年,从研发到供应链再到销售。

“2011年我觉得准备的差不多了,创业对我来说是水到渠成。”董官斌回忆:“研发第一款产品的时候,我和研发总监每天工作到凌晨一点,持续了差不多一个月,才把产品的一个问题解决了。也正是凭着这样不放弃的精神,我们才能一个个突破,实现电源领域所有相关基础技术的积累。”

面对市场的变化,作为一家年轻的公司,每一次的突破都并不轻松,而过去的十年间,董官斌认为从市场维度,思远经历了三个关键节点。第一个关键节点是思远创立的前三年,他们只有一个客户,专为这个客户做定制服务,总共量产了将近60颗芯片。

“创业第四年,我们切入到了移动电源领域。但因为规格的变化,我们做了三次才成功,等我们成功的时候,市场也丢了。幸运的是,我们后来拿到移动电源市场第一个订单,数量是100万颗,让我至今也非常难忘,也让我相信只要做对了产品,客户就会愿意买单。”董官斌也同时看到了这样的曲折经历对于如今思远在TWS市场的价值。

“回头看,我们能在TWS市场持续抓住产品迭代的机会,还是来源于过去的经验积累,那段时间的磨炼让我们对产品迭代的速度、对市场的理解和客户的理解都更加深刻。”

到了2016年,思远在1A移动电源SoC市场出货量排名行业第一,此后的2017年,在移动电源芯片市场的出货突破了8000万颗。同样是在2017年,思远迎来了其第三个关键节点,也就是TWS市场爆发的前一年。

“进入TWS耳机市场,我们没有任何犹豫,并且认为一定可以在这个市场取得成功。”董官斌介绍,刚开始进入这个市场,他们和一个有较深技术积累的合作伙伴安特信多次探讨,一起定义产品,后来思远的产品在多家国内头部公司的关键项目上成功应用,帮助思远在这一市场站稳脚跟。

与此同时,思远也靠着率先捕捉客户需求和痛点,一点点建立领先优势。一个很好的例子就是TWS耳机的快充,快充在手机中已经普及,但TWS耳机还鲜有这项功能。“我们去年已经量产了第一代TWS耳机快充芯片,第二代产品即将推出。我们走在了国际大厂的前面,在体积、功率密度以及功耗方面都有优势。”董官斌表示。

通过10年的积累,董官斌认为思远拥有了三个核心竞争力,第一是有比较敏锐的市场洞察力,愿意倾听客户的声音,也愿意和客户一起解决问题,推动行业发展;第二是面对挑战不轻言放弃,直到找到方法为止;第三是持续的研发投入,愿意啃硬骨头。

下一个目标市场

消费电子市场的特点就是变化迅速,因此在这个规模巨大的市场里,保持持续竞争力的关键就是不断适应市场变化。董官斌分享,“据我们这么多年对消费电子市场规律的观察,消费电子产品的迭代周期是2年左右一代,差不多有3个迭代的周期市场完成洗牌,时间大概持续6年。TWS耳机市场还有3-4年的高速增长期。”

“我们已经开始着手布局其他穿戴类的产品,包括手表、VR等相关电源芯片的开发及市场推广。针对这些空间受限的产品,电源管理芯片需要更高的功率密度,更小的封装体积,超低的待机功耗。”董官斌透露。

当然,在消费电子领域取得不错成绩的思远电子也开始助手布局工业和汽车电子市场。这是因为在工业、汽车医疗等领域,国内芯片公司与全球领先的公司还有很大差距。

但董官斌也指出,“过去近20年中国的芯片行业可以持续的发展,核心原因还是系统厂商的发展,带动了国产芯片供应链的发展。当然,也因为先进的制造取得的成果,我们才能开发出更多高性能的产品。我相信对于汽车行业也是这样的一个过程,系统厂家一定要愿意给予国内的半导体公司机会,和大家一起成长,培养出自己的国内的供应链体系。”

“国产芯片还有很长的路要走,但我们对未来充满信心。”

还有非常关键的一点,相互信任和支持。“从2017年开始,我们就非常注重对市场总体的规划,而且每年承诺的量都做到,这个过程当中,大家建立起了信任关系。面对当下的挑战,整个产业链系协同,将芯片产能紧张的影响降到最低。”董官斌预测,目前来看芯片产能进账还会持续一段时间,明年第三季度可能会缓解一些。 

写在最后

相比国产高端数字芯片,国产模拟芯片的关注度低很多。实际上,模拟芯片最重要的细分市场之一正是电子产品都离不开的电源管理芯片,在这一市场,过去几十年间都被欧美巨头垄断,我们应该为有思远这样十年如一日坚守在电源、电池芯片领域的公司感到欣慰。

对于芯片设计公司而言,想要突破欧美巨头技术和市场厚厚的围墙,需要有完备的技术积累,也需要抓住快速变化的市场需求,更需要国内先进制造能力的提升和国内系统公司的强大。这背后,需要非常多思远这样有长期主义精神的公司,找对方向,逐个领域去突破,一步步实现国产芯片的领先。雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/GO61qNVjZGCPJi1f.html#comments Tue, 10 Aug 2021 14:54:00 +0800
美团联合领投,AI芯片公司爱芯科技完成A+轮数亿元融资 //m.drvow.com/category/chipdesign/YT2syh3k8aqAdgTj.html 雷锋网消息,爱芯科技8月6日宣布完成A+轮融资,总金额达数亿元人民币。本轮融资由韦豪创芯、美团联合领投,GGV纪源资本、美团龙珠、冯源资本、元禾璞华、石溪资本、天创资本以及高德地图创始人成从武跟投,原有股东方继续投资,云岫资本担任独家财务顾问。

今年4月,爱芯科技也曾宣布接连完成Pre-A、A两轮融资,总金额达数亿元人民币。Pre-A轮由启明创投领投,联想之星跟投;A轮由和聚投资领投,耀途资本、万物资本跟投,原有股东方启明创投、沄柏资本、联想之星继续投资。

半年内两次宣布完成数亿元人民币融资的爱芯科技成立于2019年5月,主要研发高性能、低功耗的人工智能视觉处理芯片,并自主开发面向推理加速的神经网络处理器。爱芯科技今年完成的三轮融资资金都将用于产品研发、市场拓展、产品量产及业务落地等后续发展。

据悉,爱芯科技的核心成员均参与过10颗以上芯片的设计和生产,在产品规划和产品落地上具有丰富经验。CEO仇肖莘博士在芯片行业拥超过20年的从业经历,在创立爱芯科技前,曾任紫光展锐CTO、美国博通公司副总裁,并曾担任AT&T Labs首席科学家。

2020年12月爱芯科技自主研发的第一颗AI芯片——AX630A已实现量产,这一针对边缘侧、端侧应用的人工智能视觉芯片,在算法与硬件的深度结合下,可提供业界领先的视频图像质量,支持物体检测、人脸识别等多种AI视觉任务。继AX630A进入量产后,爱芯科技自主研发的第二颗芯片日前也已回片并成功点亮。

公开资料显示,爱芯科技AI芯片的目标市场包括智慧城市、智慧零售、智能社区、智能家居、物联网设备等多个领域。

“感谢A+轮投资人对爱芯科技的支持和信赖,爱芯作为聚焦在边缘侧和端侧的AI基础算力平台公司,会持续布局边缘计算应用领域,继续打造具有差异化的人工智能视觉芯片,并推动新款AI芯片的量产和落地,为合作伙伴提供稳定的货源保障和全栈式解决方案。”仇肖莘表示。

“未来,我们希望进一步赋能AIoT、消费电子、智能驾驶等多个场景,通过自主研发创新,满足中国‘新基建’建设过程中日益上扬的智能化升级需求,以‘视界’改变世界,成为智慧生活的赋能者。”

]]>
芯片设计 //m.drvow.com/category/chipdesign/YT2syh3k8aqAdgTj.html#comments Fri, 06 Aug 2021 08:20:00 +0800
如何满足谷歌苹果的芯片设计需求? //m.drvow.com/category/chipdesign/BnkMnEv87SV4kx83.html 前有苹果、谷歌,后有阿里、腾讯,科技巨头们自主设计芯片已经成了不可阻挡的趋势。不止于此,为了缩短芯片设计的周期,谷歌开始利用AI加速,其团队6月在Nature上发表的题为《一种用于加速芯片设计的布局规划方法》的论文指出,利用深度学习,人类工程师需要数月完成的工作,谷歌用AI仅需要6小时就能达到相同效果。

这表明,随着科技巨头们在芯片领域积累了更多经验,为了更高效地设计出更具差异化的芯片,科技巨头们需要更具效率的EDA(Electronic Design Automation)工具。这就要求EDA公司提供革命性的产品。

“无论是依赖传统的摩尔定律设计芯片的客户,还是已经超越摩尔用SysMoore从系统级别设计芯片的客户,我们都有志于用我们打造的解决方案帮助我们的客户提高1000倍生产率。”新思科技首席运营官Sassine Ghazi在新思科技上海办公室焕新暨媒体圆桌会中表示。

1000倍的效率提升,如何实现?能满足科技巨头们的需求吗?

科技巨头为什么自研芯片?

芯片是一个成熟的产业,且全球分工明细。在成熟的芯片产业链上,每一个环节都已经有领导者,比如芯片设计环节的高通、英伟达、AMD,代工环节的台积电、三星、中芯国际。

过去的几十年间,摩尔定律持续有效,通用芯片是市场的主流,英特尔的CPU、英伟达的GPU是典型的代表。在2005年之前,还有很多晶圆制造公司,但如今能提供先进制程的芯片制造商只有台积电、三星、英特尔等少数几家。

“我认为主要的原因有三个,系统的复杂性、系统的重要性,以及去研发和制造的成本。从众多芯片代工厂到现在只剩几家,表明了现在仅有为数不多的晶圆制造公司能够承担先进制程所需的复杂性、重要性和成本。” Sassine Ghazi表示。

与芯片制造一同变化的还有芯片的消费者。以前,做系统公司是芯片重要的消费者。如今,微软、谷歌、亚马逊、阿里、百度和腾讯成为了芯片重要的消费者。这是因为在数字化的趋势下,有三个重要的驱动力。

“第一是汽车的电气化和无人驾驶,第二是AI,第三是超大规模的数据中心。” Sassine Ghazi进一步表示,“这三个领域都希望找到差异点,拥有差异化的竞争优势。因此,这些领域的企业必须要寻求更好的晶圆,才能使他们的系统架构与众不同。此时,领域专用架构(DSA,Domain Specific Architecture)能够体现出他们的系统架构的独特优势之处。”

这就解释了科技巨头们自研芯片的原因,同时也让我们看到了转变之下的三个趋势。第一个趋势是做电子系统的公司希望定制系统级芯片,实现电子系统的差异化;第二大趋势是做系统设计的公司必须包括系统级芯片片上系统,实现系统和硬件的差异化;第三大趋势是如今的这些系统公司已不是传统意义上的系统公司,他们越来越像半导体公司。

如何满足科技巨头的芯片设计需求?

芯片行业一直在追求的是更高性能、更低功耗和更低成本。在摩尔定律有效的时候,芯片的性能持续提升,可以满足市场需求,但摩尔定律在2005年之后开始放缓。

“随着技术的演进,摩尔定律已经跟不上时代的步伐。这不仅仅因为技术上的瓶颈,还有非常关键的原因是,再遵循以前的摩尔定律会面临三大挑战:首先是预测性,因为预测性远远快于摩尔定律;其次是包括研发和其他方面的开支成本过高;最后是芯片设计的难度大幅增加。” Sassine Ghazi指出。

也就是说,在摩尔定律有效的时间里,主要面临的是在芯片中增加晶体管,以及复杂性增加的挑战。但如今摩尔定律的放缓,以及业界对芯片要求的增长,预测性、成本可负担性、设计的复杂程度都遇到了挑战。

“肯定要超越摩尔时代。” Sassine Ghazi进一步解释,“我们的CEO提出了一个新概念叫做SysMoore,指的是从系统的层面去解决问题,而不单单是在晶圆以及晶体管数量的层面去解决问题。只有站在系统的高度,我们才能更好地优化。”

“要两条腿走路,遵循原来摩尔定律的同时,还要超越摩尔定律。新思科技提供很多可以重复使用的IP模块,芯片设计者可以直接把它进行组合,既是摩尔定律又是超越摩尔的集成。” Sassine Ghazi同时表示,“我们有志于用我们打造的解决方案帮助客户提高1000倍生产率。”

雷锋网了解到,新思科技有一个叫做DTCO的解决方案,帮助客户做制程流程的建模、模拟、验证。这个方案对于使用先进制程技术的公司,可以实现设计、工艺的协同优化,改善设计。

数字化的融合设计平台显然能够带来更好的优化效果。“通过我们的融合设计+DSO.ai,能够帮助客户用AI系统进行芯片的开发和设计,达到最佳的效果,同时加速设计流程,缩短产品上市时间。” Sassine Ghazi表示。

“从系统层面,SysMoore提供了非常好的设计的基础架构,能够从系统级别在芯片设计完成之前就看到其中的一些流程。” Sassine Ghazi介绍,“新思科技加大了设计服务团队和解决方案的融合,帮助客户从系统和设计端打造成一个个组分和部件,再进行交付。”

新思科技全球资深副总裁兼中国董事长葛群也表示,“解铃仍需系铃人,从系统层级做优化,才能解决先进芯片设计面临的挑战。”

葛群用了汽车的例子来解释,通过从系统层级的优化,新思科技将三重左移Triple Shift Left的概念带到车企中,以前推出一个新款汽车的整个周期需要5到7年的时间,但是用了新思科技的硬件和软件结合的解决方案,三重左移能够帮助新车型的设计时间减少到3年。

谁能够领先?

当然,这些变化发生在云化和数字化的大背景下,因此,基于云和AI的EDA工具,也将让这个传统行业进入新的时代。

中国科学院EDA中心主任陈岚一次分享中提到,过去的EDA工具是满足高端通用的复杂的芯片设计需求,而未来更加开放的模式,可以快速地让新技术融入到EDA的流程当中,同时避免流程转化中的设计冗余,用更低的成本,让更多的用户使用,快速地对EDA进行验证与迭代,提高芯片设计的总体效率。

葛群也持同样的观点,“以后的EDA,很重要的一个改变就是降低芯片设计门槛,让更多人能参与到芯片设计的领域,满足人们不断发展的各种需求。”

在这样的趋势和机遇下,一些EDA行业资深行业选择创业,EDA行业正在迎来新一轮的竞争。

对于新的变化和竞争,葛群与雷锋网交流时表示:“我们过去几十年的发展中,也面临许多竞争,这对新思而言并不是新鲜事,我们积极拥抱市场的变化。与此同时,面对新的趋势和需求,我们也在加速创新,比如成立AI Lab,也在推动EDA上云。”

更为关键的是,了解客户需求并满足客户需求。新思作为一家全球公司,非常重视中国的本土化。葛群说:“新思给本土的团队足够多的权限和信任。2020财年,中国市场的营收已经占新思全球37亿美元营收的11.4%,这是了不起的成绩。中国团队的员工也已经超过1500名,覆盖研发、销售和应用工程师等所有的岗位。”

那么,在EDA的新时代,谁能领先?雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/BnkMnEv87SV4kx83.html#comments Mon, 02 Aug 2021 19:53:00 +0800
DPU芯片“国家队”中科驭数完成数亿元A轮融资,今年实现单季度千万级营收 //m.drvow.com/category/chipdesign/87JD3plUUGSjqwG3.html 雷锋网消息,近日,自主研发芯片架构的DPU芯片设计公司中科驭数宣布完成数亿元A轮融资,由华泰创新领投、灵均投资以及老股东国新思创跟投。

中科驭数表示,本轮融资将主要用于第二代DPU芯片K2的流片以及后续的研发迭代。

DPU(Data Processing Unit)是以数据为中心(Data-centric)的专用处理器,门面向“CPU做不好,GPU做不了”,对高吞吐、低延迟有强需求的任务类型,是后摩尔定律时代重要的算力芯片,DPU、CPU、GPU将组成数据智能时代算力的“三驾马车”。

据中科驭数创始人兼CEO鄢贵海预测,未来用于数据中心的DPU的规模将和数据中心服务器等量,如同每台服务器都必须配备网卡一样,每台服务器都会配备DPU,预计未来五年市场对DPU的总体需求量将突破两亿颗。

中科驭数是国家高新技术企业,创始团队来自中科院计算所计算机体系结构国家重点实验室,成立三年来已获得50项发明专利授权。

中科驭数自主研发了KPU(Kernel Processing Unit)敏捷异构的专用处理器架构,目前已经抽象提取了网络、安全、数据库等五大应用领域共80多类功能核,可全面支持软件定义的加速计算平台,用先进的架构实现超高性能的敏捷异构芯片。

中科驭数表示,其基于KPU架构的异构加速卡产品和解决方案已经应用于多家头部证券公司的金融极速交易、金融风控、极低时延数据库异构加速等场景,且和金证股份、中移物联网等企业达成战略合作,并在今年实现千万级别的季度营收。

据悉,中科驭数将于8月发布新一代极低时延智能网卡,这将是国内唯一自主研发的TCP/IP协议栈全硬件卸载的智能网卡,其TCP最低转发时延可达到业界领先的1.2微秒。在此产品和技术的基础上,同时还将发布针对金融计算场景的极速行情解决方案。雷锋网雷锋网

]]>
芯片设计 //m.drvow.com/category/chipdesign/87JD3plUUGSjqwG3.html#comments Tue, 27 Jul 2021 11:36:00 +0800