雷峰网 //m.drvow.com //m.drvow.com/resWeb/images/common/lp_logo.png 雷峰网 //m.drvow.com 2015 m.drvow.com All rights reserved. zh_cn Mon, 03 Feb 2025 22:07:31 +0800 台积电回应砍单传闻:投入446亿元,规划8座CoWos封装厂 //m.drvow.com/category/chips/iLCCPXrBi6JwOle3.html 1月20日,据台媒消息,台积电将新建两座CoWos封装厂,厂址定于台南市的南部科学园区三期,预计投资金额超过2000亿台币,折合人民币大约446亿元。

据调研机构SemiWiki数据显示,英伟达是CoWoS最主要的客户,占2025年台积电整体CoWos产能的63%,博通、AMD和美满共占约10%,亚马逊以及英特尔占约3%。

1月13日,野村证券分析师郑明宗发布报告称,由于GB200A及GB300A需求有限,英伟达对台积电CoWos进行大幅砍单,预计每年将减少约5万片CoWos-S需求报告发布后,台积电两日下跌超5%,抹去2024年年内全部涨幅。

1月16日,黄仁勋现身台湾为CoWos站台,他表示:“我们正从CoWoS-S转换到更复杂的CoWoS-L,由于CoWoS-L产能增加,所以并没有产能减少的问题。”

此次在台南新建两座CoWos封装厂,台积电更以实际行动对“砍单传闻”做出回应,这背后,是数百亿美元的年净利润为台积电激进的建厂计划提供保障。

斥资千亿、规划8厂,台积电「重注」CoWoS

台积电的厂房正在吞噬台湾的产业园区。

魏哲家此前表示:“公司正持续扩产,以满足客户需求”。相关知情人士透露,魏哲家喊话扩充产能绝不是说说而已,而是以最高效率行动起来。

2020年,台积电竹南先进封装厂ap6b开始建设,该工厂占地14.3公顷,为台积电首座实现3DFabric整合前段至后段制程以及测试的全自动化工厂,是台湾最大的CoWos封装基地。据产业链相关人士披露,自2024年第三季度开始,ap6b厂CoWoS月产能有望自1.7万增至3.3万片。

2024年3月,台积电宣布将在嘉义科学园区设立两座CoWoS先进封装厂,第一座先进封装厂预计2025年第三季度完工装机,第二座厂则于2026年完工装机。

2024年8月15日,台积电斥资171.4亿新台币购入群创光电的南科四厂,计划改建为两座CoWoS厂,预计2025年4月陆续交机,最快2025年下半年即可生产。

而最新选址于南科三期的两个厂房,建厂面积将达25公顷,预计2026年4月完工。此外,台积电还计划再落地两座新工厂,目前正在评估选址。

除已经落地量产的ap6b厂之外,台积电在近一年时间内规划出了8座CoWos先进封装厂,背后是人工智能发展对先进封装需求量的暴增。

魏哲家表示,CoWoS是AI革命的关键推动技术,让客户能够在单一中介层上并排放置更多的处理器核心及HBM。

1/3年营收用于投资建厂,台积电开支与机遇「并行」

芯片代工巨头强大的盈利能力,为建厂提供“子弹”

1月16日,台积电发布2024财年第四季度财报。数据显示,台积电第四季度营收达268.8亿美元,同比增长37%,环比增长14.4%。台积电实现净利润115.8亿美元,同比增长57%,创历史新高,超过此前LSEG SmartEstimate预测的114.4亿美元净利润。

此外,台积电2024全年营收为900.8亿美元,同比增长30.0%,全年净利润为364.8亿美元,同比增长31.1%。

台积电的高性能计算部门,包含人工智能和5G应用等业务,推动了第四季度的销售增长,贡献了53%的收入,与上一季度相比,高性能计算相关业务收入增长了19%。

市场研究公司Counterpoint Research副总监Brady Wang表示:“第四季度对人工智能芯片的需求激增使台积电的营收超过了预期。”

魏哲家表示:“人工智能相关产品收入占2024年总收入的15%左右。虽然2024年增长了两倍多,我们仍预计2025年人工智能相关产品的收入将翻一番。”

数据显示,台积电2024年的资本开支为297.6亿美元,同比上涨0.7%,其全球开厂计划正在持续推进。

魏哲家称:“每年的资本开支一直和公司未来前景强相关,更高的资本开支常常与更大的发展机遇相关联,未来几年我们将继续加大资本开支,2025年,台积电的资本开支为380亿美元至420亿美元之间,其中70%将投入先进制程的研发。”

自身盈利能力之外,地缘政治博弈为台积电带来了“额外收入”

此前,台积电获得了拜登政府《芯片与科学法案》提供的66亿美元投资承诺,以帮助其在亚利桑那州建立三个尖端芯片制造厂。

特朗普政府上台后,关于是否会重新审查《芯片与科学法案》一直存在争议。特朗普其曾公开批评法案,他认为增加关税是更具“性价比”的措施,并指责台湾窃取了美国的芯片业务。对此,外界推测特朗普将终止对台积电的投资承诺。

1月20日,台积电CFO黄文德表示:“这笔资金预计将在特朗普的领导下继续逐步投入,事实上,在去年第四季度,我们已经收到了政府支持的第一笔15亿美元。”

业内专家同样表示,预计特朗普将保留该政策,因为两党都支持这项政策。

魏哲家在四季度财报电话会上强调了台积电与美国政府的“长期良好关系”,以及它在联邦、州和市各级得到的承诺和支持。在回答投资者问题时,魏哲家表示:“让我向你保证,我们与现任政府以及未来的政府进行了非常坦率和开放的沟通。”

雷峰网参考材料:

https://money.udn.com/money/story/5612/8501134

https://www.yicai.com/news/102444640.html

https://www.cnbc.com/2025/01/16/tsmc-fourth-quarter-profit-beats-expectations-on-strong-ai-chip-demand.html

https://www.cnbc.com/2025/01/19/tsmc-confident-in-continued-chips-act-funding-under-trump-says-cfo.html

]]>
芯片 //m.drvow.com/category/chips/iLCCPXrBi6JwOle3.html#comments Mon, 20 Jan 2025 18:37:00 +0800
如何给智能体装个「AI护栏」?英伟达有3项全新微服务 //m.drvow.com/category/chips/EUmnmWDg2IhU0S79.html 雷峰网消息,纽约大学研究人员发现,如果一个给定语言模型的训练数据中有0.001%的数据 “中毒”(即故意植入错误信息),那么整个训练集将可能传播这些错误。

数据“中毒”影响训练结果,AI的实际部署,安全性同样至关重要。

咨询公司Gartner预测,到2028年,AI智能体将完成至少15%的日常工作决策并被应用于33%的企业程序。大量的AI智能体开发需求,让企业解决其中的信任、物理安全、网络安全以及合规性等问题显得更加迫在眉睫。

近日,英伟达发布了全新的保障代理式AI应用安全的NIM微服务,这将消除企业部署生成式AI时的安全疑虑,并且为生成式AI的普及提供安全保障。

全新的NIM微服务是NeMo Guardrails软件工具系列的一部分,这些可移植且经过优化的推理微服务可以帮助企业提高生成式AI应用的安全性、精准性和可扩展性。

3项NIM微服务,兼顾高安全性和低延迟

NVIDIA NeMo Guardrails是一个开源工具包,允许开发者将可编程护栏添加到基于LLM的会话系统中,从而保障人工智能系统的安全与合规。

NeMo Guardrails引入的三项全新微服务,能够帮助AI智能体在大规模运行时能同时保持受控行为。

内容安全NIM微服务(Content Safety NIM)使用了质量较高的人工注释数据源Aegis内容安全数据集进行训练,该数据集包含超过35000个人工标记的数据样本,由英伟达整理并开源,已经在Hugging Face公开发布。高质量的数据集能够有效防止AI生成有偏见或有害的输出结果,确保回答符合道德标准。

英伟达的企业AI模型、软件与服务副总裁Kari Briski表示:“这是同类数据集中质量最高的数据源之一。”

话题控制NIM微服务(Topic Control NIM)能将对话聚焦在经过审核的话题上,避免离题或不当内容。

越狱检测NIM微服务(Jailbreak Detection NIM)增加了对越狱企图( 指绕过模型的安全防护措施,让模型执行禁止的行为)的防护,帮助在对抗性场景中保持AI的完整性。

来源:英伟达官方

由于“一刀切”的方法无法有效保护和控制复杂的代理式AI工作流,通过应用多个轻量级专业模型作为护栏,开发者可以弥补在只采取较为通用的全局策略和保护措施时可能出现的漏洞。

可编程护栏数量的增加虽然能提升保障能力,但也会导致延迟有所上升,NeMo Guardrails以最小延迟提升保障能力,极具“性价比”。

  • 当护栏数量为0(仅系统提示)时,延迟约为0.75秒,合规性为1X(基准)。

  • 当护栏数量为1时,延迟增加到约1秒,合规性提升到1.1X。

  • 当护栏数量为5时,延迟约为1.25秒,合规性达到1.5X。

增加到5个护栏,延迟仅增加约1.25秒。与增加1个护栏,延迟增加1秒对比,实现显著的优化。这表明,NeMo Guardrails在提升保障能力的同时,对延迟的影响较小,能够在保证系统性能的前提下提高安全性和合规性。

给汽车、零售、电信等行业的安全、精准、可扩展的「AI护栏」

NeMo Guardrails已向开源社区开放,其NIM微服务解决企业级客户的“后顾之忧”,使开发者能够构建更加安全、可信的AI智能体。智能体通过参考特定语境准则做出安全、适当的回答,并且加强了对越狱企图的抵御力度,实现了在汽车、金融、医疗、制造、零售等行业客户服务中的部署。

软件和服务解决方案提供商Amdocs推出的amAIz平台是一个开创性的电信生成式AI框架,通过集成NVIDIA NeMo Guardrails,增强了平台的可信AI功能,保障代理式体验的安全性、可靠性和可扩展性,从而让服务提供商能够安全部署AI解决方案。

Amdocs技术集团总裁兼战略主管Anthony Goonetilleke表示:“像NeMo Guardrails这样的技术对于保障生成式AI应用的安全至关重要,能够帮助AI安全、道德地运行。”

专注于为汽车行业提供AI解决方案的Cerence AI,通过NVIDIA NeMo Guardrails帮助车载助手在其CaLLM系列大语言和小语言模型的支持下提供符合语境的安全交互。

Cerence AI产品和技术执行副总裁Nils Schanz表示:“NeMo Guardrails可以帮助我们为汽车制造商客户提供可信的情境感知解决方案,并作出明智、严谨且无幻觉的回答。”

在面向客户的专业知识应用上,更需保证AI生成式回答的安全性与可靠性。

家居装饰零售商劳氏公司通过利用生成式AI巩固店员的专业知识,以此让员工在面对客户的问题时能够“对答如流”。这背后,是NVIDIA NeMo Guardrails将AI的回答“框定”在正确的范围内,确保输出的内容“不翻车”

劳氏公司的数据、AI和创新高级副总裁Chandhu Nair则表示:“我们一直在寻找方法帮助员工为客户提供超出预期的服务。通过部署NVIDIA NeMo Guardrails,保证了AI生成式回答的安全性与可靠性,将对话强行限制在相关和适当的内容范围内。”

值得一提的是,NeMo Guardrails还具备较好的开放性和可扩展性,可集成由AI安全模型和防护提供商组成的生态系统,以及AI可观察性和开发工具。支持与ActiveFence的ActiveScore(AI安全服务)集成,防止对话式AI应用出现有害或不当内容,并提供可视化、分析和监控功能。

区块链基础设施公司Hive以NIM微服务形式提供适用于图像、视频和音频内容的AI生成内容检测模型,通过使用NeMo Guardrails,Hive可将其模型集成到AI应用中并进行编排。

AI可观测性平台Fiddler与NeMo Guardrails集成,可增强其监控功能。端到端AI开发者平台Weights & Biases正在现有NIM集成组合基础上,通过增加与NeMo Guardrails微服务的集成来扩展W&B Weave的功能,以此提升AI推理能力。

此外,NeMo Guardrails还提供用于AI安全测试和漏洞扫描的开源套件NVIDIA Garak,用于LLM和应用漏洞扫描,借助Garak,开发者可以发现使用LLM中的系统中存在的漏洞,发现并解决AI模型中的潜在弱点,提高模型的稳健性与安全性。

目前,NVIDIA NeMo Guardrails微服务以及用于编排rail的NeMo Guardrails和NVIDIA Garak套件已向开发者和企业开放,开发者按照官网上的教程就可以使用NeMo Guardrails为AI客服智能体构建AI护栏。

]]>
芯片 //m.drvow.com/category/chips/EUmnmWDg2IhU0S79.html#comments Fri, 17 Jan 2025 19:01:00 +0800
国产GPU独角兽「沐曦」启动A股上市进程 //m.drvow.com/category/chips/mpQVMihgA7VcTyO9.html 雷峰网消息,1月16日,据中国证监会官网显示,GPU公司沐曦集成电路(上海)股份有限公司在上海证监局办理辅导备案登记,正式启动A股上市进程,辅导机构为华泰联合证券有限责任公司。

此前,燧原科技、壁仞科技以及摩尔线程等国内芯片独角兽已先后启动A股IPO进程。

沐曦成立于2020年9月14日,据公开资料显示,沐曦已先后完成多次融资,投资方包括浦东资本、红杉中国、经纬创投、上海科创基金、联想创投以及招商局资本等知名机构。

据悉,沐曦的创始团队主要来自AMD。创始人陈维良是清华大学微电子学研究所硕士,曾长期就职于AMD,担任AMD全球GPGPU设计总负责人,负责全球通用计算GPU产品线的整体设计与管理,主导并完成15款高性能GPU产品的流片与量产。

沐曦辅导工作分三个阶段,时间从2025年1月至辅导验收前:

第一阶段为2025年1月至3月,通过集中授课学习法规知识、完善法人治理结构与财务内控体系。

第二阶段为2025年4月至6月,采用经验交流和案例分析培训股份公司相关情况。

第三阶段为2025年7月至验收前,以自学、讨论、模拟考试等复习重要法规制度,各阶段均由孙琪、杨阳等辅导人员负责实施。


]]>
芯片 //m.drvow.com/category/chips/mpQVMihgA7VcTyO9.html#comments Thu, 16 Jan 2025 12:05:00 +0800
Arm考虑提价300%并自研芯片,高通和苹果可能受影响 //m.drvow.com/category/chips/ZGzGZxn2oJhrkSKO.html 据外媒报道,芯片IP提供商Arm正在制定提价300%的长期战略,并在内部开展自研芯片计划的相关讨论。

长期以来,Arm的主要盈利模式是授权苹果、高通以及微软等公司使用其知识产权用于芯片设计,并对每颗采用Arm技术的芯片收取版税。

虽然Arm处于每年价值数十亿美元的芯片销售核心,且在智能手机以及节能型数据中心芯片的兴起过程中扮演关键角色,但与其客户相比,Arm的规模依然较小,其2024财年营收为32.3亿美元。相比之下,采用基于Arm架构芯片的苹果,其硬件产品营收规模是Arm营收的90多倍。

增收10亿美元,Arm推出内部计划「毕加索」

巨大的收入差异,让Arm萌发出转变在利益链内角色和地位的念头。

据上个月一场庭审中披露的计划显示,持有Arm 90%股份的软银集团CEO孙正义,以及Arm CEO Rene Haas决心改变这一局面。

此次庭审主要是解决Arm与高通之间的纠纷。

2021年高通以14亿美元收购Nuvia,Nuvia是一家专注于高性能CPU核心设计的创业公司,而其设计正是基于Arm指令集。高通在其最新一代骁龙8 Elite上采用了收购Nuvia后打造的自研Oryon CPU,但未为Oryon CPU重新向Arm支付授权费。

Arm认为高通应该支付授权费,指责高通违反了合同,要求其要么支付授权费,要么停止使用Oryon CPU,甚至要求高通销毁已经设计好的CPU。

最终,美国特拉华州联邦法院的陪审员裁定,高通在未支付更高许可费的情况下,将收购而来的Arm技术整合到自家芯片中,并未违反协议条款。

而Arm在法庭上的证词和仍处于保密状态的庭审文件中所描述的公司战略细节,此前尚未有报道。

根据Arm高管的证词,Arm的计划至少可以追溯到2019年,该计划在内部的早期代号为“毕加索”,其目标是在大约10年的时间里,使智能手机相关芯片业务的年收入增加约10亿美元。

Arm计划通过提高客户支付的单芯片专利费率来实现这一目标,而主要的产品就是其最新指令集架构Armv9。

庭审期间一份2019年8月的文件,暴露了Arm的高管们讨论了将专利费费率提高300%的策略。2019年12月,Arm当时的CEO Simon Segars告诉Arm董事会主席孙正义,Arm已与高通达成一项协议,将在出售的现成产品中实施“毕加索”计划。

但高通以及苹果等其他大客户有足够的技术实力,能基于Arm的架构从零开始自行设计芯片,而无需使用Arm价格更高的现成产品,这意味着他们不一定会受到费率上调的影响。

“我们和高通以及‘芬达’(Fender)有一些不太理想的旧协议。” Haas在2021年高通收购Nuvia当天的一次Teams会议中说道,该聊天记录在庭审中被出示。Nuvia会帮助高通减少对Arm现成技术的使用,而“芬达” 是Arm内部对苹果的代号。

自研芯片,Arm想从客户手中「分一杯羹」

2016年软银收购Arm后,Arm不再局限于智能手机领域,还大举进军个人电脑和数据中心市场。

根据庭审证词和文件,Arm高管们讨论的计划包括,逐步实现自主完成完整的芯片设计。目前,Arm出售芯片IP,但大多数客户仍需花费数月时间来完成芯片设计。

参加庭审的Tantra Analyst创始人Prakash Sangam表示:“Arm居然在考虑自行制造芯片,这肯定会让他们的客户脊背发凉。”

庭审中,高通律师展示了Haas在2022年2月申请担任Arm CEO时向董事会做演示中的一张幻灯片,该幻灯片建议Arm改变商业模式。Haas表示,Arm不应只销售芯片IP,还应销售芯片或小芯片(小芯片是一种较小的组件,AMD等公司用小芯片制造部分处理器)。

根据证词和文件,几个月前,Hass在与Arm另一位高管的交谈中,对Arm若将芯片推向市场就能与自家客户竞争一事充满信心。

“其他公司就惨了。” Hass在2021年12月的一次Teams会议中说道,该消息在庭审中被高通展示出来。庭审期间,Hass淡化了这些言论,称这是高管与董事会成员讨论公司长期战略的正常内容。

Hass表示,虽然Arm从未涉足芯片设计业务,但他一直在考虑各种可能的战略。“我满脑子想的都是未来。” 他对由八人组成的陪审团说道。

庭审还展示了Arm试图与晶圆代工厂进行更紧密合作的证据。2022年10月,孙正义和Hass与三星高管会面。期间,孙正义告诉三星高管,高通与Arm的许可协议将于2025年到期。

这让三星对高通向其供应芯片的能力产生担忧。高通CEO Cristiano Amon表示,他向三星保证高通拥有Arm的授权,有效期至2033年,但由于这一事件引发的不确定性,三星还是将与高通的三年芯片供应协议缩短至两年。

本文由雷峰网编译自:https://www.reuters.com/technology/tech-supplier-arm-plans-hike-prices-has-considered-developing-its-own-chips-2025-01-13/

]]>
芯片 //m.drvow.com/category/chips/ZGzGZxn2oJhrkSKO.html#comments Wed, 15 Jan 2025 18:09:00 +0800
拜登限制出口AI芯片的「最后努力」,遭英伟达、甲骨文反对 //m.drvow.com/category/chips/i1akfGcNkporPbZ8.html 雷峰网消息,北京时间1月13日晚,美国商务部工业和安全局发布《人工智能扩散框架》的临时最终规则,对先进芯片和闭源AI模型实施新的管控措施,该框架将于周三在《联邦公报》上公布,开始为期120天的评论期。

新规将全球国家和地区划分为三大类,针对性出台不同的AI芯片出口限制措施:

第一类:七国集团成员,以及澳大利亚、新西兰、韩国、荷兰、爱尔兰和中国台湾等18个国家及地区,可以自由购买AI芯片。

第二类:包括中国大陆、俄罗斯、朝鲜等国家地区,向这些国家或地区出口高端AI芯片和闭源AI大模型几乎被全面禁止。

第三类:其余约120个国家和地区只能获取一定配额,如新加披、以色列及阿联酋。根据算力折算,在2025-2027年期间,此类别的每个国家和地区大约可以购买5万块英伟达H100,在无许可证的情况下单一买家每年最多可订购约1700块英伟达H100,满足严格安全标准的买家在2025年-2027年最多可购买约32万块英伟达H100。

作为参考,仅微软一家公司在2024年就购买了48.5万块英伟达的Hopper系列GPU,Meta则是购买了22.4万块AI芯片。

美国商务部部长吉娜·雷蒙多表示:“管理这些非常现实的国家安全风险需要考虑到人工智能技术的发展、对手的能力以及向盟友分享这项技术的愿望,我们通过《人工智能扩散框架》做到了这一点,它将有助于保护最先进的人工智能技术,并确保它不落入对手之手,同时能继续与伙伴国家分享利益。”

而根据公司财报等相关文件显示,英伟达约56%的收入来自美国以外的客户,其中中国客户约占销售额的17%。花旗分析师Atif Malik表示,虽然这一消息“并不太令人惊讶”,但这120个国家5万颗GPU的出口限制给英伟达的数据中心GPU销售带来了风险,数据中心GPU占英伟达收入的绝大部分。

新规发布后,英伟达股价下跌了近2%,延续了上周五以来的跌势。上周五,由于预计出口管制措施将更新,英伟达股价下跌了3%,在过去五个交易日中,总计下跌了约9%。

权力交替的关键节点,行业对新规「不买单」

CNN将拜登政府的AI扩散框架称为阻止中国等竞争对手获得先进技术的最后努力,美国科技行业对新规的发布则表现出质疑态度。

美国半导体行业协会(SIA)主席John Neuffer表示:“对于在总统交接的前几天推出如此大规模且有影响力的政策,并且没有任何有意义的行业投入的情况,我们深感失望。”

代表互联网以及人工智能公司的领先贸易组织,美国信息技术产业理事会(ITI)总裁兼首席执行官Jason Oxman表示,相关出口管制可能会破坏全球供应链,阻碍美国技术的使用

英伟达政府事务副总裁Ned Finkle表示,全球进步正面临威胁,拜登政府正试图通过其史⽆前例且误导性的“AI 扩散”规则,限制对主流计算应⽤的权限,这威胁到全球创新和经济增⻓。

该声明还称:“这⼀⼴泛的越权行为将使官僚机构控制美国领先的半导体、计算机、系统甚⾄软件在全球范围内的设计和营销。通过试图操纵市场结果和扼杀竞争,切断创新的命脉,拜登政府的新规将使美国失去来之不易的技术优势。 新规不仅⽆法缓解任何威胁,反⽽会削弱美国的全球竞争⼒,损害使美国保持领先地位的创新。”

更激烈的抵制来自甲骨文,其宣称新规将让行业陷入“监管泥潭”

甲骨文执行副总裁Ken Glueck称:“这项新规堪称美国科技行业历史上最具破坏性的政策之一,可能直接导致美国公司的全球芯片市场缩小80%,该规则更多地实现了极端的监管越权,而不是保护美国以及我们的合作伙伴和盟友的利益,将使美国丧失关键技术的领先地位。”

业内人士认为,新规存在重大缺陷,一是新规试图控制谁可以访问云服务,以及他们可以使用多少算力,但要在全球范围内跟踪算力使用情况是极其困难的;二是忽视了人工智能的实际工作方式,企业可以通过使用更大规模的低算力芯片来实现类似的能力,限制出口将让美国失去原有的市场份额。

AI限令,或许正符合特朗普的「思维方式」

由于新规设置了120天的意见征询期,并且内容可以修改,意味着后续将由特朗普政府最终决定先进AI芯片的出口规则。

120天,是各方势力博弈的最后期限。

雷蒙多表示,保持美国在人工智能和相关计算机芯片开发方面的领导地位“至关重要”。快速发展的人工智能技术使计算机能够创作小说、取得科学研究突破、实现自动驾驶,并促进一系列可能重塑经济和战争的其他变革。

她还称:“希望下一届政府充分利用这120天,听取专家、行业参与者和伙伴国家的意见,我完全期待下一届政府可能会根据这些意见做出改变。”

拜登政府的高级官员表示,他们一直在与新政府就这些规定进行磋商。其中一名官员称:“我们相信,我们现在正处于一个关键的窗口期,尤其是面对中国时,从我们的角度来看,每一分钟都很重要。”

Jason Oxman则表示:“我们敦促即将上任的特朗普万斯政府撤销该规定,并与行业接触,以便我们能够共同制定有效的政策,解决这些国家安全问题。”

英伟达表示:“尽管这项规则在120天内尚无法执行,但它已经在损害美国利益。正如特朗普政府第⼀任期所展示的,美国通过创新、竞争,以及与世界分享我们的技术⽽取胜,而不是退缩到政府过度干预的壁垒之后。我们期待重新回归到加强美国领导⼒、提振经济并维护我们在AI等领域竞争优势的政策。“

《时代》杂志评价:“特朗普将不得不在经济利益与维护美国及其盟友安全之间取得平衡。”

而事实上,一些分析人士认为,两个政府对中国的竞争威胁有着相似的看法,特朗普或许只愿意与个别公司和国家谈判达成协议。

AJ Bell的投资分析师Dan Coatsworth表示:“他(特朗普)可能会修改豁免名单上的盟友名单,但总的来说,此举符合特朗普的思维方式。”

华盛顿智库战略与国际研究中心(CSIS)瓦德瓦尼人工智能与先进技术中心主任Greg Allen表示:“我认为,特朗普政府很可能会觉得这一政策很有吸引力,原因是我们正处于与中国进行人工智能技术竞争的关键时刻。”

雷峰网参考材料:

https://time.com/7206444/biden-admin-ai-chips-export-curbs/

https://time.com/7206500/biden-ai-chip-export-restrictions/

https://edition.cnn.com/2025/01/13/tech/china-us-biden-chips-ai-curbs-hnk-intl/index.html

https://www.reuters.com/technology/artificial-intelligence/nvidia-says-new-rule-will-weaken-us-leadership-ai-2025-01-13/

https://finance.yahoo.com/news/nvidia-stock-falls-after-biden-administration-releases-updated-export-rule-for-ai-chips-151755666.html

https://fedscoop.com/commerce-ai-diffusion-rule-biden-admin-industry-security/


]]>
芯片 //m.drvow.com/category/chips/i1akfGcNkporPbZ8.html#comments Tue, 14 Jan 2025 18:02:00 +0800
市值增涨超2万亿美元,盘点英伟达2024年股价变化背后的重大发布 //m.drvow.com/category/chips/DJhbvDA9wB3QcsQ0.html 2024年,英伟达以年涨幅176%的水平领跑美股科技七巨头,其市值从2023年底的1.2万亿美元增至2024年底的3.28万亿美元,增长了2.08万亿美元。

雷峰网从英伟达2024年全年参与和主办的重大会议的维度,梳理了这些重要产品和信息发布,以及当时英伟达股价的变化:

英伟达主办会议

NVIDIA GTC 2024(3.18-3.21)

英伟达GTC会议全称为GPU技术大会(GPU Technology Conference),是由英伟达举办的全球开发者大会,最初主题仅限于GPU,2016年,英伟达正式将GTC大会定义成为深度学习和人工智能大会。

在GTC 2024上,英伟达推出NVIDIA Blackwell平台,其成本和能耗较上一代大幅降低,搭载的六项技术助力多领域突破,使用户能构建和运行万亿参数大语言模型。发布基于该平台的DGX SuperPOD超级计算机,可用于处理万亿参数模型。发布X800系列全新网络交换机,提升网络性能,加速数据中心应用。

此外,英伟达推出Earth-2气候数字孪生云平台及相关API,提高天气和气候模拟可视化精度,支持用户创建AI仿真,推出生成式AI微服务,企业可借此创建部署定制应用。

2024年GTC会议期间,虽发布会和产品符合预期,但英伟达最终收跌1.77%。此前的7次的GTC活动期间,有6次英伟达股价实现上涨,2017年GTC涨幅最高达到21.8%。

(2025年GTC时间:3月17日-3月21日)

英伟达2024年年度股东大会(6.26)

本次年度股东大会英伟达并未发布新品,主要对管理层薪酬方案进行调整,股东们批准了黄仁勋在2024财年约3420万美元的薪酬方案,较上一财年增长近60%,其他高管的年度薪酬总额基本在1100万-1400万美元之间。

此外,会议进行了董事会成员改选,股东投票重新选举12名现任董事加入公司董事会,并批准普华永道成为2025财年的独立注册会计师事务所。会上,黄仁勋表示,Blackwell架构平台很可能成为英伟达历史上最成功的产品,甚至可能是计算机历史上最成功的产品。

会议期间英伟达股价保持2%以上的跌幅,在连跌三日后连续两日反弹。

(2025年会议时间:无固定时间,通常在6月份)

NVIDIA AI Summit 2024(10.7-11.13)

NVIDIA AI Summit由英伟达于2024年推出,首届峰会分为美国华盛顿、印度孟买以及日本东京三个场次,会议旨在帮助用户与英伟达及其客户和合作伙伴生态系统建立联系,共计推出50场演讲,涵盖生成式人工智能、遥感、网络安全、机器人技术、工业数字化等领域。

华盛顿AI峰会(10.7-10.9)

会上,英伟达表示将于2024年第四季度向客户发货其下一代Blackwell芯片,英伟达副总裁兼企业平台总经理Bob Pette称,预计人工智能将在所有利用该技术的行业里产生高达20万亿美元的影响。

英伟达的多个AI软件平台被众多企业和科研机构使用,如NIM Agent Blueprints可帮助企业开发生成式AI应用程序,NIM能快速组合聊天机器人和AI助手,NeMo为企业提供构建自定义生成式AI模型的方法。

华盛顿AI峰会令英伟达盘初股价最高涨4.1%,达到近3个月的最高点。

印度孟买AI峰会(10.23-10.25)

会上,英伟达宣布与印度第二大财团、亚洲首富安巴尼旗下的信实集团达成合作伙伴关系,在印度共同建设人工智能基础设施。

黄仁勋表示,信实集团在印度新建的大型数据中心将使用英伟达即将发布的下一代旗舰GPU芯片Blackwell,并且英伟达还与印孚瑟斯和塔塔咨询服务公司等企业建立了合作关系,印度的算力将比一年多前增长近20倍。

孟买AI峰会期间英伟达股价波动平缓,三日整体股价下跌约0.34%。

日本东京AI峰会(11.12-11.13)

会上,英伟达与软银宣布合作计划,软银计划基于英伟达B200打造 “日本最强大” 的AI超级计算机,英伟达宣布建设拥有25艾字节算力的日本最大AI工厂,利用软银网络基础设施构建覆盖全日本的AI网络。

黄仁勋表示,这一合作将创造出“遍布整个日本的AI网格”,以无人驾驶、远程控制等领域的高效应用落地。这种将AI与电信网络深度融合的方案,预示着日本不再仅仅是技术的跟随者,而是朝向AI和5G融合发展道路的引领者。

东京AI峰会期间,英伟达股价下跌1.36%。

行业会议

CES 2024(1.10-1.12)

CES即消费类电子产品展览会,是消费电子行业当之无愧的风向标,许多家喻户晓的产品从这里走向世界,如RCA、三星、先锋和东芝等多家公司在1996年的CES上宣布推出DVD播放器。

在CES 2024上,英伟达发布GeForce RTX 40 SUPER系列GPU,涵盖4080 SUPER、4070 Ti SUPER和4070 SUPER等型号,为打造AI PC提供强大动力。推出NVIDIA ACE Production Microservices,开发者能借此将先进生成式AI模型融入游戏和应用的虚拟数字人物中,利用相关AI模型和语音识别技术构建交互式化身。

汽车领域,英伟达表示理想汽车选择NVIDIA DRIVE Thor平台搭载于下一代车型,长城汽车、极氪、小米汽车则采用DRIVE Orin平台用于新一代自动驾驶系统,围绕NVIDIA Omniverse的汽车配置器生态圈逐渐形成。机器人领域,英伟达与波士顿动力等企业合作,将生成式AI与机器人技术相结合,借助GPU加速大语言模型,通过Isaac平台提升机器人的智能和适应能力。

会后,英伟达股价大涨6.43%,市值突破1.31万亿美元。

(2025年会议时间:1月7日-1月10日)

COMPUTEX 2024(6.4-6.7)

Computex大展是全球第二、亚洲最大的国际电脑展,举办地为台北。每年都吸引着来自全球各国的上千个厂商出席,英伟达、AMD、英特尔均有参展。IT业界常言:“新品看CeBIT,成品看ComputeX。”

在COMPUTEX 2024上,英伟达与全球多家领先计算机制造商合作发布采用Blackwell架构的系统,包含Grace CPU及网络和基础设施,并宣布其Spectrum-X以太网网络平台已被广泛应用。

此外,全面推出NVIDIA ACE生成式AI微服务,加速数字人发展,简化相关领域创建、动画化和操作数字人的流程。全球2800万开发者可下载NVIDIA NIM推理微服务,它以优化容器形式提供模型,可大幅缩短开发者构建生成式AI应用(如Copilot、聊天机器人等)的时间,从数周减至几分钟。

COMPUTEX 2024会议当周前三日(6.3-6.5),英伟达股价上涨11.68%。

(2025年Computex时间:5月20日-5月23日)

SIGGRAPH 2024(7.28)

SIGGRAPH是国际计算机图形和交互技术会议(Special Interest Group on Computer Graphics and Interactive Techniques)的简称,是全球计算机图形学领域的顶级盛会。

会上,英伟达NIM升级,实现标准化AI模型复杂部署,提供一系列预训练AI模型。构建首个理解OpenUSD语言的生成性AI模型,打包为Nvidia NIM微服务,如USD Code、USD Search、USD Validate等,未来还将推出USD Layout、USD Smart Material和FDB Mesh Generation等微服务。

英伟达推出系统化扩展机器人数据方法,利用AI和Omniverse生成大量合成数据,结合Isaac Sim和MimicGen NIM微服务生成合成数据集。

由于市场认为英伟达股价存在较大的泡沫,尽管在SIGGRAPH 2024会议上公布了产品、合作伙伴关系和扩展的生成型人工智能能力,但英伟达股价仍下跌超7%。

(2025年SIGGRAP时间:7月28日)

Lenovo Tech World 2024 (11.5)

联想科技世界大会(Lenovo Tech World) 是联想集团针对国内外企业领袖、联想粉丝、客户、供应商、合作伙伴和媒体举办的全球盛会,2024年举办的大会上,英伟达、英特尔、微软、AMD、Meta及高通等全球顶尖科技企业齐聚。

会上,联想与英伟达合作推出Hybrid AI Advantage全栈平台,基于联想服务、基础设施能力及英伟达AI软件和加速计算构建,助力企业创建代理式AI和物理AI,可高效转化数据为业务成果。

此外,联想推出搭载英伟达领先加速计算平台的ThinkSystem SC777 V4 Neptune,实现100%液冷系统,无需风扇和专门空调,采用新一代NVLink互连技术,支持多种网络,还支持带有NIM微服务的英伟达AI Enterprise软件平台。

联想科技世界大会期间,英伟达出现较大跌幅,与上一个交易日相比,股价下跌3.26%。

(2025年Lenovo Tech World时间:3月5日)

SC24(11.18)

SC即全球超级计算大会,由IEEE计算机学会、美国计算机协会(ACM)联合主办,探讨全球IT科技领域在高性能计算、网络、存储及分析方面的最新技术、产品和发展趋势。

在全球超级计算机TOP500榜单中,384个采用英伟达技术,前十名中占八个席位。会上,英伟达推出cuPyNumeric,作为加速计算库,可扩展计算集群提升数据处理效能,且科研人员无需修改Python代码就能使用。

此外,推出BioNeMo开源框架,为药物研发提供工具与算力,其NIM微服务可快速部署,缩短药物研发推理时间。针对化学模拟AI推理进行优化,推出NVIDIA ALCHEMI NIM微服务,加速新材料发现。

英伟达还宣布与谷歌合作,谷歌Quantum AI采用英伟达CUDA-Q平台在英伟达超级计算机上模拟量子处理器物理特性,加速下一代量子计算器件设计,降低模拟成本并扩大模拟规模。

会议期间,英伟达股价波动较为平缓,与上一个交易日相比下跌1.29%。

]]>
芯片 //m.drvow.com/category/chips/DJhbvDA9wB3QcsQ0.html#comments Mon, 13 Jan 2025 18:21:00 +0800
RTX 5090和人形机器人,黄仁勋CES2025的「开场与压轴」 //m.drvow.com/category/chips/rASi2zEQjsZAXbzs.html 雷峰网消息,当地时间1月6日,英伟达CEO黄仁勋发表了CES2025第一个主题演讲,正式拉开这场“科技春晚”的帷幕。

长达一个半小时的主题演讲,黄仁勋带来了全新的RTX50系列显卡,并讲解了英伟达在AI、自动驾驶以及人形机器人等前沿科技领域的技术进展。

演讲开头,黄仁勋回顾了英伟达的发展历程,从NV1让主机游戏成为可能、第一款GPU GeForce 256的发布,到最新的RTX50系列,英伟达步履不停。

而图形和游戏之外,英伟达也持续在引领行业的发展,从AI到当下的人形机器人。

借AI之力,RTX 5090实现「双倍」效能提升

“简直就是怪兽。”这是黄仁勋对GeForce RTX 50系列GPU的形容。

本次发布的GeForce RTX 50系列采用Blackwell架构、第五代Tensor Cores和第四代RT Cores,包含RTX 5090、RTX 5080、RTX5070 Ti以及RTX 5070四款产品。

作为RTX 50系列的旗舰产品,在性能参数上,RTX 5090拥有920亿个晶体管,实现最高可达3352TOPS的AI算力,380 RT TFLOPS的光线追踪性能,以及125 Shader TFLOPS的着色器性能。

RTX5090拥有32GB GDDR7显存,显存位宽512位,CUDA核心数量为21760,功耗575W。高功耗对散热提出高要求,RTX 5090采用双槽、双风扇冷却方案,支持液态导热材料和三层PCB设计,高效散热确保显卡在高负荷运行时的稳定性。

Blackwell架构的创新和DLSS 4使得RTX 5090的性能是RTX 4090的两倍,黄仁勋表示:“Blackwell作为AI引擎为PC游戏玩家、开发者和创作者带来全新体验。Blackwell融合了AI驱动的神经网络渲染和光线追踪,是我们在25年前推出可编程着色技术以来最重要的计算机图形创新。

产品迭代的背后,是AI正在回归GeForce。

DLSS 4多帧生成技术首次亮相,借助AI可为每个渲染帧生成三帧以提高帧率,多帧生成技术与全套DLSS技术协同运行,与传统渲染技术相比,性能最高可提升8倍,发布之日就有超过75款游戏和应用支持这项技术。

DLSS 4还引入了图形行业首个Transformer模型实时应用,基于Transformer架构的DLSS超分辨率和光线重建模型具备2倍的参数量和4倍的计算量,可提高画面稳定性,减少伪影,增加细节并增强抗锯齿效果。

Blackwell架构将AI引入着色器,英伟达推出RTX神经网络着色器(RTX Neural Shaders),将小型AI网络融入可编程着色器,为实时游戏带来电影级的材质、光照等。

而RTX 50系列出色的AI算力,将实现在游戏渲染的同时为拥有自主意识的游戏角色提供动力,英伟达推出的ACE技术将使游戏角色能像真人玩家一样感知环境、制定计划并行动,这项技术将在《绝地求生》以及《永劫无间手游》等热门游戏中得到应用。

Isaac GR00T Blueprint,让人形机器人走向「ChatGPT时刻」

通用机器人的ChatGPT时刻即将到来,黄仁勋用这句话作为机器人主题的开场,站在他旁边的是14款来自不同厂商的人形机器人组成的“机器人军团”。

通用机器人之所以如此重要,是因为不需要像带有履带和轮子的机器人一样,需要特殊的环境和场景去适应机器。当下三类通用机器人包括AI Agent、自动驾驶汽车以及人形机器人。

AI Agent和自动驾驶之后,人形机器人时代即将到来,未来二十年,预计人形机器人市场将达到380亿美元。

人形机器人落地的关键在于“如何训练”,为此,英伟达拿出了一套人形机器人的标准训练流程“Isaac GR00T Blueprint”,通过一系列机器人基础模型、数据管线和仿真框架,加速下一代人形机器人的开发进程。

Isaac GR00T Blueprint可以帮助开发者生成海量的合成运动数据,以便通过模仿学习来训练人形机器人。

模仿学习是机器人学习的一个子集,它能让人形机器人通过观察和模仿人类专家的示范来获取新技能。在真实世界中收集这些广泛、高质量的数据集成本极高。通过用于合成运动生成的Isaac GR00T Blueprint,开发者只需少量人类示范,就能轻松生成海量的合成数据集。

Isaac GR00T Blueprint工作流主要包含3个部分。

首先通过GR00T-Teleop工作流,用户可以借助Apple Vision Pro在数字孪生环境中捕捉人类动作。这些人类动作会被记录下来作为金标准,并在仿真环境中由机器人模仿学习。

然后,GR00T-Mimic工作流会将捕捉到的人类示范扩展成更大的合成运动数据集。

最后,基于NVIDIA Omniverse和NVIDIA Cosmos平台构建的GR00T-Gen工作流,会通过域随机化和3D提升技术,指数级扩增这个数据集,该数据集可作为机器人策略的输入,在NVIDIA Isaac Lab(机器人学习开源模块化框架)中,教会机器人如何在其环境中高效且安全地移动和互动。

Cosmos平台拥有一系列开放的预训练世界基础模型,包含各种模型尺寸并适用于多种输入数据格式。这些模型基于1800万亿个数据单元进行训练,其中包括200万小时的自动驾驶、机器人、无人机拍摄的视频以及合成数据。除了帮助生成大型数据集外,Cosmos还能将图像从3D扩展到真实场景,缩小仿真与现实之间的差距。

黄仁勋表示:“与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础,但并非所有开发者都拥有自主训练模型所需的专业知识和资源。我们创建Cosmos是为了普及物理AI,让每一位开发者都能接触到通用机器人技术。”

Cosmos的首批用户包括1X、Agile Robots、Figure AI、Foretellix、Galbot、Hillbot、IntBot、Neura Robotics、Uber和小鹏汽车等领先机器人和汽车公司。

Uber首席执行官Dara Khosrowshahi表示:“生成式AI将驱动未来的移动出行,而这需要丰富的数据和非常强大的算力。相信在英伟达的助力下,我们能够帮助行业更快开发出安全、可扩展的自动驾驶解决方案。”

Isaac GR00T、Omniverse和Cosmos正在助力物理AI和人形机器人创新,包括波士顿动力和Figure在内的主要机器人公司已开始采用Isaac GR00T,随着技术的成熟,英伟达将让机器人生态更加繁荣。

]]>
芯片 //m.drvow.com/category/chips/rASi2zEQjsZAXbzs.html#comments Fri, 10 Jan 2025 10:37:00 +0800
小米人车家全生态里的8.6亿台设备,骁龙「无处不在」 //m.drvow.com/category/chips/thHImoZs7ej8XNv3.html 雷峰网消息,2024年12月27日,小米人车家全生态合作伙伴大会在在北京召开。这是小米面向全球软硬件开发者,技术与商业伙伴的年度盛会,小米交出了一份漂亮的成绩单。

小米集团总裁卢伟冰表示,随着小米汽车的发布,小米实现了人车家全生态的闭环,打造了以手机为核心的个人设备、以大家电为核心的家庭设备和以汽车为核心的出行设备,小米成为全球规模最大的消费级IoT平台,连接超过200种品类以及8.6亿台设备,小米的经营状态,达到历史上最好的时期。

小米人车家全生态实现了设备实时动态组网,所有设备协同如一个整体,带来了划时代的互联体验,这背后离不开小米澎湃OS打通了人、车、家三大场景,也离不开骁龙在硬件、软件以及生态多个维度提供的底层支撑。

高通公司总裁兼CEO安蒙在2024年骁龙峰会上说,“Snapdragon is everywhere。”

骁龙无处不在的关键在于,高通拥有从手机到汽车再到PC、XR丰富的顶级硬件平台,还有Snapdragon Seamless让OEM厂商能够实现手机PC、汽车、XR等智能硬件产品的跨端互联。

Snapdragon Seamless带来的更好的智能设备体验,让骁龙越来越成为消费者青睐的品牌。

骁龙跨端互联,小米人车家全生态背后的「大管家」

作为小米人车家全生态的最后一块版图,小米SU7让小米生态中的跨端互联实现闭环。

小米手机进入座舱内后,手机Dock栏就会自动浮现出手机图标,点击图标即可进入妙享桌面,将手机镜像到车机,进行实时屏幕共享。小米手机上正在播放的视频、编辑一半的飞书文档,在车机的妙享桌面里,通过右滑就可以全屏显示。

除了与小米手机的无缝互联,小米SU7的前排座椅靠背预留的Pin点拓展接口,可连接小米平板,平板接入后即可秒变车机屏幕,可以控制车机功能,如调节空调温度、设置导航等,前后排屏幕还可互联操作,为后排乘客提供了便捷的控车方式。

值得注意的是,小米人车家生态里的手机、平板以及汽车都搭载了骁龙系列产品。

2024年10月29日发布的小米15系列,首发了骁龙8至尊版移动平台,雷军评价:“能效强得不可思议。”

骁龙8至尊版除了有强大的处理能力,也支持5G网络以及Wi-Fi 7等高速无线网络连接,能够实现快速的数据传输和稳定的网络连接。可以让用户在不同的终端设备中实现无缝切换,例如,在小米手机上起草文档,在平板电脑上编辑,最后在PC上定稿。

完美适配小米15系列的小米SU7,同样选择骁龙8295作为其智能座舱芯片。

充分利用骁龙8295集成的蓝牙和Wi-Fi能力,车主靠近车辆时,小米手机就能与车机通过蓝牙自动识别,随后车机系统利用Wi-Fi与手机建立高速稳定的数据传输通道,实现无感连接。

搭载骁龙8移动平台的小米平板在SU7上实现的“即插即用”,是借助小米SU7的物理接口,平板连接到车机后,骁龙8295芯片会快速检测到平板的接入,并通过硬件识别协议自动完成对平板的识别和配置,加载相应的驱动程序和软件模块,建立起车机通信。

小米SU7“五屏联动”的实现,澎湃OS和Snapdragon Seamless都是关键。

通过Snapdragon Seamless技术,小米SU7、小米手机、小米平板在一定范围内就能够自动搜索并发现彼此,在连接过程中,骁龙芯片会使用内置的安全机制对设备进行认证,确保连接的安全性。

建立连接后,平板和车机可以共享外设,平板可以使用车机的麦克风进行语音输入、使用车机的扬声器播放声音,并且无论是导航信息、音乐播放列表、车辆数据,还是用户在平板上的操作记录,都可以实现实时同步。

Snapdragon Seamless在小米人车家超级生态里到底发挥着怎样的作用?

高通跨端互联的核心——生态与架构「大一统」

Snapdragon Seamless,让用户体验「灵动」

2023年,高通在骁龙峰会上推出了Snapdragon Seamless技术,作为一个跨平台技术,正如其名称Seamless(无缝的)一样,可实现多台终端跨多个操作系统无缝连接,共享外设和数据。

高通副总裁兼可穿戴设备与混合信号解决方案业务总经理Dino Bekis表示:“Snapdragon Seamless打破了终端和操作系统之间的壁垒,是真正秉承‘用户至上’理念的跨终端解决方案。”

Snapdragon Seamless是一个包含硬件解决方案和稳健软件框架的集合,涵盖多种操作系统,基于高通低功耗、低时延的蓝牙和Wi-Fi技术,以及高通传感器中枢的始终感知功能,用户能够创建连接智能手机、笔记本电脑、平板电脑、耳塞、智能手表和XR设备的自组织智能网络。

Snapdragon Seamless采用的Wi-Fi高频并发多连接技术是高通FastConnect移动连接系统中的一项关键技术,通过同时利用两个Wi-Fi射频,让终端的数据流可叠加使用,从而获得更高的吞吐量,实现高效的数据共享。

传感器中枢则通过支持加速度计、陀螺仪、磁力计、光线传感器、摄像头、麦克风等多种物理传感器,以及重力、计步器和游戏旋转矢量等虚拟传感器,从不同维度收集数据,为全面感知提供了丰富的信息源,从而实现始终感知功能。

始终感知让Snapdragon Seamless实现更灵动的跨终端互联。

通过感知连接状态,实时监测不同设备间的连接情况,比如,当手机与平板通过Snapdragon Seamless连接后,若其中一方设备因电量低、进入睡眠模式或网络信号中断等原因导致连接出现异常,始终感知功能可以及时察觉并向用户反馈,以便用户采取相应措施恢复连接。

Snapdragon Seamless还能感知硬件设备的性能情况,进行任务的合理分配,包括CPU、GPU,内存和存储空间的分配。当需要进行多设备协同处理任务时,能够根据各设备的性能状态合理分配任务,确保系统的整体运行效率。例如,将复杂的图形处理任务分配给高性能 PC,而将简单的通知处理交给智能手表。

另外,通过感知应用的使用情况,记录用户在各个设备上使用的应用程序及其使用习惯,如用户在手机上经常使用某款办公软件处理文档,当在平板或 PC 上打开该软件时,系统可以根据用户在手机上的使用习惯自动调整软件的设置和界面布局,提供个性化的使用体验。

凭借Snapdragon Seamless,终端制造商和操作系统合作伙伴可以面向消费者增强并扩展多终端体验,鼠标和键盘可在PC、手机和平板电脑上无缝使用,文件和窗口可在不同类型的终端间拖放,耳塞可根据音源的优先级进行智能切换,XR可为智能手机提供扩展功能。

高通技术公司手机、计算和XR事业群总经理阿力克斯·卡图赞(AlexKatouzian)表示:“Snapdragon Seamless是一个促进多终端体验的重大飞跃,真正打破生态系统壁垒。”

Oryon CPU,让架构脱离平台的「束缚」

Snapdragon Seamless良好的体验之下,是Oryon CPU强大的性能作为托举。

作为骁龙SoC的最后一块拼图,Oryon CPU带来的不仅是高性能和高能效双重优势,更是通过统一的硬件架构、指令集架构以及完整的异构计算架构,实现高效的跨端互联。

骁龙X Elite PC平台,和骁龙8至尊版手机平台都搭载Oryon CPU,不同平台搭载的Oryon CPU有所差别,但都有类似的指令获取单元、矢量执行单元、重命名和退出单元、整数执行单元、内存管理单元以及加载和存储单元等模块,并且这些模块的工作原理和相互连接协作的方式基本相同,以保证在不同设备上都能提供稳定一致的性能和功能。

同样的道理,骁龙座舱至尊版平台的Oryon CPU,也采用基本相同的硬件设计和结构,具有相似或一致的核心结构、模块组成、电路设计以及连接方式,能保证和骁龙PC、手机、XR平台设备的跨端互联。

对于开发者来说,Oryon CPU采用统一的指令集架构,意味着在不同的硬件设备上可以运行相同的软件,这就能实现一次开发多端部署,大幅减少针对不同设备进行单独硬件优化和适配的工作量,提高开发效率,降低开发成本,同时也有助于构建统一的生态系统。

此外,Oryon CPU与其它处理单元紧密结合,构成了完整的异构计算架构。在处理复杂任务时,不同的处理器协同工作,CPU负责通用的计算任务和系统管理,通过智能的资源调度和任务分配,NPU用于处理AI的运算,GPU处理图形渲染,实现高效的跨端计算和处理。

除了强大的软硬件,Snapdragon Seamless更需要与众多合作伙的密切合作,高通与包括微软、Android、小米、华硕、荣耀、联想和OPPO在内的公司达成合作,从而支持多终端体验。

目前,Snapdragon Seamless可以支持Android、Windows和其他系统之间的协作,构建了完善的生态环境。

使用搭载骁龙芯片的三星Galaxy Tab和Windows笔记本电脑,在Windows笔记本上编辑的内容,无需手动传输,通过Snapdragon Seamless就可以把文档直接拖放到Galaxy Tab上继续编辑。

高通总裁兼CEO安蒙表示:“我们与微软和Meta的合作,让大家看到了Android与Windows合作,将终端保留在一个封闭式生态系统里已经过时。人们可以选择自己想要的终端,而不是他们被允许选择的终端,这对于整个行业都是一个激动人心的时刻。”

实现跨终端互联新体验的同时,高通还致力于通过多终端数据构建个人知识图谱,让互联更“协调”,让终端更“懂人”。

正如阿力克斯·卡图赞所描述的,你的各种智能设备能感知情境,了解你的个人信息。当你在跑步时,智能眼镜会了解你的位置,并从智能手表提取实时配速数据,确保你保持在目标心率区间。你甚至可以用智能眼镜拍照分享,因为它知道保存在你终端上的个人联系人。与此同时,智能手机会播放定制歌单,流传输到集成耳塞的智能眼镜中。

对用户来说,这或许是一次平常的跑步,但背后,骁龙解决方案正在跨终端工作和运行,这是只有高通才能够提供的独特功能。

阿力克斯·卡图赞表示:“我们生活在一个多终端的世界里,这一点毫无争议。不久的将来,终端将比你更了解你,并能更好地预测你的需求。人机交互界面正在发生变化,变得更具直观性和交互性。我们先进的系统级解决方案可以为消费者带来出色体验。”

随着Oryon CPU跨平台适配能力的提升,有望推动智能手机逐步成为全场景智能生活的核心枢纽,加速智能生态系统的发展。“Snapdragon is everywhere”,正在成为现实。

]]>
芯片 //m.drvow.com/category/chips/thHImoZs7ej8XNv3.html#comments Fri, 10 Jan 2025 10:17:00 +0800
手握800万期权,上市前辞职,AI芯片人的情非得已 //m.drvow.com/category/chips/wX8rLobBI5nnpLSI.html

作者|包永刚

编辑|王亚峰

“公司不上市,我绝不离职。”骏远的坚定是对公司和AI芯片赛道的高度认可。

骏远在公司已经超过5年,参与了公司芯片从零到一研发产品的过程,有公司不少期权。

“不说财务自由,公司上市后我有机会实现衣食无忧。”不惑之年的骏远愿意用全部年终奖押注公司成功上市。

与骏远对上市的热切期盼形成鲜明对比,昊天放弃了看似唾手可得的财富。

错过了前东家股价暴涨,手握价值800万期权的昊天,在公司已经开始上市流程后选择了辞职。

“前东家股价的暴涨在我的意料之外,但我并不期待刚离职公司的上市,商业公司的成功靠的应该是产品而不是上市。”昊天也算过一笔账,“就算公司成功上市,3年的禁售期,还有45%的税,平均每年几十万的收入不算多。”

成功上市,不是芯片公司的丰碑,而是新考验的起点。

已经有上市公司在财报的压力下,裁员让团队士气低落。“看着周围关系好的同事相继收拾东西,然后离开,我的心态也崩了。”

上市,看似通往成功的通道,在不同的AI芯片公司、不同的从业者眼中,映射出了截然不同的命运。

AI芯片行业上演着怎样的冰与火之歌?雷峰网也将推出《谁能超越寒武纪?》系列文章,欢迎添加作者微信BENSONEIT获取更多信息。

错过前东家股价暴涨,又放弃8百万期权

离职后前东家的股价就上涨数倍,如今又主动放弃百万期权,昊天后悔吗?

昊天毕业后加入了一家美国芯片公司的产品部,初入职场干劲十足,昊天获得了领导赏识,一步步成长为能独立负责数亿美元项目的小负责人,每年还有股票奖励,是许多人梦寐以求的工作。

但昊天也有困扰,他在国内和美国各有一个直属领导,因为没有察觉到两个领导间暗中的矛盾,一次饭局上,昊天发自肺腑地夸了没在场的美国直属领导,国内的领导听完当场黑脸,夹在两个领导之间,昊天升职的机会渺茫。

“我才不到30岁,外企的氛围和福利确实不错,但待下去处境很尴尬,不想躺平摆烂。”昊天手持公司不少股票,离职将是一笔损失,“2022年初离职前,公司的股价上涨了不少,我觉得未来上涨的空间已经不大,权衡后决定先看看机会。”

有全球芯片巨头的工作履历,昊天找工作十分顺利,很快就拿到了两家外企的Offer,但昊天却接受了国内AI芯片初创公司的Offer,一腔热情想到初创公司里发光发热。

“我和HR说,收入不比前东家低就行,后来发现只有我是平薪跳槽,还是公司的核心高管看不过去,给了我百万的期权。”昊天获得了期权。

离开外企到初创公司的第一天,昊天就受到了打击。入职第一天的内部会议上,直属领导突然把正在讨论的问题抛给昊天,他根据自己的经验阐述了自己的看法。“纯属瞎说。”昊天对领导的反应愤愤不平,“这是毫无根据的指责”。

领导的脾气虽然不好,但能力很强,昊天还是想跟着领导干一番事业。可昊天在外企积累的丰富经验在新公司不能被充分发挥,领导让他干起了他不擅长的技术工作。

“刚开始我抱着学习的态度努力学习。”昊天说,“领导让我做的事情越来越技术,还得求人去请教,可是我根本不懂,也偏离了我想发展的方向。”

2022年底,也就是昊天离职一年后,ChatGPT掀起了新一轮的AI热潮,AI芯片受到追捧,昊天的前东家成了全球最受关注的公司之一,股价开始节节高,昊天心里有些不是滋味。

而自己所在的公司,产品竞争力很难让客户买单,卖出去的芯片没实际用起来,被频频投诉。昊天第一次在工作里体会到了有力使不上的无力。

商业芯片公司不把自家芯片真正芯片用起来怎么可能发展起来?仅靠融资终究不可持续。”昊天心里的落差与日俱增,距离干一番事业的初心越来越远。

在不满情绪达到顶点时,昊天在2024年下半年愤然发出了离职邮件。

“加入这家创业公司的三年,我没有涨过薪,年终奖也没有拿满过。”昊天很失望,“收入和职级都降了,前景也不光明。”

“就算公司2025年能够顺利上市,以我拿到的期权计算,看起来五六年后能变现近800万,但扣完税并没有看起来那么多,这个期间如果公司的销售情况没有改善,工资不涨奖金拿不满,期权不是我继续干下去的动力。”昊天说,“我的期权在员工里不算少。”

“期权越多、越资深的人越不期待公司上市。”昊天解释,这听起来比较反常识,其实理由很简单,对于这些人来说,换一个公司用五六年多赚几百万并不难。

那些对公司充分认可,也没有意识到公司运作情况的人,会All in公司,更容易对公司的上市充满期待。

期待公司上市后能衣食无忧

“2023年的年终奖,我都买了公司期权。”资深工程师骏远对公司的上市充满期待,这种期待里包含了对公司强烈的情感。

在2018年的金融危机里,找工作变得困难,工作了十多年的骏远急于寻找一份新工作,在三个Offer中,骏远选择了最先和他谈薪资的一家AI芯片公司。

最初,骏远对AI芯片不了解,可以和公司一起成长。“初创公司不是人浮于事,大家一起奋斗和进步的感觉很好。”骏远暗里下决心这次要好好沉淀,不再像之前一样频繁换工作。

骏远这次选对了赛道,2019年之后国内AI芯片的热度升高,2020年几家成立不久的公司在市场上高价挖人,为了留住员工,研发工程师的工资水涨船高。

“年薪已经很高的工程师都还能有接近20%的薪资上涨,年薪不高的工程师薪资的涨幅更高。”骏远不仅享受到了AI芯片行业火热的薪资上涨,“为了稳定军心,当时的研发团队成员还拿到了公司的期权。”

大受激励的骏远更加努力地工作。但不到一年后,骏远就开始摇摆想要离职。

“一方面是我意识到继续做原来的方向价值不大,另一方面是公司经过一番调整后的氛围我不太喜欢。”已经在AI芯片方向耕耘了几年的骏远,在当时火热的行情里,很快就拿到新的工作机会。

骏远没忘初心,想继续沉淀,“我没提离职,拒绝了新工作,申请在公司内部换到新的方向。”

换了方向之后,骏远工作的心情好了很多。后来看到自己亲手参与研发的芯片发布,并且有客户,骏远对公司的认同感在加深。

等到公司的第二代芯片顺利研发出来时,骏远开始在意公司上市。

管理层从2022年就在内部开始说公司上市,虽然一直没有实际的动作,但我们很多同事都有期待。”骏远相信除了寒武纪,总会有其他AI芯片公司能上市。

“许多人都把所有的年终奖换成公司的期权,特别是硬件的同事,在国内的芯片热潮之前,硬件研发的薪资并不高,经历涨薪之后,公司上市是我们的另一个大机遇。”骏远和同事们充满期待,“我的期权在普通员工里不算比较多的那部分,但上市后我的生活应该能衣食无忧,等待的几年肯定不止一年几十万的额外收益。

骏远的期待里也夹杂着现实的残酷,“我已经四十多了,即便还有好机会去一家新的创业公司等到公司上市,我也等不了那么久,我还能专心写代码的时间最多也就10年。”

2024年年中,骏远所在的公司上市的进程又往前迈了一步,骏远和他的同事们期待着公司能够在未来两年内上市。

“如果连产品都没有落地的公司都能上市,这对于从业者来说是一个巨大的打击。”骏远并不看好已经开始上市辅导的几家公司,但看好自己所在的公司“我们的产品有客户有落地,2024年已经有数亿元的营收,我们有机会上市。”

算力消纳「焦头烂额」

对于上市越乐观,AI芯片公司的销售的压力也越大。

“要产生上市保荐机构认可的营收,就要把建好的智算中心运营起来。”一家AI芯片公司的销售翰林工作的全部压力都是算力消纳。AI芯片公司上市背后的故事,欢迎添加作者微信BENSONEIT交流。

AI芯片公司的智算中心要能运营起来,首先要产品可用,其次还要时间和资源的投入。

“客户的首选肯定还是英伟达,没有时间和耐心,国产芯片的智算中心想用起来很难。”翰林能做的工作很有限。

芯片销售李伟说,国内的AI芯片产业就像是不准打地基,却要建万丈高楼。

在上市的巨大压力下,有公司的动作已经变形。

“一家要上市的公司通过‘左手倒右手’的方式,1亿换来了四五千万的营收。”李伟说,“他们的销售压力巨大,在西北一个市建的智算集群项目,把一些生产采购的外包需求,换成了公司的业绩,但到最终的算力消纳仍个大问题。”

AI芯片公司市场部门的王建国补充,“一家准备上市的AI芯片公司,想花上亿元和一家国内头部AI大模型公司合作产生营收,本来谈的七七八八,结果大模型公司反悔了,最后也没谈成。”

“有公司真是不顾同行死活。智算中心的项目,行业里一般一匹算力的价格大概七八十万,但有准备上市的公司一匹算力就卖20万,这对于芯片公司来说几乎没得赚。”王建国理解上市面临不小压力,但对于破坏行业价格的行为非常不满。

李伟和王建国不看好已经开始上市辅导的公司能够顺利上市,但他们都相信自己的公司未来2-3年内能上市,理由还出奇一致。

“我们的AI加速卡在智算中心建设适度超前的利好下已经卖完,现在正在抓紧下单生产新的芯片。”王建国说,“按照这样的趋势下去,我们有可能达到盈亏平衡,上市也就水到渠成。”即便王建国在上一家公司的股权变成了一张废纸让他失望,但他对新公司的上市还留有期待。

李伟也认为自己所在的公司能够实现盈亏平衡继而上市。

“我们公司靠销售团队一单一单谈下来的商业订单,10万、20万、100万积少成多,不是虚胖的业绩。”李伟说,“很多公司上来就做一笔几亿甚至几十亿的智算中心项目,很难愿意辛苦做商业市场的‘小生意’。

2024年前三季度,李伟所在公司的营收已经达到了2023年全年的三四倍。

“如果今年我们公司的营收能保持上涨,就有机会做到盈亏平衡甚至微盈利,也有机会享受到上市带来的红利。”李伟对公司上市有信心。

上市「盲盒」

芯片投资人锦航始终觉得,AI芯片公司能否上市成功就像是开盲盒一样,难以预测。

在上市流程里的AI芯片公司会说自己能够成功上市的独有条件,但其实其他家也有相似的故事。

“近期有些人在想办法买摩尔线程的老股,可能是想快速赚一笔。”锦航的投资人朋友说,“任何一家上市都面临阻力,任何一家成功上市,其它公司的LP就会认为其GP‘没用’,GP们会想办法给对手制造阻力。”

经验丰富的二级市场投资人云川也不看好这几家AI芯片公司的上市,在股市里亏了几年之后,看到国内几家AI芯片公司开始上市辅导的消息有些不满,“让这些公司上市就是向普通股民嫁成本。”

“就像2024年上半年营收只有不到6500万的寒武纪,市值却高达3000亿,这起了不好的示范作用。”云川不理解寒武纪的营收如何支撑起这样的市值。

除了A股上市本身的流程和规则,美国新一轮的禁令也为AI芯片公司的上市以及上市后的走向蒙上阴影。

“看到美国最新的禁令之后,我陷入了迷茫,不知道未来国内AI芯片行业会如何发展。”芯片架构师沐泽的悲观来自于芯片制造,“国内芯片设计有一个好团队就能设计出芯片,但制造看不到希望。即便同样是12nm制程,国内的工艺和领先的工艺相比功耗差两倍,芯片面积也更大。”

有几家AI芯片公司使用三星代工生产了芯片,但随着美国禁令的持续升级,AI芯片公司可能面临没有芯片可以销售的窘迫,这也将成为上市的重大风险。

沐泽清楚地知道如果芯片不能制造出来在市场上落地,问题就永远是研发假想出来的。

骏远对于新的禁令反而表现出了乐观,“这一次可以更清楚的看到美国是针对国内的整个芯片行业而不是某家公司,能让更多之前抢英伟达芯片的人意识到英伟达的产品再好未来可能也买不到,长期利好国内芯片产业。”

上市后的裁员比预计来的更早

一边有人在期待公司上市,另一边已经有上市公司开始裁芯片工程师。

景轩在2021年的芯片热潮里加入了一家AI公司的芯片团队,“我加入的时候没有期权。”

对于研究生学历的景轩来说,能够从月薪8000的事业单位,薪资翻几倍进入AI行业已经算是踩到到了行业的风口。

在AI公司的芯片团队里,景轩所在的团队氛围很好,领导的技术实力很强,两年时间里景轩的进步很大。

“公司上市当天,有一个同事很兴奋,在办公室里走来走去。”景轩感受到的却是压力,“私下里同事们觉得公司可能会为了财报好看裁员,但实际上公司上市不到一年就开始裁员。”

2024年春节后不久的一个工作日上午,突然有人被叫到会议室谈话,被谈话的人从会议室出来后,办公室里的气氛变得奇怪。

景轩晚饭时间才知道被叫去会议室的同事被裁了,并且同事间开始传下一轮裁员的时间。

刚听到时景轩觉得是谣言,结果到了传言中的新一轮裁员时间,又有几个同事被裁员。景轩工作几年来第一次经历公司裁员,“看着周围熟悉的同事被裁,我开始感到慌张和焦虑。”

那段时间,景轩为了证明自己的价值,非常努力地干活和写周报,就为了自己不在新一轮的裁员名单里。

这种压力也是自上而下的传递。“本来和善的团队领导,开始裁员之后都开始严抓考勤、严抓工作进度。”景轩的压力越来越大,开始主动寻找新的工作机会。

公司的组织架构调整,也让景轩觉得公司不太想在这条产品线上继续投资源和时间,即使他非常不想离开公司,公司可能也会砍掉这条产品线。

在下一轮的裁员名单还没有出来之前,景轩主动和领导说了离职的想法。“我不想继续在焦虑中度过,现在的环境,哪里都是裁员,不如出去赌一把。”景轩主动申请了一个裁员名额。

“上市不应该是AI芯片公司们的终点,而是新的起点,也是新的考验。”AI芯片从业者梓豪说,“上市也不是AI芯片公司的淘汰赛,没上市的公司,拿不到一线城市的融资,也可以找二三线城市融资。”

只是,如果芯片公司的芯片不落地,就算上市,故事还能讲多久?

经历两次裁员,依旧保持乐观

AI芯片公司集体准备上市火热的背面,是摇摇欲坠的另一些AI芯片公司。

刚经历过一次裁员的工程师青辉,加入了一家创业公司,“我觉得GPU赛道的赢面很大,只要有持续的资本投入,不管行业如何洗牌,自己保持在牌桌上,资历和能力提高了总有机会。”

青辉加入的公司,刚开始欣欣向荣,在2023年员工总人数从500人左右迅速扩张到八九百人。

“我在的软件小团队工作非常忙,工作压力不小。”青辉在高强度的工作里也有很大进步。

2023年底,公司冻结了招聘,青辉察觉到了异常,接下来又是年终奖的缓发公告。

“等到去年3月份年终奖还是没发,又发了通知说年终奖转期权,我们普通员工也意识到公司面临的财务压力实在太大。”青辉说。

紧接着,公司又发公告:月薪大于两万的员工只发两万,月薪小于两万的正常发放。

“这个公告发布之后有人离职,但公司的现金流压力还是很大。公司的图形GPU面临巨大的市场竞争压力,AI芯片竞争力也不足,销售产品缓解公司的经营压力很不现实。”青辉说,“因为不在公司的总部,到这时候我的心里波动也不大,直到公司开始主动裁员。”

去年5月底,不堪经营压力的公司裁员裁到了青辉所在的团队。“裁人没有给出任何依据,看着熟悉的同事收拾东西,送他们离开,这对我的冲击很大。”青辉这次经历的裁员和上一次不一样。

团队核心的成员相继主动离开之后,青辉内心煎熬,最终决定主动辞职,公司也进入了休眠状态。几个月后,转机又出现了。

放弃800万期权的昊天已经去往新的公司,坚守的骏远期待公司早日上市。离市场更近的翰林、李伟和王建国有喜有忧。相比锦航和云川的无奈,沐泽的迷茫,景轩、青辉已经感受到了行业的冰点。

这些从业者展现了国产AI芯片公司热闹上市浪潮的背后,冰与火的对比。

上市正如一面放大镜,聚焦行业动向,展现了创业者、资本与普通从业者之间的博弈,也如一面照妖镜,映射出了残酷的现实。

上市不应该是创业公司的丰碑,更应该是新征程的起点。

更多AI芯片公司上市动态和现状,添加作者微信BENSONEIT交流。雷峰网

注,骏远,昊天,翰林,李伟,王建国,锦航,云川,沐泽,景轩,梓豪,青辉均为化名雷峰网

]]>
芯片 //m.drvow.com/category/chips/wX8rLobBI5nnpLSI.html#comments Fri, 10 Jan 2025 09:31:00 +0800
IBM原全球副总裁谢东加入北电数智,担任首席技术官 //m.drvow.com/category/chips/ZunmWKgwH1vPVl23.html 雷峰网1月2日消息,IBM原全球副总裁、大中华区首席技术官谢东出任人工智能创新型国企北京电子数智科技有限责任公司(简称“北电数智”)首席技术官。

北电数智是北京电控集团旗下专注于原创性、颠覆性、引领性科技创新的人工智能科技企业。 业务范围包括AI基础设施、AI核心产业加速和AI创新平台服务。

谢东本、硕、博均毕业于清华大学自动化专业,在IBM任职期间,主导了IBM中国半导体部门建设,管理过超5000人的全球化产研团队,并推动IBM企业级AI产品Waston X在中国的全流程开发与商业化落地,拥有超过30项技术发明专利,曾三度荣获IBM杰出技术成就奖。

谢东表示:“面向当下我国人工智能产业AI化效应的持续加速及生成式AI应用的逐年提升,算力、算法、数据三要素需紧密协同、融为一体,才能真正激发AI产业效能、推动AI的应用落地。北电数智是北京电控面向新质生产力布局的人工智能企业,定位清晰、视野广阔,与时代和产业的核心发展诉求高度契合。”


]]>
芯片 //m.drvow.com/category/chips/ZunmWKgwH1vPVl23.html#comments Thu, 02 Jan 2025 10:23:00 +0800
2024年,半导体产业10大动向 //m.drvow.com/category/chips/0BFA0ZN9OhSIfZTh.html 年关将至,IEEE(电气电子工程师学会)的旗舰杂志IEEE Spectrum盘点了2024年行业内的十大动向,涵盖主要的技术进步、头部半导体企业动态以及行业竞争格局等内容,雷峰网对文章编译如下:

1. 迈向万亿晶体管GPU

如果台积电高管的预测是正确的,那么万亿晶体管GPU将在十年内实现。

现阶段,用于人工智能训练的GPU性能已经达到极限,其晶体管数量大约是1000亿个。持续增加晶体管数量的趋势将需要多个芯片,通过2.5D或3D封装从而执行计算。

半导体技术已从2D封装转向3D封装,如台积电CoWoS技术可以突破光刻掩模版限制集成多芯片,已经被应用于英伟达Ampere和Hopper GPU,且从7nm到4nm技术转变使相同面积晶体管数量增加。

HBM等芯片堆叠技术对人工智能也很重要,未来3D SoIC技术有望提供更密集的垂直互连。AMD MI300A利用3D封装技术结合GPU、CPU及HBM处理人工智能工作负载,通过2.5D或3D封装技术集成多芯片可实现超1万亿晶体管 GPU,且垂直互连密度有望大幅提升。

GPU性能在过去15年内,每两年提高约三倍,未来先进封装技术和系统技术协同优化等将继续推动其提升。

2. 超亮激光器有望取代二氧化碳激光器

半导体激光存在过暗的缺陷,限制了其在材料加工和激光雷达等领域的应用,而其他类型的超亮激光如二氧化碳激光和光纤激光又存在体积大、成本高、能效低和难控制等问题。

京都大学团队研发的光子晶体面发射激光器(PCSEL)突破了传统半导体激光的亮度限制,其独特构造是在活性夹层之间增加了带纳米孔的光子晶体层,通过调节孔的间距和形状控制光在激光内的传播,使其仅在基模下振荡,从而产生强大且窄的光束,实现高亮度。2023年研制出亮度达1GW/cm²/sr的PCSEL,可切割钢铁。

高亮度PCSEL可用于制造更小更便宜的自动驾驶汽车和机器人传感器系统,实现片上光束转向,还有望取代芯片制造中的极紫外光刻机中的二氧化碳激光器,助力核聚变和太空光推进等,应用前景广阔。

3. 英特尔重启芯片制造

过去五年英特尔在先进芯片制造方面落后于台积电和三星,为重新领先,其在 2024 年底推出的桌面和笔记本 Arrow Lake处理器中采用两项新技术,即新的晶体管技术RibbonFET(纳米片晶体管)和首创的背面供电系统 PowerVia,希望借此超越竞争对手。

英特尔在过去二十年曾引领晶体管架构变革,但同样面临很多问题,如2018年10纳米CPU延迟交付、14纳米CPU缺货以及2020年7纳米节点也推迟。

RibbonFET将取代FinFET技术,其栅极能更好地控制电流,在英特尔20A处理节点引入时预计能效提升15%。PowerVia是更重大的改变,首次利用晶圆背面分离电源和处理,因电源线和信号线优化需求不同,这种解耦很重要。

大约五年前,英特尔决定同时引入两项技术,这是非常冒险的举措,此前英特尔较保守,现在情况反转。为降低 20A节点风险,英特尔增加内部节点将PowerVia与当前FinFET配对,测试表明单独添加PowerVia性能提升6%,但制造过程仍面临芯片正反面纳米级垂直连接器对准链接及保持硅片两面平坦等挑战,且成本改进趋缓,设计人员也需重新思考互连线和布局。

4. 佐治亚理工研发出世界首个石墨烯制成的的功能半导体

世界首个石墨烯半导体芯片基于外延石墨烯与碳化硅化学键合的碳晶体结构,名为半导体外延石墨烯(SEC),相比传统硅电子迁移率更高,能让晶体管在太赫兹频率下运行,速度比当前硅基晶体管快10倍。

半导体中硅在速度等方面已接近极限,石墨烯导电性更好,但此前由于缺带隙(能量间隙)难用于电子器件,以往化学方法制造带隙有迁移率低等问题,机械变形制造带隙虽有成果但带隙小且迁移率信息不足,SEC在无缺陷碳化硅平台制得大面积半导体且碳化硅与传统微电子加工方法兼容。

5. 英特尔代工技术的巅峰

英特尔将获得更多客户的希望寄托于其18A工艺,该工艺结合了纳米片晶体管和背面供电。但关于客户计划用这项技术构建什么产品,目前还没有很多细节。

在Clearwater Forest服务器 CPU 中,纳米片晶体管将带来更高的性能和更低的功耗,使得芯片在处理复杂计算任务时能够更加高效地运行,满足数据中心对高性能计算的不断增长的需求。背面供电技术则能够优化电源传输,减少信号干扰,进一步提升芯片的稳定性和可靠性。

6. 全球芯片公司挑战英伟达

有人能打败英伟达吗?这是很多媒体2024年的关键选题,我们的答案是:很有可能。这完全取决于你想在什么方面击败英伟达。以下是对英伟达潜在竞争对手公司的梳理:

AMD:拥有广泛的GPU产品线,且是高带宽内存的早期支持者,其即将推出的Instinct MI325X备受期待,不过软件生态ROCm与CUDA相比太落后。

Intel:Intel2018年推出的OneAPI可跨多类硬件加速AI任务,但后续硬件发布计划不明。其计划推出的Falcon Shores芯片架构和性能细节尚未公布,预计2025年末发布。

Qualcomm:AI战略侧重特定任务的推理和能效,在智能手机、平板电脑、AI 辅助驾驶等领域广泛应用,但缺乏用于 AI 训练的大型前沿芯片。

Broadcom:在网络通信芯片方面技术强、市场份额高,能提供高速稳定网络连接助力AI数据传输,产品线丰富、供应链管理强,但AI核心计算能力相比专业厂商较弱,在深度学习硬件优化和软件生态建设上相对滞后。

Groq:专注于AI推理性能,其架构紧密结合内存和计算资源,使用14纳米技术的芯片在运行Meta Llama 380 亿参数模型时推理速度超1250 tokens/秒,性能出色,但目前应用限于推理。

Cerebras:Wafer Scale Engine系列芯片规模巨大,WSE - 3有4万亿晶体管,远超英伟达 B200。但受制于芯片尺寸、成本和专业性,应用领域较窄,主要面向特定客户如美国国防部等。

超大规模云计算公司:包括亚马逊、谷歌、微软等,为满足自身及云计算客户需求自行设计芯片,如谷歌的 TPU、亚马逊的Trainium和微软的Maia等。虽不直接向客户销售硬件,但通过云服务提供使用途径,与英伟达等形成竞争。

7. 印度向半导体行业投资152亿美元

2024年,印度政府批准了一项对半导体行业的重大投资,投资额度达到1.26万亿印度卢比(约152亿美元),希望通过此举加强印度在半导体领域的独立程度。主要项目包括建立印度首个先进芯片代工厂和两座封装测试设施,这些项目计划将在100天内开始动工。

台湾晶圆代工厂力积电(PSMC)董事长Frank Hong称:“一方面,印度拥有庞大且不断增长的国内需求,另一方面,全球客户正在关注印度的供应链弹性,现在是印度进入半导体制造业的最佳时机。”

印度首个先进芯片代工厂是台湾力积电和印度塔塔电子110亿美元的合资项目,能生产28、40、55和110纳米芯片,月产能5万片晶圆,其技术虽非最前沿,但应用广泛且针对芯片短缺的核心领域,预计将创造超2万个技术岗位。

在封装测试设施方面,塔塔电子将投资32.5亿美元建厂,计划拓展先进封装技术,预计2025年投产,创造2.7万个就业岗位;日本瑞萨电子、泰国Stars Microelectronics和印度 CG Power and Industrial Solutions合资9亿美元建厂,提供引线键合和倒装芯片技术,CG占股92%,此外美光公司也在此有建设计划。

印度此前吸引芯片企业举措失败后改进了激励政策,现在印度半导体市场增长迅速,预计2026年增长至640亿美元,2030年达1100亿美元(占全球 10%)。

8. 混合键合在3D芯片中扮演重要角色

混合键合技术将两个或更多芯片堆叠在同一封装内,从而增加处理器和内存中的晶体管数量。

在五月的IEEE电子元件与技术会议(ECTC)上,全球研究团队展示了对混合键合技术的多项改进成果,其能在每平方毫米硅片上实现约700万连接。混合键合在先进封装行业增长迅猛,预计2029年市场规模将达380亿美元。

研究人员将继续攻克混合键合连接间距问题,台积电等计划引入背面供电技术助力提升,未来甚至可能实现电路块跨晶圆“折叠”及不同材料间的混合键合,其发展前景广阔且速度很快。

9. 摩尔定律的未来:粒子加速器

英特尔、三星、台积电和日本Rapidus等公司在增加芯片每平方毫米晶体管数量时,都依赖复杂昂贵的极紫外(EUV)光刻技术。

当前EUV系统由ASML制造,其虽使芯片制造进入新阶段,但存在诸多问题,如光源亮度低、未来精细图案制作需更高功率光源、污染、波长纯度、反射镜收集系统性能及高运营成本。

日本高能加速器研究机构(KEK)的研究人员认为利用粒子加速器的自由电子激光(FEL)可以降低EUV光刻的成本,而且更加高效,能量回收型直线加速器(ERL)有望让FEL更经济性地产生数十千瓦EUV功率,驱动下一代光刻机,降低芯片制造成本。

10. 下一波晶圆级处理器浪潮

在台积电北美技术研讨会上,其公布了半导体和芯片封装技术路线图。芯片封装技术促使处理器向更大硅片规模发展,可能催生晶圆级系统。过去芯片制造商靠缩小晶体管和互连尺寸提升处理器逻辑密度的方法已乏力,行业转向先进封装技术,台积电已为Cerebras制造晶圆级AI处理器。

2027年,晶圆级系统将实现类似Si-IF技术,UCLA团队正在实现提升互连密度、添加如电容、电感和氮化镓功率晶体管等功能。AI训练是晶圆级技术的首要应用,但还有其他应用,如伊利诺伊大学香槟分校团队设计的用于数据中心的晶圆级网络交换机,可大幅减少大型数据中心所需高级网络交换机数量。

本文由雷峰网编译自:https://spectrum.ieee.org/top-semiconductor-stories-2024

]]>
芯片 //m.drvow.com/category/chips/0BFA0ZN9OhSIfZTh.html#comments Tue, 31 Dec 2024 18:16:00 +0800
万亿博通背后的CEO:产业「并购家」,资本「代言人」 //m.drvow.com/category/chips/l2zmaGWiiqrad7x6.html 2017年11月2日,白宫正在举行一场新闻发布会,特朗普宣布全球半导体巨头博通将把其总部从新加坡迁至美国宾夕法尼亚州,随之而来的是博通200亿美元的年营收以及用于研发和制造的100亿美元投资承诺。

彼时,特朗普刚上任美国总统还不到一年,陈福阳的这一举措让他成为了特朗普政府的座上宾。

在特朗普的盛赞中,陈福阳走上演讲台,一群白人的围绕下,陈福阳把话筒调到适合自己的高度。他操着一口流利但带有东南亚口音的英文说:“我的母亲从未想象过,有一天她的孩子会站在白宫的办公室里”,言语中流露出的是他的骄傲和野心。

此时的陈福阳意气风发,因为他知道自己握着的不仅是白宫的演讲台,还有博通的未来。其乐融融的搬迁计划背后,是陈福阳企图通过弱化地缘政治影响从而吞下博科和高通的暗流涌动,尽管他在演讲中不断表示迁移总部是为了回馈麻省理工、回馈美国。

七年后,陈福阳带领下的博通再次成为了全球关注的焦点。

博通2024 Q4的财报显示,其AI收入增长220%至122亿美元,并预计2025财年第一财季AI产品收入将同比增长65%,超出外界预期的财报数据让博通的股价应声大涨超过24%,正式进入万亿美元俱乐部,超越台积电,成为行业里仅次于英伟达的存在。

博通“出圈”的背后,是陈福阳对金融杠杆的运筹帷幄。不同于黄仁勋一手建立起自己的企业,也不像苏姿丰一样临危受命,陈福阳的故事是带领博通从一个巅峰走向更高的巅峰。

工程出身,陈福阳走出「财务人生」

1953年,陈福阳出生于马来西亚的华裔聚集地槟城。他的家庭并不富裕,这也让他人生的前十八年与往后对比略显苍白。正如他所说,是麻省理工的全奖录取才让他有机会踏上赴美求学之路。

事实证明麻省理工做了一项回报率很高的投资,自2017年以来,陈福阳和妻子已经向麻省理工捐赠了两亿多美元,创建了6个研究中心以及多个奖学金项目。

陈福阳在麻省理工主修机械工程,在连续获得学士和硕士学位后,又去哈佛大学上了MBA。师妹苏姿丰同样毕业于麻省理工,而她的选择是攻读本专业博士学位,探究技术的边界。不同的选择把故事引向不同的结局,苏姿丰成为“半导体技术女王”,而陈福阳成为“半导体并购之王”。

了解巨头的财务运转模式似乎比钻研技术更吸引陈福阳,从哈佛毕业后,他先后加入了通用汽车、百事可乐两家美国传统行业巨头,主要负责财务相关工作。

1983年,陈福阳回到马来西亚,担任本土企业休姆工业的董事总经理,5年后,他辗转新加坡,出任Pacven投资的联合创始人兼董事总经理。

1992年,陈福阳正式加入家用电脑与电子组件生产商康懋达国际(Commodore International)担任财务副总裁,开始涉足科技行业。1994年,康懋达国际宣布破产,陈福阳转头加入半导体解决方案公司ICS(Integrated Circuit Systems),历任高级副总裁、CFO及COO,最后上任公司CEO,陈福阳花了十年时间。

2005年,ICS作价17亿美元出售给硅谷半导体解决方案销售商IDT(Integrated Device Technology),陈福阳顺其自然地加入了IDT,担任公司的董事会主席。

从财务到CFO,从VC联创到企业高层,陈福阳的“财商”是这些经历的集中展示,他曾在华美半导体协会的年度晚宴上评价自己,“我并不是半导体人,但是我懂得赚钱和经营”。扎实的财务基础以及丰富的管理经验让他成为半导体市场上最炙手可热的职业经理人之一。

私募巨头「撑腰」,陈福阳「一路狂飙」

2005年,两家千亿美金体量的私募巨头KKR和银湖资本(Silver Lake)组成财团,对从惠普分拆出来的安捷伦半导体业务发起收购,并在此基础上于新加披成立新的主体安华高科技(Avago)。私募股权投资主要通过非公开方式向少数投资者募集资金,投资于未上市企业股权,通过资本运作后推动所收购企业进行上市,从而获得资本回报。

安华高成立后,KKR和银湖资本开始为这家企业物色掌舵人,熟悉东南亚、了解半导体、深谙资本运作门道并且拥有企业管理经验,市场上找不出比陈福阳更合适的人,银湖资本向陈福阳抛出橄榄枝,邀请他担任安华高的CEO。

银湖资本合伙人兼主席Kenneth Hao曾评价陈福阳说:“他是一个拥有独特管理能力的人,管一家大型企业就好像那是一个小生意一样。”

背靠全球两家顶级私募基金,陈福阳开始对安华高进行大刀阔斧的改革,这背后是他对自身判断的下注,他认为行业已经进入从水平整合到垂直整合的阶段,而整合的要义在于砍掉边缘亏损业务,并打造由盈利业务构成的整体解决方案。

两年间,陈福阳相继砍掉安华高的储存业务、打印机ASIC业务、CMOS图像传感器业务以及红外线业务,四笔交易让安华高账上多了将近9亿美元的现金,而员工的数量也从6500人锐减到3600人。现金流入以及运营成本的降低让安华高还清了10亿美元的历史债务,企业经营状况良好,KKR和银湖资本开始推动安华高上市。

2009年,安华高成功登陆纳斯达克,在随后的几年,通过逐步出售所持股份,KKR和银湖资本实现了近5倍回报。

陈福阳通过了“考核”,两家机构的成功退出,将让他在后来的半导体资本市场上一路高歌。

2008年,陈福阳第一次出手收购,以3000万美金从英飞凌手中买下5G BAW滤波器业务。滤波器是智能手机射频前端中价值量占比最高的元器件,其性能优劣直接影响信号通信质量。随着5G技术的发展,手机频段数从4个频段上升至70-100个频段,每个频段都需要增加相应的滤波器,5G手机单机的滤波器用量需求超过70颗,需求量的爆发让陈福阳在这笔投资中赚得盆满钵满。

十余年的深耕使安华高在BAW技术及专利布局上非常完善,其市场占有率高达90%,成为BAW领域的垄断企业。

2013年,陈福阳频繁出手。6月28日,安华高宣布以4亿美元现金收购上市失败的磷化铟 (InP) 光学芯片及组件技术供应商CyOptics。同年12月,安华高宣布将以66亿美元收购黄仁勋的老东家,存储芯片制造商LSI,以帮助加强其在企业存储市场的地位,并扩大产品供应。

陈福阳用10亿美元撬动了这笔66亿美元的收购案,其余的资金来自银湖资本出资的10亿美元以及46亿美元的银团贷款,而这项交易的落地将让安华高成为年营收50亿美元的半导体公司,并即刻提升公司的自由现金流和每股盈利。安华高表示,预计交易完成后第一个完整财年将帮助公司节约2亿美元成本。

2016年,陈福阳的并购之路走向高潮。安华高吃下博通,成为博通。

彼时的博通做为全球最大的WiFi芯片制造商,其年营收为84亿美元,几乎是同期安华高年营收的两倍之多。这笔外界看来“蛇吞象”式的交易,实则当时的安华高盈利能力是强于博通的,而如何运用资本杠杆,如何砍掉博通的亏损业务进行“回血”,陈福阳早已在心中打好了算盘,他不会做赔钱的买卖。

安华高给博通开出了370亿美元的条件,创下当时芯片领域最大的并购案。

根据交易条款,博通的股东可以选择以每股54.5美元的价格套现,也可以选择以每股0.44美元的价格购买合并后的公司股票,或采用现金加股票的组合,安华高的方案由170亿美元现金和200亿美元的股票构成,博通的股东将拥有合并后公司约32%的股份。

博通董事会愿意接受安华高的条款主要原因有:面对英特尔等巨头竞争的经营压力、双方业务高度适配、合适的价格以及保留博通的品牌。安华高收购博通后,整个集团将采用博通做为对外主体,有媒体评价陈福阳娶了媳妇,跟着媳妇姓。

和以往一样,陈福阳太擅长打造亮眼的财报了,收购博通后,迅速砍掉不直接生产价值的行政以及公关部门,由于毛利率太低,未达到陈福阳30%利润率的标准,被收购前博通大力推崇的Wi-Fi物联网产品线同样被打包出售,而这些动作都是在员工还没来得及作出反应时就已经完成。

不过,陈福阳的手段远不止于刀刃向内,打造财报,降本是一条路,提价是另一条路。陈福阳上台后,面对华为这样的大客户,同样展现出极其强硬的态度。有业内人士告诉雷峰网称,作为博通的大客户,华为曾要求博通对一款其采购量很大的关键元器件降价,陈福阳的回答是要降价就只降他们问的那一个型号,其他型号全部涨价。

年初收购博通,年末收购博科。2016年年底,博通宣布公司将以55亿美元收购网络设备公司博科,以此补足其存储网络服务业务。根据交易条款,博通对博科的收购价格为每股12.75美元,较后者的上个交易日收盘价溢价47%。消息发布后,博通股价盘前大涨8.3%,至12.16美元。

2017年前后,手机芯片巨头高通腹背受敌,在全球的反垄断调查中,陆续被判为存在不公平竞争行为,2015年向中国支付了9.75亿美元罚款、2016年向韩国支付8.54亿美元以及2018年向欧盟支付12亿美元与苹果达成和解协议。

彼时的高通就如同笼中困兽,这样的优质标的,陈福阳不会错过。2018年,经过多次博弈后,博通向高通开出1210亿美元的“最佳也是最后的价码”。出价后,几乎同时传出的是凯基证券发布报告称,苹果可能放弃高通,改由英特尔负责供应下一代iPhone的调制解调器芯片。市场上悲观情绪蔓延,高通股价下跌6.6%,收报61.73美元。

这次千亿美元级体量的收购,背后是投资界的顶级天团为陈福阳站台,博通表示美银美林、花旗银行、德意志银行、摩根大通以及摩根士丹利会为这笔交易提供必要的债务融资,银湖资本做为前几次收购背后的关键资本力量,为本次交易提供了50亿美元的可转债融资承诺。

而未公开“声援”博通的KKR,实则在决策层面拥有不小的影响力,外界称陈福阳为KKR在半导体行业内的发言人。

万事俱备,陈福阳对高通的收购已是箭在弦上。

但不同于此前收购博通的经历,收购高通面临董事会强大的阻力。高通CEO Cristiano Amon在采访时表示:“高通是一家注重创新的企业,博通对高通的收购,不利于高通的创新”。而董事会同样用脚投票,当时,高通排名前十的股东均为机构股东,包括先锋领航和贝莱德等大型金融机构,持股比例从1.08%-6.84%不等,如此分散的持股架构,董事会仍对博通收购高通一案投出一致的反对票。

明面上的企业收购,背后是双方资本势力的博弈。

而最终收购高通案宣告失败的决定性因素,是特朗普政府的“一票否决”。从法律层面看,博通收购高通属于横向合并,而横向合并是美国政府反垄断法中最为忌讳的因素。另一方面是地缘政治因素,陈福阳惯用的出售被收购企业部分业务的手段也让美国政府在5G竞争的全球背景下,对这笔交易更为谨慎,间接接触中国已成为美国否决商业行为的惯用理由。

收购高通的失败,并没有让陈福阳收手。2018年7月,博通以每股44.5美元的价格,共计189亿美元的总价收购IT管理软件和解决方案供应商CA科技,与之前一样,陈福阳并不想掏空博通的现金储备,本次收购中的180亿美元将以债务融资的形式筹集,剩余的9亿美元由现金支付。

在不到四个月的时间里,博通便以9.5亿美元的的价格将CA科技旗下的Veracode卖给了私募股权公司Thoma Bravo。

2023年,陈福阳的又一次出手,创下科技史上排行前三的收购案,以610亿美元收购了云计算服务商VMware。同样是超大型的收购案,但相比收购博通,这笔交易几乎没有阻力,背后原因是,VMware最大的股东几乎都是陈福阳的“自己人”

2013年,为了摆脱资本市场对于短期业绩的追求,戴尔创始人Michael Dell联合银湖资本出资约250亿美元完成对戴尔的私有化。2018年,挥别资本市场5年的戴尔宣布作价217亿美元收购VMware,以实现“借壳上市”。2021年,完成上市目标后,戴尔与VMware宣布拆分,VMware拿回运营的自主权。

而链接陈福阳和Michael Dell,促成博通对VMware收购的背后,离不开银湖资本的周旋。彼时,Michael Dell和银湖资本分别拥有VMware 40.2%和10%的流通股,在交易尚未提上董事会之时,他们就签署了支持协议,旗帜鲜明地表示只要VMware董事会继续推动与博通的交易,这两位主要股东就都会投出赞成票。支撑这笔交易的,还有博通从银行财团获得的320亿美元债务融资承诺。

《华尔街日报》曾将陈福阳描述为“芯片行业最引人注目的交易撮合者”。然而,资本大佬们觥筹交错间就轻易达成的交易,换来的是秩序瘫痪和人心涣散。

事实上,从2022年5月宣布这笔交易开始,博通就告诉华尔街分析师,将对VMware的人员和业务进行大幅削减。在当时其提交给美国证券交易委员会的文件中,陈福阳就表示,通过减少人力、财务、法律、无法盈利的技术与产品以及管理职能等岗位,预计将VMware的盈利能力提高38亿美元。

收购VMware不满一个月,博通便宣布全面终止永久授权的销售模式,改为订阅制。2024年年初,博通宣布以38亿美元的价格出售VMwave用户端运算业务,而交易方正是KKR。

VMware的一位员工表示:“VMware的管理层不知道各个业务部门的状况,几个月来,我们都不知道会发生什么,我们被视为是一次性的,博通在交易完成前发出了对VMware员工的录用通知书,但事实上,还有几千个VMware的员工并没有收到通知书。”

VMware的营销策略总监Kris Anderson称:“VMware营销团队是推动VMware达到当前价值的巨人,但随着博通开始与VMware合作的新篇章,我们的角色不再被需要了。这里有那么多值得回忆的东西,与我共事的伙伴、参与的项目以及有幸取得的成功。”

Kris只是裁员浪潮里的一个缩影,事实上,领英每小时都有来自VMware员工被裁掉的帖子。同样遭殃的,还有VMware的客户。

客户Howdyshell表示:“我认为这次收购对合作伙伴没有任何好处,作为合作伙伴,我们不知道该给谁打电话。没有人联系过我们。我们被告知,每项提议都是无效的,我们必须获得新的定价。”

VMware的一位头部客户的CEO表示:“我们都担心VMware的价格上升,但服务质量下降,因为之前并没有看到博通在软件收购方面做得很好。他们收购了赛门铁克和Computer Associates,这些公司的市场声誉因此受损。”

市场似乎苦陈福阳久矣。

AI时代,陈福阳「并购」,大厂们「买单」

陈福阳布下的局,或许在AI时代迎来收网。

陈福阳指出,大型科技公司正在算力芯片上“大额下注”,这些博通的现有或潜在客户正在匆忙制定3-5年的中期AI基础设施投资计划并全力执行,直到耗尽资金或是股东反对才会停下来。与以往一样,陈福阳还是那么容易地用三言两语就点燃资本市场的情绪。

进入万亿美元市值的背后,是他激进地预测未来50%的AI算力都会是ASIC提供,博通2027年AI收入将实现600-900亿美金SAM(serviceable adressable market,服务可触及市场,即产品实际覆盖的客户)。陈福阳提到,这个预测数字只涵盖了博通现有的三大客户,即谷歌、Meta和字节跳动,他们每家在2027年的AI芯片采购需求(包括ASIC和网络)预计将达到200-300亿美元。

尚未被计入的另外两大客户,外界推测是苹果和OpenAI,合作路线也已大概确定。

大厂下注的背后,是博通完善的AI XPU和以太网产品组合。Piper Sandler分析师Harsh Kumar称:“我们继续认为博通是最好的AI公司(不包括英伟达),因为它在定制ASIC业务中占据强势地位,并且拥有强大的软件产品组合。”

XPU(eXtensible Processing Unit,可扩展处理器单元),是一种新型的处理器架构,可以根据不同的应用场景重新定义融合计算架构,从而实现在特定场景下更高性能的计算。

陈福阳表示,博通正处于推动XPU进程的最前沿,未来每一次AI模型的迭代,都需要成倍增长的XPU才能支撑,科技巨头现在构建10万GPU或XPU芯片集群,几年后,他们将需要构建百万级集群,而博通将参与百万级XPU构建的全部环节,博通拥有最出色的技术组合,用于实现XPU以及连接XPU的技术。

12月初,博通宣布推出的3.5D eXtreme Dimension系统级封装 (XDSiP) 平台技术,在一个封装设备中集成了超过6000平方毫米的硅片,和多达12个高带宽内存 (HBM) 堆栈,以实现大规模AI的高效、低功耗计算,并基于此推出了行业内首个3.5D XPU。

而事实上,从硅片设计、配备IP、缓存、芯片间互联接口以及网络,陈福阳已经通过收购打造了一个完善的解决方案。

AI时代,又有哪个“幸运儿”会被陈福阳收入麾下,陈福阳又将怎么乘着这股东风交出更漂亮的答卷?答案并不重要,正如博通的员工所说:“在陈福阳手下,做什么不重要,重要的是多买点博通的股票。”

雷峰网参考材料:

https://www.linkedin.com/in/hock-tan/

https://yangtan.mit.edu/hock-e-tan-and-k-lisa-yang/

https://www.todayonline.com/singapore/behind-broadcoms-move-singapore-us-ceo-who-grew-skinny-kid-penang

https://news.qq.com/rain/a/20220527A0BAG400

https://news.caijingmobile.com/article/detail/340930?source_id=40

https://www.crn.com/news/virtualization/layoffs-engulf-vmware-after-broadcom-close-chaos-for-partners-in-sales-trenches?itc=refresh

https://www.ithome.com.tw/news/161589

https://www.sohu.com/a/740055576_374240

https://www.security.com/feature-stories/getting-know-hock-tan-broadcoms-president-and-ceo

https://www.broadcom.com/author/hock-tan

https://www.gsaglobal.org/broadcom-president-ceo-hock-tan-to-receive-global-semiconductor-alliances-highest-honor-the-dr-morris-chang-exemplary-leadership-award/

https://www.crn.com/news/virtualization/2024/broadcom-ceo-hock-tan-old-vmware-model-created-channel-chaos-and-conflict-in-the-marketplace?itc=refresh

https://www.bilibili.com/video/BV11Sste6Eca/

https://www.youtube.com/watch?v=KRcYBaUIAcg

https://fedscoop.com/it-modernization-strategy/hock-tan/

https://www.linkedin.com/posts/vmware_vmware-is-now-part-of-broadcom-vmware-by-activity-7133097742184153088-9XWY/

//m.drvow.com/category/chips/aYpohk3s2HOUnFcJ.html

]]>
芯片 //m.drvow.com/category/chips/l2zmaGWiiqrad7x6.html#comments Mon, 30 Dec 2024 18:13:00 +0800
高通骁龙「上车」近十年,如何从被质疑到被追捧? //m.drvow.com/category/chips/MmLD2C9udHZhwbsx.html

作者|包永刚

编辑|王亚峰

六年前的10月8日,理想汽车的首场新车发布吸引了全行业的关注。

80后创始人李想发布了一款突破传统的增程式电动SUV理想One,“冰箱、彩电、大沙发”的全新座舱体验让消费者眼前一亮,高通骁龙座舱芯片也首次成为了汽车发布会上的技术亮点。

已经是旗舰手机标配的高通骁龙,此时在汽车市场刚刚开始崭露头角。

理想One之后,骁龙座舱芯片也成为了蔚来、小鹏、极氪等车企新车发布会上的技术亮点,迅速引起了消费者的关注,骁龙820A的关注度越来越高,质疑的声音也同时存在。

到了2021年,新一代座舱芯片骁龙8155成了汽车行业的热词,也几乎成了汽车高端座舱体验的代名词。

智能手机芯片的王者高通,在汽车市场迎来了高光时刻。不被人熟知的是,这已经是高通的第三代座舱芯片。

从第一代时的试水,到第二代关注度提高,再到第三代的口碑销量大爆发,高通在汽车市场的每一步都充满了挑战与突破,跨界到汽车市场并取得成功,强如高通也没有一夜成名的魔法。

如今高通的第四代座舱芯片继续引领汽车座舱芯片市场,第五代骁龙座舱至尊版也将在2025年出样。

“我们依旧会用高通最新的芯片,但因为有更高算力的英伟达芯片,高通芯片可能不是最突出的卖点。”新势力车企的员工明轩告诉雷峰网。座舱和舱驾一体芯片市场发生正在发生的变化,欢迎添加作者微信BENSONEIT互通有无。

高通在汽车座舱芯片市场攻城略地之后,将面临哪些新挑战?

手机巨头「一夜间」跨界到汽车

“我差不多十年前离开高通,那时候高通还没有进入汽车市场,2013年左右和一个前同事交流,突然发现前公司已经开始布局汽车市场。”高通前员工明杰感叹,“前东家的布局一直比较长远。”

高通汽车芯片团队的一位员工也觉得公司好像是“一夜之间”就开始谈论进军汽车市场。这是个夸张的说法,但很明显手机巨头敏锐地嗅到了汽车市场的机会。

2014年前后,日本的先锋音响风靡汽车圈,日本和欧洲的大量车主,已经不满足原装音响的效果,开始改装高保真先锋音响。

汽车改装逐渐盛行,车里不止可以听收音机,播放CD,改装加一块屏幕还能播放DVD。

汽车主机厂看到消费者的需求以及后装市场的繁荣,也想给消费者提供更好的座舱体验,可当时一级供应商(Tier-1)提供不了合适的解决方案,汽车后装市场开始驱动前装市场发展。

“汽车座舱多媒体的需求和消费电子有很多相似性,作为消费电子的巨头,高通看到了进入汽车市场的机会和潜力。”明杰这样认为。

那时的高通已经为全球头部的车企提供通信芯片,基于良好的合作关系,高通在2014年推出的首款面向汽车座舱的芯片骁龙602A,率先搭载到了头部车企的车上。

6系列属于高通的中高端产品,首款座舱芯片,高通并未把最先进的技术用在汽车市场。

两年后的2016年,高通推出第二代座舱芯片骁龙820A,就用上了高通当年最新的技术。

然而,中国车企争相使用骁龙820A,却成了高通跨界汽车市场大考的开始。

中国汽车新势力抢着吃「螃蟹」

“骁龙820A一个显著的创新是同时控制仪表显示和中控屏。”高通技术公司产品市场资深经理赵翊捷说,“这样客户就可以省去一颗芯片。”

明杰并不认为高通骁龙820A推动的一芯多屏能带来成本节省,“仪表显示使用的是QNX系统,中控使用的是安卓系统,使用QNX系统开发需要单独获得授权且开发成本不低,用一颗很便宜的芯片就可以支持仪表显示并且有成熟的整套方案,没必要合并到骁龙820A上做再次开发。”

十多年的汽车老兵李伟也看到了一芯多屏落地的挑战,“传统车企仪表和娱乐系统开发是两个部门,两个功能要合并使用一颗芯片,涉及到组织架构和团队配合,还有团队利益的问题。”

创新的路上总有挑战,中国造车新势力要给消费者供跨时代的座舱体验,大算力的骁龙820A看起来是最佳选择。

不过质疑的声音也同样存在,“在软件定义汽车的大趋势下,计算作为汽车的基础,必须具备可扩展性,骁龙820A可扩展性不足是一个我认为的明显问题。”一级供应商亿超并不推荐车企选择骁龙820A,他不否认高通的产品力,只是汽车作为生命周期比较长的产品,他推荐车企等待高通的下一代座舱芯片。

“新势力车企义无反顾要选择骁龙820A。”亿超表示。

更多对于高通从消费电子领域跨界到汽车领域的质疑,添加作者微信BENSONEIT交流。

2018年理想one发布会

为了吃上“螃蟹”,理想、德赛西威和极氪确实吃了些苦头。

“我们和理想讨论的解决方案,是物理上先将仪表控制芯片和骁龙820A设计到一块电路板上,仪表和中控依旧是用不同的芯片控制,等稳定性得到验证之后再考虑将两个功能使用同一颗芯片。”德赛西威万辉说,“采用渐进的技术路线,风险更加可控。”

德赛西威和理想成了一起吃螃蟹的先锋派,为了实现理想One上全新的座舱体验,克服了非常多难题。

“我们和理想座舱的研发团队一起,几十个人常驻在惠州,基于骁龙820A开发全新的座舱功能。”万辉说,“因为是全新的功能,复杂程度指数级增加,出现了几千个Bug让人感到崩溃,传统座舱的功能可能总共也不会出现上千个Bug。”

一年多的时间里,德赛西威和理想的研发团队攻克了一个又一个问题。

最绝望的时候是遇到在当时看着无解的Bug,第一次开发骁龙820A,对这款产品的软硬件都不够了解,缺乏大量隐性的工程化认知,开发起来困难重重。”万辉说,“第一个吃螃蟹真的很难,当时我们给高通提了上千条提案。”

理想One成功发布时是一个历史性时刻,高通把骁龙820A的首发给了中国车企,理想和德赛西威也成了第一个吃螃蟹的人。

同样是使用骁龙820A,极氪001是另一个故事。

跨界汽车市场,成功经验无法简单复制

2017年左右极氪001在吉利集团内部立项时,吉利就非常坚定要选择当时性能最强的骁龙820A。

与理想One渐进式的路线不同,极氪没有额外增加一颗芯片控制仪表,直接用骁龙820A的一芯多屏的功能同时控制仪表和中控屏。

极氪001在2021年上市之后,随着座舱功能的不断升级,车主频繁遇到了卡顿、黑屏和死机的问题。

负责极氪座舱安全的高级别员工宇航说,“主要的原因是座舱的功能越来越丰富,CPU的性能不足导致了黑卡死的问题。一般情况CPU的利用率会预留30%的性能空间,但随着车机功能的不断增加,极氪001上骁龙820A的性能被压榨到极致。”

这进一步暴露了汽车和手机对处理器需求的不同。

“座舱除了导航和车内娱乐功能,与汽车运行相关的功能,包括360影像、行车记录仪都需要长期运行,性能需求远比手机更高。”宇航同时表示,“手机上高负载的时间一般都比较短,但汽车上各种功能会持续运行,汽车芯片性能要求高的同时对稳定性的要求也更高。”

“还有的功能是汽车独有,比如为了保证车主的体验,汽车座舱不应该切断电源,这样车主上车后马上就能启动车机系统,而不是等待几十秒车机系统才能启动,这需要芯片以很低的功耗保持运行,这个功能叫做STR。”宇航进一步补充。

随着与Tier-1、汽车主机厂等合作的深入,高通汽车团队积累了越来越多汽车工程的经验,充分意识到了车内的电子电气架构和手机的不同,专为汽车市场设计全新的芯片。

“其实从骁龙820A开始我们就在为汽车市场更改设计,但还复用了大部分手机芯片的设计和技术模块。”赵翊捷说,“到了第三代座舱芯片,是我们专门为汽车市场完全重新设计的芯片,只为更好满足汽车市场的需求。”

比如一部手机最多有2个屏幕,但汽车一启动就至少有两三个屏幕。在配置上,手机主要是内存和运存大小的变化,汽车的定制需求更多。

“针对不适用于手机的汽车特色功能,比如车内多声道高保真音响系统,我们的座舱芯片也能进行很好的支持。”赵翊捷解释,“我们内部团队进行了整合,资源进行了调配,专为汽车市场设计出第三代座舱芯片,这也是为什么我们的第二代座舱芯片和第三代座舱芯片的推出时间相隔三年。

全新设计的座舱芯片命名也和手机做了区分,从骁龙820A演进成了下一代的骁龙8155。

赵翊捷特别指出,“过去两代座舱芯片的经验还告诉我们,不能仅推出一颗芯片,因为车企开发一个平台需要投入很多资源,于是我们的第三代座舱芯片有三款芯片,包括骁龙8195、骁龙8155、骁龙6155。”

骁龙8155在国内的知名度最高,除了因为极氪免费为001车主从骁龙820A升级为骁龙8155的事件引发广泛关注,也因为其它国内的车企也主要选择了骁龙8155。而国外车企不少都选择了骁龙8195。

“免费为车主从骁龙820A升级为骁龙8155之后,CPU的负载大幅降低,体验迅速变好,口碑也发生了逆转。”宇航说,极氪001选择8155毫不犹豫。

其实,骁龙8155推出的时间并不利于高通的推广。

“传统车企采购芯片平台的间隔是三年,我们给车企推骁龙8155和骁龙820A间隔两年。”赵翊捷印象深刻,“推广骁龙8155时,很多车企都告诉我们你过半年再来找我们,不过总能找到时间点能匹配上的车企。”

2019年发布的骁龙8155,在2021年迎来了上车的井喷期,中国的新势车企和传统车企全都争相发布搭载骁龙8155的汽车,甚至有车企的各个层级的汽车都使用骁龙8155。

“骁龙8155这一代平台,最让我印象深刻的是和奇瑞的合作。”万辉说,“因为奇瑞不止把骁龙8155用在一款车上,而是基本覆盖了奇瑞在国内销售和出口的各种车型上。这其中涉及大量兼容和适配性问题,给我们提出了更高要求,这个过程也让我们有更强大的能力。”

座舱王者被挑战

骁龙8155备受追捧,但此时的高通已经不再是座舱芯片市场唯一的选择。

“我们一款售价不到20万的车型考虑过使用国产座舱芯片,在一款算力和高通8155相当的国产芯片之间摇摆。”明轩告诉雷峰网,“经过权衡之后,考虑了包括芯片的供货周期,后期的保障、长期的产品路线图以及生态,最后还是选择了高通8155。”

骁龙8155的优势已经建立,高通在全球高端智能座舱芯片市场坐上了头把交椅,这是高通与中国车企的相互成就。

“如果说骁龙820A解决了座舱从无到有的功能,骁龙8155是从可用到好用。”万辉发现,“如果把手机上的应用都搬到座舱里,就发现性能又不够用,我们需要更强大的座舱芯片。”

2021年,高通第四代座舱芯片发布,AI性能大幅提升,骁龙8295又迅速成为了2024年车企发布会上被频繁提及的芯片,骁龙座舱平台的品牌影响力持续向上。

“我们明年将上市的车型将会同时搭载英伟达的Thor芯片和高通的芯片。”明轩说,“前两年选择高通是最好的选择,随着大算力的英伟达Thor上市我们增加了选择,芯片算力又是一切功能的基石,我们会同时选用两家的芯片,而且可能更强调英伟达的Thor。”

“在舱驾融合的发展趋势下,如果其它车企都使用英伟达的Thor,并且大力宣传,在激烈竞争的国产汽车市场,我们不能落后。”明轩同时说,“当然具体选择哪款芯片,也和车型本身的定位和上市时间相关,双方的路线图需要匹配。”

除了英伟达,国内多家汽车芯片创业公司也瞄准了高通的汽车座舱芯片市场,随着舱驾一体大算力芯片的发展,汽车芯片的市场可能发生新的变化。

高通也在积极推出新产品保持市场竞争力,2023年推出了Snapdragon Ride Flex,定位是汽车行业首款同时支持数字座舱和先进驾驶辅助系统的可扩展系列SoC。2024年推出的骁龙至尊版汽车平台也都支持舱驾融合。

从骁龙820A到骁龙8295,从汽车芯片到Tier-1再到汽车主机厂的从业者,只有一个共同的体会——变化太快了。

汽车行业从一款汽车5年1换代,到1年大变样,参与其中的从业者们累的同时也感受到了自豪感,特别是中国汽车行业的从业者。

也正是因为时代的变化,高通作为消费电子芯片巨头,能够充分发挥快速迭代产品的能力,有经过验证的手机和PC的处理器技术模块,加上长期耐心的投入,以及与大量合作伙伴紧密的合作,才取得了跨界的成功。

就算是高通跨界,成功也没有魔法,对于想要在汽车芯片市场分一杯羹的初创公司,以及想要抓住新时代机会的传统芯片大厂,又需要一个怎样的机会?

舱驾一体的大算力芯片时代,是否又会改变市场的格局?座舱芯片进一步的讨论欢迎添加文章作者微信BENSONEIT。

注,文中明杰、万辉、李伟、宇航、明轩、亿超均为化名

]]>
芯片 //m.drvow.com/category/chips/MmLD2C9udHZhwbsx.html#comments Fri, 27 Dec 2024 10:22:00 +0800
英伟达B300:AI推理的「加速器」,供应链的「下马威」 //m.drvow.com/category/chips/pNyaAeadKIEVTzYR.html 近日,黄仁勋让海外科技圈提早过上了圣诞节。

由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的信息,但这并没有让英伟达的脚步放缓。

在GB200和B200发布6个月后,英伟达就宣布将推出全新的GPU GB300和B300。外界看来似乎是一个循序渐进的过程,但事实上,这是非常高效的迭代。全新GPU为大模型的推理和训练性能带来巨大的提升,对大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了一个调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,相比之下,GB200和B200的热设计功耗分别为1.2KW和1KW。

此外,B300的内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但引脚速度将保持不变,所以每个GPU的内存带宽仍然是8TB/s。不过,三星并没有收到黄仁勋带来的礼物,因为至少在未来的9个月内,他们都没有机会拿到GB200和GB300的订单。

GPU卷内存的背后,是大模型的下一场战事「推理」

英伟达改进GPU内存的背后,是为满足OpenAI O3对推理性能的更高要求。

OpenAI O3采用KVCache技术对模型的推理能力进行优化,即通过缓存注意力机制中的键(Key)和值(Value)来减少冗余计算,从而提高模型推理的速度。关键就是缓存之前的旧数据,仅对新输入的Token进行计算,所以对缓存的性能提出了更高的要求。

下图是在不同批处理大小下,使用H100和H200两种GPU处理长序列时,Meta开源大模型Llama3.1405B在FP8(8位浮点数表示法)精度下的处理速度。输入设置为1000个Token,输出19000个Token,由此模拟OpenAI o1和o3模型中的思维链。

H100升级到H200的两个改进是:内存更高,速度更快。

  • 由于更多的内存带宽(H200 4.8TB/s vs H100 3.35TB/s),在所有可比较的批处理中,交互效率通常提高43%。

  • H200运行比H100更高的批处理,但成本降低了3倍。

内存容量提升,在多个维度都会产生影响。

  • 由于请求和响应之间的等待时间很长,推理模型可能会带来糟糕的用户体验。如果能够缩短推理时间,这将增加用户的付费意愿。

  • 3倍的成本差异是巨大的。在中代升级中,硬件产品能够实现3倍的变化,这在某种程度上,比摩尔定律、黄氏定律或其他所有硬件改进速度都要快得多。

  • 在大模型竞赛中,最具能力和差异化的模型能够收取显著的溢价,头部模型的毛利率超过70%,而落后模型毛利率低于20%。

当然,英伟达并不是唯一一家可以提高内存容量的公司。ASIC同样可以做到,且事实上AMD在这方面可能处于更有利的地位,MI300X的192GB、MI325X的256GB以及MI350X的288GB,这些产品的内存容量比英伟达要高。

GB200 NVL72和GB300 NVL72在性能和成本方面都有很大的提升,在推理中使用NVL72的关键是它使得72个GPU能够处理同一个问题,并共享内存,且延迟极低。世界上没有其他加速器拥有全互联的交换连接以及能够通过交换机进行全约简操作。GB200 NVL72和GB300 NVL72为实现许多关键功能带来了革命性的变化:

  • 更高的交互性使得思维链的延迟更低。

  • 72个GPU分散KVCache,以实现更长的思维链(增强智能)。

  • 与典型的8个GPU服务器相比,更好的批量大小扩展,使得成本更低。

  • 在处理同一问题时,可以搜索更多的样本,以提高准确性,最终提升模型性能。

因此,NVL72的推理性价比比之前提高了10倍以上,特别是在长推理链上。KVCache占用内存对经济效益是致命的,但NVL72能够将推理长度扩展到10万以上token并在高批量中进行。

英伟达的「转身」,供应链的「震动」

英伟达在GB300的设计上有很大的改动,对于GB200, 英伟达提供整个Bianca板(包括Blackwell GPU,Grace CPU, 512GB的LPDDR5X、VRM全部集成在一块印刷电路板上)以及交换托盘和铜背板。

对于GB300,英伟达不再提供整个Bianca板,只提供“SXM Puck”模块上的B300以及BGA封装上的Grace CPU。HMC(混合内存立方体)将由美国初创公司Axiado提供,替换掉了之前的供应商Aspeed。此外,交换托盘和铜背板将仍由英伟达提供。

客户现在需要自主采购计算板上其余的组件,外部存储器将采用LPCAMM模块,而不是焊接的LPDDR5X,美光或将成为这些模块的主要供应商。

向SXM Puck的转变,为更多的OEM和ODM提供了参与供应计算托盘的机会,以前只有纬创资通和工业富联可以生产Bianca板。在这次供应商调整中,纬创资通成为最大输家,因为他们失去了Bianca板的份额。相对而言,工业富联虽然失去了Bianca板的份额,但他们是SXM Puck模块的独家制造商,这部分带来的收益完全可以抵消掉Bianca板带来的损失。英伟达虽然想找更多其他的SXM Puck模块供应商,但目前还没有实际下单。

另一个重大变化是VRM(电压调节模块),虽然SXM Puck上有一些VRM,但大部分的VRM将由超大规模厂商或者OEM直接从VRM供应商处采购。

此外,英伟达还在GB300平台上提供了800G ConnectX-8 NIC(网络接口卡),这使得在InfiniBand和以太网上的横向扩展带宽翻倍。由于上市时间的影响,英伟达之前取消了GB200的ConnectX-8,并且放弃了在Bianca板上启用PCIe Gen 6(PCI Express接口的最新一代标准)。

市场信息表明,GB200和GB300的延迟发布,给硅谷的大厂们带来了很大的影响。而这背后传递出的信号是从第三季度,大量订单转向了GB300。截至上周,所有大厂都决定使用GB300。一部分原因是更高的性能和更大的内存,另一方面,英伟达已经控制了大厂模型训练的命运。

受制于产品上市时间、机架、冷却和电源功率密度的重大变化,大厂在服务器层级无法对GB200进行太多更改。这导致Meta放弃了希望从博通和英伟达两个渠道采购网络接口卡(NICs)的希望,转而完全依赖英伟达。谷歌也放弃了自家的网络接口卡,选择与英伟达合作。

硅谷大厂们习惯了成本优化,从CPU到网络,再到螺丝和金属板。

亚马逊是一个例外,定制化让他们“被迫”选择了次优配置。由于亚马逊使用了PCIe交换机和效率较低的200G弹性织物适配器NIC,无法像Meta、谷歌、微软、甲骨文、X和Coreweave那样部署NVL72,因此不得不使用NVL36,这也导致每个GPU的成本更高,因为背板和交换机内容更多。

GB300的出现为亚马逊带来转机,大厂能够定制主板、冷却系统等功能。这使得亚马逊能够构建自己的定制主板,随着更多组件采用水冷,以及K2V6 400G NIC在2025年第三季度支持HVM(硬件虚拟化管理),亚马逊同样可以使用NVL72架构,并大幅改善其总体拥有成本(TCO)。

本文由雷峰网编译自:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade

]]>
芯片 //m.drvow.com/category/chips/pNyaAeadKIEVTzYR.html#comments Thu, 26 Dec 2024 18:41:00 +0800
全大核天玑8400发布,REDMI Turbo 4将首发 //m.drvow.com/category/chips/CL1H5mUJC1GwPBd3.html

雷峰网消息,MediaTek发布了全新的天玑8400,延续上一代旗舰天玑9300和最新一代旗舰天玑9400全大核的设计思路,天玑8400同样采用全大核CPU架构设计,采用了台积电第二代4nm(N4P)工艺。

MediaTek无线通信事业部总经理李彦辑博士表示:“天玑 8400拥有与天玑旗舰芯片一脉相承的全大核架构设计,具有令人印象深刻的性能和能效表现,重新诠释了高阶智能手机的突破性体验。”

天玑8400的全大核CPU包含 8 个主频至高可达 3.25GHz的Arm Cortex-A725 大核,包括1个3.25GHz的A725(1MB L2),3个3.0GHz的A725(512KB L2)+4个2.1GHz的A725 (256KB L2),3个核心簇的缓存配置和天玑9300一致。

采用全大核设计之后,天玑8400的CPU多核性能相较上一代芯片提升41%。借助精准的能效调控技术,天玑8400 CPU的多核功耗相较上一代降低44%。

全大核设计的天玑8400的GeekBench 6多核6722分,相比上一代天玑8300提升32%,安兔兔180.6万分。

值得一提的是,L2缓存容量翻倍,L3缓存容量提升 50%,缓存的大幅提升对于功耗的降低有显著作用。

实际使用中,得益于全大核设计,聊天应用功耗降低14%,游戏应用功耗降低24%,视频录制和音乐功耗降低12%。

另外,天玑8400支持8533Mbps的LPDDR5x内存+UFS 4.0闪存。

GPU方面,天玑8400搭载 Arm Mali-G720 GPU,带宽优化提升40%,支持硬件级光线追踪,峰值性能相较上一代芯片提升24%,功耗降低42%。

同时,天玑 8400 支持先进的插帧技术和MediaTek 星速引擎,可为玩家带来更流畅丝滑的游戏画面,以及稳帧低功耗的畅玩体验。

NPU方面,天玑8400集成MediaTek旗舰级AI处理器NPU 880,新一代的NPU整数/浮点运算速度提高 20%,能效提升可达18%。相比天玑8300的NPU性能提升54%,苏黎世跑分达3877分。

NPU 880结合全大核8核CPU设计,支持全球主流的大语言模型(LLM)、小语言模型(SLM)和多模态大模型(LMMs),可以实现AI翻译、改写、上下文智能回复、通话摘要、多媒体内容生成等终端侧生成式AI功能。

基于强大的AI性能,天玑8400也搭载了在天玑9400旗舰芯片中率先亮相的 MediaTek天玑AI智能体化引擎(Dimensity Agentic AI Engine),可以将传统的 AI 应用程序重构为更先进的智能体化 AI 应用。

李彦辑宣布天玑AI智能体化引擎已经与高德地图、KFC、酷乐潮玩、猫眼娱乐、全民K歌、携程旅行等合作,加速移动设备向AI智能体化迈进。

影像方面,天玑8400也有全面的升级,基于MediaTek Imagiq 1080 ISP影像处理器,最高支持2亿像素CMOS和4K 60fps HDR视频录制,内置QPD变焦硬件引擎,可捕获更多光线,让对焦更快速、更精准,并支持更高分辨率的图像拍摄。

另外,得益于全焦段HDR技术,视频创作者可轻松利用不同焦段拍摄出景别各异的精彩作品。

通信方面,天玑8400集成了5G-A 调制解调器,支持三载波聚合(3CC-CA),网络下行传输速率可达 5.17Gbps。

对于游戏玩家来说,天玑8400的网络质量监测系统,可实时监控游戏网络的连接质量,智选5G或Wi-Fi网络,实现更高网速更低功耗,提供更好的游戏体验。

不过天玑8400并未支持最近的Wi-Fi7,支持的是同样高速的Wi-Fi 6E。

搭载天玑8400的终端也会很快上市。

去年定制了天玑8300 Ultra之后,今年REDMI也定制了天玑8400 Ultra,REDMI Turbo 4将在2025年元旦之后首发天玑8400 Ultra。根据REDMI给出的能效曲线,REDMI Turbo 4在4W以内(对应日常负载),天玑8400的能效比骁龙8 Gen 3更高,几乎全功耗段表现都优于天玑8300。

]]>
芯片 //m.drvow.com/category/chips/CL1H5mUJC1GwPBd3.html#comments Tue, 24 Dec 2024 10:16:00 +0800
AI智能体,正在让手机「更具AI味」 //m.drvow.com/category/chips/trkGDeiW0huUrcDV.html

作者|包永刚

编辑|王  川

最近一两个月发布的新一代的旗舰手机,散发着全新的AI味。

10月29日,首款搭载全新骁龙8至尊版的小米15/15 Pro发布,语音助理小爱同学变身为AI超级小爱。

紧随其后发布的搭载骁龙8至尊版的旗舰手机,荣耀Magic 7系列的YOYO助理摇身一变成了YOYO智能体。一加13的小布助手进化成为超级小布助手。

就像鼠标的诞生改变了计算机界面的交互方式,智能手机的诞生带来了全新的触控交互界面,如今生成式AI也正在带来一场新的终端交互变革。

“我想给大家展示这一愿景:生成式AI将从根本上改变应用程序和用户体验,而这正是骁龙现在以及未来的核心关注点之一。”高通公司总裁兼CEO安蒙(Cristiano Amon)在2024高通骁龙峰会上分享,“我们所熟悉的体验即将发生变化,并且将转变为更加容易接受和理解的方式。这不是某一个杀手级应用,而是每一个应用的体验都将改变。

在11月的科技盛会Web Summit上,安蒙也再次强调了高通公司对生成式AI未来的看法,他强调,生成式AI就是新的UI,它将作为新的交互方式服务于我们周围所有的计算终端,AI赋能的智能体将成为行业应对和把握机遇的关键。正如触控界面的变革让手机成为了新的计算空间,在生成式AI的变革里,汽车、XR等更多边缘终端也将成为新的计算空间,迎接生成式AI的时代,这也是高通已经明确的战略方向。“AI是新的UI,以APP为中心的体验正在改变”,安蒙表示。

深入了解骁龙8至尊版以及骁龙数字底盘强大的AI引擎正在自下而上,从硬件到软件革新终端的体验,将会对混合AI的未来更加期待。

AI让手机开始「更具人味」

全新旗舰手机上智能助理的集体升级,可能会被视为营销噱头,但具体看看常用功能的新升级,就能品味到生成式AI时代手机的“AI味”。

先看小米AI超级小爱的改变,全新的AI字幕功能支持全局实时翻译,看国外影片有实时字幕,开国外会议有同声传译。还有AI识音支持全局声音转录,能够区分不同说话人并生成摘要。AI写作是一个全局文字工具,支持一步润色改写。

常用功能有了新玩法,并且全局可用,这些都得益于手机系统层级支持了AI。

荣耀YOYO智能体同样是平台级AI,比如只需要一句“关闭应用通知”、“点杯奶茶”,以往手动需要好几步的操作,一句话就能让手机自动从系统底层调动不同应用,完成任务。

手机的AI功能更智能,应用范围更广,手机变得越来越有生成式AI的味道。

“人们现在已经习惯于以应用程序为中心的体验。”安蒙说,“现在每个应用程序和用例都可能面临改变,AI的出现让机器可以理解人类的语言,所以我们熟悉的使用体验将被彻底重新定义。

那什么样的生成式AI杀手级应用可以颠覆手机体验?

安蒙对此表示,“很多颇具杀手级潜力的应用还未出现,但当下的转变正在发生。我坚信生成式AI就是未来,只是没有人能给出具体的时机。

手机朝智能体进化的过程,就可能出现杀手级应用。

“目前已发布的智能手机中,还尚未实现真正的智能体处理,市场上现有的应用是比较优秀的智能语音助手。”高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉(Durga Malladi)在骁龙8至尊版刚发布时表示,“两者的区别在于,智能体能够执行更加复杂的任务,尤其是那些指令不明确的任务。例如,智能体需要自行选择合适的模型执行处理任务。”

手机智能体实现的核心——多模态和异构计算

手机智能体的实现,就需要手机自下而上,从硬件到软件的全面革新。

多模态大模型是实现智能体的关键

马德嘉分享了一个例子,拿起手机说“今晚帮我订一个墨西哥菜餐厅,距离不要太远,评分要高,到店时间预计晚上7点30到8点30之间,还得是我过去三个月没有去过的餐厅。”

要回答这个问题,智能体会要调用各种不同的模型来进行处理。首先,理解所提出的问题。其次,如果要挑选一家距离不远的餐厅,要知道现在的位置信息。最后还要满足“过去三个月内没去过的餐厅”,需要基于用户的个人知识图谱,存储在终端侧的用户情境信息(例如喜欢的饮食、锻炼习惯、过往偏好等)作为个人知识图谱,帮助手机更好地理解用户意图。

智能体本质是一个能处理非常复杂任务的规划器,与智能体交互的方式要结合语音、文本、图像等等。”马德嘉进一步表示,“要进行智能体规划,多模态能力将起到非常大的帮助,所以智能体必须要有多模态的支持。

早在今年2月,高通AI研究就演示了全球首个在Android手机上运行的多模态大模型。同时还演示了搭载骁龙X Elite的Windows PC上运行超70亿参数的多模态大模型,可接受文本和环境音频输入(如音乐、交通环境音频等),并基于音频内容生成多轮对话。

上个月,高通推出了高通AI规划器。通过理解与本地情境信息相融合的个人偏好,高通AI规划器能够将这些知识整合进生成式AI助手中,为用户提供有意义的个性化回复和行动。

当然,借助多模态模型,高通AI规划器支持多种终端交互模态,包括文本、视觉和语音。

高通技术公司手机、计算和XR事业群总经理阿力克斯·卡图赞(Alex Katouzian)说,“智能手机助手可以支持多模态和智能体功能,意味着它可以见你所见,闻你所闻,理解你周围的世界。这确保它能够在不提示其他应用程序的情况下处理满足用户的个人需求、完全在终端上运行以保证数据安全和隐私,并即时响应用户请求。”

高通AI规划器将成为高通AI软件栈的重要部分,软件的进化也需要硬件全面升级实现更好支持。

计算效率和内存大幅升级的高通AI引擎

2015年推出的骁龙820集成了首个高通AI引擎,这是一个异构计算引擎,此后高通的AI引擎紧跟AI技术的发展和市场需求持续升级。

2018年高通Hexagon DSP升级成为Hexagon NPU,早于行业对于NPU的关注,高通的异构AI引擎也升级为CPU、GPU、NPU的组合。

今年推出的骁龙8至尊版,高通AI引擎再次全方位升级。

特别值得关注的是被称为高通自研芯片最后一块拼图的高通Oryon CPU首次集成到移动平台。

高通的首代自研Oryon CPU搭载在PC平台骁龙X Elite上,在今年Microsoft Build上首批搭载高通Oryon CPU的Windows 11 AI+ PC宣布之后,高通便迅速成为了一匹黑马,成为了AI PC领域的标杆,Oryon CPU帮助高通在从一家无线连接公司转型为连接+计算公司的道路上实现了进一步的飞跃。

骁龙8至尊版上的高通第二代自研Oryon CPU,室温环境下相比第三代骁龙8,CPU的单线程和多线程基准测试中性能有高达45%的大幅性能提升,能效提升也高达44%。第二代Oryon CPU跨代际的性能提升,对多任务处理、时延关键型任务、生产力应用、初始化AI工作负载都有显著的提升。

将第二代Oryon CPU引入高通AI引擎,就像交响乐团加入了一位出色的指挥家,负责启动所有AI工作负载,处理繁重负载任务,让AI引擎的其他组件可以专注于特定的AI任务。

全面升级的Hexagon NPU就像是交响乐团里令人惊叹的小提琴手。全新架构的Hexagon NPU性能提升45%,能效提升45%。

为了支持生成式AI和多模态模型,实现更快推理,Hexagon NPU增加了更多内核,更多标量内核可以支持更长内容,达到4k上下文窗口,更多的向量内核可以加强对大语言模型和传统AI的支持。

处理效率大幅提升还不足够,内存也是限制生成式AI在终端运行的主要因素。

“要在手机上直接运行一个100亿参数的模型,不进行任何压缩,至少需要占用20GB内存,所以模型的压缩和量化都非常重要。”马德嘉表示,“我们现在已经支持不同数据精度的量化技术,通过多种量化技术可以缩小模型。去年在端侧运行大模型还是一个挑战,今天对我们而言就变得相对简单,并且我们还在持续改进。”

第二代Oryon CPU大幅改进的内存架构也让骁龙8至尊版能符合边缘AI的需求。

全新的Oryon CPU每个丛集都拥有12MB的二级缓存,总计24MB紧密耦合的专用缓存是智能手机领域最大的CPU缓存。同时,在每个超级内核和性能内核中,高通还大幅提升了一级缓存。另外,考虑到生成式AI高度依赖内存,骁龙8至尊版配备目前最高速的10.7Gbps LPDDR5x内存。

高通AI引擎的内存并发性,让AI和计算机视觉工作负载可以同时访问一个内存空间,也将端侧AI的性能和可能性进一步提升。

还有首创的切片架构Adreno GPU,性能将提升40%,功耗降低40%,也是全新AI引擎中重要的组成部分。

骁龙8至尊版AI引擎的全面升级,让骁龙8至尊版的大模型处理性能全面超越第三代骁龙8,基础大语言模型的token生成速率提升高达100%,在目前业界流行的一些大语言模型上,骁龙8至尊版的处理速度达到超过70 tokens/s,是业界的领先水平。

当然,将全面升级的高通AI引擎与骁龙8至尊版全新设计的AI-ISP,GPU相结合,也让新一代旗舰手机突破了影像和游戏性能的上限,并带来了更多智能手机AI应用的可能。

比如荣耀Magic 7系列上的AI消除、AI扩图、AI风格、人脸修复的魔法修图功能。还有小米15系列上的告知拍摄内容就能自动匹配功能模式或参数,告诉修图方向就可以自动调整图像。以及一加13上AI去反光、AI消除、AI去拖影的AI拯救废片功能。

同样搭载骁龙8至尊版的真我GT7 Pro上的AI大神辅助2.0功能,让AI成为游戏里全队的最佳辅助。 

汽车是新的计算空间

生成式AI是计算领域的一次重大变革,它将改变智能手机时代的布局,改变操作系统和应用商店的角色,改变计算的角色。

安蒙说,“汽车行业正经历前所未有的重大变革。当前汽车成为了全新计算空间。我们除了为汽车带来全新屏幕和数字座舱,生成式AI也为汽车带来变革。”

骁龙数字底盘解决方案已经成为汽车行业的重要资产之一,高通与几乎所有的汽车制造商都有合作关系。

全新发布的骁龙座舱至尊版平台和Snapdragon Ride至尊版使骁龙数字底盘的性能也全面升级。

骁龙座舱至尊版集成的NPU,性能比上代旗舰骁龙座舱SoC提升高达12倍,支持transformer加速和端到端网络架构而设计,能支持大型基础模型。

利用其中的基础模型之一,通过检索增强生成(RAG)可以实现车辆预防性维护等用例——AI助手可利用在汽车手册上进行训练的模型,针对屏幕上的未知图标进行答案检索。

“我们将见证一场由AI驱动的革命。”正如安蒙所说,这也是为何许多企业也在着眼于并深信这一充满变革的未来,并基于骁龙平台与高通合作的原因。

高通一直致力于推动平台AI能力的开放化,确保所有开发者都能基于高通和骁龙平台面向不同终端打造AI应用和能力。今年年初,高通推出了高通AI Hub。高通AI Hub上目前已经有数百个面向高通和骁龙平台优化的前沿开源AI模型,已经获得领先的开发者生态的认可。

骁龙峰会期间,高通还宣布了与OpenAI、Meta、腾讯混元、智谱、Mistral AI、Tech Mahindra等一系列业界领先AI企业的进一步合作,以共同打造一个繁荣的边缘侧AI生态,加速生成式AI为广泛终端带来的体验变革。雷峰网

]]>
芯片 //m.drvow.com/category/chips/trkGDeiW0huUrcDV.html#comments Mon, 23 Dec 2024 10:21:00 +0800
谷歌「被迫」研发的TPU,引发成千芯片与之竞逐 //m.drvow.com/category/chips/hTjEq3lxT2zxOX9y.html 12月12日,谷歌宣布其第六代TPU(张量处理器),Trillium正式上市。

谷歌计算和人工智能基础设施副总裁兼总经理Mark Lohmeyer表示,谷歌旗下的大模型Gemini 2.0正是采用Trillium进行训练, TPU是Google Cloud AI超级计算(AI Hypercomputer)的关键组件,集成了性能优化后的硬件、开放软件、领先的机器学习框架以及灵活的消费模型。

以色列人工智能公司AI21 Labs的CTO Barak Lenz表示,AI21 Labs是自TPU v4以来的长期用户,Trillium在规模、速度和成本效率方面都取得了显著的进步。

在GPU加速一切的人工智能时代,TPU像极外来物种。毕竟在各大搜索软件里输入关键词“TPU”,前几条结果显示的都是材料学科里的聚氨酯。

TPU因谷歌而出现,TPU市场因谷歌而繁荣。为何研发TPU,以及TPU团队的工程师离开谷歌后如何将行业推向繁荣,背后的故事值得讲述。

谷歌「被迫」研发TPU

2009年,Geoffrey Hinton将深度神经网络应用于语音建模,在TIMIT(声学-音素连续语音语料库)上获得当时的最佳成果,深度学习神经网络技术在语音识别领域开始大放异彩。

如果说ChatGPT是当下人工智能浪潮的起点,那AlexNet神经网络架构的出现就是上一个里程碑。

2012年,Alex Krizhesky、Ilya Sutskever和Hinton提出的AlexNet架构,通过使用GPU构建深度学习模型,刷新当时的图像识别世界纪录,并且准确率达到85%,在当年的ImageNet大赛中一举夺冠。

人工智能在语音和图像识别领域的应用引起了谷歌的关注,毕竟这两个领域与谷歌的核心业务,如搜索、地图、照片和翻译等紧密相关。正值谷歌考虑推出面向全球的语音识别功能之际,研究团队发现需要处理的人工智能计算量将超过其现有的算力。

谷歌首席科学家Jeff Dean在采访时称:“当时,我们粗略地估算了数亿人与谷歌的产品对话会产生多少计算量,结果显示谷歌需要部署多一倍的算力才可以满足这样的需求。”

做为大厂,谷歌天生带有傲性。当时,谷歌团队研究了市面上提供的所有算力解决方案,全部都被高层否决掉。

互联网大爆发使算力需求呈现指数级上升,两个明显的的趋势开始涌现,一是算力使用场景细分化,二是用户对算力的需求不断攀升,传统的通用算力芯片很难再满足一些特定场景的需求。

对专用芯片的投入日益受到关注,开发公司内部的深度学习专用处理器芯片成为谷歌的不二之选。

「出道即巅峰」,首代TPU推理速度为竞品30倍

决策后,是迅速的执行。谷歌挖来惠普智能基础设施实验室高级总监Norm Jouppi、Pacmid的研发负责人Jonathan Ross、Arm架构开发商Calxeda的SoC工程总监Richard Ho以及高通高级工程师Ravi Narayanaswami等一批芯片行业资深从业人员,而这一批人员也勾勒出当下人工智能芯片领域巨头博弈的核心人才画像。

面对全世界最好的工程师,大厂光环和天价薪资略显廉价,真正让这帮人聚在一起的是开发出满足全球人工智能算力需求的解决方案这一愿景。

谷歌云TPU业务创始人Zak Stone称:“2012年,我创立了一家机器学习创业公司,为了以较低的成本获得算力,我的联合创始人会在网上购买二手的游戏GPU,然后在咖啡桌上搭建服务器,一旦我们在运行GPU的时候打开了微波炉,电源就会耗尽。加入谷歌后,我创建了云TPU项目,我知道我们必须把TPU打造成谷歌云的基础设施。”

这也正是谷歌不直接出售TPU,而是通过谷歌云出售TPU算力的原因之一。另一方面,这种做法可以免于搭建供应链和硬件销售团队,节省对陌生业务的投入,同时反哺了谷歌云业务并且提高了硬件产品的保密程度。

从立项到落地,谷歌花了15个月。2015年,谷歌开发出第一代TPU处理器,并开始部署在谷歌的数据中心进行深度学习模型训练。彼时,外界对于谷歌内部的基础设施建设鲜有认知,而事实上,击败棋王李世石的AlphaGo正是由TPU驱动的。

研发TPU的团队负责人Norm Jouppi称:“TPU的设计过程异常迅速,这本身就是一项非凡的成就。更出乎意料的是,首批交付的硅片无需进行任何错误修正以及掩膜的更改,而正在同步进行的还有团队组建,RTL(寄存器传输级)设计专家、验证专家都急需补充,整个工作节奏非常紧张。”

机器学习硬件系统的首席工程师Andy Swing同样表示:“我们原以为TPU的产量不会超过1万颗,但最终生产了超过10万颗,在广告、搜索、语音、AlphaGo甚至自动驾驶等领域被广泛采用。”

TPU跟GPU的核心差异在于,GPU更通用,而TPU则专用于加速机器学习工作负载,是一款ASIC(专用集成电路)芯片。TPU包含数千个乘法累加器,这些累加器直接连接,形成大型物理矩阵,即脉动阵列架构,这样的处理使TPU可以在神经网络计算中实现高计算吞吐量。

Google杰出工程师David Patterson称:“TPU就像海伦(希腊神话中最美的女人),它的出现引起了成千芯片与之竞逐。”

首款TPU发布后,英特尔便耗资数十亿美元收购了多家芯片公司。阿里巴巴、亚马逊等公司同样开始研发类似产品。TPU重新唤起了人们对计算机架构的关注,后来的几年内,出现了上百家相关初创企业,年均总融资额近20亿美元,新想法层出不穷。

截至目前,谷歌TPU经历了多次迭代,TPU系列产品的性能也实现了指数级的上升。TPU v1的峰值性能为92 TOPS,1TOPS代表处理器每秒钟可进行1万亿次浮点运算,做为同期的竞品,TPU v1的推理速度比英伟达K80 GPU和英特尔Haswell CPU快15到30倍。TPU v4的峰值性能达到1.1PFLOPS,即每秒进行1100万亿次浮点运算,首次突破每秒千万亿次浮点运算的大关,相较于TPU v1,性能提高了将近12倍。最新发布的Trillium性能为TPU v5e的4.7倍,官方称是迄今为止性能最高、最节能的TPU。

所有这些处理能力还只是开始。

TPU的主要设计师Cliff Young认为,跟上深度学习的发展不仅需要增加用于训练的芯片数量,现有的软硬件架构设计也必须改变,需要运用全新的材料-应用协同设计概念。未来深度学习架构的设计需要包含从物理到应用的各个层面的协同设计,这是打破摩尔定律瓶颈的一种方式,是深度学习发展的新出路。

团队表示:“当时,我们的TPU和Pod设置对建设数据中心能力很有意义,但现在我们正在改变数据中心的设计,以更好地满足需求,当下的解决方案与未来的解决方案将非常不同。忘记单个芯片或单个TPU吧,我们正在构建一个载满TPU的全球数据中心网络。未来是全栈定制,从硅到一切。”

TPU梦之队,从「队友到对手」

当下,所有人都在眼红英伟达在人工智能芯片市场占据的市场份额,而TPU让谷歌成为英伟达之外另一个重要的算力供应商。全球超过60%获得融资的生成式AI初创公司和近90%生成式AI独角兽都在使用谷歌Cloud的AI基础设施和Cloud TPU服务,包括Anthropic、Midjourney、Salesforce、Hugging Face和AssemblyAI等企业。

2024年7月,苹果公布其使用了2048片TPUv5p芯片来训练拥有27.3亿参数的设备端模型AFM-on-device,以及使用8192片TPUv4芯片来训练大型服务器端模型AFM-server。

这些数据回答了TPU在人工智能市场里的应用情况,也昭示着这个市场会涌入更大量的竞争者。而事实上,在TPU v1刚刚发布的时期,TPU团队成员另立门户或加入竞对公司的现象就已初显苗头。毕竟在硅谷,当你萌生出创业想法时,成事法则中的一条就是从谷歌挖人。

Social Capital的创始人Chamath Palihapitiya深谙其中的门道,他总是那么尖锐且冒进,面对名流及精英他直言不讳,做为美国的SPAC(特殊目的收购公司)之王,带着散户逼空华尔街精英也让他赚足了吆喝。

Palihapitiya就像投资界的马斯克,掌握资本和流量杠杆让他成为创业者背后的攒局人。

2015年,在谷歌的季度财报会上,Palihapitiya不经意间了解到谷歌正在自研AI芯片,为什么谷歌要跟英特尔竞争?问题在Palihapitiya心中浮现,他开始寻找答案。

2016年,TPU v1发布,跟市场上其他人一样,Palihapitiya的策略是“no miss”,他认为这一次芯片创新可以让Facebook、Amazon、Tesla等公司以及政府利用机器学习和计算机去做此前没人能做的事情。

巨头入局,Palihapitiya做局。他开始对谷歌TPU领域的工程师进行人才mapping,一年半的时间里,Palihapitiya挖走了谷歌芯片创始团队里10人中的8位,背后的两个关键角色是Jonathan Ross和软件工程师Doug Wightman,而成立的这家新公司正是当下炙手可热的AI芯片企业Groq。

今年的8月5日,Groq完成由Blackrock领投的新一轮6.4亿美元融资,28亿美元的估值让Groq毫无疑问地成为AI芯片新贵。另一方面,Meta首席人工智能科学家Yann LeCun宣布担任Groq的技术顾问,在Groq的官网上赫然挂着Yann LeCun对于Groq芯片的评价:“Groq芯片确实直击要害。”

而问题在于Meta内部也在研发AI芯片,竞对公司间的人事往来不经让外界感到意外。但可以推测出这背后离不开Palihapitiya的周旋,毕竟他曾担任了五年多的Facebook(Meta前身)副总裁,化敌为友,是攒局人的基本素养。

Groq之外,是OpenAI对谷歌近乎疯狂的“挖墙脚”。

疯狂的背后,是Sam Altman激进的7万亿自研芯片战略。此前,台积电CEO CC Wei在采访中表示:“Altman的计划太激进了,让人难以置信。”

今年10月30日,外媒报道OpenAI与博通以及台积电达成合作,计划于2026年生产其首个定制芯片。

OpenAI造芯传言靴子落地的背后,是Sam Altman网罗AI芯片人才计划的收网。Sam Altman的用人法则只有一条,要么现在在谷歌,要么之前在谷歌。

近一年里,大量谷歌TPU团队的研发人员密集加入OpenAI,Sam Altman搭建了以前谷歌高级工程总监Richard Ho为首的硬件研发团队,主要成员包括Tensor SoC负责人Ravi Narayanaswami、高级硬件工程师Thomas Norrie、技术经理Sara Zebian、研究科学家Phitchaya以及设计验证经理Jerry Huang等人。

而这一批人收获的最多的评价正是:“他们是我合作过的最好的工程师之一。”

吸引最好的工程师,Sam Altman开出的条件是:参与构建人类有史以来最宏大的计算机系统、与大模型团队的高度协作且不会面临大公司内部的沟通阻碍,以及高薪。

TPU团队在市场颇受认可的背后是任职于谷歌时研发TPU锻炼的从0到1的工程能力,而专用于加速机器学习和神经网络的设计正是当下市场最需要的。

商业层面,身居不同公司或许针尖对麦芒,但个人层面,他们都是谷歌TPU的同行者,更是AI芯片未来的缔造者。

雷峰网参考材料:

https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga

https://cloud.google.com/transform/ai-specialized-chips-tpu-history-gen-ai?e=48754805

https://www.censtry.com/blog/why-did-google-develop-its-own-tpu-chip-in-depth-disclosure-of-team-members.html

https://cloud.google.com/tpu/docs/system-architecture-tpu-vm?hl=zh-cn#targetText=Tensor%20Processing%20Units%20(TPUs)%20are,and%20leadership%20in%20machine%20learning.

https://cloud.google.com/tpu/docs/system-architecture-tpu-vm?hl=zh-cn#targetText=Tensor%20Processing%20Units%20(TPUs)%20are,and%20leadership%20in%20machine%20learning.

]]>
芯片 //m.drvow.com/category/chips/hTjEq3lxT2zxOX9y.html#comments Fri, 20 Dec 2024 17:45:00 +0800
三年又三年 苹果自研5G芯片终将落地 //m.drvow.com/category/chips/nB18nB2hiLA1qQOo.html 在苹果公司的硅谷总部一间不起眼的房间里,摆满几百台嗡嗡作响的机器,身着实验室工作服的工程师穿梭其间——苹果为其产品设计的定制芯片,就从这里产生。其朴实的外观,与公司此前展现的时尚总部硬件中的其他实验室相去甚远。但这个充满实用主义氛围的房间,可以说是苹果产品的「心脏」。

自2010年首款自研手机芯片A4开始,苹果坚信「为客户提供最佳体验的最佳方式是拥有、开发和设计自己的芯片」。高级分析师斯泰西·拉斯贡 (Stacy Rasgon) 指出:「(苹果的)处理器一直非常出色,他们挣扎的地方是在调制解调器方面,在手机的无线电方面——调制解调器很难。」

苹果自2018年准备自研调制解调器,几经波折,最近终于传来好消息——彭博社记者马克·古尔曼(Mark Gurman)报道,苹果正在开发三款定制5G基带芯片,以适应其iPhone和iPad系列。该芯片将首次应用于明年初发布的iPhone SE 4中。作为入门级芯片,这款芯片性能难媲美iPhone原先使用的高通(Qualcomm)的芯片,但能为苹果未来将其与定制处理器集成片上系统(SoC)奠定基础,提高芯片整体效率。苹果这一项目的成功,也意味着高通即将失这个每年为其提供近1/5收入的大客户。

古尔曼续分享道,苹果希望在未来三年内凭借定制5G调制解调器击败高通。又一个三年计划,这次苹果能成功吗?


无法支持毫米波的Sinope 让苹果难舍高通

Sinope,是希腊神话中智胜宙斯的仙女的名字,也是苹果内部调制解调器芯片项目的命名。

所谓调制解调器,是将手机连接到手机信号塔、以拨打和接听电话并连接到互联网的组件,这显然是手机的关键部分,也是无线设备中最复杂和最昂贵的部件之一。在高度集成化的智能手机中,调制解调器与信号处理器、信道编码器、数字信号处理器和接口模块,整合在一颗芯片上——这颗芯片俗称基带(Baseband)。这些模块共同协作的成果,就是现代手机具备了通讯功能。

也因此,调制解调器的技术作用是基带芯片最重要的功能模块。

本月上旬,有消息指苹果将于2025年初推出期待已久的首款基带芯片,用于iPhone SE 4中。苹果将在后续几代中改进调制解调器,使其更加先进,并于2026年推出高阶版本,以取代其长期合作伙伴高通的组件。知情人士还透露,苹果希望在2027年最终超越高通的技术

这款调制解调器还将与另一个新的Apple组件配合使用:RFFE或射频前端系统。该RFFE将管理和优化天线和调制解调器之间的信号,以确保清晰的通信、强大的连接和高效的性能。

从苹果将这款芯片用在入门级手机型号上、还没信心投入Pro iPhone等旗舰产品中,可见这款芯片也是入门级别——Sinope芯片的峰值下载速度将达到4Gbps,远低于高通骁龙(Snapdragon)X80 5G调制解调器和射频系统提供的10Gbps峰值。不过,也有行业人士指出,大多数手机的运行速度都远不及这些调制解调器所能处理的最大速度,因此问题不大。

此外,Sinope芯片目前不支持超高速5G毫米波(mmWave),仅支持Sub-6,即频率低于6GHz的电磁波,其中包括大多数美国运营商青睐的中波段和C波段频谱;而高通的调制解调器同时支持毫米波和6GHz以下频谱。

毫米波为何重要?目前全球5G网络频段主要分为Sub-6GHz和毫米波。其中,毫米波传输速度更快、距离较短,适用于人口密集的城市区域;而Sub-6GHz传输速度相对较慢、信号传播距离更远,更适合郊区和农村地区。相比起毫米波,Sub-6在传播速度和带宽容量上都逊色不少

IDC研究总监Phil Solis认为,在未来的iPhone中,尤其在美国市场,苹果不会放弃毫米波功能。在他看来,毫米波「对苹果来说是最棘手的部分」,当内部集成基带处理器出现在苹果的SoC中时,苹果可能会拥有自己的毫米波模块,也可能继续从高通或其他第三方购买。

这也意味着,未来短期内苹果只会用自己的5G基带芯片进行部分替换——它将继续依赖其现有的5G芯片供应商高通,为支持毫米波的iPhone机型(包括美国版的所有iPhone 12机型及更新机型)提供5G芯片。

Sinope预计还可能包含在传闻中超薄的iPhone 17 Air机型中。据悉,在iPhone 17 Air上使用自己的5G调制解调器芯片,将使其能比iPhone 16 Pro薄2毫米,同时为相机、电池和显示屏组件留出足够空间。并且,这款新调制解调器能大幅降低电池消耗,似乎也非常适合Apple Watch等这类追求能效多于性能的设备。

也有消息称,苹果第二代5G基带预计于2026年推出,将把峰值下载速度提高到6Gbps,并支持毫米波技术,使其成为高通5G基带芯片更可行的替代方案。分析师Mark Gurman表示,苹果也正研究首次将蜂窝连接引入Mac产品线的想法,若能成功做出蜂窝Mac,预计最早在2026年才会向公众推出


从幻想跌落至现实  但「苹果不会放弃」

「You have to own your own silicon.You have to control and own it.」苹果公司前CEO乔布斯在多年前就强调,必须拥有对芯片的绝对控制权。2010年,苹果开始在iPhone和iPad中使用自己的处理芯片,超越许多安卓竞争对手——后者仍依赖高通、联发科等制造商的芯片。这些年来,苹果开发出了引以为傲的A系列、M系列SoC处理器芯片等,芯片版图日益扩张,但在基带芯片的研发上,却遭受挫折。

高通与苹果两家公司已经深度绑定多年——自iPhone 4S起,iPhone的基带芯片便长期依赖高通。不过,苹果不愿被需要支付给高通的高昂费用束缚,2018年,现任CEO蒂姆·库克(Tim Cook)下令制造一款调制解调器芯片。

对于在该领域一片空白的苹果来说,项目起步的第一步是:挖人。

苹果一直在从高通挖走工程人才,2019年3月,更是深入高通腹地,宣布在高通总部所在地圣地亚哥建立一个新的工程中心,在当地增加约1200个工作岗位。同年夏天,苹果以10亿美元收购了英特尔手机基带芯片部门,获得8500项蜂窝专利和连接设备专利。库克表示,收购后苹果的无线技术专利组合超过1.7万项,涵盖从蜂窝标准协议到调制解调器架构和调制解调器操作。

那年12月,苹果公司硬件工程高级副总裁约翰尼·斯鲁吉(Johny Srouji)飞往慕尼黑,迎接苹果新收购的英特尔无线员工。据称,他曾表示,调制解调器芯片项目将改变苹果的游戏规则,是公司发展的下一步。

2021年,苹果在加州开设了新办公室,招聘包括射频芯片、RFIC和无线SoC等职位的工程师。除了射频芯片,电源管理芯片、屏幕驱动芯片、T系列安全芯片、3D体感芯片等都在苹果的研发范围内。

随着人才储备工作如火如荼展开,公司高管信心满满地设定了目标:在2023年秋季准备好调制解调器芯片。然而,有参与该项目的人士曝出,斯鲁吉团队的一位高级项目经理没有无线技术背景:团队构建芯片的原型版本后,必须证明它们可以与全球众多无线运营商合作,这很耗时,但缺乏经验的高管设定的时间表很紧,不切实际。许多无线专家很快意识到,雇用数千名工程师的蛮力,不足以快速生产出卓越的调制解调器芯片。

有报道称,苹果在使用的英特尔代码方面遇到了问题,工程师不得不重写代码,而添加新功能会导致现有功能中断;同时苹果还必须避免侵犯高通的芯片专利。熟悉该项目的前公司工程师和高管也指出,完成芯片开发的障碍主要是苹果自己造成的——由于技术挑战、沟通不畅及管理层间的意见分歧,该芯片工程团队进展缓慢。并且,缺乏全球领导者,团队被分散在美国和海外的不同小组中,一些经理不鼓励工程师公开有关延迟或挫折的坏消息,导致项目进程被耽误。

2022年底对研发的基带芯片进行测试后,团队发现芯片速度太慢,容易过热,且电路板大到占据半部iPhone,无法使用。测试结果不理想,这些芯片基本上比高通最好的调制解调器芯片落后了三年

也因此,苹果不得不面对现实,取消了在2023年机型中使用这些芯片的计划,推出时间推迟到了2024年;但随后这一目标也被证明难以实现。苹果在2023年底宣布,将继续购买高通的调制解调器芯片至2026年。今年二月,高通表示,苹果已将与其调制解调器芯片许可协议延长至2027年3月。

雷峰网搜索网上资料发现,2021年前后,人们对于苹果在两年内实现自研的5G基带芯片、勇敢告别高通颇有信心。这款自主研发的调制解调器芯片被大肆宣传,就连当时高通的CEO也预计,苹果的调制解调器将在2024年准备就绪。苹果终是没能交出一份满意的答卷。

不过,有业界人士相信,苹果推出自研基带芯片只是时间问题。近日传出的新消息,给这个「难产」项目画上令人期待的省略号,且也印证了人们已经达成的某种共识:「苹果不会放弃」。


烂信号、耗电快 苹果自研基带芯片带来解法

苹果公司内部5G调制解调器的开发,已经花费了数千名工程师数百万小时、公司数十亿美元。在公司员工看来,芯片的研发并不会对iPhone的销售产生积极影响,因为客户并不关心这些设备中运行的是什么。那么,苹果为何如此执着于这款对用户体验改善作用不大的基带芯片?

钱,是问题的起源。

高通从2011年开始独家为苹果提供基带芯片,2013年和苹果签署了独家供货换取专利费折扣的协议。然而,苹果在2016年开始拒绝向高通支付高达10亿美元的专利费,双方关系开始恶化。2017年,苹果在美国和中国起诉高通,要求退还10亿美元专利费中的优惠部分,并降低未来的专利授权费用。高通提起诉讼,指控苹果违反双方签署的协议,侵犯高通的专利权。来来往往,两年50多起大案,最终,两家公司在2019年达成和解。

和解只是表面的和平,苹果在继续大规模使用高通基带芯片的同时,也默默推动其研发计划。

在此期间,苹果曾敦促英特尔为iPhone开发5G调制解调器芯片,希望取代高通的组件,但英特尔的尝试不尽如人意。苹果最终向高通投入数袋现金,以确保及时获得骁龙5G调制解调器芯片,赶上iPhone 12——第一款支持5G的iOS设备——的发布。

专利费之外,5G基带芯片的成本也非常昂贵,高通的每款芯片都没有给苹果留下多少利润空间。苹果2022年向高通支付超72亿美元购买芯片,且预计在2024财年仍将向高通支付77亿美元,约占高通收入的20%——根据Wolfe Research的统计。苹果开发自己的5G基带芯片意味着不再需要向高通支付昂贵费用,尽管可能仍需支付高通2G/3G/4G/5G通信专利的许可费

此外,苹果需要主动权。它在供应链的平衡管理上一直非常成功,很多供应链都是相互竞争以保证质量和控制,如由三星、LG、京东方等多家供应商共同提供OLED屏幕。然而,在5G调制解调器供应商方面,高通的独家「垄断」,让苹果处于被动地位。

对于苹果而言,实现芯片设计的自给自足能增强其竞争优势,把对产品功能和创新的控制更多掌握在手中,带来更好的集成和性能。尽管苹果首款5G基带芯片性能较低,但他们很可能会将其与定制的A系列处理器集成,使其成为片上系统(SoC),或能使iPhone搜索蜂窝网络效率更高,为卫星连接功能提供更好的支持,由此显著提高芯片的整体效率。并且,新的芯片设计还将在主板上留出更多空间,可能提高电池性能和使用寿命。

行业推测,或许苹果的最终目标是将芯片组、5G调制解调器、Wi-Fi和蓝牙适配器等都整合到一个封装中,释放更宝贵的空间且节能。也有分析称,苹果手机中的IOS系统和高通5G基带似乎有些不兼容——因IOS属于封闭的操作系统,对高通基带芯片的兼容性有非常高的要求,兼容不够便容易出现接电话画质不好或信号弱等情况,相信苹果自研5G基带芯片,有助于解决iPhone通话质量差、信号弱等问题。

正如斯鲁吉所说:「我们专注于产品,这让我们可以自由地进行优化,可扩展的架构让我们可以在不同产品之间重复使用零件。」Apple Mac产品行销副总裁Tom Boger上个月也在采访中提到苹果造芯的秘密武器:「我们不会制造一堆芯片,然后决定将它们放在哪里。我们为我们的产品从头开始设计芯片,这是我们拥有的巨大战略优势。」苹果的获益方式正是如此——生产仅供自己使用的芯片,而非出售给其他公司。

在今年苹果与高通延长了最新的调制解调器许可协议后,高通CEO克里斯蒂亚诺·阿蒙(Cristiano Amon)对此非常满意,认为延长的合作关系意味其将在未来几年「享受健康的收入来源」。不过,苹果自研基带芯片项目,始终像乌云笼罩在高通头上,提醒着他们终将失去这个重大客户。

苹果对高通的抛弃是循序渐进的,对此已有预计的高通,也已在为弥补失去苹果的后果部署。苹果分析师郭明錤指出,苹果的脱离可能迫使高通在低端市场展开竞争。据了解,高通正在增加射频业务的收入——销售一种调制解调器到天线解决方案,该解决方案将射频组件与集成基带处理器捆绑在一起,旨在占领射频前端 (RFFE) 市场的份额。

功能更强大的6G手机到2030年推出,苹果购买高通芯片的协议于2027年到期。不可否认的是,苹果自研芯片项目遭受挫折、年复一年依赖高通的基带芯片,已经为高通多争取了一些时间。


做5G基带芯片 要从2G做起

「蜂窝网络是一个怪物」,曾在高通任职多年的高管Serge Willenegger直言。在他看来,苹果在发布基带芯片项目上的延迟,正体现了他们没有预料到这项工作的复杂性。

苹果一路积极推动生产用于其产品的各种半导体,造芯之路已近三十载。或因为此,他们自信能轻易复刻以往造芯的传奇。然而,比起微处理器芯片,调制解调器芯片的设计开发更加复杂——

做5G基带芯片,需要做的不止5G,还要兼容世界各地的2G、3G、4G网络,这些网络都有自己的技术特点。雷峰网了解到,这类用于传输和接收无线数据的芯片,必须符合严格的连接标准,才能为全球无线运营商提供服务。因此,在大量技术积累基础上,苹果需要跟全球的运营商做测试,让工程师到全球各地进行场测,这对时间要求很高。

同时,资本的投入也是巨大的——考虑到技术和资本投资的高进入门槛,智能手机组件设计和生产的竞争相当有限,这意味着组件价格越来越高。根据IHS Markit的数据,苹果iPhone X系列的4G基带芯片成本约为18美元;而摩根大通统计,5G芯片的成本预计是4G芯片的两倍,尽管价格可能会随时间推移而下降。

苹果在英特尔团队的帮助下并非完全从零开始,然而,国内有行业人士指出,基带芯片技术核心是协议栈,费时间的是全球各地场测——在理想的5G通信所具备的高速率、大吞吐量、平稳的上下行、比别家更强的弱信号环境下的表现,此外还要控制功耗。而在环环相扣的研发过程中,团队的默契与通力协作也至关重要。这些对于经验欠缺的苹果而言,难上加难。

5G基带芯片之难,早已吓退过许多新老玩家,4G  LTE基带已是一个极难的门槛,包括德州仪器、博通、Marvell、英伟达、诺基亚等在内的老牌玩家都相继退出市场。目前留在这个市场里的主要是高通、华为、三星、联发科和紫光展锐。其中,真正面向市场出售5G基带芯片的主要是高通、联发科和紫光展锐。据统计,2022年全球基带芯片市场中,高通独占60.9%份额,排名第二的联发科仅占27%。


参考资料:

https://www.wsj.com/tech/apple-iphone-modem-chip-failure-6fe33d19

https://wccftech.com/apple-modem-chip-in-mac-for-cellular-connectivity/

https://wccftech.com/apple-to-use-qualcomm-5g-modems-until-march-2027/

https://9to5mac.com/2024/11/26/apple-5g-modem-rumors/

https://www.weiyahua.com/show-172.html

https://www.phonearena.com/news/apple-to-take-3-years-to-fully-rollout-its-in-house-5g-modem-chip_id165617

https://www.diskmfr.com/apple-finally-says-no-to-qualcomm-after-6-long-years/

https://www.fierce-network.com/devices/apple-5g-modems-2-year-horizon-report

https://www.businessinsider.com/apple-chip-design-silicon-secret-weapon-2024-11

https://www.businessinsider.com/apple-chip-testing-lab-video-iphone-mac-silicon-2023-12

https://www.cnbc.com/2023/12/01/how-apple-makes-its-own-chips-for-iphone-and-mac-edging-out-intel.html


]]>
芯片 //m.drvow.com/category/chips/nB18nB2hiLA1qQOo.html#comments Fri, 20 Dec 2024 15:19:00 +0800
博通的「英伟达时刻」,靠X+ASIC成就 //m.drvow.com/category/chips/aYpohk3s2HOUnFcJ.html 当GPT-4被问到在GPU(图形处理单元)上和在ASIC(专用集成电路)上运行,哪个会更高效时,它答道:「如果我使用专门为AI任务设计的ASIC,我可能会实现更快的性能和更高的效率。」

在训练大模型数据出现可预见枯竭的当下,ASIC逐渐进入人们视野,注重研发ASIC芯片的博通(Broadcom)乘风而起。上周五晚,美股市场出现买博通、卖英伟达(NVIDIA)的场景——博通股价大涨超24%,创下历史最高当日涨幅记录,成为继英伟达和台积电后,第三家市值突破一万亿美元的半导体公司

据雷峰网了解,目前博通的市盈率(P/E Ratio)已高于英伟达:按12月17日收盘价,博通的市盈率为184.79,而英伟达的市盈率为51.54。这似乎也表明,投资者们更看好博通的未来。

与注重研发通用芯片GPU的英伟达不同,博通更专注于ASIC定制化芯片。这类能耗较低、专为特定任务设计的芯片,对企业的研发技术水平要求很高、制作流程也耗时较长。也因此,有行业人士指出「这些芯片并不适合所有人」。不过,在AI大模型推理被提上日程的今天,GPU的性价比也逐渐被打上问号。或许,博通和英伟达的未来发展,不仅是两家科技公司的商业策略相较,也是GPU和ASIC两种芯片应用场景的一较高下。

图源:greenmossinv


博通的崛起:天时地利人和

今年12月,博通发布的最新一期第四财季财报显示,其全年AI相关业务收入同比实现增长220%

博通CEO Hock Tan指,这得益于公司旗下AI XPU类芯片和以太网产品组合的需求支撑。他续透露,目前博通已有三家超大规模客户制定自己的多代AI XPU路线图,预计到2027年,每个客户在单一网络架构中将部署100万个XPU集群;同时,博通还在为两家新的超大规模客户设计开发相应下一代AI XPU产品,预计将在2025年下半年实现对3nm XPU的大规模出货。

根据业界分析,博通ASIC芯片的大客户主要包括谷歌、Meta。也有传言称,字节跳动和Open AI已与博通合作开发芯片。近日也有消息透露,苹果似乎正与博通合作计划开发AI服务器芯片。

据了解,博通为这些知名科技公司开发用于AI、通用数据处理等用途的芯片,一般是与其客户确定工作的负载需求后,跟合作伙伴确定芯片的规格,利用博通在硅片设计方面的专业知识,开发其主要存在差异化因素的关键方面,如处理单元架构。之后,博通在硅片中实现该架构,并配备平台特定的IP、缓存、芯片间互联接口。

博通的AI计算ASIC还利用共封装光学器件来提高能源效率和可扩展性,减少系统延迟,满足更复杂的计算要求。与传统的光学器件相比,其功耗可节省高达30%。

在今年12月初,博通宣布推出其3.5D eXtreme Dimension系统级封装 (XDSiP™) 平台技术,使消费级AI客户能够开发下一代定制加速器 (XPU)和计算ASIC。3.5D XDSiP在一个封装设备中集成了超过6000平方毫米的硅片,和多达12个高带宽内存 (HBM) 堆栈,可实现大规模AI的高效、低功耗计算。博通推出的这款业界首个Face-to-Face (F2F) 3.5D XPU,是一个重要的里程碑。

训练生成式AI模型所需的巨大算力依赖于10万个到100万个XPU的大规模集群。这些XPU需要越来越复杂的计算、内存和I/O功能集成,同时最大限度地降低功耗和成本。在过去十年中,2.5D集成——涉及在中介层上集成多个芯片(面积高达250mm²)和HBM模块(高达 8 HBM)——已被证明对XPU的开发很有价值。然而,随着渐趋复杂的LLM(大型语言模型)推出,它们的训练需要3D硅堆叠,以达到更好的尺寸、功率和成本。因此,将3D硅堆叠与2.5D封装相结合的3.5D集成,有望成为未来十年下一代XPU的首选技术。

与F2B(正面对背面)相比,博通的3.5D XDSiP平台在互连密度和功率效率方面取得了显著的改进,其堆叠芯片之间的信号密度提高了7倍。并且,通过使用3D HCB而非平面芯片到芯片PHY,可将芯片到芯片接口的功耗降低10倍。在此基础上,这一技术还可最大限度地减少3D堆栈内计算、内存和I/O组件之间的延迟;并实现更小的中介层和封装尺寸,节省成本并改善封装翘曲。

成立于1991年的老博通,最初是一家专注于宽带通信解决方案的小型半导体公司,产品范围涵盖有线和无线通信、企业存储和数据中心解决方案。该公司在2016年被Avago Technologies收购后采用博通(Broadcom)这个名字。如今,博通为当下最关键的技术提供支持,包括5G网络、人工智能和物联网 (IoT)。

博通在人工智能市场的成功很大程度上归功于其定制硅片解决方案和高速网络产品。它已成为主要科技巨头的人工智能芯片的主要供应商,其XPU技术在超大规模客户中越来越受欢迎。博通还指出,芯片市场正从以CPU为中心转向以连接为中心,而后者正是博通的专长。Piper Sandler分析师Harsh Kumar也看好博通:「我们继续认为博通是最好的AI公司(不包括英伟达),因为它在定制ASIC业务中占据强势地位,并且拥有强大的软件产品组合」。

在AI革命热潮下,博通的多管齐下战略,包括投入资金进行收购、提供定制芯片和扩展到软件业务,使其成为强大的竞争对手。

与此同时,随着AI大模型训练数据渐趋枯竭,AI领域的任务从训练端逐步转向推理端。有行业人士指,这一转型或意味着人们对芯片的计算精度要求相对可能降低,但对计算速度、能效成本等要求提高,而能以较低功耗实现快速推理计算的ASIC正好满足这一需求。对此,博通CEO Hock Tan预测:未来50%的AI算力都会是ASIC提供。他更放言:2027年市场对定制AI芯片ASIC的需求规模将达600亿至900亿美元。

博通在AI领域的大胆举措,为AI芯片市场的史诗级对决埋下伏笔。


X+ASIC vs 英伟达软硬件 「护城河」被攻破了吗

在英伟达占据AI芯片主要市场份额的情况下,大型科技公司都希望能减少对其依赖,博通也将自己定为替代方案。在此之下蓬勃生长的博通,甚至让英伟达CEO黄仁勋感到威胁。他承认:「博通(和其他初创公司)的复苏让英伟达的规划者感到紧张。」

与长期主导行业的英伟达GPU不同,博通在市场上的差异化在于它正在为全球顶级科技公司制造非常昂贵的定制AI芯片,承诺帮助他们将速度提高20%至30%,并将功耗降低25%。ASIC为拥有大量稳定AI工作负载的科技巨头,提供巨大的商机,可以帮助企业在资本支出和功耗方面节省大量成本,这使其成为更具成本效益的选择。

不过,这些芯片对企业的研发技术水平要求较高,且需要大量初始资本投资,制作流程也较长。据悉,做一款ASIC芯片,需经过代码设计、综合、后端等复杂的设计流程,再经几个月生产加工以及封装测试,才能拿到芯片来搭建系统。有分析师指出:「你必须是谷歌、Meta、微软或甲骨文这样的公司才能使用这些芯片,这些芯片并不适合所有人。」

因此,英伟达在市场的领导地位尚未被削弱。

英伟达竖起的坚固壁垒,靠的不仅是其通用芯片,还有平台衍生出的庞大软件生态。英伟达公认的强大「护城河」CUDA,作为一种专门用于加速GPU运算的专利软件技术,能让工程师省下大量撰写低阶语法的时间,直接使用诸如C++或Java等高阶语法,来编写应用于通用GPU上的演算法,解决平行运算中复杂的问题。这一软件配以英伟达的GPU和网络传输NVLINK——后者是一种高速、低延迟的互联技术——三张王牌合力,强大的软硬件协同完善的生态,巩固其广泛的客户群体。

但业界对CUDA的过于依赖,已让不少主打AI的公司开始警惕。而做网络出身的博通,强大的技术积累能为客户提供高性能网络传输;同时,客户在配备博通AI芯片的前提下,可以继续使用自己公司的算法、系统和模型,无需考虑芯片是否适应英伟达的CUDA——这让它逐渐成为一个有力的选项。

在历史上,英伟达曾面对诸多强大的对手,如Google、微软、META等巨头均有涉及制造GPU,但因为产能、CUDA等限制,这些公司都无法与英伟达竞争;但现在在ASIC芯片这一赛道上,由于场景在上述巨头手上,从而绕开了对英伟达生态体系的依赖。

换言之,博通与英伟达之前的对手如AMD、Intel不同,后者更多是在技术上与英伟达展开竞争,但博通则是通过与其他对AI算力有需求的商业巨头的合作,当Google、Amazon等自己设计芯片后,交由博通完成后续的制造,在商业模式上撼动英伟达的领导者地位。

这种 X+ASIC vs 英伟达的模式,也正是让英伟达感到紧张的原因。

在半导体芯片的历史上,类似的模式最成功的案例是ARM,不同的是,ARM采取的是IP授权模式,它不向市场出售成品芯片,而是靠将其研发的指令集架构和处理器IP而获利。凭借这一模式,ARM在移动互联网时代战胜了强大的Intel,拿下了今天移动终端的大市场。

不可否认的是,ASIC是专门为特定应用开发的,灵活性较差,且开发成本高昂耗时;而GPU是可编程的,灵活性高,可用于各种任务,可快速实施,拥有成熟的软件和硬件基础设施,包括广泛使用的编程语言和库。即使在可扩展性方面,GPU迄今为止也得分颇高。英伟达目前是最受欢迎的AI芯片制造商之一不足为奇。

但是,这样的局面还能持续多久?


达到的极限GPU 能否交给ASIC接力

目前,主流AI芯片主要包含以GPU为代表的通用芯片、ASIC定制化为代表的专用芯片及FPGA为代表的半定制化芯片。当谈论大语言模型及训练集群或一般的人工智能时,GPU仍是默认选择——专为图形处理而生的GPU,并行处理能力出色,符合AI计算场景的需求,如处理大量数据集和加快模型训练时间等。英伟达的GPU仍被用于为最强大AI模型的训练和运行提供动力。

然而,尽管在训练场景中效率很高,GPU在扩展AI应用以进行广泛使用方面,却仍面临着重大的缺点。在成本和能源上,它是一种昂贵的选择。雷峰网了解到,GPU设计侧重于64位元素来处理广泛的计算任务,但在实时AI工作负载中,放弃64位组件可以将芯片尺寸和能源需求减少多达三分之一,同时仍能满足大多数AI处理需求

随着AI走向推理,特别是处于必须在靠近源头的地方处理数据的边缘环境时,与GPU相关的高成本和功耗将变得越来越难以承受。GPU或已达到极限。

相反,专用于AI的ASIC现在为特定推理任务提供了更具成本效益和更强大的替代方案。进行推理更强调的是适合边缘部署的可扩展、节能的硬件解决方案——边缘AI设备在现场处理数据,而非将其传输到中央数据中心,因此,它们会受益于轻量级、专用的芯片

除了博通,另一家相对年轻的ASIC制造商Etched研发出了世界上第一款Transformer ASIC 「Sohu」。他们对未来的信心不仅在产品上,还在ASIC的发展势头上——

过去几年内,AI模型已变得如此智能,甚至比人类更好地执行标准化测试,这得益于它们获得越来越多的计算能力。然而,数据中心的扩展并非无限,Etched指出:「再扩大1000倍将是昂贵的,下一代数据中心的成本将超过一个小国的GDP。按照目前的速度,我们的硬件、电网和钱包都跟不上」

「如果模型的训练成本超过10亿美元,推理成本超过100亿美元,那么专用芯片是不可避免的。在这种规模下,1%的改进就足以证明一个价值5000万至1亿美元的专用芯片项目是合理的」,Etched说道。

此外,在另一个领域——挖矿,ASIC和GPU也各有所长。ASIC作为定制专用芯片,在可靠性、保密性、算力、能效上,都比通用芯片更强,相较于GPU和CPU,在挖矿时效率也会更高。据统计,ASIC计算哈希(Hashes)的速度比GPU和CPU快10万倍,一台ASIC矿机可以提供约3000美元的高端哈希算力。

不过,由于ASIC是为开采特定货币而制造的专用集成电路,因此在应对加密货币挖矿业务或挖矿难度的变化方面,则缺乏灵活性。虽然ASIC矿机效率高、盈利能力强,但零售矿工和刚进入挖矿行业的个人,或会对ASIC矿机的高昂起始成本望而却步。

相较而言,GPU由于其多功能性,能挖掘各种加密货币,矿工可以在不同的加密货币之间切换,以应对网络难度和挖矿操作的变化。但GPU能耗高,经济性较差,且需要大量显卡和辅助冷却设备,GPU设备也需要更大的空间,这对于空间有限的矿工可能会成为问题。

不可否认的是,GPU将继续在人工智能训练中发挥关键作用,但由于其成本和能源效率限制,行业向ASIC的转变也已出现。未来GPU是否依然能占据大量的市场份额?ASIC漫长的开发周期和初始成本,又能否满足日新月异的AI时代下用户的需求?在对AI大模型的发展由训练转向推理的当下,一切悬而未决。



参考资料:

https://www.cnbc.com/2024/12/14/broadcoms-long-path-to-the-trillion-dollar-club-and-trumps-role.html

https://www.investing.com/news/swot-analysis/broadcoms-swot-analysis-ai-chip-leaders-stock-poised-for-growth-93CH-3775161

https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-gpu-clusters-with-one-million-gpus-are-planned-for-2027-broadcom-says-three-ai-supercomputers-are-in-the-works

https://finance.yahoo.com/news/nvidia-broadcom-top-analyst-picks-141957599.html

https://www.artificialintelligence-news.com/news/broadcom-ai-surge-challenges-nvidia-dominance/

https://theafricalogistics.com/money/broadcoms-journey-to-the-1-trillion-club-a-semiconductor-success-story/

https://www.bitdeer.com/learn/asic-vs-gpu-what-are-the-main-differences-to-consider

https://www.all-about-industries.com/asics-versus-gpus-does-the-ai-future-not-lie-in-nvidias-hands-a-616108ac6928e3d542c757192c7c26e7/

https://awavesemi.com/is-a-gpu-asic-or-chiplet-based-soc-better-for-ai-as-we-switch-from-training-to-inference/


]]>
芯片 //m.drvow.com/category/chips/aYpohk3s2HOUnFcJ.html#comments Wed, 18 Dec 2024 16:07:00 +0800
更快、更强、更小,AI让HBM「卷」出新高度 //m.drvow.com/category/chips/fXk91cBzBVdHRHc3.html 由于人工智能加速器、图形处理器和高性能计算应用程序需求量持续激增,高带宽内存(HBM)的销量正在飙升。

人工智能浪潮引发的资本市场对于大语言模型生态的投入使HBM常常处于断货状态,因为HBM是创建大模型所需数据的首选储存器。并且,为了提升性能而打造的多层高密度构造以及SRAM(静态随机存取存储器)面临的限制都将市场对HBM的需求推到了更高的维度。

Rambus高级副总裁兼硅IP总经理Matt Jones表示:“随着人工智能训练模型的不断扩大,对于硬件层面的性能要求也在不断提高,这就要求内存的创新解决方案,为了确保人工智能的持续增长和进步,业界必须继续克服内存带宽和容量方面的障碍。”

这种势头很大程度上由先进封装推动,在许多情况下,先进封装可以提供比系统级芯片SoC更高效的数据路径。日月光半导体(ASE)投资者关系主管Ken Hsiang在最近的财报电话会议上表示:“前沿封装正处于爆发的前夜,无论是人工智能、网络还是其他正在研发的产品,对先进的互连技术的需求非常强烈。”

HBM与先进封装高度契合。三星半导体副总裁兼DRAM产品规划主管Indong Kim在最近的一次演讲中表示:“HBM定制将迎来一波大浪潮,人工智能基础设施的发展需要极高的效率和扩展能力,我们与主要客户一致认为,适用于人工智能产品的定制化HBM将是关键的一步。功率,性能和面积(power, performance and area,简称PPA)人工智能解决方案的关键,定制将在PPA方面提供重要价值。”

过去,经济效益严重地限制了HBM被广泛采用。 硅中介层(协助上下层节点进行信息交换)价格昂贵,而在前道工序(FEOL)的存储单元之间处理大量硅通孔 (TSV,穿透硅晶圆或芯片的垂直互连技术) 同样成本高昂。日月光半导体的工程和技术营销高级总监曹立宏表示:“随着高性能计算、人工智能和机器学习带来的需求增加,中介层的尺寸也显著增加,高成本是其面临的主要缺点。”

虽然这限制了它在大众市场的吸引力,但对成本不太敏感的应用(如数据中心)仍表现出强劲的市场需求。HBM的带宽是任何其他存储技术无法比拟的,硅中介层的2.5D集成已经成为事实上的标准。

但客户是贪婪的,他们永远在追求更好的性能,这就是为什么HBM制造商在不断改进凸块材料和成型材料,实现从8层到12层及16层DRAM的飞跃,从而能够以闪电般的速度处理数据。HBM4的数据处理速度将在HBM3E的基础上有很大的提升,而实现这一目标的主要策略是将数据线的数量从HBM3的1024条增加到2048条。

在全球市场中,有三家主要的公司生产HBM内存模块,即美光、三星和SK海力士。虽然他们都使用TSV和微凸点技术(在集成电路封装过程中用于实现芯片间互连的微型连接点),将DRAM堆栈和配套设备集成到先进的封装中,但每家公司采用的方法略有不同。三星和美光在每个凸块层都加入了非导电薄膜(NCF,该薄膜是一种聚合物材料,用于使芯片彼此绝缘并保护连接点免受撞击)及热压键合(TCB,焊接工艺,将芯片与基板固定在一起)技术。而SK海力士则继续采用倒装芯片大规模回流工艺的模塑底部填充(MR-MUF)方案,该工艺可以将堆栈密封在高导电性成型材料中。

HBM的垂直连接是使用铜TSV和堆叠DRAM芯片之间的缩放微凸块来实现的,下部缓冲器及逻辑芯片为每个DRAM提供数据路径。产品的可靠性问题很大程度上取决于回流、粘接和模具反磨过程中的热机械应力,而识别潜在问题需要测试高温工作寿命(HTOL)、温度湿度偏差(THB)和温度循环,可以通过采用预处理、无偏湿度和压力测试(uHAST)来确定各层之间的粘附水平。此外,还需要进行其他测试,以确保长期使用中不会出现微凸块短路、金属桥接或芯片和微凸点之间的接口分层等问题。混合键合是替代HBM4代产品微凸块的一种选择,但前提是满足产量目标。

另一项正在研发的技术是3D DRAM,其参考3D NAND闪存技术,将存储单元进行翻转。三星的Kim表示:“3D DRAM堆叠将大大降低功耗和占用的面积,同时消除来自中介层的性能障碍,内存控制器从SoC移到基础裸片(晶圆经过切割测试后没有经过封装的芯片)将为人工智能提供更多的逻辑空间。我们坚信定制HBM将实现性能和效率双双提升,紧密集成的内存和代工能力将为大规模部署提供更快上市及更优质的产品。

这里的总体趋势是将逻辑组件移动到更靠近内存的地方,以便在内存中或内存附近执行更多的处理,而不是将数据移动到一个或多个处理元素。但从系统设计的角度来看,要实现技术的落地还面临很多困难。

Lam Research高级封装技术总监cheping Lee表示:“这是一个激动人心的时刻,人工智能如此火热,HBM可以储存一切,各家存储器制造商都在争分夺秒地率先生产下一代HBM。”

关于下一代产品HBM4, JEDEC(固态技术协会)正忙于制定这些模块的标准。同时,JEDEC将HBM3E标准的最大内存模块厚度从720mm扩展到775mm,这仍然适用于40μm厚的芯片。HBM标准确定了每针传输速率、每个堆栈的最大芯片数量、最大封装容量(单位为GB)和带宽等参数。标准的设置使得设计和流程得以简化,从而帮助HBM产品以更快的速度进入市场,现阶段为每两年进行一次产品的迭代。即将推出的HBM4标准将定义24Gb和32Gb层,以及4层、8层、12层和16层高TSV堆栈。

HBM的进化史:对工艺和带宽的极致追求

高带宽内存的发展可以追溯到2008年,最初的研发愿景是通过这款产品解决计算内存面临的功耗和占用面积增加的问题。

三星电子的Sungmock Ha及其同事表示:“当时,作为最高频段DRAM的GDDR5,其带宽被限制在28GB/s(7Gbps/引脚 x 32个输入/输出端口)。”而HBM Gen2的出现使技术实现重大的提升,通过将输入/输出端口的数量增至1024个,在不降低频率的情况下,成功实现了307.2GB/s的带宽突破。

从HBM2E开始,厂商通过采用17nm高K金属栅工艺( 利用高K介质材料代替常规栅,可以有效解决多晶栅极耗尽问题),达到每引脚3.6Gbps,带宽460.8GB/s。而目前HBM3新推出了每引脚6.4Gbps的传输速率,实现8到12个芯片堆叠,与上一代相比带宽提高了约2倍。

这只是故事的一部分,HBM还一直在向处理技术靠拢,以提高性能。

大规模回流焊是最成熟和最便宜的焊接方案。Amkor的工程和技术营销副总裁Curtis Zwenger表示:“大多数情况下,都会采用大规模回流焊技术,因为设备安装的资本支出很大,但后续的生产成本相对较低。这项技术为将芯片与高端模块连接到封装基板上提供了一种经济实惠且高效的方式。不过,随着对性能的需求不断提升,以及异构集成(指将多个不同工艺节点单独制造的芯片封装到一个封装内部,以增强功能性和提高性能)模块和高级基板解决方案空间的日益扩大,其导致的后果是异构集成和基板的翘曲程度加剧。而热压技术和R-LAB(反向激光辅助键合)作为传统大规模回流焊的工艺升级,可以更好地处理翘曲问题。”

微凸块金属化工艺通过优化后,可以提高可靠性。如果微凸块与焊盘之间的连接采用传统的回流工艺,并且其中含有助焊剂和底部填充材料,则填充的空隙和剩余的助焊剂残留可能导致凸块之间夹带的形成。为了解决这些问题,预涂非导电薄膜(NFC)被广泛采用,其可以在一步键合工艺中取代助焊剂、填充材料和键合步骤,并且不会产生夹带。

三星每一代产品都会增加NCF材料的厚度,NCF本质上是一种环氧树脂,含有固化剂和其他添加剂。这项技术带来很多好处,特别是在更高的叠层上,因为业界正在努力减轻芯片裸片变薄带来的芯片裸片翘曲问题,而其优化的点在于完全填充凸点周围的底部填充区(为凸点提供缓冲),使焊料流动,避免空隙产生。

SK海力士从HBM2E产品开始,就将大规模回流模塑底部填充技术改为NCF-TCB。其导电模具材料是与材料供应商合作开发的,可能使用专有的注射工艺,这一技术使得SK海力士实现出色的晶体管结温控制。

HBM中的DRAM堆栈被放置在缓冲芯片上,由于各家公司都在努力将更多的逻辑应用到这一基础芯片上以降低功耗,同时还将每个DRAM内核与处理器连接起来,使缓冲芯片的功能在不断增加。每个芯片都被挑拣出来并放置在载体晶圆上,然后回流焊,最后堆叠成型,经过背面研磨、清洁和切割等工序打造出产品。台积电和SK海力士宣布,晶圆代工厂今后将向内存制造商提供基础芯片。

新思科技研发总监Sutirtha Kabir表示:“逻辑存储器始终是市场关注的焦点,尽管这个领域在此前就已经被研究过。但每一种解决方案都将在电力和热能方面面临挑战,这两者是密切相关的。直接影响是热应力(由于温度变化引起材料内部或外部产生的应力),这不仅局限于组装层级,对整个系统都会产生影响。由于可能会使用混合键合或者细间距键合技术,热问题对机械应力的影响更值得探究。”

此外,基础逻辑产生的热量也会在逻辑芯片和DRAM芯片之间的接口处产生热机械应力。由于HBM模块的位置靠近处理器,来自逻辑芯片的热量不可避免地传导到存储器内。SK海力士的高级技术经理Younsoo Kim表示:“我们的数据显示,主机芯片温度每升高2℃,HBM的温度至少会升高5-10℃。”

NCF-TCB工艺同样面临挑战。在高温高压下发生的热压键合会导致2.5D组装出现问题,例如凸起与底层镍垫之间的金属桥接或界面分层。另外,TCB本身的产量也相对较低。

对于任何多芯片堆叠而言,翘曲问题与表面材料的膨胀系数(TCE)不匹配有关,在加工和使用过程中,这会导致温度循环产生应力。应力通常集中在一些关键部位,比如在基础裸片和第一个内存芯片之间,以及微凸块层级。产品的仿真模型可以帮助解决这些问题,但也有部分问题只有在实际产品应用中才能充分体现其带来的影响。

人工智能应用的运行依赖于对DRAM芯片、TSV、集成基本逻辑功能的芯片和多达100个去耦电容器的成功组装和封装。与图形处理器、CPU或其他类型处理器的结合是一个精密设计的组装工程,需要所有组件实现有机契合,以形成高产且可靠的系统。

随着行业从HBM3过渡到HBM4,制造高性能DRAM堆栈的工艺只会变得更加复杂。不过,供应商和芯片制造商也在关注更低成本的替代品,以进一步提高这些高速和不可或缺的内存芯片堆栈的被市场采用。

本文由雷峰网编译自:https://semiengineering.com/hbm-options-increase-as-ai-demand-soars/



]]>
芯片 //m.drvow.com/category/chips/fXk91cBzBVdHRHc3.html#comments Fri, 13 Dec 2024 15:46:00 +0800
「时代」的 苏姿丰 //m.drvow.com/category/chips/UoHWdWN1C6JNTQ3t.html 2018年4月15日下午,F1中国站大奖赛正在上海举办。英国Skysports电视台记者关注到赛场上徘徊着一个与周围环境格格不入的“大妈”,他上前询问到:“你会讲英文吗,你是这次大奖赛我采访到的第一个幸运儿,你在赛道上干嘛呢?”

对方回复称:“我来自AMD,我们赞助了法拉利车队”,说完便转头潇洒离开,这位不羁的“大妈”便是掌舵AMD十年,让公司重新走向复苏的苏姿丰。

身着剪裁考究的西装和高跟鞋以及她那半永久的短发背头,让苏姿丰在每次公开场合的露面都散发着自信和力量。发布会上,右手举着的最新一代芯片处理器固然吸睛,但左手无名指上八克拉的钻戒却更引人注目,雷厉风行是她的代名词,这也难怪苏姿丰能将AMD这家濒临倒闭的公司扭转成为全球芯片巨头。

12月11日,苏姿丰当选《时代》杂志2024年年度CEO,在《时代》发布的公告推文中,评论区两百多条评论几乎一边倒地在问“Why not Jensen, Why not Elon”。为什么是苏姿丰,她的故事值得从头说起。

犹太人的「教育圣经」,骨子里的「工程基因」

两岁时,苏姿丰随家人移民美国,那个时代能迁居美国的,大部分是精英阶层。父亲苏春槐是美国哥伦比亚大学数理统计所博士,更是后来的纽约市政府首席统计师。

苏春槐的教育理念很大程度来自于犹太圣经《塔木德经》,他认识到犹太人绝不是因为天生聪颖,而是靠教育和学习奠基日后的成就,在教育儿女方面,犹太人也更重视鼓励小孩独立思考和主动发问。苏春槐将这番理念用在子女的教育上,后来,儿子成为瑞士信贷投资的主要操盘手,而女儿则是半导体巨头AMD的掌舵人。

在美国,苏姿丰经历了不同的人文环境。苏春槐回忆说,女儿很小就对STEM学科展现出不一样的兴趣,经常拆开玩具车来探索内部的工作原理。苏姿丰说:“每当我们们坐在餐桌旁时,父亲就会让我们练习乘法表,这促使我必须在数学方面表现出色,也让我一直对事物的工作原理和结构充满好奇”。家人从未限制过她的兴趣,她不喜欢娃娃这样的玩具,而父母也非常呵护她的好奇心,营造了开放的学习和生活环境。父母的支持加上天生的好奇心,指引着她投身工程事业。

后来,苏姿丰进入素有“物理学家摇篮”之称的布朗克斯科学高中,班里的同学都是同龄人里的佼佼者。这种竞争激烈的环境让她养成追求卓越的习惯,不仅在学业上,还在未来的职业生涯中。毕业后,她顺利入读麻省理工学院并选择了电气工程专业,因为她认为这是最难的专业。由于感觉自己太年轻,苏姿丰又听从父母的建议,攻读博士学位,从麻省理工博士毕业这一年,她才25岁。

苏姿丰在接受播客节目《Behind the Tech》的采访时表示:“博士学位给我带来的价值无法估量,它不仅是学历,更是一个让我学会如何思考并解决复杂问题的机会,攻读博士意味着在所研究领域做出最高水平的贡献。想象一下,某个没人能解决的问题,你能去书本里找到答案吗?很明显这是行不通的。我们真正需要做的是研究如何解决问题,如何为行业或学术界做出贡献。”

不给哈佛的MBA打工,要成为「绝对的领导者」

“从不挑软柿子捏”是苏姿丰面对困难的人生信条,她总在公开场合鼓舞人们去挑战困难的事情。1995年,从德州仪器离开后,苏姿丰加入了曾经的半导体巨头IBM,负责半导体研发的业务。

在IBM工作两年后,苏姿丰实现第一个改变行业的成就。 铜是集成电路中最佳的导电材料之一,仅次于金和银,而成本又比金和银低很多,为了提升芯片效能,苏姿丰提出了一个当时尚未得到证实的想法:用铜取代芯片中的铝做为互连金属。解决铜在导电过程中面临的稳定性问题后,铜换铝成了行业里的主流,直到现在,芯片行业仍把铜作为互联金属。

为了提升芯片的效能,苏姿丰团队在绝缘体上硅领域实现技术突破,团队在硅晶体管之间加入绝缘体物质,使寄生电容比原先减少一倍,从而实现时钟频率提升、漏电减少以及在工艺上节省光掩模材料,这是又一个改变行业的成就。

而大约在同一时间,苏姿丰在IBM获得了内部创业的机会,她领导的团队与索尼和东芝合作设计出Cell芯片,这是一款多核处理器,专供给索尼旗下的游戏主机PlayStation3。Cell展现出了革命性的表现,其效能比以往提升了1000倍,苏姿丰也因此被外界称为“电子游戏技术女王”,她的职业生涯乘上东风。

这些成就后来被永远地刻在IBM的功碑中。苏姿丰在IBM工作了12年,其中有一年她曾担任IBM CEO郭士纳的助理,跟着大象学跳舞,苏姿丰在他身上学到了商业和管理方面的知识,这是在麻省理工和做研发时从未接触到的内容,她称之为“世界上最好的MBA教育”,一路干到半导体研发副总裁后,苏姿丰离开IBM,加入飞思卡尔半导体,担任高级副总裁兼CTO,在这里,苏姿丰度过四个春秋。

凭着苏姿丰这些年在半导体行业积累的能力和战绩,硅谷的企业都向她敞开大门,就算是自己出来单干,也有大把人追着给她“送钱”。

2012年,苏姿丰选择加入AMD,担任高级副总裁兼全球业务部门总经理。这是一个没人能理解的决定,就连在AMD的上司都盘问她你为什么要加入我们。

彼时的AMD几乎到了穷途末路,2010年,AMD HD6900系列显卡的散热器和电插头位置不匹配,为了保证产品能准时上市,AMD“手工”把十万块显卡散热器的插头打磨掉一个角,外界戏称AMD从技术密集型企业变成劳动密集型企业。虽然AMD一直将英特尔视为自己的对手,但其1.61美元的股价,市值仅为英特尔19.52亿美元的1%。

而苏姿丰认为这正是她想要的,她想要成为一个半导体企业的绝对领导者,想要写下现代商业史最精彩的转型故事,而不再是为谁打工,命悬一线的AMD给了她这个绝佳的机会。正如她在2017年麻省理工毕业典礼演讲时所提到的:“我发现很多麻省理工的PhD在给哈佛的MBA打工,我希望能改变这种现象”。

扭转AMD的命运并非易事。

但苏姿丰自小就是一个不服输的人,她曾在接受媒体专访时表示:“I love to win!”

由于AMD此前和英特尔长期的军备竞赛,将业务范围铺得很广,造成了大量的业务冗杂,2014年,苏姿丰上任CEO后需要重塑一切,搞人、搞钱、搞业务。

2014年10月,刚刚辞去戴尔副总裁一职的福雷斯特·诺罗德(Forrest Norrod)正坐在麦当劳里,突然接到苏姿丰打来的电话。苏姿丰想劝他加入AMD,诺罗德就这样一边吃着奶酪汉堡,一边听着苏姿丰构想着看起来没什么未来的AMD的未来。

一通电话后,本打算休假一段时间的诺罗德第二天准时出现在了AMD的总部,加入AMD出于两方面的考虑,一是如果英特尔主导市场,那会导致行业的创新脚步放缓,另一方面是他对苏姿丰的评价,一个集技术、商业头脑和人际交往能力于一身的人。

花54亿美元收购了ATI以及面对英特尔的节节败退,AMD的账面现金慢慢见底。苏姿丰上任后主导了让AMD迅速回血的技术变现,对国内的海光信息进行技术授权并与通富微电子成立合资公司,再出售掉其中的股权,一番运作之下,AMD账上多了6.6亿美金。

苏姿丰的业务策略是聚焦关键市场,包括PC端的CPU以及用于游戏机业务的GPU,其它业务全部出售,AMD自有的芯片产线也被砍掉。当时,团队有成员提出进入手机芯片行业,2014年的手机行业是黄仁勋也拒绝不了的市场,苏姿丰一口回绝,她说:“我们不是一家手机芯片厂商,我们只做自己擅长的事。”

苏姿丰把几乎所有资源押注在高性能计算领域,2016年,AMD发布x86-64微架构“Zen”,希望能扭转“Bulldozer”架构的颓势,Zen是AMD重返高性能计算市场的重要产品,完全颠覆了旧架构的设计,首款Zen架构处理器“Ryzen”锐龙于2017年3月份正式上市。

在芯片生产上,由于AMD的代工厂GlobalFoundries迟迟无法实现制程上的突破,苏姿丰毅然赔付天价违约金,取消与GlobalFoundries签订的永久合约,转头与成功研制出7nm生产工艺的台积电达成合作。

一步步极具魄力的决策带着AMD逐渐找回以往的荣耀。而复苏的背后,是苏姿丰信奉的“5%哲学”。

从AMD处理器发展的路线图不难看出,苏姿丰从未想过一蹴而就。她知道,设定不切实际的增长目标会适得其反,挫伤团队的士气,她想要的是团队每一天都能感受到在进步。“5%哲学”为AMD灌输了一种持续改进的文化,沿着正确的方向小步快跑、稳健迭代才是AMD的产品策略。

2022年,AMD的市值首次超过了“宿敌”英特尔。诺罗德说:“这感觉太棒了,几年前,这个行业的任何人都不会相信会发生这样的变化”。AMD的股价目前在140美元左右,自苏姿丰接掌以来上涨了近50倍。

今年秋天,苏姿丰掌舵AMD的案例被写进哈佛商学院的案例研究中。《芯片战争》的作者克里斯·米勒(Chris Miller)说:“这确实是现代美国商业史上最伟大的转型故事之一。”

掌舵AMD,苏姿丰推崇「铁腕管理」

苏姿丰总是以非常飒爽的姿态出现在人前,她是一个会因为自己看起来略显疲惫而给别人道歉的人。

最近的一个下午,在AMD位于圣克拉拉的总部,苏姿丰和几位高管坐在她最喜欢的会议室角落里,因为在这里透过玻璃可以看到英伟达和英特尔的办公室。会上,苏姿丰敦促着她的同事们尽快完成人工智能芯片的销售目标,她说:“我们不能错过任何一个节拍,无论组织如何运转,我们都不能放慢速度。”

比起在媒体面前展现出的随和和滴水不漏,在AMD内部,苏姿丰更推崇铁腕管理。

科技行业分析师、前AMD高管帕特里克.穆尔黑德(Patrick Moorhead)表示,这种苛刻的管理风格,让那些无法完成业绩考核的人很难在公司生存下去。

人工智能实在是太火了,苏姿丰对团队的敦促也属人之常情,但可以窥见的是,在这样的市场背景下,企业一把手难免焦虑。单单今年,她就连续出手买了两张进入人工智能行业的门票。

7月12日,AMD签署最终协议,斥资6.65亿美元现金收购欧洲最大的私人AI实验室Silo AI,补齐了AMD的大模型开发能力以及AI人才。一个月后,AMD宣布以49亿美元的价格收购设计云计算和人工智能数据中心设备的ZT Systems。

补齐能力短板之外,降维打击是苏姿丰切入人工智能芯片市场的另一个战略。

2023年11月,硅谷东部一个高度保密的实验室里,科学家们正在庆祝超级计算机El Capitan登顶全球超算排行榜。El Capitan的算力是难以想象的,如果地球上的每个人每秒计算一次,那么人类需要480年才能计算出这台超级计算机一分钟的计算量,而驱动这台超算的是44000个AMD芯片组成的芯片集群。

得知El Capitan成为世界最强超算的苏姿丰欣喜地说:“我为这些日子而活。”

苏姿丰称:“El Capitan的芯片毫无疑问是我们制造过的最复杂的东西”。正是这样的复杂工程,让设计人工智能芯片看起来似乎没有那么困难。AMD的CTO马克.佩珀马斯特(Mark.Papermaster)表示,目前在人工智能市场上销售的最先进的AMD芯片Instinct MI300X,是El Capitan所搭载芯片的“近亲”。得益于El Capitan内部芯片的设计,使得切换不同组件相对简单。苏姿丰称:“传统的高性能超级计算和人工智能之间有很多协同作用。”

在过去的一年里,AMD来自人工智能芯片的销售收入从0跃升至50亿美元,约占整个市场的5%。

5%太少了,AMD想要更多。Meta等巨头们也不希望英伟达垄断这个领域,这为AMD提供了市场机会窗口。AMD正在开发自己的软件系统,希望形成自己的生态闭环,Meta采购了AMD的芯片并希望这个新的生态做一点贡献。

苏姿丰不害怕竞争,或者说她渴求竞争,毕竟能参与竞争就代表AMD上了牌桌。

对于人工智能芯片市场,苏姿丰说:“没有人想被锁定在一个专有的生态系统中。让我们投资于一个开放的生态系统,然后祝最好的芯片获胜。”

巨头们也开始在内部设计一些自己的芯片,长期来看,这可能对AMD构成威胁。但苏姿丰并不这样认为,她说:“没有公司想要复制AMD每年60亿美元的研发投入,他们中的大部分还是要在AMD这里继续花钱,一些工作负载或许可以依赖他们内部的芯片,毕竟在计算机领域没有放之四海而皆准的标准,生态系统越广泛,派对就越大。”

面对CUDA筑起的难以逾越的护城河,所有人都希望有一个“开放生态”。但如果角色倒过来,恐怕没人会鼓吹这个想法。

“我们找不到比她更适合这份工作的人了”,AMD88岁的创始人兼首任CEO杰里·桑德斯(Jerry Sanders)说。面对记者问到:“她有可能有朝一日击败英伟达吗”?他回答说:“在我看来,这不是一个问题。”

又或许苏姿丰和AMD不需要赢,毕竟她和AMD已经战胜了自己,而这也是她对“Why not Jensen, Why not Elon”的回答。

雷峰网参考材料:

https://time.com/7200909/ceo-of-the-year-2024-lisa-su/

https://www.tatlerasia.com/power-purpose/wealth/amd-ceo-lisa-su-sharing-management-secrets-and-philosophy

https://stratechery.com/2024/an-interview-with-amd-ceo-lisa-su-about-solving-hard-problems/

https://a16z.com/how-to-build-ai-ecosystem-lisa-su-ceo-of-amd/

https://www.youtube.com/watch?v=xxcJzv_sgHg

]]>
芯片 //m.drvow.com/category/chips/UoHWdWN1C6JNTQ3t.html#comments Fri, 13 Dec 2024 14:51:00 +0800
5分钟完成传统超算10²⁵年计算量,谷歌Willow在量子纠错领域实现「关键一跃」 //m.drvow.com/category/chips/X0N4hjJQkLMgO6Jb.html 量子计算机赛道里,挤满了巨头和初创公司。由于量子计算机可以执行工作负载,解决现阶段即使是最强大的计算机都无法解决的问题,因此在全球范围内,量子计算市场正高速增长,数十亿美元流入这个领域。

由于这项技术尚处于早期阶段,量子计算带来的收入仍然比支出少很多倍,而且真正的量子计算机何时出现仍然存在争议。构建量子计算机面临许多难题,其中一个关键因素是「量子纠错」

量子比特是量子计算的基本运算单元,即量子系统的组成部分,它对温度波动、电磁辐射和振动等一系列外界干扰都非常敏感。而量子纠错作为保护量子比特不受错误影响的一系列技术,对于确保量子计算的准确性至关重要。

位于加州圣巴巴拉的谷歌量子人工智能实验室的研究人员表示,他们已经解决了量子系统纠错的一个关键挑战,这是科学家们三十年来一直试图破解的问题。在一个系统中使用的量子比特越多,错误就会越多,而量子计算的发展需要满足的另一个必要条件是系统扩展的能力,但错误与量子比特数量成正比无疑对系统的扩展造成了阻碍。

谷歌实验室的研究科学家Michael Newman表示,纠错需要将许多物理量子比特聚集到一起,让它们协同工作,从而形成一个逻辑量子比特以实现量子纠错。

Newman在一次视频采访中告诉记者和分析师:“我们希望,随着这些量子比特的集合越来越大,纠错的次数越来越多,实现量子比特越来越准确。问题是,随着量子比特的集合变得越来越大,也会有更多的错误出现,所以我们需要足够好的设备,这样当我们把集合做大时,纠错才可以克服这些额外错误。”

20世纪90年代,「量子纠错阈值」概念被提出,其想法是如果量子比特足够好,那么随着系统变得更大,这些物理量子比特组也可以变大,而且不会出现额外错误。谷歌表示,这是一个三十年的目标,直到现在还没有实现。

本周在《自然》杂志上,谷歌介绍了最新的量子芯片Willow,其前身是谷歌旗下的Sycamore量子处理器。在使用72量子比特和105量子比特的Willow处理器实验中,谷歌的研究人员测试了越来越大的物理量子位阵列,即逻辑量子比特,这些阵列大小从3×3、5×5到7×7不等,每次逻辑量子位的尺寸增加,都能实现错误率「不增反降」

Newman称:“每次我们增加逻辑量子比特,或者进行差异化分组,从3×3、5×5再到7×7的物理量子位阵列,错误率都没有上升,而且它实际上一直在下降。我们每一次增加尺寸,都会使错误率下降两倍。”

谷歌的量子硬件主管Julian Kelly称纠错是“量子计算机的终极游戏”,并补充到:“要明确的是,如果你没有低于阈值,那么进行量子纠错真的没有意义,低于阈值是使这项技术成为现实的关键因素。”

在《自然》的研究论文中,研究人员写道:“虽然许多平台已经展示了量子纠错的不同特征,但没有一个量子处理器明确显示出低于阈值的性能。”他们补充说,量子计算容错需要的不仅是原始性能,还需要随着时间的推移保持稳定性,消除诸如泄漏之类的错误来源,并提高传统处理器的性能。而超导量子比特的操作时间从几十纳秒到几百纳秒不等,这在速度上提供了优势,但也对快速准确地解码错误提出了挑战。

Kelly在发布会上称,Willow纠错能力提升的关键是芯片中改进的量子比特,她说:“Willow集成了Sycamore的所有优点,在此基础上有了更好且更多的量子比特。”

在《自然》杂志的论文中,研究人员指出了Willow带来的提升,如T1(衡量量子比特保持激发态的时间)和T2的改进,他们将其归因于更好的制造技术、比率工程和电路参数优化。研究人员还注意到Willow在解码方面的改进,其使用了两种离线高精度解码器。

Kelly补充说,此前的Sycamore是在加州大学圣巴巴拉分校的一间共享洁净室里研发的,而建造自己的实验室为谷歌的研究人员提供了更多的工具和更强的能力,Willow就是在谷歌自己的实验室里研发的,实验室内重新设计的内部电路有助于改善T1和比率工程。

除了纠错功能,谷歌研究人员还使用随机电路采样(RCS)基准测试了Willow的性能, RCS是当前量子计算机可以完成的最难的基准测试。谷歌量子实验室创始人兼负责人Hartmut Neven在宣布推出这款芯片时说,通过基准测试可以确定量子系统是否在做经典计算机做不到的事情。

2019年,通过RCS基准测试显示,最快的传统计算机也需要一万年才能完成Sycamore所能完成的工作。而Willow出现后,其在五分钟内完成的计算将需要橡树岭国家实验室中拥有1.68exaflops性能的超级计算机耗费10²⁵年才能完成。

Kelly称:“Willow性能跃升的关键不仅在于基于Sycamore进行改进,更重要的是它的工作集成了所有部件。量子比特本身的质量必须足够好,纠错才能启动,而我们的纠错演示表明,在集成系统层面,一切都能同时工作。从量子比特数量、T1到双量子比特错误率,一切都在同时起作用,而协作正是这项挑战长期以来难以攻克的原因之一。”

Neven称:"芯片的所有组件,如单量子比特门和双量子比特门、复位比特和读出比特,都必须同时精心设计和集成。如果任何组件落后或两个组件不能很好地协同工作,都会拖累系统整体性能。因此,从芯片架构和制造到栅极开发和校准,最大限度地提高系统性贯穿于我们流程的方方面面。Willow的突破是对量子计算系统的整体评估,而不局限于评估一个因素。”

实验室主任兼首席运营官Charina Chou在发布会上说,虽然迄今为止的量子发现令人兴奋,但这些成果还是可以用传统计算机来完成。因此,我们面临的下一个挑战是:量子计算能否展现出彻底颠覆传统计算机的性能?还没有人在中型量子计算(NISQ,指有50-100量子比特的规模)时代展示过这样的成果。

这是包括亚马逊、微软、IBM和众多初创公司在内的其他厂商也在追求的目标,谷歌希望Willow是实现这一目标的「关键一跃」。

本文由雷峰网编译自:https://www.nextplatform.com/2024/12/09/google-claims-quantum-error-correction-milestone-with-willow-chip/

]]>
芯片 //m.drvow.com/category/chips/X0N4hjJQkLMgO6Jb.html#comments Tue, 10 Dec 2024 18:08:00 +0800
芯片集群「贵」出天际,10年内单个集群价值将达万亿美元 //m.drvow.com/category/chips/wLNgxTkzEZLYJKSt.html 1958年,德州仪器的杰克.基尔比(Jack Kilby)设计出了带有单个晶体管的硅芯片。1965年,仙童半导体已经掌握了如何制造一块拥有50个晶体管的硅片。正如仙童半导体的联合创始人戈登.摩尔(Gordon Moore)当年观察到的那样,一块硅片上可容纳的晶体管数量几乎每年翻一番。

2023年,苹果发布了iPhone 15 Pro,由A17仿生芯片驱动,这款芯片拥有190亿个晶体管。56年来,晶体管的密度增加了34倍。这种指数级的进步,被粗略地称为摩尔定律,一直是计算机革命的引擎之一。随着晶体管变得越来越小、越来越便宜以及速度越来越快,今天实现了手握“超级计算机”的奇迹。但人工智能时代需要处理的数据数量之多,已经将摩尔定律推向了极限。

几乎所有现代人工智能中的神经网络都需要经过训练,以确定正确的权重(权重用来衡量输入信号对于神经元的影响程度,即不同输入的重要性权重),从而为其数十亿,有时甚至数万亿的内部连接赋予正确的权重。这些权重以矩阵的形式存储,而训练模型则需要使用数学方法对这些矩阵进行操作。

单层神经网络的本质是矩阵相乘,两个按行和列排列的数字矩阵集合被用来生成第三个这样的集合,第三个集合中的每个数字都是通过将第一个集合中某一行的所有数字与第二个集合中某一列的所有数字相乘,然后相加而得到的。如果矩阵很大,有几千或几万行几万列,而且需要随着训练的进行反复相乘,那么单个数字相乘和相加的次数就会变得非常多,这就是人工智能的“思考方式”,通过对输入数据的处理得出答案。

然而,神经网络的训练并不是唯一一种需要高效处理矩阵乘法运算的技术。游戏产业高质量的视觉呈现同样需要这一技术,在25年前,这是一个巨大的市场。为了满足这一需求,英伟达率先设计了一种新型芯片,即图形处理器(GPU),在这种芯片上布置并连接晶体管,使其能够同时进行大量矩阵乘法运算。与大多数中央处理器(CPU)相比,GPU可以更大批量地处理数据,而且能耗更低。

2012年,训练AlexNet(开创 “深度学习 ”时代的模型)需要为6000万个内部连接分配权重。这需要4.7x10^17次浮点运算(flop,算力最基本的计量单位),每次浮点运算大致相当于两个数字的相加或相乘。此前,这么多的计算量是不可能完成的,但当时两个GPU就完成了AlexNet系统的训练。相比之下,如果使用当时最先进的CPU仍需要耗费大量的时间和算力。

乔治城大学安全与新兴技术中心最近发布的一份报告称,在用于训练模型时,GPU的成本效益比CPU高出10-100 倍,速度提升1000倍。正是因为有了GPU,深度学习才得以蓬勃发展。不过,大型语言模型(LLM)进一步推动了对计算的需求。

「Scaling Laws」打破「Moore's Law」

2018年,OpenAI的研究人员亚历克.拉德福德(Alec Radford)利用谷歌研究人员在“Attention Is All You Need”中提出的Transformers(采用注意力机制的深度学习模型),开发了一种生成式预训练变换器,简称GPT。他和同事们发现,通过增加训练数据或算力,可以提高大模型的生成能力,这个定律被称为“Scaling Laws”。

由于行业遵从Scaling Laws定律,大语言模型的训练规模越来越大。据研究机构Epoch ai估计,2022年训练GPT-4 需要2x10^25个 flop,是十年前训练AlexNet所用算力的4000万倍,花费约1亿美元。Gemini-Ultra是谷歌在2024年发布的大的模型,其成本是GPT-4的两倍,Epoch ai估计它可能需要5x10^25个flop。这些总数大得难以置信,堪比可观测宇宙中所有星系的恒星总数,或太平洋中的水滴合集。

过去,解决算力不足的办法就是耐心等待,因为摩尔定律还在生效,只需要等上一段时间,新一代的芯片就会集成更多更快的晶体管。但摩尔定律已经逐渐失效,因为现在单个晶体管的宽度只有几十纳米(十亿分之一米),要想实现性能的定期跃升已变得非常困难。芯片制造商仍在努力将晶体管做得更小,甚至将它们垂直堆叠起来,以便在芯片上挤出更多的晶体管。但是,性能稳步提升而功耗下降的时代已经过去。

随着摩尔定律放缓,想要建立更大的模型,答案不是生产更快的芯片,而是打造更大的芯片集群。OpenAI内部透露,GPT-4是在25000个英伟达的A100上训练的,这些GPU集群在一起,以减少在芯片间移动数据时造成的时间和能量损失。

Alphabet、亚马逊、Meta和微软计划在2024年投资2000亿美元用于人工智能相关的领域,比去年增长45%,其中大部分将用于打造大规模的芯片集群。据报道,微软和OpenAI正计划在威斯康星州建立一个价值1000亿美元的集群,名为 “星际之门”(Stargate)。硅谷的一些人则认为,十年内将出现一个价值1万亿美元的集群。这种超大规模基础设施建设需要消耗大量能源,今年3月,亚马逊在一座核电站隔壁购买了一个数据中心,该核电站可为其提供千兆瓦的电力。

对人工智能领域的投资并不全是在GPU及其功耗上,因为模型一旦训练完成,就必须投入使用。使用人工智能系统所需要消耗的算力,通常约为训练所需算力的平方根,这样的算力需求仍然很大。例如,GPT-3需要3x10^23flop的算力来训练,则推理需要3x10^11flop算力。FPGA和ASIC芯片是专为推理量身定制的,在运行人工智能模型方面,比使用GPU更高效。

不过,在这股热潮中表现最好的还是英伟达。英伟达的主导地位不仅来自其在GPU制造方面积累的技术和投入大量的资金(黄仁勋称,Blackwell的开发成本高达100亿美元)。此外,英伟达还拥有用于芯片编程的软件框架,即近乎已成为行业标准的CUDA。

竞争对手都在寻找英伟达的弱点。AI芯片独角兽企业SambaNova Systems的CEO Rodrigo Liang称,英伟达的芯片有几个缺点,这可以追溯到它们最初在游戏中的用途。其中一个特别大的问题是,在数据存取方面的能力有限(因为一个GPU无法容纳整个模型)。

另一家AI芯片初创公司Cerebras则推出了21.5厘米宽的“晶圆级”处理器。目前的大部分GPU包含大概成千上万个独立内核,可以进行并行计算过,而Cerebras开发的芯片包含近100万个。Cerebras声称,其另外一个优势是,它的能耗仅为英伟达最好芯片的一半。谷歌则推出了自己的张量处理单元(TPU),可用于训练和推理。其Gemini 1.5 ai模型一次摄取的数据量是GPT-4的八倍,部分原因就是采用了定制芯片。

尖端GPU的巨大价值与日俱增,使其成为地缘政治的筹码。虽然芯片产业是全球性的,但只有少数几个国家的技术控制着进入芯片产业高地的通道。英伟达的芯片在美国设计,世界上最先进的光刻机由荷兰公司ASML制造,而只有台积电和英特尔等尖端代工厂才能使用最顶级的光刻机。对于许多其他设备来说,地缘政治因素同样暗流涌动,日本是其中的另一个主要国家。

发展芯片和人工智能技术带来的政治博弈,使各国在这两个技术领域的投入不断增加,美国政府对向中国出口先进芯片实施严厉的管控,而中国正在投资数千亿美元来建立自己的芯片供应链。大多数分析人士认为,中国在这方面与美国仍存在较大的差距,但由于华为等公司的大笔投资,中国应对出口管制的能力比美国预期的要好得多。

美国也在加大投资力度,台积电在亚利桑那州投资约650亿美元建立晶圆厂,并获得约66亿美元的补贴。其他国家同样积极参与到这场竞争中,印度投入100亿美元、德国160亿美元以及日本260亿美元,未来,通过垄断人工智能芯片以阻碍其他国家人工智能产业技术发展的方式或许将会失效。

本文由雷峰网编译自:https://www.economist.com/schools-brief/2024/07/30/the-race-is-on-to-control-the-global-supply-chain-for-ai-chips


]]>
芯片 //m.drvow.com/category/chips/wLNgxTkzEZLYJKSt.html#comments Fri, 06 Dec 2024 17:54:00 +0800
独家丨Arm服务器CPU创业公司博瑞晶芯研发副总离职 //m.drvow.com/category/chips/wMfjs9JP7RmTyvrJ.html 雷峰网独家,Arm服务器CPU创业公司博瑞晶芯副总裁刘澍近期已经离职,接下来的去向还未确定。

刘澍1999年起从事CPU设计工作,2004年加入Arm,2018年成为Arm China的产品副总裁,2023年5月离职时已经是Arm China的执行副总裁。

离开Arm China后,刘澍加入了总部位于深圳的Arm服务器CPU创业公司博瑞晶芯,职位是副总裁,负责研发团队。

博瑞晶芯主要基于Arm架构开发服务器SoC产品,自2021年注册成立之后一直比较低调,吸引了包括刘澍在内的平均20年以上的CPU核与处理器SoC设计、验证及商业化经验的众多人才。

博瑞晶芯此前因为高达80亿的注册资金备受关注,被不少人认为有希望成为国产Arm服务器CPU公司的代表。不过今年整个芯片行业都面临挑战,博瑞晶芯在几个月前就出现了缓发工资的问题,此后就陆续有员工离职。

近期关于国内CPU创业公司的消息不断,更进一步的探讨欢迎添加作者微信BENSONEIT。

]]>
芯片 //m.drvow.com/category/chips/wMfjs9JP7RmTyvrJ.html#comments Fri, 06 Dec 2024 09:47:00 +0800
Graviton两年内为AWS提供超过50%的CPU算力,打破英特尔对市场节奏的掌控 //m.drvow.com/category/chips/8ZsfzslJFFuzAy2B.html 在超大规模和云计算厂商规模较小、Arm未能抢占数据中心市场以及AMD尚未走上复兴之路的时候,英特尔掌控着新计算引擎进入数据中心的节奏。

局势总是在变化。本周,英特尔的CEO帕特.基辛格(Pat Gelsinger)宣布离职,相比之下,亚马逊云科技(AWS)在拉斯维加斯举办年度re:Invent大会,线下参会人数达到6万,而线上人数高度40万人。谁在控制超大规模企业和云计算制造商的技术推出步伐,似乎有了新的答案。

对于AWS而言,他们也可以控制新技术的发布节奏,因为他们不需要像芯片厂商一样,进行定期的产品迭代。他们不需要像英特尔、AMD和英伟达那样,把计算引擎卖给ODM和OEM,而是直接向客户出售云上产品。显而易见的是,这是一项更容易的业务。

在re:Invent大会上,AWS以及其母公司亚马逊高管所带来的演讲,让外界对于他们的计算引擎有了新的期待,比如Graviton5、Inferentia3及Trainium3。

Trainium3使用3nm工艺蚀刻,相较于Trainium2能效提高40%、性能翻倍。AWS的新闻稿中表示,Trainium3 UltraServers的性能将是Trainium2 UltraServers的4倍,这意味着它们将从使用Trainium2的16台设备扩展到使用Trainium3的32台设备。

AWS CEO马特.加曼(Matt Garman)称,Trainium3将于2025年晚些时候推出,这意味着大概会在re:Invent 2025年会议发布这款产品。早在6月份,就有一些关于AWS高管确认Trainium3将突破1000瓦的传言,但这点并不出乎外界的意料,英伟达的Blackwell B200 GPU的峰值功率是1200瓦。

真正出乎外界意料的是,在上个月的SC24超级计算会议上,针对HPC应用的Graviton4E仍未推出,这与AWS在2021年11月推出的普通Graviton3和2022年11月推出的增强版Graviton3E的过往速度相比有所差异。2023年11月发布的Graviton4可以说是市场上基于Arm架构最好的服务器CPU之一,当然也是适用面最广的CPU。

AWS的CPU、人工智能加速器和DPU没有任何年度更新的压力,如果仔细观察英伟达和AMD的GPU路线图,就会发现他们的核心产品仍然是每两年发布一次,第二年会在第一年发布的GPU上进行内存升级或性能调整。

AWS在芯片领域的迭代周期大概是两年,其间会有一些波动。Graviton1实际上是一个基于Nitro架构的DPU卡,可以忽略不计。正如AWS公用事业计算高级副总裁彼得.德桑蒂斯(Peter DeSantis)在2018年发布的主题演讲中所说的,Graviton1只是“进入市场的一个信号”,主要用于验证客户需求。2019年推出的Graviton2, AWS采用了台积电的现代7纳米工艺,并使用了Arm的Ares N1内核,设计了一款64核CPU,与运行在AWS云上的英特尔和AMD的X86 CPU相比,性价比高出40%。

2021年,采用Arm Zeus V1内核的Graviton3问世,同样是64个内核却可以承担更多的任务。2023年,Graviton4问世了,这款芯片采用了台积电4纳米工艺,在插槽上塞入96个Demeter V2内核,与12个内存带宽为537.6 GB/秒的DDR5内存控制器搭配使用。与Graviton3相比,Graviton4的单核性能提高了30%,内核数量增加了50%,性能提高了2倍。根据我们的定价分析,产品的性价比提高了13%到15%。在实际的基准测试中,Graviton4带来的性能优化有时能达到40%。

AWS处理器投入的资金至少需要两年才可以收回。因此,在re:Invent大会上期待任何关于Graviton5的新消息都是不现实的。尽管如此,AWS的高管们还是会吊一下市场的胃口。

AWS的高管在主题演讲中提供了一些关于Graviton的数据。AWS计算和网络服务副总裁戴夫.布朗(Dave Brown)展示了这张图表,它在一定程度上解释了为什么英特尔最近几个季度的财务状况如此糟糕。粗略地说,AWS的四项核心服务(Redshift Serverless和Aurora数据库、Kafka的Managed Streaming和ElastiCache搜索)大约有一半的处理是在Graviton上运行的。

布朗称:“最近,我们达到了一个重要的里程碑,在过去的两年里,我们数据中心超过50%的CPU算力都来自Graviton,这比其他所有类型的处理器加起来还要多。”

这正是微软多年前所声称想做成的事情,而这也是AWS所期待达成的目标。从长远来看,X86是一种传统的平台,其价格也是传统的,就像之前的大型计算机和RISC/Unix。RISC-V也许最终也会这样颠覆Arm架构(开源的ISA与可组合的模块似乎是必由之路,就像Linux开源系统让Windows Server变成传统平台的)。

加曼让我们对AWS内部的Graviton服务器群规模有了一个大致的了解:“Graviton正在疯狂地增长,2019年,整个AWS的业务规模为350亿美元,而现在,单单Graviton运行的业务规模就与2019年整个AWS业务规模一样,这是非常快的增长。”可以估计的是,Graviton服务器集群的增长速度比AWS整体业务的增长速度还要快,而且幅度可能非常大。这对英特尔的伤害远大于对AMD的伤害,因为AMD多年来一直拥有比英特尔更好的X86服务器CPU。

Trainium系列,是否会成为英伟达和AMD之外的选择?

加曼谈论Trainium3的唯一原因是,人工智能训练对高性能计算的需求增长得比任何其他计算引擎快得多。面对英伟达在2025年加大其Blackwell B100和B200 GPU的产能,以及AMD扩大其Antares MI300系列,AWS如果想让客户将他们的人工智能工作负载移植到Trainium上,就必须在市场上展现出大力推行Trainium系列的决心。

在明年的re:Invent大会之前,希望能够看到AWS发布关于Trainium3的一些新优化,因为市场上的竞争对手太多,以谷歌和微软为首的一些公司将在2025年推出他们旗下的人工智能加速器。

就像Graviton系列一样,从现在开始,Trainium系列的更新周期或许将变为两年一更新。这些产品的研发投入都非常高昂,因此AWS要实现财务效益必须将Trainium的开发成本摊销到尽可能多的设备上。与Graviton一样,我们认为AWS的Trainium达成这一目标的日子不会太遥远。从长远来看,这对英伟达和AMD来说不是好事,特别是如果谷歌、微软、腾讯、百度和阿里巴巴都采取同样的行动。

AWS还没有愚蠢到试图在GPU加速器市场上与英伟达直面抗衡,但与谷歌的TPU、SambaNova的RDU、Groq 的 GroqChip和Graphcore的IPU一样,这家云计算商同样认为自己可以构建一个系统阵列来进行人工智能训练和推理,并为云计算客户带来差异化体验和附加值产品,与购买英伟达相比,客户购买AWS的产品可以节省成本并且掌握更多的主动权。

正如我们上面所指出的,AWS高管对Trainium3并没有透露太多的信息,但他们对Trainium2在UltraServer中的使用到非常兴奋。

今年的re:Invent大会上,AWS更多地介绍了使用Trainium2加速器的系统架构,并展示了基于这些加速器构建的网络硬件,以扩展和扩展其人工智能集群。下面是德桑蒂斯展示的Trainium2:

正如我们去年报道的那样,Trainium2似乎在单个封装上放置两个芯片互连,可能使用NeuronLink die-to-die内部互连技术,以在其共享的HBM存储器上一致地工作。Trainium2服务器有一个节点,该节点带有一对主机处理器并与三个Nitro DPU相连,如下所示:

这是计算节点的俯视图,前端有四个Nitros,后端有两个Trainium2s,采用无线设计以加快部署速度。

两个交换机托架,一个主机托架和八个计算托架组成了一台Trainium2服务器,该服务器使用2TB/秒的NeuronLink电缆将16个Tranium2芯片互连成2D环面配置,每个设备上96GB的HBM3主内存都会与其他设备共享。每台Trainium2服务器具有1.5TB的HBM3内存,总内存带宽为46TB/秒(即每个Trainium2卡略低于3TB/秒)。此节点在密集FP8(一种浮点数表示格式)数据上的性能为20.8千万亿次浮点运算,在稀疏FP8数据上的性能为83.3千万亿次浮点运算。

AWS将四台服务器相互连接以搭建Trainium2 UltraServer,该服务器在64个AI加速器中拥有6TB的HBM3内存容量,内存带宽总计为184TB/秒。该服务器具有12.8Tb/秒的以太网带宽,可使用EFAv3适配器进行互连。UltraServer服务器在密集FP8数据上的运算速度为83.2千万亿次浮点运算,在稀疏FP8数据上的运算速度为332.8千万亿次浮点运算。下面是德桑蒂斯对Trn2 UltraServer实例硬件的展示:

在布满电线的机架顶部,隐藏着一对交换机,它们组成了3.2TB/秒的EFAv3以太网网络的端点,该网络将多个Tranium2服务器相互连接,以创建UltraServer服务器,并将服务器与外部世界连接。

这还不是整个网络架构。如果你想运行大规模的基础模型,需要的加速器将远远不止64个。为了将成千上万的加速器连接在一起,可以进行大规模训练,AWS设计了一种基于以太网的网络结构,名为10p10u,其目标是在延迟不到10微秒的情况下,为整个网络提供每秒数十PB的带宽。下面是10p10u网络结构机架的样子:

由于原先服务器内部的电线非常复杂,AWS研发了一款光纤主干电缆,将需要使用的电线数量压缩为原先的十六分之一。其原理是将数百个光纤连接放在一条较粗的管线中,这样做的好处是让服务器内部的架构更为简洁。如下图所示,右边的机架使用的是光纤主干电缆,它更简洁小巧。更少的连接和线路管理意味着更少的错误,当你试图快速构建人工智能基础设施时,这一点很重要。

据悉,这种专门用于人工智能工作负载的10u10p网络由于其优异的表现正在被大规模采用。德桑蒂斯展示了它与AWS创建的老式以太网网络相比的增长速度有多快:

假设这是累积链接数(有效的计算),旧的Euclid网络结构(大概是100Gb/秒)在四年内逐渐增加到近 150 万个端口。名为One Fabric的网络与10u10p网络在2022年年中大致同时推出,我们猜测其中One Fabric使用400Gb/秒以太网,而10u10p基于800Gb/秒以太网。One Fabric有大约100万个链接,而10u10p有大约330万个链接。

加曼表示,与基于AWS云上的GPU实例相比,Trn2实例的性价比将提高30%到40%。当然,AWS应该加大拉开外部计算引擎与自家计算引擎之间的差距,保持这样的差距是Trainium抢占人工智能计算器市场的正确举措。

作为主题演讲的一部分,德桑蒂斯和加曼都谈到了一个代号为“Project Ranier”的超级集群,这是AWS正在为其人工智能大模型合作伙伴Anthropic建造的一个超级集群。截至目前,亚马逊已向Anthropic投资80亿美元,该集群主要用于训练下一代Claude 4基础模型。加曼说,“Project Ranier”将拥有数十万个Trainium2芯片,其性能将是训练Claude 3模型时所用机器的5倍。

本文由雷峰网编译自:https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/


]]>
芯片 //m.drvow.com/category/chips/8ZsfzslJFFuzAy2B.html#comments Thu, 05 Dec 2024 19:12:00 +0800
亚马逊自研3nm Trainium芯片,能否成为英伟达之外的第二选择? //m.drvow.com/category/chips/HSzKmweUI6UDcisH.html Trainium是亚马逊云科技(AWS)专门为超过1000亿个参数模型的深度学习训练打造的机器学习芯片。在2024年 re:Invent大会上,AWS宣布Trainium2正式可用,其性能比第一代产品提升4倍,可以在极短的时间内训练基础模型和大语言模型。

AWS周二宣布,将推出一款由数十万颗自研Trainium芯片组成的巨型人工智能超级计算机,这是其位于德克萨斯州奥斯汀的人工智能芯片设计实验室的最新成果。

该芯片集群将供由人工智能初创公司Anthropic使用,Anthropic是一家人工智能初创公司,近期获得来自亚马逊40亿美元的投资。AWS负责计算和网络服务的副总裁戴夫.布朗(Dave Brown)表示,这个名为 “Project Rainier ”的芯片集群将落地美国,2025年建成后将成为世界上最大的人工智能模型训练集群之一。

在拉斯维加斯举行的年度re:Invent会议上,AWS发布了“Ultraserver”服务器,该服务器由64个自研的互联芯片组成。此外,AWS还在会议上宣布苹果成为其最新的芯片客户之一。

re:Invent会议上发布的产品凸显了AWS此前对自研芯片Trainium的承诺,其将Trainium视为替代英伟达GPU的备选选项。

根据研究机构国际数据公司(IDC)的数据显示,2024年人工智能芯片市场的规模估计为1175亿美元,到2027年底预计将达到1933亿美元。IDC去年12月的研究显示,英伟达在人工智能芯片市场中占据了约95%的份额。

AWS的CEO马特.加曼(Matt Garman)称:“目前,GPU市场只存在一种选择,就是英伟达,如果市场上有其他的选择,我们相信客户会很欢迎。”

而亚马逊推动AI战略的关键举措是更新其芯片,这样可以为他们的客户降低成本,同时在产业链内掌握更多的主动权。掌握更多的主动权有利于亚马逊减少对英伟达的依赖,尽管目前两家公司的关系还非常亲密。

觊觎英伟达芯片收入的公司并不在少数,包括人工智能芯片初创企业Groq、Cerebras Systems和SambaNova Systems。亚马逊的竞争对手微软和谷歌也下场开发自己的人工智能芯片,并试图减少对英伟达的依赖。

自从2018年推出基于Arm架构的CPU Graviton以来,亚马逊一直致力于为客户开发自研的芯片产品。亚马逊高管表示,公司的目标是复制Graviton的成功经验,向客户证明,其产品虽然成本更低,但性能并不逊色于市场领先者。

亚马逊造芯,复刻Graviton的成功经验

AWS的人工智能芯片实验室位于德克萨斯州奥斯汀市,其前身是亚马逊在2015年以约3.5亿美元收购的以色列微电子公司Annapurna Labs。

加迪·哈特(Gadi Hutt)在亚马逊收购Annapurna之前就加入了该公司,担任产品与客户工程部的总监。他表示:“芯片实验室自Annapurna创业之初就已设立,当时Annapurna安家于奥斯汀的考量正是希望所处的位置要靠近芯片巨头设有办事处的地方。”

该实验室工程部主任拉米·辛诺(Rami Sinno)说,在实验室内部,工程师们可能今天还在装配线上工作,明天就去焊接了。他们会立即着手处理任何需要完成的工作,这种精明务实的心态在初创企业中更为常见,而非像亚马逊这样的万亿美元公司。

辛诺称,这是有意为之的,因为Annapurna对于人才招聘有自己的理解,并不像行业中的其他公司那样寻找专长于一个领域的“专家”。他们会寻找既精通版图设计又精通信号完整性和功率传输,并且还能编写代码的电路板设计师。

“我们同时设计芯片、核心、整台服务器和机架。我们不会等到芯片准备好后再设计主板,”辛诺说。“这让团队能够以超快的速度前进。”

AWS在2018年推出了Inferentia,这是一种专门用于推理的机器学习芯片,即将数据输入AI模型以生成输出的过程。亚马逊高级副总裁兼杰出工程师詹姆斯·汉密尔顿(James Hamilton)表示,团队首先专注于推理,因为与训练相比,推理任务对芯片的要求略低。

到2020年,Annapurna已经准备好推出其首款面向客户用于训练AI模型的芯片“Trainium”。去年,亚马逊宣布推出Trainium2芯片,称该芯片现已可供客户使用。AWS还表示,目前正在开发Trainium3芯片以及基于该芯片的服务器,其性能将是基于Trainium2芯片服务器的四倍。

规模决定算力,亚马逊服务器搭载芯片数量为英伟达两倍

随着AI模型和数据集的规模越来越大,为其提供动力的芯片和芯片集群的规模也在不断扩大。科技巨头们不仅从英伟达购买更多的芯片,还自行设计芯片。如今,他们正试图将尽可能多的芯片集中在一个地方。

“越来越大”也是亚马逊芯片集群的目标,该集群由Annapurna和Anthropic合作构建,目的是让AI初创公司使用该集群来训练和运行其未来的AI模型。亚马逊表示,该集群的浮点运算能力是Anthropic当前训练集群的五倍。马斯克的xAI最近建造了一台名为Colossus的超级计算机,该计算机使用了10万个英伟达的Hopper芯片。

汉密尔顿说:“你将服务器的规模扩大得越多,就意味着你需要解决的问题越少,整个训练集群的效率也就越高。一旦你意识到这一点,更大更强就成了目标。”

亚马逊的Ultraserver将64个芯片整合到一个封装中,由四台服务器组成,每台服务器包含16个Tranium芯片。布朗说,相比之下,英伟达的部分GPU服务器只包含8个芯片。为了将这些芯片组合在一起,形成一个可以达到83.2千万亿次浮点运算的服务器,亚马逊的秘密武器是其网络技术NeuronLink,这项技术可以使所有四个服务器相互通信。

汉密尔顿称,这是他们在不使服务器过热的情况下所能容纳的最大数量。从尺寸上看,它更接近于冰箱大小,而不是紧凑的个人计算机。但布朗和其他高管表示,这并不是在向客户施压,让他们从亚马逊和英伟达之间二选一。他们更希望客户可以在其云平台上继续使用自己喜欢的产品。

AI编程初创公司Poolside的联合创始人兼CTO艾索.康德(Eiso Kant)表示,他们公司在使用Amazon的芯片运行其AI模型时,相较于使用英伟达的芯片,可节省约40%的成本。但缺点是,工程师需要花费更多的时间让亚马逊的相关芯片软件正常运行。

康德表示:“亚马逊直接通过台积电制造芯片,并将其应用于自己的数据中心,因此对AI初创企业来说,这是看起来更“稳妥的选择”。他表示,亚马逊的赌注下在哪里至关重要,因为在硬件领域,落后对手6个月就可能意味着业务的终结。”

苹果机器学习与人工智能高级总监贝诺伊·杜平(Benoit Dupin)在大会上表示,苹果内部正在测试Trainium2芯片,预计可节省约50%的成本。

面对英伟达,Trainium能走多远

分析师表示,对于大多数企业来说,选择英伟达还是亚马逊并不是一个迫切的问题。因为大型企业更关心如何从运行AI模型中获得价值,而不是研究如何训练它们。

这样的市场趋势对亚马逊来说是件好事,因为客户不会注意到云服务背后是哪家芯片厂商在提供算力。它可以与Databricks这样的云数据公司合作,将Trainium应用于云计算,大多数企业都不会注意到任何差异,因为计算能够正常运行,而且成本还会越来越低。

市场研究和IT咨询公司Gartner的分析师奇拉格.德卡特(Chirag Dekate)表示,亚马逊、谷歌和微软正在开发自己的AI芯片,因为他们知道自行设计芯片可以节省时间和成本,同时提高性能。因为定制硬件可以提供非常具体的并行化功能,这可能比通用型GPU的性能更好。

研究公司Redburn Atlantic的分析师亚历克斯·海斯尔(Alex Haissl)表示,AWS在人工智能不太被关注到的领域也有着被低估的实力,包括网络、加速器和名为“Bedrock”供企业使用人工智能模型的平台。

不过,公司领导对于AWS的芯片能够走多远持怀疑态度,至少目前是这样。AWS CEO加曼说:“实际上,我估计在很长一段时间内,市场还是会被英伟达占据,因为目前99%的工作负载都是由它们来处理的,这种情况可能不会改变。但是,我希望Trainium能够开辟出一个不错的利基市场,它将会是很多工作负载的绝佳选择。

本文由雷峰网编译自:Exclusive | Amazon Announces Supercomputer, New Server Powered by Homegrown AI Chips - WSJ

]]>
芯片 //m.drvow.com/category/chips/HSzKmweUI6UDcisH.html#comments Wed, 04 Dec 2024 19:09:00 +0800
「AI芯王」黄仁勋 //m.drvow.com/category/chips/kT6f6WvC4lLPodQ6.html 受益于AI市场的火爆,长期深耕于人工智能领域的英伟达抓住了时代的风口。

在唯算力论的AI时代,英伟达的AI芯片成为了科技产业的“通用货币”,有媒体描述称:“全球科技产业的CEO都在排队等着见黄仁勋。”

此前,据富国银行统计,英伟达在AI芯片领域一度占据高达98%的市场份额,也因此,2024年第三季度,英伟达市值超过三万亿美元,成为全球市值最高的企业。

巨头背后最离不开的是掌舵的人,如何带领英伟达成长为巨头,时间拉回1963年,我们从头讲讲关于黄仁勋的故事。

01.人生筑基期:辗转台湾、泰国、肯塔基和俄勒冈

黄仁勋人生的第一块拼图在台湾。1963年2月17日,台南一家医院里,黄兴泰激动地抱起刚出生的儿子。

父亲黄兴泰任职于美国冷气制造商开立(Carrier)公司,是一名化学工程师,由于萌生出开办化工企业的想法,在黄仁勋5岁时,全家人搬到泰国生活。

和很多小男孩一样,孩童时期的黄仁勋也不是“省油的灯”。8岁时,第一次认识“汽油”让黄仁勋很是兴奋,他把汽油倒进家里的游泳池,转头潇洒地点了一把火,回想起当时的画面,黄仁勋的描述是“太美了”。

看着眼前的场景,水火交相辉映,折射出的光与影,黄仁勋的妈妈罗采秀说了一句“very beautiful”。没有怪罪与指责,“诚实、勇敢、做好人”是夫妻二人的育儿经。

由于之前在开立工作,黄兴泰常常能参加美国总部的培训,大洋彼岸提供的教育、视野和环境让黄兴泰在心里埋下将两个小孩送去美国读书的种子。

20世纪70年代,持续已久的越南战争让东南亚局势动荡。1973年,泰国学运爆发成了黄兴泰把黄仁勋兄弟二人送往美国的直接导火索。

就这样,人生辗转来到第三站,美国肯塔基州。

由于投奔的亲戚刚刚移民到美国,手头并不宽裕,只能将兄弟二人送至当地的一所宗教管教的寄宿学校,肯塔基州奥奈达浸信会学院。

如何评价这所学校?就是时至今日,它依然位列世界上最便宜的15所寄宿学校榜单。在这的学生,不会抽烟、喝酒、打架斗殴,反而成了“非主流”。

入校后,黄仁勋最先认识了他的室友,比他大七岁的“校霸”,在宿舍的第一天,就看到了室友脱下衣服后露出的七条伤疤,因为他刚刚打完架回来。幸运的是,黄仁勋找到了这里的生存之道。黄仁勋跟室友达成交易,他帮室友写作业,室友当他的“保护伞”,为了融入主流,黄仁勋在这里学会了抽烟和打架。

但在那个年代,严重的种族歧视还是让黄仁勋吃尽了苦头,跟“Nigger”同等性质但专用于黄种人的称呼“Chinks”在学校里成了黄仁勋的专属,在走过通往学校必经的吊索桥时,总有人试图把他晃下去,这个顶着亚洲面孔且个子矮小的小孩无疑是最佳的霸凌对象。学校宿舍的厕所都归他洗,他没得选,在多年后他回忆起来称:“你很难想象他们会在厕所里留下什么,但这不妨碍我是世界上最好的清洁工”。后来,他在很多演讲中都提到了“韧性”,而在这的经历也让韧性在黄仁勋身上有了第一次具象的表达。

父母的爱让他撑过那段时光,虽远隔千里,但每个月他们会录满四个磁带的录音,告诉黄仁勋在泰国发生了什么事情。那段经历肯定是苦的,但黄仁勋总是能笑着提起。2019年,他向学校捐了一栋楼,并深情地回忆起那座现已不复存在的人行天桥,却只字未提那些曾试图把他从桥上推下去的霸凌者。

从奥奈达浸信会学院毕业后,黄仁勋的父母也来到美国,一家人迁居至俄勒冈州。在这里,黄仁勋入读了阿罗哈高中,他对乒乓球这项运动展现出异于常人的运动天赋,14岁登上美国体育画报,15岁获得世界少年乒乓球比赛第三名。

对于乒乓球上取得的成绩,黄仁勋的说法是:“在生活中,许多事情不是去挑选,而是用心去感受,打乒乓球是因为喜欢和热爱,让心去决定,然后专注地做。”

在阿罗哈高中,由于成绩优异,黄仁勋跳级入读,但也由于这个原因跟其他同学存在年龄上的差距,很难跟班里的人打成一片,性格也变得越来越内向。

好在哥哥帮黄仁勋谋得一项“事业”,在丹尼餐厅打工。据黄仁勋的描述,丹尼餐厅是他职业生涯的起点,用现在的话描述,在这里,他“成长曲线陡峭”。黄仁勋历任洗碗工、摆盘工,最后走上服务员的岗位,也是因为当服务员与陌生人高频接触,使他变得敢于跟人沟通,改掉了以往害羞腼腆的性格,还顺道提升了一下口语水平。时至今日,黄仁勋在自己的领英界面放的两项工作经历,一项是英伟达,另一项就是丹尼餐厅。

80年代,黄仁勋入读俄勒冈州立大学电机工程专业。上了大学,学习是一部分,谈恋爱自然也是一个绕不开的话题,但就像黄仁勋常在公开场合提到的:“那里大概有250个电气工程专业的学生,但只有三个女孩”,想在这里脱单并不容易。

不过,黄仁勋是一个擅长运用优势的人,上一次他靠写作业拿下“校霸”的信任,这一次他用写作业俘获女神洛莉·米尔斯(Lori Mills)的青睐。由于他是班级里唯一一个看起来像“小孩”的学生,所以他判断米尔斯对他的第一印象一定是觉得他很聪明。他跑去跟米尔斯搭讪说的第一句话是:“你想看我的作业吗,如果你每个周末都跟我一起做作业,你一定会拿满A+。”相比马斯克邀请莱莉去看火箭发射,写作业这个理由显得质朴又实用。

就这样,每个周末,米尔斯接起电话,都会听到电话那头一句“Time to do homework”。而黄仁勋也总会偷偷先把题目都做一遍,每道题目都能“秒杀”一度让米尔斯觉得他是一个天才。长期的“作业搭子”让两人情愫暗生,17岁时,米尔斯问黄仁勋未来想做什么,他的回答是在30岁时担任一家公司的CEO。在最近香港科技大学的对谈上,黄仁勋回想起这件事情称:“我根本不知道当时自己在说什么”,但极具宿命感的是,13年后,30岁生日当天正是黄仁勋在英伟达工作的第一天

毕业时,黄仁勋有两个选择,一是去初具规模的AMD,二是去初创企业LSI Logic。两者业务的差异在于:AMD的重点落在芯片研发,而LSI Logic的重点是打造用于芯片设计的设计工具。

黄仁勋坦言,在学校的时候,并没有想清楚二者的差异。

后来,黄仁勋选择加入了AMD,因为他在学校的实验室里看到AMD贴了一张海报,海报里是世界上第一个双极微处理器,这勾起了黄仁勋的兴趣。昔日的老东家很难想象,这个略显稚嫩的年轻人会成为未来市场上最可敬的对手。在AMD的日子,黄仁勋印象最深的的是公司的圣诞派对,也是在这派对上,黄仁勋向米尔斯求了婚。

黄仁勋出席很多场合都穿的黑色皮衣正是米尔斯和女儿为他挑选的,这让他在公众的视野里塑造出“皮衣刀客”这一形象,常以相同的形象出现在公众视野有助于企业家为自己的公司营造一种稳定形象。

在AMD工作两年后的某一天,黄仁勋接到了跳槽去LSI Logic的同事打来的电话,这次交流使他对LSI Logic打造芯片设计工具的愿景产生了深刻的共鸣。

顺其自然地,黄仁勋加入了LSI Logic,在这里,他们打造出“设计方法论”,即遵循一组严格的规则,以便设计工具能够理解设计的内容,从而进行设计优化。这个想法改变了黄仁勋看待世界的方式,他认为设计工具比设计本身更重要,也让他明白了“硅谷”从何而来,所有的想法落地都需要在“硅”中实现。

任职于LSI Logic期间,黄仁勋结识了现代最重要的计算机架构师安迪·贝托尔斯海姆(Andy Bechtolsheim),安迪起初是英特尔的员工,由于公司安排他到俄勒冈州上班,他在一周后便辞职,并创立了Sun Microsystems。后来,Sun Microsystems找到LSI Logic希望进行合作,而双方派出的三位工程师正是英伟达的三个创始人。

黄仁勋在LSI Logic积累了后来创业最重要的三项资源:一是能力,LSI Logic的研发和销售部的经历让他成长为具备技术与销售能力的复合人才;二是贵人,黄仁勋的上司威尔弗雷德·科里根(Wilf Corrigan)后来帮黄仁勋拿到了来自红杉的第一笔风投资金;三是伙伴,英伟达另外两位联合创始人柯蒂斯.普里姆(Curtis Priem)和克里斯.马拉科夫斯基(Chris Malachowsky)与黄仁勋正是在此相识。

创业是积累后的蓄势待发。

02. 用「CEO数学」掌舵英伟达

上世纪90年代,全球半导体行业方兴未艾,太多梦想家希望在这个市场里分一杯羹。

恰逢普里姆和马拉科夫斯基开发的项目在Sun Microsystems遭到冷落,二人便萌生出另立门户的想法。创业的第一步是搭班子,他们在这个行业里最熟悉并最信任的别无他人,正是合作已久的黄仁勋。

二人找到黄仁勋对他说:“嘿,Jensen,你是CEO对吧”,就这样,本不情愿的的黄仁勋“莫名其妙”地当了CEO,并出资200美元拿了20%的原始股份,按照今天英伟达的市值计算,如果黄仁勋还持有这些股份,这笔投资将为他创造超过100亿倍的回报。

英伟达(NVIDIA)一名由两个部分组成,一是基于3D图形芯片的产品定位,二是三人想打造出令竞争对手嫉妒的产品。因此,采用“NV”指代下一代计算机视觉,结合拉丁语中译为嫉妒的“Invida”一词。

千里之行,始于足下。每一个巨头的成长都裹足了传奇色彩,就像谷歌起家于员工的车库、字节跳动从锦秋家园走到全球230个办公室,英伟达也不例外,他们的第一个办公点选在丹尼餐厅,一个充分贴合创始人意志的地方。

对于创业要做的事情,黄仁勋有两条原则:一是所选择的事情必须足够坚定和热爱,这是克服困难把事情做成的保障;二是必须选择正确且困难的事情,寻找到正确的方向后,困难确保团队能够长期做一件有挑战的事情,这是黄仁勋留住顶级人才的秘籍。事实证明,黄仁勋的判断没错,时至今日,英伟达的大量功勋员工在工作二三十年后仍选择留在这里,而老黄每次提起都面露骄傲。

做为那个年代的“Z世代”,黄仁勋经历的是电子游戏的崛起,他把自己定位为“游戏一代”,即第一代感受到电子游戏多巴胺的人,吃到游戏大发展的红利,而且笃信这个事情会发生。他将自己的判断告诉前老板科里根,本就不想他离开的科里根听完后对他说:“你会回来的。”

半导体技术切入游戏行业的点是优化游戏的视觉呈现效果,从而提高玩家的游戏体验,所以黄仁勋希望做出一款3D图形处理器。

两年后,英伟达的第一款产品NV1发布,这款集3D图形处理、视频处理、音频波形表处理、IO端口、游戏端口、加速功能及UDA编程模型多种功能于一体的产品并没有赢得市场的青睐,反而因为花里胡哨和价格太贵,发出货物的99%都被退了回去。

NV1的破发让英伟达走在破产的边缘。危急时刻,日本游戏厂商世嘉发来邀请,与英伟达合作开发NV2芯片。

当时,英伟达的技术基于一种不正确的假设。制作芯片所需要的DRAM(动态随机存取存储器)每个的成本是50美金,而基于当时的产品设计需要4个DRAM,单这项支出就达200美元,所以最终的产品定价大概为1000美元。

但DRAM受市场供需变化价格波动很大,市场需求下降会让DRAM的价格“大跳水”。其他的厂商为了降低DRAM带来的成本,选用了微软推出的新的编程架构。但英伟达则是通过改良技术降低成本,但没想到DRAM价格骤降至5美元让这种成本优势不复存在,而且英伟达还走向与市场主流编程架构背道而驰的路线。

沿着错误的道路走,肯定不会把英伟达带到正确的地方。面对这样的局面,黄仁勋问了自己两个问题:我们相信这项工作吗,这是一件很难但可以长期做的事情吗?我的队友是我想与之一起奋斗、一起熬夜的人吗?

得到了肯定的答案,他们就建立起了足够的信心资本去重新开始。

当时的情况,在90家公司中,英伟达毫无疑问是最后一名,因为他们与主流路线完全背道而驰了。但在黄仁勋的视角中,成为最后一名与成为第一名一样有好处,做最后一个意味着你是第一个了解其他所有人战略的人。

他把所有人力和向世嘉求得的资金全部投入到一个领域,黄仁勋的判断是:“如果这是你最后一手牌,打完后你不会再回到牌桌上,这时候你会打出一手不一样的牌。”走投无路意味着必出奇兵,因为企业管理的内核是资源管理,如何安排手中的资源决定企业的命运

英伟达选中一条道路后不计成本地投入,当时账上的钱只能支撑英伟达活九个月,九个月后如果做不出成果,那英伟达必死,因为错过了这九个月的窗口期就需要重新找钱,但市场上有其他90家比英伟达做的好的公司可以给钱,投资方没有理由选择英伟达。

面临大考,英伟达必须“一次过”,他们需要把前期所有的流程都准备好。团队找到了一家名为Icos做仿真器的公司,仿真器可以模拟和重现真实系统,很适合前期流程的准备。当时黄仁勋购买Icos模拟器也是无奈之举,因为英伟达内部有一条原则,就是初创公司不找初创公司合作,他们认为这样风险太大,双方都有随时倒闭的风险,而且事实上也确实如此。后来,购买这个机器花了上百万美元,这是英伟达三分之一的积蓄。

黄仁勋打算做出当时世界上最大的图形芯片,不计成本,做出来就是胜利。提出代工需求后,台积电觉得英伟达疯了,因为这个芯片太大了,黄仁勋的回答是:“那太好了,我就是要世界上最大的芯片 。”

幸运的是,英伟达成功地推出了世界上首款仿制的PC芯片RIVA 128 NV3,团队认为这是当时最完美的芯片,在此,黄仁勋又确立了一条原则:“如果不知道芯片是否完美,就不应该进行流片。”

但当时的英伟达已经没有钱流片,黄仁勋的做法是,不告诉厂商自己没钱,先生产出来再说。与“黄氏定律”有着异曲同工之妙,黄仁勋曾在采访中坦言,6个月就能让GPU性能翻倍的言论是不确定的,存在“吓唬人”的成分。但他认为这也正是领导力的体现,正如美国登月的故事一样,没人知道是不是真的能做到,但说出来一方面能在市场上引起极大的关注并起到引领作用,让其他人都去追赶你,另一方面是在内部确立起做事的标准,团队知道要往什么方向靠。

RIVA 128的成功,终于让英伟达走上了正轨。1999年1月,英伟达在纳斯达克挂牌上市。在接下来的几年,接连发布了RIVA TNT2和NVIDIA Vanta两大处理器产品,以及全球首款GPU GeForce 256。

量变引起质变,多产成功的产品走向市场后,2006年,英伟达推出了适用于其GPU的通用编程接口CUDA,最初发布的时候市场的反馈并没有达到黄仁勋的预期。CUDA进入的0亿美元市场实际上摧毁了他们当下拥有的10亿美元市场,因为CUDA增加了芯片的成本但并没带来收益。黄仁勋称:“当我们发明它的那天,这项技术没有任何价值,每当我们发布新技术的时候,我们的收入就会减少,技术被采用后,盈利的速度又会快速增长。”

黄仁勋打造CUDA基于两个判断,一是3D图形作为加速器或仅作图形渲染工作是不可持续,必须让3D图形处理器可编程,这样它就可以成为表达艺术的媒介;二是摩尔定律会走向失效,这个时候就要加速软件,而不是加速硬件。但这代技术的跨越几乎毁掉了英伟达,因为投资人和客户在最开始的阶段并不想为黄仁勋的天马行空买单,公司的市值很好地反映了市场情绪,一度跌落至10亿美元左右。

当客户告诉你不要做某事的时候,你会怎么处理?在这个节点上,黄仁勋选择“忽视客户”,因为行业的共识尚未形成,客户不明白自己要什么,做为那个看清楚的角色,公司需要坚定自己要做的东西。

黄仁勋的创新意识这么强,一部分原因是他知道要怎么在巨头面前活下来,微软和英特尔这种“平台”型公司需要考虑到所有用户的需求,要在巨头眼下谋利,只能寻找“缝隙市场”,就像汽车行业里的法拉利以及刚进入PC市场的苹果。而且,吃过亏的黄仁勋深知,“功能融合”式创新是一个非常危险的决策,只有融合后产品的性能提升但价格下降才能在市场上立足,否则就像NV1一样,容易竹篮打水一场空,失去原有的市场。

死里求生和高歌猛进让黄仁勋看起来好像总能找到“模糊的正确”,这都源于他在俄大EE Fundies课程上学到的掌舵的精髓。Amort教授总在课程上使用整数,例如0.68这个数他就会用0代替,这原本让黄仁勋在学习的过程中感到非常痛苦。但后来,他才意识到错误的准确性是毫无意义的,理解一个主题的首要原则才是真正重要的事情,Amort教授让学生明白怎么抓取重点,了解细节固然没错,但更重要的是不能失去大局。直到现在,黄仁勋处理公司的内部事务都还是会选择用整数去描述,整数可以用于讨论任何主题,英伟达的员工称之为“CEO数学”。黄仁勋称:“CEO数学出奇的准确,因为最重要的变量永远不会被忽视。”

03.黄仁勋如何成为最「AI-Native」的芯片主

CUDA发布后,市场的反馈并不热烈,最先感受到其强大的正是站在人类智慧金字塔顶端的科学家。人工智能大牛吴恩达受学生的启发,把学生在宿舍搭建的GPU服务器用于深度学习实验和训练神经网络,由于CUDA可以并行处理任务,其训练的速度比原先提高了上百倍。而这名学生正是伊恩·古德费洛(Ian J. Goodfellow),现今苹果特别项目组机器学习的负责人。

而现今人工智能界最炙手可热的科学家,深度学习三巨头中的杨立昆和辛顿也同样在使用英伟达的技术。深度学习高度依赖算力,算力是推理的基础,辛顿还曾向英伟达发过求助邮件称:“我刚刚告诉了1000个研究人员去买英伟达的显卡,你们可以送我一张免费的吗”。

可见,起初黄仁勋并不是人工智能的信徒。21世纪初,人工智能并没有引起业界重视,图像识别和语音识别等功能进展缓慢,在这个冷门的研究领域下,还有一个更冷门的子领域,即“神经网络”。深度学习研究员卡塔扎罗(Catanzaron)称:“当时,我的导师劝我不要研究神经网络,因为它已经过时了,很多人认为没什么用。”

当时,市场的新风向是移动终端设备。2007年,iPhone一代横空出世。2010年,手机这一智能终端处在爆发的前夜,黄仁勋的重心落在手机芯片市场,他深知错过比做错的成本高太多,英伟达发布Tegra系列手机芯片进入市场。

2013年9月5日下午2点,北京国家会议中心里正在举办小米3的发布会,出席会议的,除了雷军,还有黄仁勋。

彼时,为了推销自己的Tegra系列手机芯片,做为乙方的黄仁勋,在本就谦虚的雷军面前显得更为谦虚。雷军用不太标准的普通话欢迎着黄仁勋到场,黄仁勋一路小跑上台,用不太标准的普通话说了一句:“大家好,我也是米粉,大家米粉吗”做为他演讲的开场。

在台上,黄仁勋带着略显窘迫的表情,搂着雷军的肩膀说:“雷军说不可以讲英文要讲中文,可是我在美国长大,所以中文讲得不好,你给了我一个机会可以介绍英伟达”。这段视频流传甚广,网友锐评“疑是老黄早期带货视频流出”,而究其自带流量的原因,正是由于如今英伟达登顶全球市值第一所展现出的反差极大地满足了吃瓜群众的爽感。

黄仁勋对于手机芯片的意图,路人皆知。但手机芯片与PC芯片终究是隔着楚河汉界,英伟达用做PC芯片的逻辑去做手机芯片给人一种用大炮轰蚊子而且还没轰到的感觉。在PC上大显身手的可编程GPU核心在手机端略显鸡肋,这使得GoForce系列逐渐没落。后续发布的Tegra系列也因为架构老旧、能耗过高以及缺乏价格优势等原因,逐步丧失市场竞争力。

“一旦你知道这是一条死胡同,就立即改变路线”,黄仁勋在斯坦福大学的演讲中说到。2012年,人工智能行业迎来初春,英伟达的CUDA和GPU让深度卷积神经网络AlexNet一举夺得当年的ImageNet大赛冠军,辛顿称:“这是一代范式的转变。”大量投资机构的钱流入这个领域,黄仁勋看到加速计算在人工智能行业的潜力,英伟达掉转车头,重心逐渐向专注于人工智能领域的芯片倾斜。

2016年,黄仁勋把英伟达第一个人工智能超级计算机DGX-1送给了刚刚成立的OpenAI,并在主机上写下“致Elon和OpenAI团队,为了计算和人类的未来,我捐出世界上第一台DGX-1!”。a16z的联合创始人马克.安德森(Marc Andreessen)称:“我们一直在投资许多将深度学习应用于各个领域的初创企业,而每一家企业实际上都是在英伟达的平台上构建的。”再回看这一幕,颇有“人类群星闪耀时”的风采。那时,黄仁勋就已经开始喊上他的经典口号:“利用人工智能来解决曾经无法解决的问题。”

人工智能的发展让黄仁勋尝到了另一个甜头,对于芯片厂商来说,要把图形处理功能提升到一个新的水平,每一次颠覆都是痛苦的。而生成式人工智能可以模拟一切,例如模拟光的路径,因此研究人员只需要计算出一个像素,然后用人工智能想象出剩余七个像素,相较于以往的人工研究,带来了效率上很大的提升。

2017年,英伟达的GTC大会上,发布的所有内容都围绕着AI和深度学习展开。外界对英伟达的评价是:“哪里有人工智能,哪里就有英伟达”。黄仁勋没有押错,一个月后,谷歌发布人工智能领域值得载入史册的论文“Attention is All You Need”,Transformer横空出世,这篇被引突破10万的论文,也就是后来大模型技术的根基。

提早的布局让英伟达在人工智能时代如鱼得水,也让他们有能力去承接“泼天的富贵”。2022年年底,OpenAI发布ChatGPT,2023年1月末的月活用户就突破了1亿。似乎一夜之间,全球掀起大模型逐竞的浪潮,抢占这波红利高位只有三个要素:“算力,算力,还是算力。”

从大厂到创业公司,都在追求算力的叠加,彼时,囤货英伟达的A100成了国内京东等电商平台的头号战略。甚至,连二道贩子都能在这个疯狂的市场上赚得盆满钵满,巅峰时期,两块英伟达的A100芯片就能在国内购买一辆奔驰E级轿车,有从业者称英伟达的芯片卖出了比特币的感觉。此后,英伟达一路高歌,而算力也成为了硅谷甚至全球科技产业真正的“通用货币”。

黄仁勋成了造富的神,英伟达投资的云算力供应商CoreWeave号称全球最大的“算力黄牛”,仰仗着英伟达优先供应的算力,2023年,CoreWeave在四个月内估值翻了近四倍,成为市值70亿美元的独角兽企业。

但太过耀眼总会刺伤别人的眼睛。

“AI时代买铲子的人”、“AI军火供应商”,顶着这些名号的黄仁勋让英伟达跟其他大厂的关系变得微妙。为避免受制于英伟达,许多头部大厂开始下场开发自己的AI芯片,例如亚马逊近日宣布了登月计划,力图开发内部的AI芯片,以此减少对于英伟达的依赖。老对手英特尔和AMD也没闲着,都在加快AI芯片的研发步伐。面对这样的市场状况,黄仁勋将其解读为积极信号,资金、技术和人才的涌进会推动行业的发展,且竞争与合作是交织的,英伟达与其他厂商也不完全是竞争对手的关系,就比如他们常购买一些AMD的产品。

行动比想法实在,英伟达已经把人工智能渗透进入整个组织以及产品框架。对于行业的判断,黄仁勋认为人工智能实际上是在生产智力,将会走过三个阶段:通过大量数据得出现有的正确的答案,到通过大量的数据得出当下没有但需要人工证实的答案,最后是用大量的数据得出当下没有但准确的答案。

雷峰网参考资料:

How Jensen Huang’s Nvidia Is Powering the A.I. Revolution | The New Yorker

黄仁勋斯坦福讲座:Jen-Hsun Huang: Stanford student and Entrepreneur

黄仁勋演讲:成为Nvidia CEO的旅程



]]>
芯片 //m.drvow.com/category/chips/kT6f6WvC4lLPodQ6.html#comments Wed, 04 Dec 2024 11:25:00 +0800
2万亿美元的生成式AI市场,为什么需要服务器「标准」? //m.drvow.com/category/chips/ll1Bp9OO9far8enu.html 麦肯锡的研究显示,到2030年生成式AI有望为全球经济贡献7万亿美元的价值,中国约占其中2万亿美元。

在国内,哪些应用能够带来2万亿美元的价值?

本周在成都举行的2024英特尔新质生产力技术生态大会上,英特尔中国举办了最大规模的行业盛会,邀请了2000多位产业合作伙伴,在近万平米的展示区展现了700多件展品,其中大量的生成式AI应用都将带来巨大的商业价值。

“一切既来之不易,又振奋人心。”英特尔公司高级副总裁、英特尔中国区董事长王锐在2024英特尔新质生产力技术生态大会的演讲中说,“我们与生态伙伴共同建立了有深度、有广度的产业数字化基石,彼此的关系水乳交融、密不可分。”

在众多的生成式AI应用中,AI PC 是一个重要方向。数据显示,到2025年底前,AI PC累计出货量将超过1亿台,成为更多人的新质生产力工具。

AI PC将是生成式AI市场重要的组成部分,但要满足更多的生成式AI应用需求,基于CPU的标准是关键。

英特尔及其合作伙伴共同构建的基于CPU的一系列标准,将如何激发生成式AI时代的创新?

生成式AI有哪些落地亮点?

生成式AI时代,AI PC、AI手机正在被消费者熟知,各种工业应用也在探索用生成式AI提升效率,当然生成式AI也与艺术、医疗、体育等领域深度融合。

2024英特尔新质生产力技术生态大会的AI PC展区。英特尔的合作伙伴智谱推出的智能编程助手,支持300多种编程语言,离线也能高效工作,极大提升了程序开发者的工作效率

AI PC能提高工作效率也能带来新的游戏体验,一款专注于无畏契约中技能投掷点位教学的 AI 教练插件工具也出现在展区。

这个AI教练插件工具基于英特尔酷睿平台XPU的AI算力优化, 使用AI技术为无畏契约的新手玩家、进阶玩家提供各个地图及英雄精准的技能投掷点位教学,让玩家能熟练掌握技能释放的位置,提升游戏表现。

在边缘AI展区,希沃智慧黑板采用英特尔酷睿Ultra移动处理器或第12代英特尔酷睿移动处理器,结合白板书写和智能交互体验,不仅可以实现流畅的自然板书体验,还能与交互式教学软件搭配使用,方便老师调用多媒体素材资源,打造互动式课堂教学。

据悉,希沃的产品已覆盖17万所学校,服务800万教师。

在生命科学领域,备受关注的AlphaFold2蛋白质结构预测系统,在英特尔CPU Max平台上实现了出色的表现,推动了基于AI的药物研发探索

英特尔还与中国移动咪咕公司展开深度合作,基于英特尔Gaudi 2D芯片和咪咕的技术优势,将古诗词巧妙嫁接到各种直播和转播过程当中,在咪咕直播间打造“Al诗人评奥运”特别环节。

为什么「标准」能激发生成式AI创新?

从端侧到边缘端再到云端,生成式AI的应用都在快速发展,未来AI将无处不在,为了满足AI多样化的应用场景需求,灵活的硬件和开放的生态非常重要。

对于云端AI,无论是发挥服务器机头“指挥官”的作用,还是承担复合工作负载和推理任务,CPU的角色都越发重要。

Mercury Research的最新数据显示,截至今年第三季度,英特尔在x86数据中心处理器市场中占据了75%的份额。这也意味着市场上大部份GPU加速服务器都选择了英特尔至强CPU作为其“机头”。

英特尔最新一代至强6性能核处理器,最高达128个内核的配置、双倍内存带宽、内置AI加速功能,可以直接加速AI推理。至强6能效核处理器具有显著的密度优势,对于有产品迭代需求的用户,可以3:1的比例进行旧系统替换和机架整合,大幅节省计算集群功耗并显著降低碳排放。

仅有强大的“机头”还不够,能够快速完成CPU到计算系统的创新,满足多样化应用的需求,是缓解当前算力资源紧张的关键。

标准是能够快速完成CPU到计算系统创新的关键。

为此,浪潮信息与英特尔联合产业伙伴,共同定义了标准化、模块化的开放算力模组设计规范(OCM),通过开放合作与融合创新,统一算力单元对外高速互连、管理协议、供电接口等,构建CPU的统一算力底座,让多元化的应用场景能够快速找到贴合的方案。

浪潮信息基于模块化架构的NF3290G8服务器,搭载英特尔至强6处理器,实现算力标准化,支持灵活扩展,简化运维。

另外,随着数据中心承担越来越多的工作负载和能耗密集型任务,电力等能源消耗正在迅速增加,液冷技术成为了解决能耗挑战的关键技术。

为了推动液冷行业标准化和模块化发展,英特尔主动牵头,联合本土主流快接头厂商,发起了可互换通用快接头(UQD)互换测试验证项目,加速液冷行业的规模化应用。

英特尔也制定快接头(UQD)互换测试验证的行业标准,并携手丹佛斯、蓝科电气、立敏达科技、苏维克和正北连接这五家合作伙伴进行进深入探索。

同时,英特尔推出冷板液冷领域认证,以及冷板液冷团体标准加速也冷行业的应用与方案落地。

“英特尔秉持从‘摇篮’到‘摇篮’的全生命周期理念,为绿色电脑提供底层的技术支持,并与中国电子学会合作制定行业标准,推动更多OEM厂商推出绿色电脑产品。”王锐也介绍。

英特尔中国的大生态

前面提到,2024英特尔新质生产力技术生态大会是英特尔中国最大规模的活动,这场活动充分展现了英特尔对中国生态和客户的重视。

“英特尔90% 以上的全球开源项目和经验,都惠及了中国生态及客户。”王锐介绍,“我们影响的本地开发者有600万之多,英特尔的开发者目录向开发者提供了超过450项软件工具和资源。”

英特尔在充分洞察中国市场的需求后,在今年八月发布了英特尔全球首款车载独立显卡。

为创建更多AI PC应用场景,英特尔联合40多家中国ISV,拓展AI PC软件生态。而由英特尔参与发起的开放通用服务器社区,汇集170多家本地生态伙伴,引领本地模块化服务器的发展。

为了更好服务中国客户,英特尔也已经宣布扩容成都封装测试基地。

英特尔成都工厂扩容的重点有两个,一是新增服务器芯片产能,使成都封装测试基地能覆盖从客户端到服务器芯片各类产品,满足中国市场的需求的同时大幅缩短响应客户的时间,提升供应链的韧性。二是设立一站式客户解决方案中心,打造推动企业数字化转型的全方位平台。

“这次扩容项目推进的两年中,四川省、成都市各级政府,特别是成都高新区为此项目的落地提供了鼎力支持和帮助。我们携手并肩再一次诠释了‘成都,都成’的精神。”王锐说,“英特尔植根中国、服务客户,立足长期发展,英特尔也将迎来在中国的第40年。”雷峰网

]]>
芯片 //m.drvow.com/category/chips/ll1Bp9OO9far8enu.html#comments Thu, 28 Nov 2024 10:37:00 +0800
英伟达CFO称Blackwell需求量惊人,已向合作伙伴发出1.3万个样片 //m.drvow.com/category/chips/rrSN5nlbgLog0K9K.html 11月21日,英伟达发布了第三季度财报,做为全球科技第一股,这份财报的的发布不仅关乎英伟达自身,还在一定程度上影响着全球科技产业。

财报显示,英伟达第三季度营收350.82亿美元,同比增长94%;净利润达193.09亿美元,同比增长109%。财报发布后,英伟达的股价一度下跌了5%。事实证明,业绩亮眼很重要,但管理好外界预期才会带来股价上涨。

加上Blackwell的延迟交付同样引发华尔街担忧,但英伟达没必要为此事着急,因为他的客户仍愿意为上一代产品Hopper付费。

完成一个Blackwell的工作量需要两个多Hopper,但Blackwell仅能带来1.7倍左右的营收增长,而且由于其先进的制造工艺,其成本可能更高。

也就是说,英伟达通过销售H100和H200可以赚到比B100和B200更多的钱。因此,Blackwell如果延迟发售,英伟达面临的境况是赚得更多

这就是英伟达在第三季度做的事情。

本季度,英伟达净利润达到193.09亿美元,尽管持续进行研发投资、股票回购以及运营成本上升,但英伟达仍手握384.9亿美元现金,较上一季度增加36.9亿美元,较去年同期增长逾2倍。

历史上,英伟达从未打过这样的“富裕仗”。

有分析认为,英伟达不断增长的现金储备预示着可能将会有并购行为出现。支撑这个观点的三个原因:足够多的现金、特朗普上台后较为宽松的反垄断政策以及黄仁勋的野心。

英伟达或将成为全球现金王。高盛分析师预测,在未来两年内,英伟达的自由现金流(即在扣除资本支出后,公司的运营产生的现金流量)将超过2000亿美元。按照当前的分红和股票回购速度,两年的分红和股票回购将消耗约600亿美元,这意味着从净额来看,英伟达的现金流将增加约1400亿美元。将这一数字加上现有的资金,黄仁勋将在2027年手握约1750亿美元的流动资金,超过了当前的现金之王苹果。

权力交接下释放出来的并购窗口。英伟达上一笔“big deal”是在2020年同意以400亿美元的现金和股票收购Arm,希望通过收购Arm来提高数据中心的效能。但在美国、中国以及英国政府及监督机构长达两年的审查之后,这笔交易没有成功。

特朗普上台后或将带来转机,再加上英伟达如果把并购的措辞描述为为了加强美国在全球人工智能领域的霸主地位,则面临的外部压力将会减轻许多。

但阻碍同时存在,由于半导体行业高度全球化,一旦英伟达试图收购Marvell或Arm等拥有稀缺技术的公司,中国和欧洲可能会再次反对。

黄仁勋想吃下人工智能时代。英伟达的无数次选择证明,黄仁勋在预测重大技术变革方面有超凡的能力。

回到具体的行动上,英伟达的风险投资业务不断增长,在初创领域共计投入了18亿美元,包括数据分析人工智能公司Databricks、机器人公司Serve Robotics和Figure AI,以及药物研发公司Charm Therapeutics等。

当然,分析师对英伟达的预测可能过于乐观了。过去几年,人工智能快速发展在很大程度上是因为各大公司向这一领域投入了超量的算力。

一些研究人员称,这种过度的投入可能使边际效益越来越低,这将导致人工智能芯片的增长放缓,需求减少。另一个危险是,像微软这样的科技巨头可能会开发自己的芯片,从而减少对英伟达芯片的需求。

回到财报数据,本季度,英伟达的游戏显卡收入为40.5亿美元,增长16.4%。其他绝大部分收入来自计算与网络事业部,收入为310.4亿美元,同比增长2.1倍,环比增长17.4%。

计算与网络事业部的收入与数据中心部门的收入略有不同,因为并非所有计算都在数据中心内进行,而且有时也会有游戏设备用于数据中心产品。

本季度,数据中心收入为307.7亿美元,同比增长2.1倍,环比增长17.1%。根据英伟达CFO Collette Kress在华尔街的电话会上对这一数字的解释,数据中心收入中约49.5%来自对“云服务提供商 ”的销售,即152.3亿美元。

与一年前相比,这一数字增长了2倍,原因是云服务提供商部署了数以万计的GPU集群,以便租用者可以购买这些GPU的算力。其他公司,如Meta等大型企业以及政府和学术界客户,构成了剩余的155.4亿美元收入。

数据中心业务的两部分收入均增长超过2倍,但云服务提供商的收入增长速度较去年同期却有所放缓。

如上图所示,数据中心的计算部分占据主导地位,反映了市场对高性能计算和AI超级计算机的需求水平。本季度,数据中心计算部分创造了276.4亿美元的收入,同比增长2.2倍,环比增长22.3%。

网络收入增长51.8%至31.3亿美元,但环比下降14.7%。其中,无线宽带网络(InfiniBand Networking)销售额仅同比增长15.2%,实际上环比下降27.3%,占总额18.7亿美元。

以Spectrum-X为代表的以太网网络销售额几乎翻了三倍,人工智能领域的Spectrum-X销售额增长了三倍以上。预估在2025财年第三季度,所有以太网产品的销售额为12.6亿美元。

Kress在谈到本季度的数据中心销售时透露了一些细节,称H200在第三季度实现了“数十亿美元”的销售额,是英伟达历史上增长最快的产品,亚马逊、微软Azure和Coreweave都推出了基于H200的实例。

Kress还表示,Blackwell掩模(半导体制造工艺)的工程更改已经完成,但对传闻中的Blackwell散热问题只字未提。她还补充到,Blackwell已经投入全面生产,本季度已经向合作伙伴发送了超过1.3万个Blackwell样品。微软Azure将成为第一个推出基于GB200平台实例的云服务提供商。

“Blackwell的需求非常惊人,我们正在争分夺秒地满足客户的需求”,Kress在电话会中说到。

黄仁勋也进行了补充说明,除了传统的通过增加GPU来提升性能的方式,英伟达也将通过人工智能反馈的数据用于优化训练,以此来处理上万亿个Token以及数万亿参数。

在此基础上,大模型厂商正在创建 “思维链 ”模型,模仿人类在进行深度思考或创造性思维时所进行的那种偶然的、随机的深度思考,这就是所谓的推理扩展定律(指性能随着模型规模、推理数据集规模和计算资源的变化而变化)。

黄仁勋认为,早先构建的最先进的大模型顶多使用10万个Hopper进行训练,而下一代模型的起步就是10万个Blackwell,深度思考和推理扩展定律将在这个时候开始显现。

预测Blackwell为英伟达带来的收益将在2026年中旬超过Hopper带来的收益。

黄仁勋在电话会中表示:“虽然此前遭遇疫情以及许多谣言,但我认为Blackwell推进得还是非常顺利,一切都在按计划进行。”

考虑到黄仁勋的管理风格,他一般说的都是实话。

本文由雷峰网编译自:

https://www.nextplatform.com/2024/11/20/nvidia-datacenter-revenues-still-booming-blackwell-platforms-on-track/

https://www.reuters.com/breakingviews/nvidias-growing-cash-hoard-points-ma-2024-11-18/


]]>
芯片 //m.drvow.com/category/chips/rrSN5nlbgLog0K9K.html#comments Fri, 22 Nov 2024 18:32:00 +0800
Arm定了个超1000亿台设备运行AI的目标 //m.drvow.com/category/chips/60FViSTnPgmyjtlk.html 所有人的目光聚焦在生成式AI时,Arm同样如此,还提出了非常具体的目标。

一年一度的 Arm Tech Symposia 年度技术大会深圳站,Arm 终端事业部产品管理副总裁 James McNiven表示,“预计到2025年底,全球将有超过1000亿台Arm设备具备 AI 能力。

对于Arm架构芯片出货量已经超过3000亿颗的Arm来说,这是一个可以轻松达成的目标吗?

“我不会说这是一个非常轻松就能达成的目标。”James McNiven对雷峰网表示,“我们与生态合作伙伴一起能够达成这个目标。”

为了达成这个目标,Arm有一些列动作,包括为生成式AI计算进行的持续的架构演进,提供易于使用的软件工具,以及特定面向行业的整体解决方案,还有更广泛的合作。

为生成式AI演进的架构

Arm一直在根据市场需求持续演进其架构保持其领导地位。

比如2011年Armv7-A中引入了Neon,Neon是高级单指令多数据(SIMD)指令的一种实现方案。

2016年Armv8-A 中引入了 SVE,2021 年 Armv9-A 中引入了 SVE2,它们提供可变长度寄存器。

2021年Armv9-A中引入了SME和SME2。SME引入了两个关键的新架构特性:Streaming SVE模式和ZA存储,新特性使SME 和 SME2 能够高效地处理矩阵和基于向量的工作负载。

SVE2和SEM的架构扩展也是Arm未来十年架构演进的重要方向。

Armv9 CPU中的SVE2对于加速视频解码和图像处理有显著作用。

联发科最新的旗舰芯片天玑9400,就是借助SVE2让联发科的芯片协助开发者和终端提升视频和图像处理,提供更好的照片质量,并为用户在观看流媒体视频和浏览社交媒体应用程序时提供了更好的续航能力。

SME建立在SVE2的基础之上,新增了高效处理矩阵的能力,是一个增强矩阵操作的架构扩展。

Arm SME能够显著提升Arm CPU上处理现有AI和ML应用的能力,加速很多利用矩阵运算的应用,例如 AR、VR 和图像处理。

这也意味着,从2015年使用Armv8(NEON)架构的Cortex-A73 CPU开始,Arm在AI领域的投入就已经转化为产品。Arm将实现的1000亿台设备具备AI能力的目标,也覆盖从Armv8(NEON)到Armv9(SVE2/SME)的所有产品。

可扩展的计算平台只是Arm满足生成式AI时代需求的技术底层。对于芯片设计公司来说,关注可扩展能力的同时,也关注性能和产品上市时间。

面向不同行业推出计算子系统,加速产品上市

芯片行业不变的追求就是以更小芯片面积和更低功耗实现更高性能,性能总是会成为首先被关注的焦点。

基于Armv9.2架构的Arm Cortex-X925在Geekbench 6.2基准测试中创下新高,实现了15% 的每时钟周期指令数 (IPC) 提升。

Arm Cortex-X925显著的性能提升得益于L2缓存从2MB增加到3MB,增强了整体性能和能效。再结合Cortex-X925 在更快速、更高效预取数据和复杂指令的能力后,效果更佳明显。

除此之外,Cortex-X925也充分利用3纳米工艺的优势,在需要时以更高的频率运行 CPU,从而提高响应速度、应用启动速度和浏览器性能并且保持能效优势。

Cortex-X925中矢量管线50%的Integer8 TOPS 提升,可加快智能手机上的AI应用响应速度。

即便Arm的设计足够优秀,想要加速产品上市进程,还需要整体解决方案。为此,Arm推出了Arm 终端计算子系统 (CSS),CSS具备最新的 Armv9 CPU、Arm Immortalis GPU、基于3纳米工艺生产就绪的CPU和GPU物理实现,以及最新的 CoreLink系统互连和系统内存管理单元 (SMMU)。

Arm终端CSS提升了30% 以上的计算和图形性能,AI推理速度也提高了59%,以应对各种严苛的工作负载,适用于广泛的AI应用。

“Arm终端CSS的关键在于Arm目前性能最强、效率最高、功能最广泛的CPU集群,带来最佳的性能和能效。”James表示。

不止是CSS,面向更高性能的云端Neoverse CPU,Arm也已经推出了Arm Neoverse CSS。雷峰网了解到,Arm接下来还将推出面向汽车市场的Arm CSS for Auto。

加速实现AI目标,Arm Kleidi 软件库是关键

Arm的计算子系统性能要被充分发挥,软件非常关键。

“开发者需要统一的开发平台,换言之,我们要让开发者不需要关心底层硬件,让他们完成一次代码编写后就可以部署到不同的解决方案中。”James 同时表示,“基于Arm平台超过2000万的开发者对于软件平台也有易于使用的要求。”

面向生成式AI的时代,Arm推出面向热门AI框架的Arm Kleidi软件库。

KleidiAI的命名来自于希腊语“kleidi”,意为“钥匙”,象征其在提升Arm CPU上AI性能方面发挥着关键作用。

Kleidi 软件库包含面向AI工作负载的KleidiAI,和面向计算机视觉工作负载的 KleidiCV。

KleidiAI的明显优势在于,Arm直接与领先的AI框架合作,Kleidi软件库直接嵌入在包括 MediaPipe、LLAMA.cpp、PyTorch和 TensorFlow Lite的 AI 框架中,开发者无需进行任何操作,不会增加额外工作量。

Arm近日也宣布成功将Arm KleidiAI软件库集成到腾讯混元自研的Angel机器学习框架,能够持续为跨操作系统的不同基于 Arm 的设备带来显著的性能提升。

与不包含优化的实现方案相比,在Arm Cortex-X925 CPU 上,使用集成了KleidiAI的llama.cpp的Meta Llama 3和微软 Phi-3 大语言模型 (LLM) 的词元 (Token) 首次响应时间加快了190%。

Arm的工程团队只用不到24小时就测出了Llama 3的优化性能,充分体现了KleidiAI易于集成的特性。

软件库中的KleidiCV,能够加速许多摄像头用例中的计算机视觉管线。基于KleidiCV集成,全球最的的计算机视觉库OpenCV发现各种图像处理任务的典型性能提升高达75%。

值得注意的是,Arm Kleidi 软件库适用于从终端到云端的各种应用场景。

更广泛的生态合作

“AI比历史上其他计算技术都更耗电和内存。”James表示,“先进封装作为解决AI计算挑战的新方法,我们要驱动基于Arm的小芯片生态的繁荣。”

这就离不开Arm全面设计 (Arm Total Design)生态的壮大,这个生态中除了Arm的软件和固件,还有先进的代工厂、芯片设计公司、EDA、内存、第三方IP等公司。

对于Arm,只有不断拓展自己的边界,成为平台公司,更有利于加速实现明年底1000亿台Arm设备具备运行AI能力目标的实现,这也将帮助Arm在生成式AI时代保持领先优势。

]]>
芯片 //m.drvow.com/category/chips/60FViSTnPgmyjtlk.html#comments Fri, 22 Nov 2024 16:27:00 +0800
英伟达SC24六大技术亮点,不止加速超算500强 //m.drvow.com/category/chips/V1zoyf2bewjQM0zx.html 雷峰网消息,当地时间11月18日,TOP500组织于SC24大会(2024年超级计算大会)上正式公布了最新的全球超级计算机TOP500榜单,在这500个全球最强的计算机系统中有384个采用了英伟达的技术,其中前十名中更是占据了八个席位。

黄仁勋表示:“自CUDA诞生以来,英伟达将计算成本降低至之前的百万分之一。对一些人来说,英伟达就像一台计算显微镜,让他们能够观察到极其微小的东西;对另一些人来说则像一台望远镜,让他们能够探索难以想象的遥远星系;对许多人来说,它是一台时间机器,让他们能够在有生之年从事毕生的事业。”

但英伟达的目标不止于此。

SC24大会上,英伟达发布和开源了多项新产品,包括加快数据处理的cuPyNumeric、生物医药开源框架BioNeMo、NVIDIA ALCHEMI NIM微服务、气候预测平台Earth-2 NIM、CUDA-Q平台以及实现数字孪生的Omniverse Blueprint,为学术界和产业界提供更多支持,推动量子计算、药物发现以及新材料研究等尖端科研发展。

持续加速最前沿科研和行业应用,让英伟达保持高性能计算领域的绝对王者 。

加速前沿科研的新选择

发布cuPyNumeric,“无痛”加速科研

科学研究需要对大量数据进行处理分析,处理数据的速度越快,科学家们就能越快地针对有前景的数据点、值得研究的趋势以及实验调整做出决策。

cuPyNumeric是一个加速计算库,其发布为科研带来两个好处:一是通过扩展强大的计算集群,提高数据处理效能;二是该功能无需修改Python代码,科研人员不需要掌握计算机科学方面的专业知识,减少学习成本。

此前,许多科学家都在使用NumPy程序,并仅在一个CPU节点上运行,这限制了其算法的吞吐量,无法处理电子显微镜、粒子对撞机和射电望远镜等仪器收集的日益庞大的数据集。

通过提供一个可扩展到数千个GPU的NumPy替代品,cuPyNumeric从单个GPU扩展到整个超级计算机,可以更快地处理大量数据。

关于计算机专业知识方面,科研人员只需使用熟悉的NumPy界面编写代码,或将cuPyNumeric应用于现有代码,即可体验到高性能和可扩展性。

SLAC国家加速器实验室、洛斯阿拉莫斯国家实验室、澳大利亚国立大学、马萨诸塞大学波士顿分校、斯坦福大学湍流研究中心和印度国家支付公司等机构的科研人员均集成了cuPyNumeric,从使用体验来看,显著地改善了他们的数据分析工作流程。

BioNeMo开源框架,为药物研发打上“肾上腺素”

BioNeMo通过结合加速计算以及提供更大的开源数据集,推动生物医药产业发展。

加速计算为研究人员提供趁手的工具,而开源数据集则补足了“原料”。

研究人员需要专门的生物分子模型和数据集来大规模地收集洞察,以便更快地设计治疗方案。开源BioNeMo框架提供了一系列加速计算工具,为生物分子研究提供指数级扩展的AI模型,也为生物制药领域带来新的超级算力水平。

英伟达医疗健康与生命科学总经理兼副总裁Kimberly Powell表示:“最近的诺贝尔化学奖证明了AI、加速计算和日益扩大的数据集的融合为制药行业创造了前所未有的机遇。为了帮助解开生物系统的复杂奥秘,我们推出了BioNeMo开源框架,它将使全球各地的研究人员能够更快开发出挽救生命的治疗方法。”

BioNeMo已被产业及学术界大量采用,包括A Alpha Bio、美国阿贡国家实验室、Dyno Therapeutics、罗氏集团的成员基因泰克及Ginkgo Bioworks等。

阿贡国家实验室计算科学小组负责人Arvind Ramanathan表示:“美国阿贡国家实验室贡献了数十亿参数的生物模型,这些模型需要使用专门的软件在高性能计算环境中训练而成。BioNeMo为美国阿贡国家实验室和更广泛的生物技术社群提供了一个企业级开源解决方案,使研究人员能够在本来不具备足够的计算专业知识的实验室中,轻松扩展大型生物基础模型的训练规模。”

除此之外,英伟达还发布了适用于BioNeMo的一系列NIM微服务(容器化的GPU加速推理服务,可用于预训练和自定义AI模型)。这些微服务可以快速、轻松地部署在本地或任何数据中心或云中,使开发人员能够在各种不同的环境中灵活运行应用,并缩短了生物药物研发研究中从推理到获得洞察的时间。

新推出的NIM微服务支持业界领先的模型,包括谷歌的AlphaFold2及麻省理工的DiffDock 2.0。目前已有200多家科技生物公司、大型制药公司和初创企业用户将BioNeMo集成到其计算机辅助药物研发平台和工作流中。

NVIDIA ALCHEMI让新材料发现,从「混乱走向秩序」

据国际金融公司(IFC)报告显示,从洗衣粉、食品包装等日用品到半导体、电池和太阳能电池板等先进工业零部件,超96%的制成品所依赖的化学物质都无可替代,因此,创造新材料以应对储能和环境修复问题变得日益严峻。

但在探索海量的潜在材料时,会涉及到几乎无限种的化学物质组合,这使探索过程极复杂且需要耗费大量时间。在传统实验室中,通常需要进行费力、反复的试错合成和测试才能发现新材料。

AI推理或许是解药。最近,AI 已经成为加快化学物质和材料创新的催化剂。

英伟达发布NVIDIA ALCHEMI NIM微服务,通过优化针对化学模拟的AI推理,加速研究工作,从而催生更高效且可持续发展的材料,从而支持可再生能源转型。

SES AI是领先的锂电池开发商,正在使用NVIDIA ALCHEMI NIM微服务和AIMNet2模型,致力于更快地找到制造电动汽车所需的电解质材料。

借助ALCHEMI,SES AI近期在半天时间内绘制了10万个分子,而且有望把绘制时间缩短到一小时内。

Earth-2 NIM让「模拟地球」的速度提高500倍

Earth-2是一个数字孪生云平台,用于模拟并可视化呈现天气和气候条件。

彭博社报告显示,2024年上半年,自然灾害造成的保险损失约为620亿美元,较近10年平均值高出了70%左右。

SC24大会上,英伟达发布了两项基于Earth-2的全新微服务,为气候技术应用提供商提供了领先的生成式 AI 驱动的功能,以辅助预测极端天气事件,且将气候变化模型的模拟计算速度提高了500倍。

两项微服务:更高分辨率建模的CorrDiff NIM及使大规模集合预报成为可能的FourCastNet NIM。

CorrDiff是一种可实现公里尺度超高分辨率的生成式AI模型。CorrDiff基于WRF模型的数值模拟结果进行训练,可以生成12倍更高分辨率的天气预报结果。

与使用CPU的传统高分辨率数值天气预报相比,CorrDiff NIM微服务的计算速度高出了500倍,能效提升了10000倍。此外,CorrDiff 现在以300倍的更大规模运行,可对整个美国进行超分辨率处理(即提高低分辨率图像或视频的分辨率),并能以公里尺度的可见度预测降雪、结冰和冰雹等降水事件。

但并非每个用例都需要高分辨率预报。对某些应用来说,使用粗分辨率的大规模集合预报反而能获得更好效果。

FourCastNet NIM微服务提供了全球范围的中期粗分辨率预报。通过使用欧洲中期天气预报中心或美国国家海洋和大气管理局等业务气象中心的初始场,提供商可生成未来两周的预报,速度比传统数值天气模型快5000倍。

这为气候技术提供商带来了新机遇,使其能够以不同尺度评估极端天气相关风险,从而预测当前计算工作流对低概率事件发生可能性的遗漏。

与产业巨头强强联合

英伟达CUDA-Q携手谷歌Quantum AI,加速量子计算处理器设计

SC24大会上,英伟达宣布与谷歌达成合作,谷歌旗下的Quantum AI将采用CUDA-Q平台进行模拟,以加速下一代量子计算器件的设计工作。

英伟达CUDA-Q是一个开源量子平台,协调了运行大规模量子计算应用程序所需的硬件和软件。谷歌旗下的Quantum AI致力于构建量子计算机,通过量子计算解决其他方法无法解决的问题。

现阶段,量子计算由于存在硬件的局限性,只能运行一定数量的运算,该现象被研究人员称为“噪声”。

谷歌量子AI正在使用量子-经典混合计算平台和NVIDIA Eos超级计算机,以模拟其量子处理器的物理特性,这将有助于克服量子计算硬件当前的局限。

谷歌量子AI研究科学家Guifre Vidal表示:“要想开发出商用的量子计算机,就必须能够在控制噪声的情况下扩展量子硬件规模。借助英伟达加速计算,我们正在探索越来越大的量子芯片设计中噪声的影响。”

过去,模拟的计算成本非常高。借助CUDA-Q平台,谷歌可以在NVIDIA Eos超级计算机上使用1024个NVIDIA Hopper Tensor Core GPU,以低成本进行世界上最大、最快的量子器件动态模拟。

英伟达量子和高性能计算总监Tim Costa表示:“强大的AI超级计算有助于量子计算取得成功。谷歌对CUDA-Q平台的使用展现了GPU加速的模拟在推进量子计算方面发挥的作用,它将帮助解决许多问题。”

借助CUDA-Q和Hopper GPU,谷歌可以对包含40个量子比特的器件进行模拟,是同类模拟中规模最大的,噪声模拟时间从一周缩短到几分钟。

实现万物「数字孪生」的“蓝图”

Omniverse Blueprint是一款物理数字孪生产品,数字孪生是物理实体的精准虚拟模型,通过实时数据采集和仿真分析,为决策提供支持。

Blueprint是一个包含NVIDIA加速库、物理AI框架以及基于物理学的交互式渲染的参考工作流,可将仿真和实时可视化速度提高1200倍。

黄仁勋表示:“我们构建Omniverse是为了让万物都能拥有数字孪生。Omniverse Blueprint是打通NVIDIA Omniverse与AI技术的参考管线。借助该蓝图,领先的CAE软件开发商能够构建出开创性的数字孪生工作流,为全球各大行业实现从设计、制造到运营的工业数字化转型。”

Altair、Ansys、Cadence、西门子等软件开发商利用NVIDIA Omniverse Blueprint实现实时计算机辅助工程数字孪生,帮助客户在降低开发成本和能耗的同时,更快进入市场。

构建实时物理数字孪生系统需要两项基本功能:实时物理求解器的性能与大规模数据集的实时可视化。

Omniverse Blueprint为开发者统一三大技术支柱:用于加速求解器的NVIDIA CUDA-X 库、用于训练和部署模型以生成流场的NVIDIA Modulus物理AI框架,以及用于3D数据互操作性和RTX支持的实时可视化的NVIDIA Omniverse API来实现上述两项基本功能。

工程仿真软件Ansys在Texas Advanced Computing Center的320颗NVIDIA Grace Hopper超级芯片上运行Fluent,仅用六个多小时就完成了25亿个单元的汽车仿真,而在2048颗x86 CPU Core上运行这一仿真则需要近一个月的时间。

Ansys总裁兼首席执行官Ajei Gopal表示:“我们通过将NVIDIA Omniverse Blueprint与Ansys软件集成,使客户能够更加快速、准确地进行日益复杂和详细的仿真,我们的协作正在推动多个行业的工程与设计发展。”

此外,Omniverse Blueprint还可在所有领先的云平台上运行,包括亚马逊云科技、Google Cloud,Microsoft Azure和Oracle Cloud Infrastructure。

Rescale是一个基于云的平台,可以帮助企业加速科学和工程突破。通过使用NVIDIA Omniverse Blueprint,该平台上的企业只需点击几下即可训练和部署自定义AI模型。

2024年超级计算大会将落幕,但英伟达在加速计算的路上仍在不断加速。


]]>
芯片 //m.drvow.com/category/chips/V1zoyf2bewjQM0zx.html#comments Thu, 21 Nov 2024 19:13:00 +0800
黄仁勋亲述创业故事:两次都差点倒闭 //m.drvow.com/category/chips/8DSSpfiIwEGqU7Gy.html AI时代,最火的不是AI,而是英伟达。

对资本市场而言,从华尔街到全球股民,都保持着对英伟达的高度关注。对芯片行业而言,英伟达是无可置疑的业内标杆,老对手被甩到车尾灯都看不见。对AI而言,在算力竞赛的阶段,一颗A100芯片比黄金都令人垂涎。

2024年11月,英伟达市值突破3.6万亿美元,登顶全球市值排行榜,终结了苹果长达12年全球市值第一的纪录。标普道琼斯指数发布公告,将道琼斯工业平均指数的芯片业成分股从英特尔换成了英伟达。

成立30年,英伟达如何成就万亿美元市值的商业帝国?

婉拒创业,黄仁勋差点错过千亿身家

上世纪80年代,在全球范围内,除了IBM以外,很少有公司能够独立进行芯片设计。

彼时,任职于太阳公司(Sun Microsystems)的工程师柯蒂斯.普里姆(Curtis Priem)和克里斯.马拉科夫斯基(Chris Malachowsky)接到了一项任务,负责为公司设计半定制化芯片。

这项工作与半导体供应商LSI Logic进行合作,而对方所委派进行协助的工程师正是黄仁勋,三人在此正式结缘。

90年代,在大多数公司仍专注于开发CPU的时期,普里姆、马拉科夫斯基和黄仁勋被要求开发更有挑战性的产品,即图形处理器GPU。在无人区探路的他们,结合彼此的优势,最终完成了这项工作,也奠定了相互间更深厚的信任关系。

黄仁勋称:“我们合作得非常愉快,普里姆和马拉科夫斯基是我所认识的最优秀的工程师之一,我享受和他们一起工作。”

计划赶不上变化。由于太阳公司的计算机架构和图形架构发生了许多变动,几人开发的项目不再受到青睐,普里姆和马拉科夫斯基决定离开公司,开始创业。

毫无疑问,在挑选创业合伙人时,二人脑海里浮现的第一个身影就是黄仁勋,他们向黄仁勋发出邀请,但得到的回复却是“祝你们成功吧”。

黄仁勋觉得,自己有一份很不错的工作,能做着自己喜欢的事情,对当下感到非常满意。相反,如果选择去创业的话,三人甚至连要干什么都还没想明白。

架不住两位老伙伴的极力邀请,黄仁勋最后还是同意出去聊聊。

黄仁勋把聊天的地点定在他职业生涯的起点丹尼餐厅,他在这当过洗碗工和服务员。由于丹尼餐厅有咖啡无限续杯政策,三人在这里聊了四个小时,直到脑海里没有新的灵感蹦出来。

最终,三人将目标锁定在个人电脑市场。

1993年,个人电脑革命刚刚开始,三人意识到这将是一个重要的时代机遇。他们推断的逻辑是,个人电脑的价格会降低到一定水平,而且操作难度也会下降,这也就意味着个人电脑将实现普及化,人手一台电脑的时代将来临。

所以,用户会拿着电脑去干什么,或者说干得最多的会是什么?答案是,打游戏。而游戏体验的好坏很大程度上取决于视觉呈现效果,视觉呈现主要依靠GPU对3D图形的处理。

因此,问题来到为什么要赌针对游戏玩家的3D图形芯片:

强大的吸金能力。1993年,一款名为《毁灭战士》(DOOM)的游戏正式发售,引发了空前的轰动,游戏媒体将其评价为年度最佳游戏,能够提供游戏试玩的服务器几乎全被挤到宕机。

发售的头两年内,有超过1500万人玩过这款游戏,在90年代,这是一个天文数字,而这也让黄仁勋更笃定,选游戏没错。并且,游戏还有两个特性:用户依赖度高以及用户停留时间长。

拿下游戏,就可以赢家通吃。当时,个人电脑的图形处理能力、多媒体处理能力几乎不存在。没有声音、麦克风、扬声器、视频及图形,基本上就是一个文本终端。

但只要做出能玩游戏、能承载3D图形的芯片,以上的所有功能基本都可以运行得了。

黄仁勋在后来的多次演讲中都提到了“0亿美元市场”,即在尚未得到验证的市场中进行有计划的投资与布局,这是英伟达成功的关键因素。

而3D图形芯片在当时符合“0亿美元市场”理论。在那个时代,随便找一家市场研究咨询公司,问“1993年PC上的3D图形市场规模是多少?”,他们的回答都是“0”。

20世纪80年代出现了许多芯片公司,比如赛灵思和阿尔特拉,此时PC上的2D图形市场已经非常拥挤了,为什么还需要英伟达出来掺和一脚?

因此,黄仁勋几人选择专注于3D图形市场以实现差异化,选择一条困难但人少的路。如果相信3D图形芯片将彻底改变计算机行业,那有什么理由不迈出这一步呢?

首代产品超99%被退货,英伟达险些“夭折”

1993年2月17日是黄仁勋的生日,也是他创业的第一天。

黄仁勋很快把创业队伍拉了起来,他们在购物中心租了一间小办公室,雇了大概20个员工。

经过两年的努力,1995年,英伟达的第一款产品NV1正式出炉。

这款产品充满“先见之明”,集3D图形处理、视频处理、音频波形表处理、IO端口、游戏端口、加速功能及UDA编程模型等多种功能于一体。

英伟达董事会成员马克.史蒂文斯(Mark Stevens)称:“我一直觉得,我们制造了一把功能齐全的瑞士军刀。”

团队满怀信心地把产品交付给合作伙伴帝盟多媒体(Diamond Multimedia)进行销售,但市场的反馈却相当惨淡。长期开不了单也让帝盟多媒体感到恐慌,他们把收到的25万颗芯片中的24.9万颗都退了回去,这让英伟达几近破产。

NV1失败的原因主要有两点:一是虽然NV1支持很多功能,但没有可以在上面运行的应用程序;二是市场需要的只是一款3D图形芯片,仅此而已。他们希望这款芯片便宜好用,而不是堆砌很多花里胡哨的功能还卖得很贵。

NV1的“破发”,让团队学到很多。

黄仁勋称:“这是一个了不起的技术成就,但它却是一款糟糕的产品。NV1没办法跟市场上的其他产品进行比较,它在这个方面不如那个,在那个方面不如这个,很难在市场上买到这样的产品。没有人会去商店买一把瑞士军刀作为圣诞礼物。”

史蒂文斯说:“我学到的一个教训是,我们进入3D图形领域可能太早了。对于大多数风险投资支持的技术公司来说,失败的原因往往是它们进入市场太早,而不是太晚。我们好像站在太平洋的冲浪板上,等待着那股大浪的到来。如果浪迟迟不来,就无法到达岸边,最终在茫茫大海中冻死。”

为了让公司平稳运行,三人也同时在给自己的事业寻找投资者。黄仁勋去拜访了他的前老板,LSI Logic的创始人兼CEO威尔弗雷德·科里根(Wilf Corrigan)。

科里根此前是仙童半导体的总裁兼CEO,面对黄仁勋的求助,科里根很快想到了仙童半导体的老同事,红杉资本创始人唐·瓦伦丁(Donald Thomas Valentine)。

他当着黄仁勋的面拿起电话说:“嘿,唐,我要给你送个孩子过来,他是我最好的员工之一。我不知道他要做什么,但给他钱。”

瓦伦丁是硅谷投资界的传奇,一手投出了苹果、甲骨文、思科和雅虎等公司。他的投资理念极具个性,投资于专注一个大市场,并解决具体难题的企业。现在看来,英伟达与这个理念高度契合。

回到当时,黄仁勋在科里根的引荐下,顶着一脸青春痘去了红杉。

黄仁勋回忆称:“瓦伦丁总给人一种不怒自威的感觉。那时我29岁,即将30岁,面对这些人,说话都不利索,我对自己的提案表现感觉非常糟糕,但幸运的是,瓦伦丁已经收到“指示”,一定要给我投资。”

瓦伦丁在听完黄仁勋的“路演”过后只说了一句话:“如果你赔了我的钱,我就杀了你。”

后面的故事就是,瓦伦丁与另一家机构Sutter Hill Ventures各投了100万美元给黄仁勋,此时,英伟达的估值来到600万美元。

世嘉有违常识的决定,让英伟达再次获救

虽然NV1芯片惨遭滑铁卢,但幸运的是,游戏制作厂商世嘉向英伟达抛来橄榄枝,邀请英伟达合作开发NV2芯片。

彼时的世嘉风光无限,接连发布了《VR战士》、《梦游美国》及《VR特警》等经典3D街机游戏。在当时,几乎重塑了游戏行业。

世嘉的青睐为双方提供了机会,既可以让英伟达帮助世嘉开发下一代游戏主机,也鼓励了世嘉将游戏移植到PC上。

从工程角度来说,NV1和NV2是为支持一种使用四边形绘制图像的架构而开发的。当英伟达首次推出产品时,它是市场上唯一一家为PC生产3D图形芯片的公司,市场上并没有可以参考的其他案例,所以基于他们自己对技术的判断,选择这种架构是非常明智的。

但很快,危机来临。

其他3D图形公司开始涌现,他们的芯片支持另一种完全不同的架构,微软推出的Windows 95上搭载的API DirectX,是除了英伟达之外其他所有人使用的架构,即使用三角形绘制图像的架构。

黄仁勋称:“我们以前从未实现过像DirectX这样的图形架构,而整个行业,当时有大概50多家公司,都在追赶英伟达。”

那么问题来了,英伟达该怎么办?

如果继续按照合同上约定的方案执行,跟世嘉合作完成游戏主机,那么英伟达就会无可避免地在错误的道路上浪费两年时间,与此同时,竞争对手正在飞速前进。

如果未能完成合同,那么英伟达将没有足够的资金支撑公司的运营及产品研发,并且还可能面临给世嘉缴纳赔偿,而英伟达根本没有能力去承担这个后果。

要么完成项目然后死去,要么无法完成项目而立刻死去。

激烈的讨论过后,团队确定一条共识。无论如何,不能走错的道路,所以答案就是英伟达必须支持这种新的架构。

那违背合同,没钱怎么办?

黄仁勋选择开诚布公,他跑到世嘉找到当时的CEO入交昭一郎,并告诉他英伟达为世嘉设计的架构走在错误的方向,因为主流世界正朝着另一种名为“逆向渲染”和“逆向纹理映射”的方向发展。

如果世嘉坚持要英伟达完成合作,那世嘉将得到一款违背主流的产品,而英伟达也将由于在错误的路上走太远而死亡。

入交昭一郎问黄仁勋:“你需要我做些什么?”

答案令人出乎意料,黄仁勋说:“虽然你没理由这样做,不过我希望你能解除我们双方的合同,让我们免于履行责任,但要全额支付我们的费用,世嘉从中可能一无所获。”

这是一个有违商业常识的请求。

考虑了几天过后,入交昭一郎告诉黄仁勋,他愿意帮助英伟达。后续,世嘉支付了大约500万美金给英伟达,让英伟达在公司存亡的关键时刻活了下来。

这件事情让黄仁勋明白一个道理,创业的时候最重要却最容易被忽略的东西就是人们的善意。

现在只有一次机会了,在耗尽了所有资源之后,公司如何押最后一注?

黄仁勋心想,如果只有一次机会,反向推导芯片研发的流程,要确保做出完美的产品,就需要提前做好所有软件工作以及其他准备。

他们找到了一家名为Icos做仿真器的公司,仿真器主要功能是模拟和重现真实系统,广泛用于工程设计和科学研究等领域。

黄仁勋打电话给Icos后,对方回复称:“感谢来电,但我们已经倒闭了。如果你们真的需要我们的产品,仓库里还有一些库存。”

就这样,英伟达从一家即将倒闭的公司购买了一些“废弃”的产品。

通过芯片仿制的方式,英伟达推出了世界上首款仿制的PC芯片RIVA 128 NV3。NV3是当时最好的逆向纹理映射引擎,改变了行业对现代计算机图形的认知以及芯片设计和封装的方式。

100M/秒的像素填充率(图形处理单元每秒渲染的像素数量)让NV3迅速赢得市场的青睐,1997年底,Dell及Gateway等厂商相继采购了NV3。NV3让英伟达打了一场翻身仗,在上市后的四个月内就售出了100万颗。

更重要的是,NV3的快速开发和测试过程让英伟达能够以比竞争对手快两倍以上的节奏推出下一代芯片。

马太效应开始在英伟达身上显现。

英伟达开启“AI狂飙”

1999年1月,英伟达在纳斯达克挂牌上市,相继推出了RIVA TNT2和NVIDIA Vanta两大处理器产品。

同年8月,英伟达发布了全球首款GPU GeForce 256,这也是世界上第一款可编程加速器。2000年,英伟达与微软达成合作,早期一直将英伟达边缘化的微软选择GeForce为其新项目Xbox提供动力。

但PC市场的局限性以及始终与英特尔直面竞争,让英伟达倍感压力,团队认为必须开发一个全新市场才能真正地站稳脚跟。

2006年,英伟达推出了CUDA,这是一种适用于其GPU的通用编程接口,也就是说用户可以利用英伟达的GPU进行图像处理之外的运算,这为GPU的应用场景开辟了新的范围,远远超出了游戏领域。

黄仁勋称:“很多大学的研究人员意识到,只要购买这款名为GeForce的游戏显卡,并将其添加到计算机中,就会拥有一台个人超级计算机。”

DeepLearning.AI创始人吴恩达回忆称:“在斯坦福大学时,我的一名本科生伊恩·古德费洛(Ian Goodfellow)在他的宿舍里搭建了一台GPU服务器,这台服务器最终成为了我们进行深度学习实验、训练神经网络的工具。我们开始在GPU上以10倍甚至100倍的速度训练神经网络,因为我们可以同时进行1000或10000个步骤,而不是依次进行,这对于神经网络的应用来说是一个彻底的改变。”

与此同时,辛顿以及杨立昆,这两位在当下人工智能时代炙手可热的学者,他们的实验室也在做同样的事情。那时候的人工智能还是小众需求,提到这个领域总给人一种“民科”的感觉。

2012年到2015年,人工智能芯片市场的规模几乎为0。但黄仁勋喜欢说:“我们正在投资0亿美元市场。”在那个时间投资人工智能,几乎等于是在一个可能永远不会出现的市场上投入资金和资源。

而且对于一家已经是市值十亿美元的上市公司来说,成功会让人厌恶风险,不让公司“脱轨”好像更重要。

20年来,英伟达一直与PC游戏芯片紧密相关,是继续坚守自己的领域,还是将未来押注在一个尚未得到证明的市场上?

马拉科夫斯基称:“你必须相信你所相信的,然后把钱投入到其中。如果我们判断这可能是一个重要的市场,那么我们就会这样做。”

英伟达选择了人工智能,命运的齿轮开始转动。这不仅将改变英伟达自身的发展轨迹,还将改变整个技术产业的发展轨迹。

黄仁勋称:“作为一名CEO或者任何试图将船只驶向新方向的人,必须不断寻找积极反馈、不断宣传自己的想法。每当有好事发生,都会使自己更坚定。我们必须清楚地认识到,这是什么?为什么它很重要?它如何帮助我们达到下一个层次?”

人工智能领域的芯片层、系统层、算法层和人工智能层都在进步,系统性的进步带来了指数级的复合增长。如果回顾从ImageNet及AlexNet以来的进展,计算能力已经提高了大约100万倍,而不是1000倍。这种计算技术以每十年百万倍的速度快速发展,被亲切地称为“黄氏定律”。

得益于人工智能发展带来的快速“出圈”,马拉科夫斯基称:“突然间每个人都想知道我们是从哪里来的,但这种一夜成名的感觉其实是花了30年才实现的。”

自英伟达成立以来已经过去了30年,这其中的大多数人不会以30年的眼光来看待问题。但通过将数十年的愿景付诸实践,如今的英伟达能够在更短的时间创造更多不可能。

黄仁勋说:“每个CEO的工作都是要瞻前顾后的,还必须大胆地决定哪些机会和问题值得我们去解决,即使没人相信我们能真的能做到。而且,要实现目标必须与一群了不起的人共事,那些曾在英伟达创造奇迹的人,他们中的大部分还留在这里,这真的很令人感慨。”

未来,英伟达仍然值得期待。

雷峰网参考材料:

https://www.sequoiacap.com/podcast/crucible-moments-nvidia/#the-story-of-nvidias-founding

https://www.cio.com/article/646471/how-nvidia-became-a-trillion-dollar-company.html

https://www.cbsnews.com/news/nvidia-ai-focus-under-jensen-huang-60-minutes/

https://www.msn.com/en-us/news/technology/how-jensen-huang-built-nvidia-into-the-3-trillion-king-of-ai/ar-AA1u3sEQ


]]>
芯片 //m.drvow.com/category/chips/8DSSpfiIwEGqU7Gy.html#comments Tue, 19 Nov 2024 15:44:00 +0800
咨询公司创始人:台积电领先英特尔主要是经济问题而非技术问题 //m.drvow.com/category/chips/0lNV6JJTQSBvuzR4.html 过去几年,美国政府对本土是否还具备尖端芯片制造能力感到极度焦虑。

媒体上充斥着美国在芯片制造方面落后于人以及不再具备生产尖端芯片能力的报道。这种焦虑一方面源于与中国竞争的地缘政治担忧,另一方面是美国似乎真的失去了生产芯片的能力。

D2D咨询创始人Jonathan Goldberg认为,这个问题主要是经济问题而非技术问题。也就是说,当下的英特尔仍具备生产尖端芯片的能力,只是从经济角度看,这门生意并不划算。

英特尔在芯片制造领域拥有最好的设备并且积累了深度的行业认知,只是他们无法以盈利的方式生产18A、3nm芯片。

现阶段,美国面临最严重的问题是,如果因为爆发军事冲突却无法自主生产尖端芯片,且台积电停止为美国生产芯片,或将直接威胁国家安全,对经济造成巨大的破坏。

此时英特尔需要多长时间能够恢复自主生产芯片的能力?假设政府愿意投入足够的资金,则生产流程会迅速恢复。因为恢复生产的早期阶段,英特尔的良品率将非常低,而政府如果能弥补这一部分损失,以固定的价格购买只有5%-10%良品率的晶圆,就可以让英特尔有“喘息”的机会,以此进行工艺的优化。

在半导体行业,产量可以解决很多问题,只要能承受住生产大量不良晶圆的成本,就可以获得足够的经验优化工艺,以此提高良品率。

台积电崛起的叙事是,英特尔错过了移动市场的机遇,使台积电成为了手机制造商的首选代工厂,这推动了台积电的产量大幅上涨。完成资本及技术的原始积累后,台积电的迭代速度是其他生产厂商无法比拟的。

台积电的崛起还有两个原因,一是政府的直接补贴,另一个常被忽视的是新台币带来的间接补贴。

新台币表面上是自由浮动货币,但如上图所示,在过去20多年里,它似乎一直与美元挂钩。经济学家Brad Setser进行了大量关于台湾如何实现这一目标的研究,得出的结论是台湾通过强大的货币管理政策来保持竞争力。

在一段时间内,美元大幅升值,就意味着新台币的购买力会相应下降。以《经济学人》的“巨无霸指数”为例,蓝色线条代表新台币。

这个图表直观地展示了一种货币相对于美元是升值还是贬值。如图所示,在过去的二十年里,新台币相对于美元的购买力一直在稳步下降,而这个时期正是台积电崛起的时期,这种贬值始于亚洲金融危机,并且随着时间的推移而加剧。

这为台积电提供了一笔巨大的、间接的补贴。他们可以支付员工在台湾具有竞争力的工资,但实际上远低于美国同行的工资。

台积电的营收是以美元计价的,但员工的薪水是以新台币支付的,这种折扣已经持续了几十年。通常认为贬值的货币能为厂商在出口产品的时候,提供比竞争对手更有性价比的价格。但台积电把这种优势用于打造公司庞大的人才库。

一些研究报告显示,新台币相对于美元的汇率被低估了约30%。因此,台积电表示其在美国建设工厂进行生产的成本将比其在台湾生产的晶圆成本高出20%至30%,这并非巧合。

了解台积电是如何取得成就的非常重要,台积电管理层的高明之处在于,他们将货币优势投入到人才团队建设中,而不是将其浪费在与核心业务关无关的一些收购上。

这就引发了一个问题,面对台积电,其他厂商怎么才能赢?

美国政府完全了解台币的影响,但一直没有采取任何行动干预。参与芯片生产竞争需要外部资金支持,对于英特尔而言,让政府出手干预在这个阶段非常重要。

采用更具商业性的解决方案,即吸引外部投资,固然是一种更符合市场化竞争规则的措施。但越来越多的声音在呼吁美国政府通过补贴的方式来“拯救”英特尔。

另一位竞争对手三星,如何应对?由于类似的原因,韩元的地位实际上与新台币相差无几,但三星却选择把这笔意外之财用在其他地方。

从短期来看,三星晶圆厂可能需要三星财团的更多支持。而韩国财团对于扶持晶圆厂的兴趣有多高,我们不得而知。因为,现阶段内存业务对整个三星集团来说更为重要。晶圆厂可能由于消耗大量资金而威胁对内存业务的投入,最终导致财团决定转而专注于内存业务。

显然,无论是英特尔还是三星都需要外界的支持才能继续参与这场竞争。

本文由雷峰网编译自:https://www.techspot.com/news/105432-intel-vs-tsmc-why-economic-factors-not-tech.html


]]>
芯片 //m.drvow.com/category/chips/0lNV6JJTQSBvuzR4.html#comments Thu, 14 Nov 2024 14:50:00 +0800
X86服务器市场回暖,Q4是英特尔扭转局势的关键 //m.drvow.com/category/chips/Qs4bCdM54b63Foai.html 由于英特尔近来并不亮眼的财报成绩,市场上出现了许多唱衰这家芯片巨头的声音。

认为英特尔很容易在市场上败下阵来的人,只需要看看Mercury Research(PC组件市场研究机构)发布的市场份额数据及历史趋势就会打消这个念头。

近日,Mercury Research公布了2024年第三季度PC组件的市场数据,结合Gartner(咨询公司)提供的芯片厂商出货量和收入历史趋势,直观地展示了X86服务器CPU的市场状况。

X86服务器CPU出货量及收入数据显示:尽管AMD在市场上取得了很大的进展,但全球数据中心供应的X86 CPU中仍有四分之三是英特尔生产。

AMD在服务器CPU营收方面表现得比预期要好,是因为Milan和Genoa系列Epyc处理器比同期发布的Xeon(至强)处理器搭载更多的核心,具有更高的性价比。

虽然云计算服务提供商以及超大规模企业在购买服务器CPU时有大幅折扣,但是平均销售价格的提高可以帮助AMD弥补这一部分损失。同时,越来越多没有享受折扣的企业购买AMD的服务器CPU,也会使AMD及其合作OEM实现营收及利润的增长。

以下是AMD和英特尔X86服务器CPU出货量的详细分析:

第三季度,英特尔出货409万颗X86服务器CPU,较2023年第三季度的355万颗芯片增长9.8%。

从图中可以看出,英特尔在2023年第三季度和2024年第一季度的出货量为346万颗CPU时触底反弹。从现阶段数据上看来,Granite Rapids和Sierra Forest Xeon 6处理器比起Sapphire Rapids(第四代至强可扩展处理器)前代产品更受欢迎。

在出货量方面,今年第三季度AMD的增速实际上慢于英特尔,但相差不远。Mercury Research数据显示,AMD在2024年第三季度售出了139万颗Epyc处理器,较2023年第三季度的122万颗同比增长14.4%,较2024年第二季度的126万颗环比增长7.1%。在此期间,X86服务器CPU总销量增长15.1%至548万颗,环比增长9.1%。

以下是X86服务器CPU的收入随时间的变化情况:

富国银行数据显示,第三季度,英特尔Xeon服务器CPU的营收同比下降了1.4%,至35.1亿美元,但环比却增长了6.9%,与X86服务器CPU的整体环比营收增速相符。反观AMD,由于一年前的市场占有率较低,其Epyc服务器的营收同比增长20.7%,至18亿美元,但环比仅增长了6.9%(X86服务器总体营收同比增长5.1%,至53.1亿美元)。

了解AMD以及英特尔在X86服务器中的地位后,下一步是分析搭载这些芯片的服务器的收入情况(由于第三季度销售的CPU部分尚未在服务器中使用,数据存在滞后性)。

根据历史趋势、逐渐上涨的平均销售价格以及销售量不断上涨的AI服务器,以此预估2024年第三季度的发货量和收入。假设平均销售价格保持不变,并且服务器出货量与Mercury Research的X86服务器出货量相匹配,那么在2024年第三季度,将有约300万台服务器出货,全球总销售额将达到422亿美元。

X86服务器出货量同比增长13.9%,收入同比增长39.4%。但这张图表忽略了全球超大规模服务器、云计算厂商和高性能计算中心正在部署的越来越多的基于Arm的服务器。

2002年,CPU在系统成本中所占比例约为10.5%。2004年,AMD带着更多核以及更优的设计强势进入市场,使这一比例上升至15%以上。

随着超大规模企业和云服务提供商的工作负载增长,高性能服务器CPU使CPU在服务器成本中的占比提升至20%左右。在金融危机之后,AMD Opteron处理器几乎被市场淘汰,由于市场上缺乏竞争以及CPU性能的提高,使得CPU在系统成本中的占比一度超过了30%。

超大规模云计算服务提供商和云基础设施构建者想要打造Arm服务器CPU的答案就藏在这里,在缺乏竞争的情况下,英特尔对CPU收取非常高的价格,其2010年前后的财务状况就可以佐证这一点。

直至AMD重新回到市场,Arm服务器芯片成为可选项,客户不愿再为CPU支付过高的费用。2022年,X86服务器CPU成本占系统成本大幅下降至20%以下,并在2024年再一次断崖式下跌,降至12%左右。

数据显示,AI热潮之后的服务器出货量衰退比2008年全球金融危机后的服务器出货量下滑要严重得多。

金融危机期间,有五个季度的收入下降,其中四个季度出货量的下降幅度超过两位数(收入比出货量早一个季度出现崩溃)。

由于超大规模云计算服务提供商和云服务构建者是非常强势且“喜新厌旧”的服务器买家,他们往往是每代新服务器CPU的首批用户。因此,一旦他们的购买量产生变化,将直接造成市场波动,在过去十年中X86服务器多次出现出货量衰退的现象。

具体来说,2016年第三季度到2017年第一季度连续三个季度的服务器出货量下降,2019年第一季度到2019年第三季度出现下滑,2020年第三季度到2021年第二季度出现持续四个季度的下滑,2022年第四季度到2023年第四季度持续五个季度的下滑,下滑的时期与AI的繁荣期完全吻合。

因为AI繁荣时期,随着服务器中的GPU、内存、闪存和网络内容的快速增长,CPU平均销售价格也持续增长。

好消息是,X86服务器出货量的衰退在2024年第二季度临近结束,这将有助于提升英特尔和AMD的盈利能力。

第四季度将显示英特尔是否能够扭转不利趋势,从长远来看,在X86服务器CPU市场,英特尔和AMD的市场份额将很可能是6:4或5:5。

本文由雷峰网编译自:https://www.nextplatform.com/2024/11/12/the-server-recession-ends-and-both-intel-and-amd-won/

]]>
芯片 //m.drvow.com/category/chips/Qs4bCdM54b63Foai.html#comments Wed, 13 Nov 2024 18:20:00 +0800
成立4年,估值255亿,国产GPU独角兽「摩尔线程」启动A股上市进程 //m.drvow.com/category/chips/awBc127hEPp2f12D.html 雷峰网获悉,11月13日,据中国证监会官网显示,国内全功能GPU独角兽企业摩尔线程智能科技(北京)股份有限公司(简称“摩尔线程”)在北京证监局办理辅导备案登记,正式启动A股上市进程,辅导机构为中信证券股份有限公司。

摩尔线程成立于2020年,据公开资料显示,4年内摩尔线程完成多轮融资,投资方包括中国移动、深创投、红杉中国、以及中银国际等知名机构。根据胡润研究院发布的《2024全球独角兽榜》,摩尔线程以255亿元的估值位列第261名。

据悉,摩尔线程创始团队主要来自英伟达,创始人兼CEO张建中于2005年加入英伟达,曾任英伟达全球副总裁、中国区总经理,任职于英伟达期间带领团队建立了GPU在中国区域的完整生态系统。

摩尔线程是北京市独角兽企业、国家级“专精特新”小巨人企业。根据国家知识产权局数据,截至2024年10月,摩尔线程共计获得425项授权专利。

官网资料显示,摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。摩尔线程在B端和C端均有布局,其芯片采用先进MUSA架构,集成AI计算加速、图形渲染、视频编解码、物理仿真和科学计算四大引擎。

在图形和AI计算的GPU成为主流通用算力的背景下,针对大模型训练,摩尔线程落地了全国产的千卡智算集群,并推出了自有的万卡集群方案,在行业内属于领先地位。此外,摩尔线程2022年推出国产游戏显卡MTTS80,被誉为“国产游戏第一卡”,也是国内唯一可以支持DirectX 12的消费级显卡。

公开资料显示,摩尔线程的客户包括头部运营商、大型国有银行及大模型创业公司等。

]]>
芯片 //m.drvow.com/category/chips/awBc127hEPp2f12D.html#comments Wed, 13 Nov 2024 11:00:00 +0800
2024年,英伟达十大高层人事变动 //m.drvow.com/category/chips/nPJiwiJcmaRdnME1.html 2024年,英伟达聘请了来自Ayar Labs、亚马逊、Salesforce、英特尔和思科等公司的高管,以加强其在销售、初创企业关系、系统产品工程以及人工智能与网络融合方面的人才储备。

有人加入就有人离开,以下汇总了2024年英伟达十大高层人事变动信息:

01. 加盟英伟达

北美及拉美地区销售副总裁:Charles Wuischpard 

根据LinkedIn显示,英伟达在1月份聘请了前英特尔高管兼企业家Charles Wuischpard担任北美和拉美地区销售副总裁。

Charles此前曾担任Ayar Labs的CEO和董事会成员,Ayar Labs是英伟达的被投企业,致力于通过硅光子技术实现芯片性能的新飞跃,曾获评科技媒体CRN2023年最热门的半导体初创企业之一。

在担任Ayar Labs的CEO之前,Charles在英特尔有四年高管经历,担任可扩展数据中心解决方案部门的总经理,该部门后续被MiTAC台湾神达控股集团收购。

入职英特尔之前,Charles担任高性能计算系统集成商Penguin Computing的总裁兼CEO长达七年之久,在任期间负责公司事务的统筹及执行,后续公司被存储解决方案的全球领导者Smart Global Holdings收购。

全球云销售副总裁:Karen Chen

Karen Chen在Salesforce工作长达11年,担任Salesforce的高级销售副总裁,于今年2月加入英伟达,担任英伟达全球云销售副总裁。

在Salesforce任职期间,karen负责科技、通信与媒体、消费者商业服务、旅游和酒店行业的企业和商业云销售。其带领的团队包括4名地区副总裁、15名区域副总裁以及100多名一线销售成员。部门的营业收入达到10亿美元以上,云销售额年增长率超过30%。

在职业生涯的早期,Karen曾在IBM工作11年,担任客户经理等职位。

创业生态副总裁:Howard Wright

公开资料显示,亚马逊前全球创业业务副总裁Howard Wright于今年6月份加入英伟达担任创业生态副总裁。

Wright此前担任亚马逊全球创业业务副总裁职务两年多。任职期间,他致力于帮助初创企业在亚马逊云平台上成长。

Wrigh还曾担任初创公司C360 Technologies的CEO和总裁。该公司致力于开发基于计算机视觉的解决方案,以帮助体育转播商创建沉浸式体验,于2023年被现场娱乐技术供应商Cosm收购。

转入科技界之前,Wright是NBA篮球运动员,曾效力于老鹰、魔术及小牛等NBA队伍。

人工智能与网络架构首席架构师:JP Vasseur

公开资料显示,前思科研究员JP Vasseur于今年9月份加入英伟达,担任高级杰出工程师和人工智能与网络架构首席架构师,Vasseur曾被誉为思科的“发明之王”。

Vasseur在法国巴黎电信学院和新泽西州史蒂文斯理工学院分别获得了计算机系统网络和电信专业的博士学位和硕士学位。他在思科任职长达25年,曾负责思科多项重要产品的开发。

2019年,思科称Vasseur为公司“最杰出的发明家”,他拥有483项已授权专利,涉及机器学习、人工智能及物联网等关键技术领域。

Vasseur此前职业生涯历经预测网络、物联网和高级威胁检测在内的多个领域的工程主管。

系统产品工程副总裁:Ron Amit

公开资料显示,Ron Amit于今年10月加入英伟达,担任系统产品工程副总裁。

Amit曾在英特尔工作28年,职业生涯历经英特尔的制造产品工程总经理和客户端产品开发总经理,离职前担任英特尔的高级副总裁,负责全球后硅片产品工程以及客户端产品质量和可靠性工作。

02.离开英伟达

数据中心系统架构副总裁:Steve Fields

根据LinkedIn上的信息显示,英伟达数据中心系统架构副总裁Steve Fields于今年3月份宣布离职,但并未宣布其去向,他在英伟达任职时间为3年6个月。

入职英伟达之前,Fields刚从IBM退休,他曾在IBM任职长达30余年。

2015年,Fields被授予IBM Fellow称号(IBM最高技术荣誉),以此表彰其对IBM Power Systems服务器的发展做出重要贡献。

美洲企业销售副总裁:Paul Bommarito

根据LinkedIn上的信息显示,英伟达美洲企业销售副总裁Paul Bommarito于今年4月份离职。

Bommarito曾在思科工作21年,担任思科美洲安全销售副总裁,是一名销售老将。

任职英伟达期间,他负责美洲企业业务的各个方面,包括面向最终用户和合作伙伴的销售组织。

全球人工智能计划副总裁:Keith Strier

公开资料显示,Keith Strier于今年9月份从英伟达离职,随后加入AMD担任全球AI市场高级副总裁。

Strier在英伟达工作了五年,负责执行英伟达的AI战略,包括在全球公共部门以及盟国间的AI云交易等方面的工作,他还负责领导亚太地区各AI研究中心的研发工作。

据AMD今年9月的公告称,Strier加入后将负责扩大AMD的人工智能版图,推动新的生态系统能力建设,并加速在全球范围内的人工智能合作。

在2019年加入英伟达之前,Strier曾担任埃森哲的全球AI负责人,负责制定公司的市场推广策略、打造产品和联盟。此前,他在德勤工作11年,担任全球数字创新总经理。

03.从英伟达退休

GPU系统工程副总裁:Rajeev Jayavant

Rajeev是英伟达的资深员工,在英伟达工作23年,于今年4月份退休,退休前曾担任英伟达GPU系统工程副总裁。

任职于英伟达期间,Rajeev专注于通过英伟达的DGX系统、HGX主板以及用于英伟达GPU的SXM插槽解决方案等系统和模块,实现大型GPU集群在数据中心规模部署,以实现高带宽连接。

Rajeev负责打造了英伟达的DGX项目及HGX项目,历经GPU专用集成电路经理、GPU工程总监和笔记本GPU工程副总裁等职位。

企业计算副总裁:Manuvir Das

公开资料显示,英伟达企业计算副总裁Manuvir Das于今年10月份宣布退休。加入英伟达之前,Das长期任职于微软和戴尔。

在英伟达任职期间,Das曾负责英伟达多个项目,比如Nvidia AI Enterprise软件套件、DGX Cloud超级计算服务、Nvidia-Certified Systems项目和Nvidia Inference Microservices(NIM)。

Das上个月在LinkedIn上写道:“我希望英伟达会是我的最后一任雇主,黄仁勋会是我的最后一位老板。幸运的是,事实确实如此。”

在加入英伟达之前,Das曾任职于戴尔EMC,担任非结构化数据存储的高级副总裁兼产品工程部门负责人。

在此之前,他曾在微软工作超过14年,担任Azure云服务和Windows Server的总经理。

从众多高层人事变动中,可以窥探出英伟达对销售及研发的重视,以及对人工智能的押注。同时,多位长期任职于竞对企业的高管跳槽加入英伟达,也显示出英伟达是当下行业内的绝对领头羊,对人才有很大吸引力。


本文由雷峰网编译自:https://www.crn.com/news/ai/2024/10-big-nvidia-executive-hires-and-departures-in-2024?page=1

]]>
芯片 //m.drvow.com/category/chips/nPJiwiJcmaRdnME1.html#comments Tue, 12 Nov 2024 17:31:00 +0800
十年后,AMD会超越英伟达吗? //m.drvow.com/category/chips/1B1BpNSVuQk26RFg.html 2024年,苏姿丰迎来掌舵AMD的第十年,这十年走来并不容易。

在她被任命为CEO的两年前,AMD还是一片混乱。苏姿丰利用在IBM积累的游戏机业务经验,从英特尔手中夺走了游戏机市场。上任后的一年里,AMD确定了重返数据中心CPU市场的计划,也正是这期间,AMD为后续与英伟达的竞争打下了坚实的基础。

面对英特尔时,AMD是幸运的。在两家公司竞争期间,英特尔的代工业务以及服务器CPU业务一度陷入困境。与此同时,AMD对Epyc CPU和Instinct GPU战略计划的执行可以说是完美无瑕。

计划中少数的改动都是为了使CPU和GPU在技术层面实现更好的融合,如今,AMD推出的CPU硬件性能始终优于英特尔,GPU硬件的原始功能也与英伟达旗鼓相当。

要打造完整的系统,需要关注的不仅仅是计算引擎。AMD赚的每一美元,都充满了智慧。此前,AMD收购了赛灵思,并推出了具有竞争力的客户端CPU和GPU,形成一个良性循环,帮助AMD在数据中心遭遇波折时安然度过。

2024年第三季度,AMD的收入增长了17.6%,达到68.2亿美元,净利润增长了2.6倍,达到7.71亿美元,占收入的11.3%。这不是AMD最赚钱的一个季度,它在2020年第四季度和2021年第三季度至2022年第一季度期间的利润都非常可观,但这是AMD创收最高的一个季度。即便是进行了多笔收购,以及对CPU、GPU、DPU和FPGA等产品的研发进行了大量投资之后,AMD手中仍握着45.4亿美元的现金。

这也是AMD自2015年重返数据中心市场以来,财务健康状况的顶峰。2000年初,GPU仅用于图形处理,AMD在此期间耗费了54亿美元收购了显卡制造商,也就是彼时英伟达的竞争对手ATI Technologies。这笔收购早已通过销售GPU收回了成本,且近一年连创新高的GPU销售额也将再次证明收购ATI是一次正确的选择。

正因此,AMD已经将2024年全年GPU销售额的指导目标上调至50亿美元以上,比上一季度的预测增加了5亿美元,比AMD在2023年10月推出Antares MI300 系列数据中心GPU之前就告诉华尔街的预期高出2.5倍。

以下是自AMD去年底开始预测2024年GPU收入以来,我们建立的各种模型预测表:

根据模型显示,AMD的Instinct GPU的市场渗透速度比模型预期的慢了一些(2024年1月的最佳情况预测与底部的季度GPU销量进行比较)。但从第三季度开始,特别是在第四季度,Instinct GPU的市场渗透速度正在加快。

此外,我们预测MI300X系列GPU和MI300A混合CPU-GPU的平均售价为3万美元,模型对于价格的预测偏高,这意味着AMD的出货量比我们最初预计的要多。

假定MI300系列GPU的平均售价为22500美元,这意味着,如果2024年的销售额超过50亿美元,AMD的出货量将达到224222台。根据衡量El Capitan FP64(劳伦斯利弗莫尔国家实验室超级计算机)的性能,El Capitan FP64将拥有约18350至36700个MI300A单元。以此推测,市场上还会有大约206000台MI300X,这一年中将售出大约25750个八卡GPU节点。

这对AMD来说将是其历史上最好的一年,但也只是英伟达收入和销量的一小部分。AMD想赶上英伟达,还有很长的路要走,而且必须是英伟达在这期间出现重大的失误。

但英伟达不是英特尔,英特尔曾经因为安腾处理器及代工厂的失败让AMD迎头赶上。黄仁勋可不一样,在他的带领下,英伟达开创了新一波的计算浪潮,并成为了这个时代的吸金王。

AMD数据中心部门规模几乎是客户端部门的两倍,其利润率是后者的3.8倍。数据中心部门的营业利润率是公司平均利润的三倍。但是,由于研发和制造费用,Instinct数据中心GPU产品线的营业收入低于整个公司,拖累了数据中心CPU、FPGA和DPU的利润。

但这种情况会很快改观,随着AMD及生产商对工艺的优化,产量提高后,Instinct系列的利润率将高于AMD其他数据中心产品以及AMD的整体利润率。

数据中心部门要超过公司其他所有部门创收的总和还需要一段时间,但并不遥远,可能在2025年或2026年实现。这主要取决于AMD Instinct GPU加速器的产能可以拉到多高。

按照当前的发展趋势,假设模型准确反映了AMD的实际情况,那么AMD的数据中心GPU业务很快就会与Epyc数据中心CPU业务达到同一水平,而这也将成为AMD历史上增长最快的产品。

在与华尔街分析师的电话会议上,苏姿丰确认了2024年第三季度Instinct GPU的销售额超过了15亿美元大关,但她没有透露具体数字。2023年第三季度,Instinct GPU销售额约为5000万美元,预估2024年第三季度的销售额为15.7亿美元,高出30.4倍。如上图所示,这是一个相当快的增长速度,与英伟达的增长速度不相上下,但收入比英伟达还要少得多。

第三季度,AMD的Epyc CPU销售额约为18.4亿美元,较去年同期增长24%,较上一季度增长9.9%。随着Turin CPU的发布,英特尔Sierra Forest和Granite Rapids Xeon 6处理器的销售情况非常值得关注,这些处理器将与AMD的CPU展开直接竞争,或许能看到2025年AMD和英特尔在服务器X86处理器上的收入份额相等。

苏姿丰是否会再坚持十年,赶上英伟达的步伐?现年55岁的苏姿丰,确实有足够的时间去实现这一目标。更重要的是,苏姿丰还比黄仁勋年轻六岁。

希望下一个十年也不会乏味,打败英伟达将会比打败英特尔更加困难。

本文由雷峰网编译自:https://www.nextplatform.com/2024/10/30/amd-will-need-another-decade-to-try-to-pass-nvidia/


]]>
芯片 //m.drvow.com/category/chips/1B1BpNSVuQk26RFg.html#comments Fri, 08 Nov 2024 18:08:00 +0800
重组后,英特尔何时止跌? //m.drvow.com/category/chips/uUyMt107uxVE5doT.html 2024年9月,英特尔宣布实施重组计划,计划剥离旗下的芯片代工业务Intel Foundry,重组费用和成本削减产生的负面影响,会让公司在这段期间的盈利状况不容乐观。

重组风波过后,英特尔面对业绩下滑将再无借口。届时,英特尔会把希望寄托于它的18A芯片能在市场上引起更多关注,且将其应用到英特尔自家的客户端和服务器产品中。以此看来,2025年的境况或许比近两年要好得多。

英特尔的CEO帕特·基辛格(Pat Gelsinger)在与华尔街分析师的电话会议上称:“由于在代工厂业务剥离和产品迭代方面取得了关键的进展,英特尔第三季度的业绩超出了我们的预期,内部评估的第四季度业绩预期也将高于外界的看法。我们正在打造一个更精简且盈利能力更强的英特尔,团队在紧锣密鼓地做准备。”

2024年第三季度,英特尔的营收为132.8亿美元,较去年同比下降6.2%,集团总计亏损46亿美元,与去年同期亏损800万美元形成鲜明对比。还需要加上重组和其他方面费用,包括裁员15%以上的员工耗费22亿美元、Mobileye部门商誉损失耗费26亿美元、投资7nm芯片生产设备耗费30亿美元以及79亿美元的税收拨备,所有总和使英特尔的亏损逼近170亿美元。

另一方面,英特尔的营收还受到3亿美元加速器存货减记(简单理解为库存货物贬值)的影响,外部推测主要是AI专用加速芯片Gaudi2和Guaudi3设备的库存积压,但也可能是英特尔闲置的一些“Ponte Vecchio”Max系列GPU,因此收入预期会再降低。

基辛格在电话会议上表示:“受到产品从Gaudi2过渡到Gaudi3以及软件易用性的影响,Gaudi的整体普及速度比我们预期的要慢。”

英特尔预计到2024年Gaudi的销售额(主要是Gaudi3)达到5亿美元,但这一目标很难实现。加上3亿美元的减记,意味着Gaudi3只能卖2亿美元。在某种程度上意味着,英特尔可以销售的32000台Gaudi3加速器中,只有12800台找到了买家。

到目前为止,英特尔似乎仍在坚持把Gaudi产品线发展成Falcon Shores(猎鹰海岸)系列产品,将其Ponte Vecchio/Rialto Bridge GPU和Gaudi3的设计混合在一起,并向前迭代一到两个档次。如果英特尔还不把AI加速器的重要程度提上来,将是一个很大的策略失误,即使短期内需要投入大量的成本,但它承受不起放弃后所产生的代价。

在大量的专业预测中,AI服务器市场将快速增长。即使英特尔目前面临的紧迫任务是建设一家世界一流的晶圆厂,但它也没有任何理由去放弃这个AI服务器市场。

英特尔的目标是到2030年希望晶圆代工厂每年能带来150亿美元的外部收入,略低于英特尔产品部目前支付给晶圆代工厂的蚀刻和封装费用。英特尔希望当晶圆代工厂的年营收超过300亿美元或更多时,这项业务能够实现盈利,但目前看来距离盈利还遥遥无期。

表中显示,为个人电脑制造CPU和GPU的客户计算事业部(CCG)贡献了英特尔的大部分现金流,对于整个集团来说,这都是面对危机时重要的现金储备。

如果英特尔早在2012年就开始重视数据中心GPU业务,那么数据中心和人工智能部门(DCAI,Data Center & AI)现在看起来就不会这么“粗糙”了。DCAI实现了33.5亿美元的销售额,同比增长8.9%,环比增长10%,这要归功于至强6服务器CPU系列带来的增长。

营业利润仅3.47亿美元,这可能是由于Gaudi销售不佳导致的3亿美元减记造成的,营业利润同比下降了11.3%,但环比增长了25.7%。不过,距离过去接近50%的营业利润率而言,DCAI还有很长的路要走。

如下图所示,情况或多或少有所改善,停止恶化或许是目前英特尔股价能上涨的唯一原因。

英特尔数据中心业务随着各种网络交换机业务的关闭或出售以及闪存业务的分拆变得简单了许多。现阶段,英特尔的数据中心业务规模只有过去的5/9,而且并没有产生实际的利润。

伴随着18A工艺用于未来的Diamond Rapids P-core和Clearwater Forest E-core至强7处理器,数据中心业务(目前包括 DCAI 的全部业务以及Altera和NEX的部分业务)应该会有所增长。对此,Gelsinger表示,Clearwater Forest已经启动,Diamond Rapids不久后也将进入工厂蚀刻阶段。

实施重组无疑分散了英特尔目前许多的资本及精力,且现阶段的业务重点会有失偏颇。但考虑到新冠引发的供应链中断的情况,将先进芯片生产线迁回美国是战略上必不可少的举措。而且预计,一旦工厂达到满负荷生产,短期利润损失将会被中长期的稳定收益所取代。

在集团瘦身以及团队精简过后,伴着Intel 18A工艺的加持,英特尔希望能把它失去的其他市场都拿回来。

本文由雷峰网编译自:https://www.nextplatform.com/2024/11/01/intel-takes-the-big-restructuring-hits-as-it-looks-ahead/


]]>
芯片 //m.drvow.com/category/chips/uUyMt107uxVE5doT.html#comments Thu, 07 Nov 2024 18:35:00 +0800
美国、欧洲和东南亚如何扶持本国半导体产业发展? //m.drvow.com/category/chips/P3JFAxuNQgFDDrFO.html 半导体做为现代科技产业的技术基底,在全球科技博弈中的地位日益凸显。各国正不断加大对半导体产业的投资,政府投入的增加主要源于以下几方面的原因:对芯片行业战略重要性的日益认识、避免新冠时期供应链问题重演以及地缘政治局势紧张(以中美为首)。

各国政府扶持行业的形式多样,包括现金注入、补贴、税收减免、贷款、放宽监管及建议等。一些例子:

  • 中国于2014年启动了芯片基金,为期25年,2024年5月为第三阶段提供480亿美元。

  • 韩国政府提出龙仁半导体集群,通过补贴和监管援助予以落实,并在2024年5月宣布了190亿美元的资助计划。

  • 欧洲于2019 年开展1000亿欧元的 “地平线研发计划”,2023年推出了价值33亿欧元的 “欧盟芯片法案 ”和 “芯片联合计划”。

  • 2022年,美国总统拜登签署《芯片与科学法案》(CHIPS),提出在产业内投资近530亿美元,并为产业投资提供25%的税收抵免。

本文主要结合美国商务部高级官员、美国半导体研究公司总裁Todd Younkin以及全球半导体产业国际标准组织SEMI总裁Ajit Manocha的观点及看法,通过全球化的视角,呈现出现阶段各国政府对半导体产业的态度与策略。

01.在竞争中优化合作是半导体行业逃不开的命题

美国商务部高级官员表示:"我们看到来自欧洲、日本、韩国和其他地方前所未有的关注,他们认识到半导体产业对国家经济安全至关重要。确保这一行业充满活力,并且充满安全和韧性,是我们的共同利益所在。”

其他两位嘉宾也认为,政府资助正在对全球半导体生态系统产生重大的积极影响。

Todd Younkin称:"在经历了多年的离岸外包之后,美国和欧洲都希望成为更重要的制造基地。美国正在研究 CHIPS法案,以加强其国内生产,并在这方面取得了良好的进展。欧洲也希望将其在欧盟的制造能力提高一倍,减少对其他地区的依赖。GlobalFoundries (GF)、ASM 和ASML在这方面都做得很好,台积电、博世、英飞凌和恩智浦之间的合资企业也进展顺利,但英特尔在德国马格德堡的工厂推迟了两年。”

美国和欧盟的策略与亚洲各国的举措如出一辙。

“在东亚,日本、台湾和韩国正试图找出自己真正擅长的领域,以及如何在这些领域继续保持领先地位,"Younkin说,“他们正在利用这些优势来优化与合作方的关系,降低自己对其他国家的依赖。台积电布局日本以及日本在微电子领域的投资,是非常振奋人心的,因为这两个地区都是材料、设备和消费品领域的重要组成部分。”

其他一系列政府投资的重要成果就是在传统中心以外的国家建设生产基地,马来西亚和越南等国将自己作为中立国,以争取在全球巨额资本支出中分一杯羹。

美国商务部高级官员称:"通过分析行业的资本支出可以发现,对投资方以及被投地区来说,半导体项目的投资建设都有着举足轻重的地位。资本支出排名前五的公司为英特尔、台积电、三星、美光以及SK hynix,约占行业资本支出的50%到70%,金额在1300亿美元到1600亿美元之间。在大多数情况下,投资方可以决定产品的生产地点。传统上,这些公司偏好在已经建有晶圆厂的地方建厂,这种偏好主要受产业区位优势建立后产生的惯性所影响。”

美国CHIPS项目办公室拥有一个专门的国际参与团队,面向全球。该办公室还有其他与CHIPS资金有利害关系的政府机构密切协调,其中包括美国国务院,该部管理着5亿美元的国际技术安全与创新(ITSI)基金,旨在加深与盟国的联系。例如,美国国务院最近与印度和墨西哥建立了合作伙伴关系。

其他人也认为,各国可以从全球投资浪潮中互惠互利,力量来自相互依存。

SEMI总裁Ajit Manocha称:"围绕美国CHIPS法案的发展势头非常好。我们在7月份举办了SEMICON West,与会者人数创下了历史新高,世界各地的SEMICON也是如此。之所以有这样的动力,是因为企业看到了行业的发展和机遇,也看到了政府正在非常积极地参与行业发展。日本、韩国以及印度也非常活跃,这种势头传递出了非常积极的信号,政府的计划正在世界各地发挥作用"。

02.安全,不能妥协

虽各国在设备和关键材料出口管制的基础上结成联盟,但中美地缘政治紧张局势仍令人担忧。总体而言,人们接受中国是全球供应链中的主要参与者,但安全才是更重要的考量因素。

Manocha表示:"各国必须通过双边途径解决此类问题,如无法解决,则需要第三方国家参与进来。现阶段,各国需要把彼此当作竞争对手,而非敌人。最重要的是,每个国家都必须拥有公平竞争的机会。每个国家都必须遵守知识产权保护、国家安全、网络安全甚至经济安全方面的国际法。SEMI不参与政治,也不与政客打交道。我们只关注政策,而且这些政策不应给行业带来混乱,且在安全原则上不能妥协"。

Manocha和商务部官员都认为,端到端供应链自给自足并不是任何一个国家的目标。在可预见的未来,随着各地区继续聚焦于供应链上的某些环节,无论是测试、组装、制造、封装还是设计,全球半导体产业仍将保持相互关联。

Manocha称:"好消息是,行业增长到1万亿美元的方式,依靠的不仅是5纳米或2纳米等突破性的尖端技术。其他传统技术都在增长,这些主要集中在亚洲国家。以智能手机为例,可能有20%的芯片采用了GPU等先进技术,但 80% 的芯片不是先进技术,如传感器和摄像头。在纳米竞赛或特定技术方面,半导体价值链的每个环节都有发展空间。”

尽管如此,人们都知道,某些与国防或关键基础设施有关的产品仍需要尽可能从国内获得。

商务部官员称:"有些产品需要端到端的能力,但在大多数情况下,我们希望行业和供应链保持国际化,我们布局芯片的目的不是要在美国建立技术自治,而是吸引尽可能多的半导体创新能力和生产能力。我们有一个专门从事国际工作的团队,根据团队的研究我们认识到某些产品和某些专业制造必须来自我们的盟友。我们需要保护关键技术,但并不是要建立一个完全封闭的技术生态系统。我们深知半导体行业的全球性基因,正是卓越的全球供应链使行业得以运转"。

03.研发,是科技竞争中永远的掌上明珠

除了制造业,政府资助的另一个重点是研发,Younkin 表示,现阶段研发主攻四个方向:生成式AI、智能制造、自动驾驶及网络安全。

Younkin称:"生成式人工智能正在推动各种技术的发展,GPU、FPGA、新型计算和内存解决方案等形式的人工智能加速芯片正在进入市场,而痛点往往是用于芯片编程的软件。英伟达的竞争要素之一是其CUDA生态系统,它允许成千上万的程序员发挥芯片的作用。另一个例子是高带宽内存,SK hynix宣布在印第安纳州西拉法叶特投资,将为美国带来更多的HBM3E和4的生产,成为英伟达人工智能加速浪潮的关键部分。”

第二个方面是智能制造和数字孪生。

Younkin称:"如果美国的《CHIPS法案》要取得成功,就必须推动更具创新性、自动化、成本竞争力和整体性的进步。那么,我们如何才能将制造流程数字化,为那些不在工厂车间的人提供机会?我们如何利用它来培训和提高行业工人的技能,使他们都能在这个不断发展的行业中找到好工作和职位?我们能否利用它来保持我们的速度、产量和成本领先地位?”

第三个方面是自主化和电气化,包括自动驾驶汽车、航空航天、电力电子、车对车和车对人通信。

Younkin称:"天基系统(卫星应用系统)运行所需的抗辐射系统是推动宽带隙半导体发展的又一动力,英飞凌公司新推出的 300 毫米氮化镓技术就是其中之一。”

网络安全也吸引了大量关注和投资。Younkin称:"这实际上回答的是如何领先于黑客的问题,但我们越来越重视硬件解决方案或新的安全半导体技术,它们将保护我们的关键基础设施,以及受到更明显攻击的企业和个人数据。”

而归根结底,研发项目的重点是必须能够吸引资金,这样才有可能获得成功并投入实际应用。

Younkin称:"资金流决定了临界质量的实现,往往也决定了哪些想法能够通过研发管道成熟和实现。我们看一下政府,无论是韩国、美国还是欧盟,基础学术研究的行动速度大约慢5倍,即只有工业界速度的20%。他们弥补这一不足的方法是拉长时间跨度,设定更大的目标,资金通常也更通用。国际合作面临的主要挑战是,其速度要比这慢10倍左右,对于资金雄厚的国际合作项目来说,其发展速度仅为工业发展速度的 0.2%。像SRC或imec这样的组织之所以能够快速发展,是因为将资金投入到正确的技术突破点,并寻求建立合资企业或合作关系,从而在独立资助的基础上取得进展。我们可以将资金投入其中,并以与产业相关的速度前进,而不是依赖于长期的不变因素。”

Younkin以EUV光刻技术为例,数百家公司和多个国家花费了30年时间和数十亿美元的投资才实现了这一目标。但行业外的人可能认为它是一夜成名。

研发管道问题的核心是资本主义问题,"他说。“研发的关键在于激励机制。不同的国家有不同的结构,它们的研发管道都可能在不同的阶段因不同的原因而失败。”

04.产业发展最离不开的是“人”

政府面临的另一个主要挑战是建立完善的人才梯队,以满足当前和未来拟建新设施投入使用后的需求。为此,政府一直在与产业界和学术界合作,努力填补人才缺口。例如:

  • 美国启动了国家半导体技术中心劳动力卓越中心,美国国家科学基金会和商务部合作推进半导体劳动力发展。

  • 英国半导体战略有三个重点领域:研发、基础设施以及技能和人才。

  • 欧盟CHIPS法案的一个主要目的是解决技能短缺问题,吸引新人才,支持技能型劳动力的出现。

  • 马来西亚的高等教育部(MOHE)表示将积极满足半导体投资对劳动力的需求。

  • 越南计划与投资部正在推动半导体产业的人力资源开发。

  • 许多芯片公司还与政府合作伙伴开展全球劳动力计划,例如Arm的全球半导体联盟。

商务部官员称:"如果你去那些在晶圆厂甚至封装方面出现了新生态系统的地方,比如东南亚,你会看到产能、工厂和晶圆厂以及工人培训生态系统的同步建设。我们与大学、地方经济发展机构以及社区学院合作,为这些工厂以及研发生态系统安置合格的工人。”

SEMI正在多方面领导劳动力发展工作,Manocha表示:"我们还不能宣布胜利,除非我们解决了人才问题,否则CHIPS法案和离岸外包就不会成功,无论是人才问题还是气候问题,都不是单个公司、国家或某个CEO可以解决的,这需要国家及全球层面的合作。”

一种解决方案是,拥有高端人才的全球化公司将其部分技术人才派往国外分部基地工作,如亚利桑那州的台积电,随着各国政府对国内和国际芯片公司的投资,这种做法可能会越来越普遍。

以下表格为各国政府对半导体产业的扶持政策汇总:

本文由雷峰网编译自:https://semiengineering.com/global-government-investments-for-semiconductors/

]]>
芯片 //m.drvow.com/category/chips/P3JFAxuNQgFDDrFO.html#comments Mon, 04 Nov 2024 15:51:00 +0800
RISC-V基金会如何支持HPC和AI领域的公司? //m.drvow.com/category/chips/RBzxSH05KantIPNN.html 在北美RISC-V峰会上,RISC-V International的首席执行官Calista Redmond在演讲中表示,2024年,使用RISC-V内核的SoC数量将达到20亿,到2031年这个数字将增长到200亿。随后登台的NVIDIA多媒体架构副总裁Frans Sijstermans在演讲中表示,NVIDIA很可能在2024年出货超过10亿台使用RISC-V内核的设备。

RISC-V ISA(Instruction Set Architecture,指令集架构)的核心价值在于它提供的使用自由度,任何组织都可以利用ISA设计最适合其特定需求的核心,没有地区限制或许可成本。倪光南院士曾称RISC-V不受垄断制约,是中国最受欢迎CPU架构。

近日,海外科技媒体TechPowerUp对RISC-V International的技术VP Andrea Gallo进行专访,就RISC-V生态系统碎片化、高性能计算领域、移动行业、AI和RISC-V面临的难题等话题进行交流。

Andrea于今年6月份加入RISC-V International,负责RISC-V International的技术进步以及全球影响力的建立。在加入RISC-V International之前,Andrea曾供职于由ARM公司发起的开源组织Linaro以及STMicroelectronics,分别担任VP以及设计组组长,具备扎实的产业经验。

来源:RISC-V International官网

以下为TechPowerUp与Andrea Gallo的对话内容:

提问:RISC-V基金会如何支持高性能计算领域的公司?

Andrea:在高性能计算领域,有两方面需要增强:性能和安

性能方面:我们已经批准了矢量扩展,并正在定义矩阵扩展,旨在提高性能。

在安全方面:我们最近批准了与控制流完整性有关的重要扩展。这些功能可确保在函数调用时,返回地址保持完好无损。我们还批准了指针掩码,这是向内存标记迈出的关键的第一步,在进程地址空间内屏蔽的地址位以后可以支持内存标记。此外,我们还在研究主管域访问保护(SMMTT)。

总之,这些努力将增强高性能计算和数据中心的性能和安全性。

提问: 我们看到移动设备计算能力正在大幅提升,RISC-V基金会希望如何融入其中?是推动更高性能的设计、更高效的设计,还是其他?

Andrea:在GitHub上有一个Android特别兴趣小组(SIG)和一个Android RISC-V 64项目,围绕RISC-V支持Android开展大量活动。现在市场上新的芯片都支持RVV 1.0向量扩展。我们也开始看到使用这些向量扩展的开发板,如Banana Pi和Deep Computing DC-Roma II笔记本电脑。从开发人员的角度来看,这一点非常有价值,因为在目标平台上进行原生开发至关重要。

还有与高性能计算领域类似的性能计划,重点关注矢量扩展并提供商业开发平台。此外,我们还有一个开发板计划,对采用最新芯片和扩展的新开发板进行审查,确保它们具有最佳性能和安全扩展。我们储备这些开发板,并将其提供给生态系统中主要的维护者和开发者,确保操作系统发行版得到移植和测试。

今年我们已经向关键维护者提供了 200 多块板卡。任何关键维护者需要板卡都可以通过 help@riscv.org 联系我们,以获得支持。

提问:当前的技术热潮实际上是人工智能,有一些加速器是专门为加速人工智能而开发的。这包括矩阵乘法、累加和所有这些特定的东西。有一些公司,比如Esperanto AI和Tenstorrent,正在做基于RISC-V的加速器。未来我们是否有可能看到人工智能特定指令的扩展?

Andrea:不仅仅是Esperanto和Tenstorrent,Axelera、NVIDIA和Meta都公开表示他们正在使用RISC-V。NVIDIA将RISC-V集成到他们的GPU中,Meta在他们的AI加速器中使用它。所以,RISC-V无处不在AI中。

说到定制指令,我们有一个AI/ML 特别兴趣小组。这个小组的工作是分析特定领域,找出差距,突出产品机会,并为新的开发工作提供合理依据。

当我们批准一个新的扩展时,我们知道市场需要这样的产品。例如,Linux中的开源开发。除非有明确的需求,否则子系统维护者或高级架构维护者不会接受新代码、子系统或贡献。每次增加扩展都会增加你的拥有成本,以及从一个版本到下一个版本的负担。同样的原则也适用于RISC-V ISA。特别兴趣小组分析差距,确定解决方案。就AI/ML而言,我们列出的所有公司都有能力提出具体的新指令。

扩展批准的规范过程非常严格。最近批准的BFloat16就反映了AI/ML对浮点格式的需求。而围绕矩阵扩展正在进行的工作实际上是由机器学习算法驱动。

提问:这些特别兴趣小组(SIG)批准ISA扩展规范的速度有多快?

Andrea:速度取决于提案的复杂程度。如果是重要程度较低的内容,可以走快速通道,可能需要几个月的时间。如果是重要的规范,则应通过所有流程,并有特定的审查窗口,这可能需要六个月或更长时间。所以,时间的长短主要取决于复杂程度。

对于RISC-V,有一个普遍的误解,那就是每个人添加新的自定义指令会造成巨大的碎片化。根据我的体验,我是六月底加入RISC-V International的。第一天参加的是欧洲峰会。审查过程的严谨性和彻底性给我留下了深刻印象。编写规范的工作组会对规范进行审核,之后有一个架构审查委员会,然后是一个月的公开审查。最后,是技术指导委员会进行审查,所有委员会主席和董事会都会进行审查。有一个严格的过程,避免不必要的分散。

提问:前面简短地谈到了每个人都在执行自己的定制指令。举例来说,如果我们想构建一个 RISC-V加速器,我们可以使用基础ISA,然后添加我们的特定应用指令集来加速人工智能程序。这些自定义扩展功能的存在对生态系统造成巨大的碎片化。RISC-V International如何解决这个问题?

Andrea:我前面提到了编写、修正和扩展新规范过程的严谨性。如果你想声称自己兼容RISC-V,那么就需要一个架构兼容性测试套件来验证你是否符合ISA。我们在黄金参考模型上运行相同的测试,并比较测试特征值,以确保与规范保持一致。

防止碎片化的下一步是在软件移植层面。在嵌入式系统中,供应商或设备制造商可能采用垂直集成的软件方法,以著名的 “意大利面条代码 ”(一种编程术语,指的是结构混乱、难以理解和维护的代码)工作方式控制整个垂直软件栈。然而,现代应用处理器需要运行二进制操作系统发行版,而无需进行更改。因此,如果一个操作系统供应商只针对跨产品的最小兼容性,那么它将是最基本的RV64I 或RV64G,这只是一个很小的子集。为了解决这个问题,我们正在开发配置文件。

我们有大量按配置文件分组的扩展。具体来说,我们有一个应用处理器配置文件,我们会升级这些配置文件规范,这是一组强制扩展和一些可选扩展。我们刚刚批准了RVA23配置文件,新批准的RVA23 Profile是RISC-V软件生态系统的一个重要版本,将有助于加快工具链和操作系统的广泛实施。

再下一步是平台。为了进一步改善和加速跨垂直领域或同一垂直领域内跨产品的软件重用,作为一个生态系统,我们正在商定一套硬件和软件接口,这些接口将是相同的,也是平台规范的一部分。有一个团队正在开发服务器 SOC和服务器平台。包括为定时器、时钟、IOMMU、RAS和相关错误报告机制提供相同的接口。我们应该为特定的外围设备使用相同的接口,例如服务器平台的一部分。

提问: 为什么需要另一个商业指令集?RISC-V International会比Arm和现在的x86等竞争者做得更好的是什么?

Andrea:我想从两个不同的角度来回答这个问题:创新和不受约束

RISC-V生态系统的创新速度、能量和步伐令人难以置信。任何人都可以从RISC-V网站上的培训课程开始,学习如何开发RISC-V内核和添加自定义扩展。从开发人员的角度来看,能够从零开始开发RISC-V内核具有巨大的价值。与此同时,作为RISC-V ISA的管理者,我们还能将其注入新的标准中。所有这些都是其他架构无法实现的。作为市场竞争对手的公司在RISC-V国际会议上为实现共同目标而合作,我们有超过4500名成员,这在其他地方是看不到的。

另一个非常重要的方面是不受约束。这不仅仅是授权模式或版税的问题,而是能否掌控自己的命运,而不依赖于可能突然停止支持你的另一个实体。如今,这可能是一个国家安全问题。现阶段,许多国家和政府都从数字主权的角度投资RISC-V。前面我们提到了人工智能,人工智能在我们的生活中正变得至关重要,各国都在为数字主权进行投资,以确保在能力、专业知识以及知识产权方面建立起开发本国人工智能解决方案的能力。

我们在全球都看到了这种势头。欧盟正在资助合作项目,开发基于RISC-V的软件定义汽车。中国有广为人知 “一生一芯 ”计划,由北京开源芯片研究院和中科院牵头。他们有数以千计的学生基于RISC-V设计芯片,其中有十多个已经成型并投入使用。几个月前,巴西加入了 RISC-V 国际组织,成为其成员,因为他们希望在巴西发展和加速基于RISC-V的项目。当然,加州大学伯克利分校也继续在学术研究方面发挥作用。世界各地的大学、政府和跨国公司正在掌握自己的命运,投资RISC-V以解决本地问题,同时在全球范围内参与RISC-V生态系统。

提问:你的意思是RISC-V成功的两条道路是:首先,向开发人员提供硬件,让他们学习 RISC-V,这将帮助他们成为熟练的工程师,最终可能在开发RISC-V软件和硬件的公司工作。第二条路径就是亲自推动这一进程,对吗?

Andrea: 是的,包括学生、学术界、初创企业、跨国公司和国家。

提问:您认为RISC-V在未来10年的发展前景如何?

Andrea:回顾过去,RISC-V从加州大学伯克利分校的一个学术项目发展到今天的规模,这是一段不可思议的历程。2023年生态系统的整体业务量比2022年增长了2.5倍。据SHD Group预测,到2030年,RISC-V将在消费、计算机、汽车到数据中心和工业等垂直行业占据市场约30%的市场份额,每年基于RISC-V的SoC出货量将超过 200 亿颗。我们不再计算内核,而是计算芯片,每个芯片包括很多很多内核。10年后,我希望看到 RISC-V 成为每个新产品设计的首选ISA。

本文由雷峰网编译自:Interview with RISC-V International: High-Performance Chips, AI, Ecosystem Fragmentation, and The Future | TechPowerUp


]]>
芯片 //m.drvow.com/category/chips/RBzxSH05KantIPNN.html#comments Fri, 01 Nov 2024 10:49:00 +0800
自研Oryon CPU,让高通「进」可攻「退」可降维打击 //m.drvow.com/category/chips/MoyfuFOJkvqRB5o2.html

2023年高通骁龙峰会自研的Oryon CPU首次亮相时,超越x86阵营里的最强者,也力压当时最强的苹果M2 Max处理器。

即便在x86阵营以及苹果2024款PC处理器发布之后,首代Oryon CPU的性能依旧处于领先地位,让高通CEO安蒙在2024高通骁龙峰会说的:“高通一直是引领无线产业的发展的公司,如今我们将高通转型为一家面向新AI处理时代的连接计算公司。”的说法更有说服力。

本周高通骁龙峰会正式发布的搭载第二代Oryon CPU的骁龙8至尊版,性能的大幅提升,有一些对同行实现了降维打击的意味。

骁龙8至尊版是唯一在Geekbench单线程测试中超过3,200分的Android SoC,在Speedometer上超越了所有Android竞品,也是业界唯一一款在任何操作系统上都能在Geekbench多线程测试中突破10,000大关、在安兔兔测试中突破300万大关的移动SoC。

一边是领先手机领域的竞争对手,另一边大幅增强了汽车市场的竞争力。搭载专为汽车定制Oryon CPU的骁龙座舱至尊版平台和Snapdragon Ride至尊版,CPU性能提升高达3倍。

“Oryon是完成我们整个SoC的最后一块拼图。”高通技术公司高级副总裁兼手机业务总经理 Christoper Patrick在骁龙峰会上说。

Oryon CPU显然成为了高通保持在手机市场领导力,提升在智能汽车市场竞争力,以及突破PC市场的核心之一。

此时再回看2021年高通收购NUVIA,很难不感叹高通的战略水平以及技术实力的高超。

当然,“重构”作为2024年高通骁龙峰会的主题,Oryon CPU并非唯一的主角,骁龙8至尊版全面升级的NPU、GPU以及AI ISP都值得特别关注。

Oryon CPU对高通的战略价值

即便我们已经进入了AI时代,AI能力是所有计算公司都重点强调的能力,但不要忽略CPU的重要性。

如果把手机SoC比喻成一个交响乐团, CPU是指挥家的角色,指挥每个音符、每个节奏、每个乐器创作出完美的AI交响乐。

CPU对于管理系统层面的处理至关重要,它能执行来自应用程序、操作系统和用户输入的指令,确保运行流畅快速,也可以运行高端游戏、视频编辑软件、AR体验、AI和机器学习以及安全等复杂应用。

过去数代骁龙处理器的CPU是采用Arm的IP,对于当时的高通这是一个非常合适的选择。

转变发生在2020年,苹果发布的基于Arm架构自研的初代M系列PC处理器强大的性能震撼业界,这对高通是一个启发。

2021年,高通以14亿美元收购了NUVIA,开启了从头开始设计一款CPU。

高通技术公司手机、计算和XR事业群总经理阿力克斯·卡图赞(Alex Katouzian)表示,“高通之所以收购NUVIA,是希望能够我们自己设计出适用于手机、PC、汽车等多个领域的CPU架构。”

对于高通,自研CPU必须考量投入产出比,如果只是为手机和PC从头开始设计全新的CPU可能还欠缺些许吸引力,那加上汽车市场,自研CPU的投入产出比预期就会十分理想。

“汽车对于算力的需求还在不断增长。这也是我们收购NUVIA的必要原因之一。”阿力克斯·卡图赞说。

虽然高通骁龙8155在2021年初高通收购NUVIA的时候还未被众多消费者熟知,但智能汽车座舱功能的快速迭代,让高通座舱处理器的CPU面临挑战。

有手机、PC这两个全球出货量最大的两个市场作为支撑,再加上需求不断增加的汽车市场,让高通有足够的动力自研CPU。

2023年让初代Oryon CPU在PC上亮相是一个绝佳的策略,不仅可以达到让高通的PC处理器达到一鸣惊人的效果吸引注意,还能用这个对高通营收占比不大的产品线先验证性能强大的Oryon CPU。

接着,2024年Oryon CPU推向高通最熟悉的手机市场,经过PC市场验证的Oryon CPU,用到手机上几乎就是降维打击。

2025年Oryon CPU再开始用到对性能和安全性要求更高的汽车市场,高通自研CPU不仅成为了其业务的重要支撑,也非常好的服务其公司战略。

阿力克斯·卡图赞在峰会期间透露,“Oryon CPU是每年都会更新,因为会应用在手机、汽车、PC等领域,面向PC的骁龙处理器计划每两年更新一代。”

Oryon CPU的迭代和微架构并非严格绑定关系,两者会以各自的节奏迭代,同时也取决于产品线。第二代Oryon CPU就是专为移动场景打造,在第一代Oryon CPU微架构的基础上重新设计,两者有很大的相似性,但第二代更实用且有更出色的能效。”阿力克斯·卡图赞对雷峰网表示。 

全面重构的骁龙8至尊版,性能跨代提升

CPU微架构和内存系统大升级

此时更容易理解骁龙8至尊版性能大幅提升的源头。

相比第三代骁龙8商用手机,骁龙8至尊版商用机在室温环境下测试,单线程和多线程基准测试中性能有高达45%的大幅性能提升,能效提升也高达44%。

同样相比第三代骁龙8,Oryon CPU在Chrome浏览器上的性能提升超过62%。

“在整个Android生态系统中处于领先地位,这是一个跨代际的提升。“阿力克斯·卡图赞表示,“能效也提高了44%,这是骁龙的与众不同之处。”

“高通Oryon CPU正是拼图的最后一块。我们从头开始打造IP,这种方式赋予了我们对CPU的完全自主权。让我们能够直接定义和定制所有处理通道的配置,不需要任何外部依赖。”高通技术公司产品管理总监Manju Varma表示。

第二代Oryon CPU有两个最高主频高达4.32GHz的超级内核,适合应对需要更快响应速度的密集型应用,以及6个Oryon性能内核负责运行最密集型的应用程序,同时具有极高能效,没有任何一个传统意义上的效率内核。

“多年来,我们已经减少了效率内核的数量,最终用乱序性能内核取而代之,它们能够提供最佳性能和功耗组合,这是骁龙8至尊版能面向实际用例树立性能新标杆的原因。”Manju Varma解释。

值得注意的是,骁龙8至尊版超级内核CPU的最高主频4.32GHz已经超越了骁龙X Elite最高3.8GHz的主频,性能也超越了竞品的PC CPU性能,这种设计的考量是什么?

“展示骁龙8至尊版CPU和PC竞品CPU的性能对比,更多是为了展现我们CPU设计的先进性,从第一代到第二代Oryon CPU我们的内核是逐年提升。”阿力克斯·卡图赞进一步表示,“PC和手机运行多线程任务的方式不同,在手机上是尽可能压榨频率,以更少数量的核心支持多线程任务;而在PC上则会降低频率,同时引入更多数量的核心来支持多线程任务。”

“当我们提高CPU频率时,总是会有与之相匹配的功耗降低,在延长电池续航的同时,实现性能增强。”阿力克斯·卡图赞说,“对我们而言,每瓦特性能比单纯的性能和频率更重要。

拥有高主频还不是Oryon能够大放异彩的全部原因,第二代Oryon CPU还大幅改进了内存架构。

骁龙8至尊版Oryon CPU的每个丛集都拥有12MB的二级缓存,总计24MB紧密耦合的专用缓存是移动领域最大的缓存。同时也大幅提升了一级缓存。

提升缓存大小能带来更强处理能力的同时会带来时延增加的问题,“经过精心设计并采用先进的缓存一致性协议,可显著降低时延,提高整体性能并实现更低功耗。”Manju Varma表示。

考虑到生成式AI对内存的高度依赖,骁龙8至尊版也配备目前业界最高速的10.7Gbps的LPDDR5内存。

第二代高通Oryon CPU的微架构和内存系统升级带来了更快的应用启动速度、无缝的多任务处理和先进的生成式AI功能,还有视频渲染速度将大幅提升,这让游戏成为了最大的受益用例。

首创切片架构Adreno GPU

骁龙8至尊版能够处理高要求游戏工作负载,包括CPU密集型物理模拟。凭借Oryon CPU,将能够体验到战斗对可破坏环境的影响,以及环境中的湍急水流、衣袂飘飘、翠绿花园、微风拂尘。

另外,利用骁龙8至尊版的全部CPU内核, Oryon CPU能在5毫秒时延内处理超过1000个物体破坏和碰撞的情景。

“我们的Adreno GPU也经过完全重新设计,最大限度地提高性能和能效,这对移动游戏至关重要。”阿力克斯·卡图赞分享,对比第三代骁龙8商用智能手机,对于图形密集型游戏,骁龙8至尊版性能将提升40%,功耗降低40%,光追性能提升35%。

得益于骁龙8至尊版首创的切片架构Adreno GPU,充分考虑了手游玩家需求,全新高通Adeno GPU能够提供基于着色处理器的独立内核,能实现更佳工作分配和并发性能。

通过扩展性能提供更高的时钟频率,当渲染复杂场景时,可以直接在GPU上存储12MB数据,减少向骁龙8至尊版DDR发送的图形数据,带来更锐丽的图像和更流畅的游戏体验,实现更长久的持续游戏体验。

即将在12月发布的《超级房车赛:传奇(Grid Legends)》移动版将独家支持高通自适应性能引擎4.0,这一引擎能引擎将提高终端能效,提供稳定的终端性能。

骁龙8至尊版还提供了更多下一代游戏体验。虚幻引擎5的Nanite解决方案首次在移动端运行,目前仅在骁龙平台上提供支持,在终端侧渲染栩栩如生的环境。

基于全新设计的GPU,在网易《永劫无间》手游极致画质下,与前代平台相比,骁龙8至尊版的平均帧数提升22帧,帧率稳定性提升43%。
这一游戏是首个游戏内终端侧大语言模型,玩家可以用语音口令与AI队友互动,帮助玩家优化构筑、协调即将到来的作战行动,向新玩家提供策略来帮助学习游戏。

此时就不得不提再次进化的包含CPU、GPU、NPU的异构架构高通AI引擎。

Hexagon NPU更好地支持多模态大模型

“如果Oryon CPU是一个出色的指挥家,负责同时运行多个应用,负责启动所有AI工作负载,处理繁重负载任务。那Hexagon NPU就是那个令人惊叹的小提琴手,它将在AI最激烈的演奏高潮成为舞台中央的焦点。”高通技术公司产品管理高级总监Siddhika Nevrekar这样形容。

与第三代骁龙8相比,全新架构的Hexagon NPU性能提升45%,能效提升45%。结合全面提升的CPU和GPU,骁龙8至尊版能够跨所有核心动态管理AI负载。

NPU性能的大幅提升来自一系列重大改进,包括提升了所有加速器内核的吞吐量,实现更快的AI推理性能。增加的标量内核数量可以支持更长内容,达到4k上下文窗口,增加的向量内核可以加强对大语言模型和传统AI的支持。

MLPerf基准测试显示,骁龙8至尊版的性能在所有模型上都超过了第三代骁龙8,基础基础大语言模型上的token生成速率提升了高达100%,目前业界流行的一些大语言模型上,骁龙8至尊版的处理速度达到超过70 tokens/s,可以加速AI助手运行速度。

“在高通AI引擎的性能合奏中,这次我们引入了更多艺术家,其中一位就是内存并发性。正如交响乐中的音乐家一起完美合奏,AI和计算机视觉工作负载现在可以同时访问一个内存空间并协同工作,创造流畅有趣的体验。”Siddhika Nevrekar补充表示。

这也是为了更好支持AI智能体。AI智能体底层依靠多种先进AI模型支持,包括自动语音识别(ASR)、大语言模型(LLM)、大视觉模型(LVM)和全新多模态大模型(LMM)。

“每个模型都是各自领域的专家,它们能够协同工作,为用户提供无缝的个性化服务。”Siddhika Nevrekar说,“这些模型在高通AI引擎的不同内核上运行,它们像训练有素的团队一样运作,确保一切任务都能流畅高效地运行,这就是异构计算的魔力。”

为了充分发挥高通AI引擎的强大,高通也改进了AI软件。高通第一次能够让开发者骁龙8至尊版上利用高通AI Hub测试最新模型。

高通也与众多合作伙伴一起推动端侧AI的发展,最新的合作是与腾讯混元合作,基于骁龙8至尊版移动平台,共同推动了腾讯混元大模型7B和3B版本的终端侧部署。

智谱在GLM4v-mini上创建了基于多模态大模型的AI助手, GLM-4V端侧视觉大模型能够实现令人惊叹的处理能力,以超过70 tokens/秒的速度在基于骁龙8至尊版的终端侧高速运行。

AI ISP与NPU直连,视频也能有消除功能

全新升级的NPU让视频AI也成为了可能。

“以前,ISP会先处理图像,然后发送到NPU进行后处理。”阿力克斯·卡图赞介绍,“现在,处理管线将更加紧密配合。NPU可以直接访问RAW原生传感器数据,在4K60fps下实现基于AI的实时增强。

高通同样为骁龙8至尊版重新设计了ISP,升级为AI ISP,性能全面提升,ISP吞吐量提高了近35%,能效提升高达25%。升级后的强大性能支持用户利用多达三个4800万像素传感器同时进行拍摄。

高通技术公司产品市场资深经理Carina Affinito说,“我们还升级了关键组件,带来更好的单帧逐行HDR对齐、时域降噪和自动对焦硬件。面向3A——即自动对焦、自动白平衡和自动曝光,还新增了AI辅助的增强功能。这些意味着图像质量的全面提升。”

充分利用Hexagon NPU可以在4K 60fps下进行实时处理的特性,高通将先进的AI算法直接引入图像和视频处理管线的核心,高通称之为“Insight AI”,可以将摄影提升到全新高度。

其中一个功能无限语义分割支持对图像进行超过250层语义识别和分割,分割完成后可以对肤色和天空实时识别并修正;另一个功能是AI补光,可以在视频通话或者直播时添加虚拟可移动光源。

高通也与虹软合作,展示了全新宠物摄影特性套件,手机能自动对焦跟踪宠物的眼睛,拍出最好的照片。

除了照片,骁龙8至尊版的AI ISP结合NPU也能将照片的消除功能用于视频,并且全部在终端侧运行。

与去年一样,骁龙8至尊版的首发将会是小米。

骁龙汽车平台在高通内部地位更高

2024年的高通骁龙峰会罕见的用了一天的峰会来重点介绍骁龙数字地盘,包括全新的骁龙座舱至尊版平台和Snapdragon Ride至尊版平台。

与骁龙8至尊版一样,全新的骁龙汽车平台同样采用专为汽车定制的高通Oryon CPU。

高通技术公司汽车、行业解决方案和云事业群总经理Nakul Duggal告诉雷峰网,“为汽车定制的Oryon CPU主要是在安全性方面进行增强,提供更高的安全系数。”

与前代顶级平台相比,全新平台的CPU速度旨实现在提升至3倍,AI性能旨在实现性能提升至最高12倍。

值得注意的是,高通为软件定义汽车提供灵活性和可扩展性,汽车制造商可以选择在同一SoC上无缝运行数字座舱和智能驾驶功能。也就是说骁龙座舱至尊版平台和Snapdragon Ride至尊版平台有许多相同的IP,且具备扩展性。

Nakul Duggal认为灵活的架构是高通发展舱驾一体的优势所在。

另外,新的平台满足汽车安全标准ASIL-D,支持超过40个多模态传感器,包括多达20个高分辨率摄像头,实现360度全方位覆盖和车内监测。

骁龙座舱至尊版平台和Snapdragon Ride至尊版平台将于2025年出样,理想汽车和梅赛德斯-奔驰公司将会率先在量产车型中采用骁龙至尊版平台。

高通也宣布了与谷歌达成多年战略合作,提供先进生成式AI赋能的解决方案以打造安全的先进数字化车内体验。

从PC到手机再到汽车,高通自研的Oryon CPU充分支撑了高通公司的新战略,也让高通转型成为计算和连接的领导者。

]]>
芯片 //m.drvow.com/category/chips/MoyfuFOJkvqRB5o2.html#comments Thu, 24 Oct 2024 08:57:00 +0800
荣耀、联想大谈智能体,高通有更前瞻的端侧AI玩法 //m.drvow.com/category/chips/LgAcCvZEtpjeLGq3.html

作者|包永刚

编辑|王  川

金秋十月,各大消费电子公司轮番登场,展示最新的产品和技术,智能体成为了新主角。

vivo展示了手机智能体 PhoneGPT可以在了解需求后自动在餐厅订座,联想AI智能体联想AI Now可以化身老师给学生出题。

随后,荣耀跨应用开放生态智能体的个人化全场景AI操作系统MagicOS 9.0将推出,OPPO ColorOS 15系统也将AI从单点功能升级到系统集成。

手机和PC普及智能体的趋势越来越明显,对于强大AI处理器的需求也越来越高。

作为端侧AI的领导者,高通也为端侧智能体的落地做好了技术和产品的准备。

2023年高通骁龙峰会,高通展示了一系列基于第三代骁龙8的手机AI应用,结合手机摄像头和位置信息的前瞻应用终端侧AI助手让人眼前一亮。

今年2月份,高通在MWC巴塞罗那演示了全球首个在Android手机上运行的多模态大模型(LMM),以及基于骁龙X Elite平台运行的70亿参数的多模态大模型(LMM),为智能体在手机和PC上的落地奠定了基础。

10月22日将举办的2024骁龙峰会,高通将展示最前沿的终端侧AI新应用。让人期待的是,高通将发布首款集成了定制高通Oryon CPU的新一代骁龙8系旗舰移动平台,CPU和AI性能的提升会有多惊人?基于更强大的AI性能和不断进化的AI软件栈,高通将激发出包括智能体在内的新一轮AI应用创新。

混合AI已成共识,智能体时代到来

在进一步探讨智能体以及未来端侧AI的发展前,不要忽略混合AI已经成为行业共识,以及轻量级的生成式AI模型性能足够好的前提。

以ChatGPT为代表的生成式AI是在2022年后迎来爆发,生成式AI一系列超越想象的功能,最初都是基于云端千亿参数的大模型的能力。

《高通AI白皮书》中提到,每一次基于生成式AI的网络搜索查询,成本是传统搜索的10倍。

生成式AI要普及,需要成本能被大众接受,并且体验不差,混合AI是理想的选择。

所谓混合AI,就是在需要即时感知即时处理的情况下使用设备上的AI模型,在需要更多计算能力、任务更复杂时使用云端的AI模型。这让混合AI兼具性能、成本、时延、隐私等优势,已经成为巨头押注的方向。

无论是今年微软Build大会推出的全新的PC品类Copilot+ PC(Windows 11 AI+ PC),还是谷歌I/O宣布将AI嵌入到了安卓操作系统,以及苹果Apple Intelligence重视使用户数据在本地完成处理,减少对云端的依赖,都表明混合AI已经成为行业共识。

高通早在2007年就启动首个AI研究项目,一直主张以终端为中心的混合AI,也就是让终端充当锚点,云端仅用于分流处理终端无法充分执行的任务。

大谈智能体的手机和PC厂商进一步利用和延展以终端为中心的混合AI,用智能体为终端AI带来体验的革新。

荣耀以用户日常“取消APP自动续费”需要经过7步人工操作的步骤为例,展示了拥有荣耀AI智能体的MagicOS 9.0后,用户只需要一句话即可完成复杂操作。

荣耀CEO赵明将荣耀AI智能体形象地比喻为手机内的“自动驾驶”,并表示最大化实现用户价值呈现的AI智能体,应具有自然语义理解和计算机视觉、用户行为习惯学习和场景环境感知、意图识别及决策能力、应用内及跨应用操作四大核心能力。

联想也有相似的AI智能体核心理念,联想表示要实现横跨多个设备、横跨多个生态系统的无缝、安全的AI体验。

基于这一核心理念,联想发布了联想AI Now智能体。

要实现跨应用、跨设备甚至跨生态的智能体,多模态大模型是基础。

就像人类需要利用各种感官学习,多模态生成式AI模型可基于一系列模态进行训练,包括文本、图像、语音、音频、视频、激光雷达等传感器数据,让生成式AI模型更加智能。

多模态大模型已经成为AI发展的方向,行业领先的OpenAI GPT-4V、谷歌Gemini在云端使用不同模态的数据训练多模态大模型。

集成了各种传感器和丰富本地情境信息的手机和PC是理想的多模态大模型落地的载体。搭载高通高性能AI骁龙平台的终端设备,能够带来更高的隐私、安全性和更好的个性化体验,以及对多模态大模型的支持。

高通的多模态AI先行一步 

高通AI研究在今年2月演示的全球首个在Android手机上运行的多模态大模型,展示的是一个超过70亿参数的大语言和视觉助理大模型(LLaVA),可以接受包括文本和图像在内的多种类型的数据输入,并生成关于图像的多轮对话。

通过全栈AI优化,LLaVA能够在搭载第三代骁龙8移动平台的参考设计上以实时响应的速度在终端侧生成token。

高通同时演示了搭载骁龙X Elite的Windows PC上运行超70亿参数的多模态大模型,可接受文本和环境音频输入(如音乐、交通环境音频等),并基于音频内容生成多轮对话。

能够率先支持多模态生成式AI模型,离不开高通在AI领域的持续投入以及领先的技术和产品。

生成式AI爆发后不久的2023年初的MWC,高通就展示了全球首个运行在Android手机上的Stable Diffusion终端侧演示。

2023年底,骁龙移动平台运行的AI大模型的参数从10亿陡增至100亿,运行Stable Diffusion模型的速度从年初的不到15秒缩短至1秒以内,提升幅度和速度惊人。

2024年初,高通推出高通AI Hub,为骁龙和高通平台提供丰富的经过优化的AI模型,开发者只需通过几行代码即可在搭载高通平台的云托管终端上自行运行这些模型。

高通也已经先行一步,推出了高通AI规划器(Qualcomm AI Orchestrator),为智能体未来成为手机和PC上的亮点奠定基础。

高通AI规划器利用存储在终端侧的用户情境信息,如喜欢的饮食、锻炼习惯、常用联系人和消息、过往偏好历史等作为个人知识图谱,以更好地理解用户意图。

通过理解与本地情境信息相融合的个人偏好,高通AI规划器能够将这些知识整合进生成式AI助手中,为用户提供有意义的个性化回复和行动,提供更快响应速度的同时还能增强隐私性。

借助多模态模型,高通AI规划器支持多种终端交互模态,包括文本、视觉和语音。

雷峰网了解到,高通AI规划器将成为高通AI软件栈的重要组成部分,位于应用和AI框架及runtime之间。

集成高通AI规划器的高通AI软件栈将更将强大,能够最大化降低AI开发的门槛,更关键的是高通AI软件栈支持一次开发多终端部署。

完整且易用的高通AI软件栈运行在高通强大的AI硬件之上。

去年发布的第三代骁龙8搭载的高通AI引擎,CPU性能提升高达30%,GPU性能提升25%,Hexagon NPU性能更是翻倍。而拥有高通定制Oryon CPU的骁龙X Elite的NPU性能高达45TOPS,树立了AI PC的标杆。

高通AI引擎是高通多年全栈AI优化的结晶,自2015年高通推出第一代AI引擎之后每年更新,如今搭载包含CPU、GPU、NPU等异构架构的高通AI引擎的产品出货量已经超过25亿,涵盖手机、XR、汽车、平板、PC、机器人等,是高通推动端侧AI发展独特的优势。

小米14 Pro、OPPO Find X7 Ultra、荣耀Magic6等一系列搭载第三代骁龙8的旗舰手机,发挥了高通AI引擎的能力,率先落地了图像扩充、智慧成片和智慧创建日程、AI消除等A I功能,这些手机的热销充分说明了消费者的认可。

骁龙X系列平台是支持包括微软Surface Pro和Surface Laptop在内首批Windows 11 AI+ PC的独家平台,这让高通成为移动计算领域领导者的同时,其NPU的强大实力也得到了认可。

将于10月22日-24日举办的2024骁龙峰会,新一代旗舰移动平台将再次焕新,CPU和AI是最值得关注的焦点。

全新一代骁龙8,会带来哪些AI新玩法?

高通一直是全球为数不多兼具连接和计算领导力的公司。去年,骁龙峰会上骁龙X Elite一亮相就惊艳全场,凭借着高通的自研Oryon CPU,以及包含NPU的异构AI引擎,性能超越同级别的苹果M系列处理器以及x86处理器。

今年即将发布的新一代骁龙8移动平台,将首次搭载高通Oryon CPU。以去年骁龙X Elite上Oyron CPU的惊艳表现预计,新一代骁龙8移动平台的CPU性能或将实现飞跃式进步。

加之可能进一步升级的GPU和NPU,新一代骁龙8的AI性能将令人瞩目。 此外,结合集成有高通AI规划器的高通AI软件栈,未来手机和PC厂商的智能体应用将有望获得更好体验。

但更让人期待的是,在轻量级生成式AI模型快速迭代时代,结合对AI技术发展敏锐和准确的洞察,高通能够充分利用基于强大骁龙8平台以及全球领先的5G Advanced、Wi-Fi、蓝牙连接技术,带来一系列前瞻的端侧AI应用,这将包含哪些惊喜?

这是一个即将揭晓的答案,从高通即将展示的前沿、新鲜用例中将可以窥见AI手机和AI PC新一轮的应用创新。

汽车、XR等业务也是高通重要的产品线,高通去年介绍了Snapdragon Seamless功能,展示了搭载骁龙平台的安卓手机和PC间进行协作和文件传输,这一功能今年是否会进一步拓展到汽车和XR等更多终端,带来全新的智能体体验?

从高通战略的前瞻性、AI技术的领导力和产品业务的广泛布局,可以看到高通在生成式AI时代保持领先,未来高通将会把AI带到更广泛的终端中,成为混合AI时代的重要推动者。

]]>
芯片 //m.drvow.com/category/chips/LgAcCvZEtpjeLGq3.html#comments Mon, 21 Oct 2024 08:46:00 +0800
天玑9400用上PC级CPU架构,手机处理器性能要越级? //m.drvow.com/category/chips/4bcnfobzSQU3jngh.html 手机处理器追求性能提升的脚步从未停歇,去年MediaTek的年度旗舰天玑9300处理器首次采用了CPU全大核架构让人眼前一亮。

今年是天玑品牌的第五年,最新发布的天玑9400,继续采用CPU全大核的架构,MediaTek第二代全大核CPU架构采用了PC级的Armv9架构,性能相比天玑9300单核性能提升35%,多核性能提升28%。

天玑9400的GPU性能提升幅度更是高达41%,对于手游玩家来说绝对是一个巨大的吸引力。

这让人好奇,手机处理器的性能也要越级到PC了吗?手机为什么需要PC级的性能?

生成式AI和游戏大概是手机处理器性能持续升级最大的驱动力。

AI同样是MediaTek升级的重点,并且被应用到更广泛的应用中。天玑9400集成的AI处理器也升级为第八代NPU 890。

vivo X200将首发天玑9400处理器,同样搭载天玑9400的OPPO Find X8也将在本月发布。其它更多搭载天玑9400的手机也将陆续发布。

第二代全大核CPU架构,采用PC级Armv9架构

全新的天玑9400旗舰处理器采用台积电第二代3nm制程,拥有291亿个晶体管,相比天玑9300的227亿个晶体管提升了28%。

天玑9400 CPU架构是第二代全大核CPU架构,包含1个主频高达3.62GHz的Cortex-X925超大核,3个Cortex-X4超大核和4个Cortex-A720大核。

第二代全大核CPU架构带来了相比上一代35%的单核性能提升,以及28%的多核性能提升。

第二代全大核CPU采用PC级Armv9架构,相比天玑9300二级缓存加倍,并率先支持10.7Gbps LPDDR5X内存,由此带来的是25%的性能和能效的提升。

GeekBenchv6.2单核的性能跑分显示,天玑9400相比天玑9300和第三代骁龙8有显著的性能优势,使用Antutuv10跑分,实验室环境跑风突破300万,常温环境也有284万的成绩。

整体看,相比上一代,同性能功耗降低40%。

MediaTek资深副总经理暨无线通信事业部总经理徐敬全在发布会上说,“不用追高频,后满帧时代能效为王。”

根据MediaTek给出的测试数据,无论是重载游戏还是日常应用,天玑9400都能够持续输出稳定的能效表现。

另外,天玑调度引擎通过前台应用算力倾斜、实时侦测感知灵活调整、关键资源专道专行等方式进行性能能效的动态调度,实现性能和功耗的平衡。 

天玑9400 AI性能提升1.4倍

天玑9400的发布会现场,AI是绝对的主角。目前生成式AI,或者说端侧大模型的落地,计算不是最大的瓶颈,最大的瓶颈在于带宽和内存。

这意味着天玑9400二级缓存翻倍,对于提升新一代旗舰处理器的AI能力将会有更显著的效果。匹配上新一代NPU,可以实现更强大的AI性能。

最新一代天玑9400集成的是MediaTek第八代AI处理器 NPU 890。基于新一代的硬件,天9400支持端侧LoRA训练、端侧高画质视频生成、时域张量硬件加速技术,difussion transformer技术,至高32K tokens文本长度,并面向开发者提供AI智能体化能力。

性能方面,相较于上一代,天玑9400的大语言模型(LLM)的提示词处理性能提升80%,功耗节省35%。

天玑9400也拥有多模态AI运算能力,处理能力至高达50 tokens/秒,让手机不仅能够理解和推理图片中的内容,更可以理解图片、文字、数字的相对关系。

据介绍,MediaTek已经与全球主流大模型深度合作,全面实现天玑旗舰芯的深度适配与优化。

在发布会上,MediaTek展示了多个AI用例,比如更智慧的点餐,图片生成视频等等。

同样值得关注的是,为了推动生成式AI在端侧的落地,MediaTek还推出了天玑AI智能体化引擎(Dimensity Agentic AI Engine),这一引擎能够将传统AI应用提升为能够进行自主感知、动“脑”推理,协作行动的高度智能化AI应用。

MediaTek已经与荣耀、OPPO、VIVO、小米、Transsion开启了天玑AI智能体化引擎先锋计划。 

GPU性能飞跃41%,光追再次升级

GPU性能提升的幅度同样是新旗舰的亮点,天玑9400搭载新一代旗舰12核GPU Immortalis-G925,峰值性能相较上一代提升41%,功耗节省44%,光线追踪性能较上一代提升40%。

GPU的大幅提升能够带来显著的游戏性能提升,在后台100%满载下,满载智能调度可以实现游戏帧率可以平稳达到59.1帧,优于竞品。

天玑9400的光线追踪引擎也进行了升级,支持支持PC级的天玑OMM追光引擎,可渲染出逼真的游戏光影效果。MediaTek首发了OMM光追手游《暗区突围》,行业首发了90FPS,帧率提升50%,功耗降低10%,在手机上达到了更逼真的光追效果。

手机上支持效果更好的光线追踪具有吸引力,不过光线追踪在PC游戏中也尚未大规模普及,所以体验光线追踪的游戏目前机会不多。

为了提供更好的游戏体验,天玑9400搭载的星速引擎还支持先进的插帧技术和超分技术,提供丝滑流畅的游戏体验,还可以在呈现精彩画面的同时降低功耗,延长设备续航时间。

MediaTek给出的数据显示,在星速引擎全链路低延迟技术的支持下,在《王者荣耀》游戏中触控反应率可以提升27,功耗降低35%。

另外,在游戏中使用AI技术也能带来全新体验,使用端侧AI语音识别技术,在游戏中可以拥有AI NPC,用语音就能控制游戏中的NPC打配合。

8K全焦段杜比视界HDR视频

GPU性能的升级与游戏性能直接相关,ISP影像的性能和手机的拍照性能相关。

天玑9400搭载的是Imagiq 1090 ISP影响处理器,支持天玑全焦段HDR技术与天玑丝滑变焦技术,实现平滑的视频变焦。

性能提升的同时功耗进行了优化,天玑9400视频录制和照片拍摄时的功耗,相较于上一代,4K60帧视频录制功耗可降低14%。

天玑9400也支持8K 全焦段杜比视界 HDR 视频录制。

当然AI也充分应用到影像中,全新的影像能力结合天玑 AI 指向收音技术、天玑 AI 超清晰长焦算法等技术,可以实现专业录像体验。

需要与影像提升匹配的是显示技术。天玑9400旗舰芯支持天玑自适应 HDR 显示技术。可利用先进算法,自动调整屏幕亮度、对比度和色彩饱和度,以适应周围的光线条件,确保各种场景下的视觉体验能始终如一。

天玑9400还支持三通道显示技术,提供更高分辨率与刷新率,为三折叠手机等形态的智能终端的设计提供支持。

无线连接的能力方面,天玑9400拥有新一代3GPP R17 5G调制解调器,支持四载波聚合(4CC-CA),Sub-6GHz网络下行传输速率可达 7Gbps ,支持5G/4G 多制式双卡双通。

还拥有4nm制程的Wi-Fi/蓝牙组合芯片,支持三频并发Wi-Fi 7,理论网络传输速率可达7.3Gbps,功耗相较上一代可节省50%。支持MediaTek Xtra Range 3.0技术,Wi-Fi信号覆盖范围可延伸30米。 

3nm天玑座舱芯片

在全新旗舰手机芯片的发布会上,MediaTek还发布了3nm天玑座舱芯片CT-X1。

CT-X1在今年4月的北京车展期间首次亮相,不过当时MediaTek并未公布座舱芯片的具体规格。

此次MediaTek更近一步披露了CT- X1的信息,拥有旗舰级CPU、GPU和NPU,至高可以搭载10块屏幕,16个摄像头,8K30视频播放和录制,9K分辨率显示,以及5G和Wi-Fi 7 等先进通信技术。

雷峰网了解到,搭载3nm天玑座舱芯片的首批车型将在2025年量产上市。

]]>
芯片 //m.drvow.com/category/chips/4bcnfobzSQU3jngh.html#comments Thu, 10 Oct 2024 16:01:00 +0800
智能汽车里高等级「功能安全」芯片为何还未普及? //m.drvow.com/category/chips/BZLrvZWsTWVOanIq.html 汽车行业正快速朝着智能化的方向发展。汽车的智能化将驱动汽车架构转向中央计算架构。

中央计算能在降低成本的同时提高通信效率,还可以实现远程升级(OTA),让智能汽车也能像智能手机一样持续升级,拥有更好的智能化体验。既然是中央计算,芯片的安全性和性能都尤为重要。

“随着自动驾驶接管车辆的时间越来越长,汽车芯片的功能安全将无法忽视。”Imagination Technologies车载GPU产品线的产品总监章政指出,“在车上用消费级芯片只是短期过渡。”

目前大量的智能汽车虽符合国家的法规要求,但考虑成本等多方面的因素,满足的是系统级安全,整车符合汽车安全要求,但使用了一些消费级芯片,而非高等级的功能安全芯片,这是为什么?

最核心的原因还是因为成本,传统方式要实现功能安全,会带来成倍的成本增加,阻碍了高功能安全等级的汽车芯片普及。

近期Imagination发布了业界高等级功能安全和最高性能的汽车GPU IP DXS。

通过创新的分布式安全机制,Imagination DXS GPU对性能的影响几乎为零,芯片面积的代价估计仅为10%,实现了ASIL-B功能安全等级。

并且Imagination DXS GPU IP,峰值性能比Imagination上一代汽车GPU提高了50%,可扩展至192 GPixel/s、6 TFLOPS和 24 TOPS,AI性能更是有高达10倍的提升。

Imagination的全新产品无疑将推动高功能安全等级车载芯片在智能汽车中的普及。

用10%的芯片面积代价,实现高等级功能安全

所谓功能安全,指的是确保芯片按照设计的功能运行。如果芯片不能按照汽车设计的功能执行,可能会威胁到驾驶员、乘客、路人的安全。

要达到功能安全,就要付出一定的成本,比如招聘有经验的设计人员,执行严格的功能安全研发流程,进行安全认证等。

对于芯片来说,实现功能安全最重要的成本来自增加的芯片面积,因为所有新功能的实现,都需要增加芯片面积。

实现汽车芯片功能安全有两种常见的方式,一种双核锁步法,另一种是工作负载重复法。

双核锁步法用两个相同的逻辑单元实现同一个功能,同时执行任务比较结果是否一致,如果一致说明逻辑运行正确。通过双核锁步法实现功能安全的代价是多一倍的芯片面积。

工作负载重复法,就是把同一个工作执行两次,对比两次的结果是否一致,这种方法可以避免随机错误,但难以避免长期错误,并且因为要进行两次重复的工作,相当于性能降低为二分之一。

无论是双核锁步法增加一倍的芯片面积,还是工作负载重复法相同的芯片面积性能降低一半,实现功能安全的代价都是十分高昂,自然难以普及。

自动驾驶逐步普及之后,汽车芯片的功能安全就难以被忽略。如何才能用最小成本实现高等级功能安全?

Imagination DXS开创性地实现了仅增加10%的芯片面积,对GPU的性能几乎零影响,通过分布式安全机制实现了ASIL-B功能安全。

根据ISO 26262汽车安全完整性等级(ASIL)体系,ASIL-A等级的要求最低,ASIL-D等级的要求最全面。

“今天我们可以轻松达到ASIL-B,这个等级基本可以满足L2级自动驾驶的需求。如果需要更高功能安全等级,可以通过2个ASIL-B系统交叉确认实现。未来我们会进一步提高安全等级。”章政告诉雷峰网。

Imagination DXS能够以足够小的代价,实现足够高的功能安全等级的核心是利用了处理器固有的并行性,以及任何线程都不会被完全利用的事实。

也就是说,DXS会利用一个GPU线程等待的时间,插入安全测试,使用相同的安全测试在另一个线程等待时插入,执行完成后对比结果是否一致。

这是DXS实现高等级功能安全逻辑模块的功能安全,也是实现整个功能安全的难点所在,需要能够迅速在模块中定位错误,这只是实现功能安全的其中一半。

DXS另一半的功能安全是内存,包括Cache或SRAM。章政介绍Imagination会通过ECC、parity或者CRC校验,保证内存的功能正确。

Imagination通过独特的分布式安全机制(DMS),利用空闲时不停发送很小的测试向量,在ASIL标准设定的时间范围内识别故障,实现高等级功能安全。

DXS在执行安全相关的任务时,效率是同级别竞品的2倍,再借助分布式功能安全机制,DXS的优势还能翻倍。

Imagination已经为这个机制申请了专利。章政说,“DSM机制不仅可以用于车载电子,对于功能安全要求高的其它的领域,比如航空、医疗和工业,也都适用。” 

AI性能的数量级提升

对于自动驾驶汽车芯片,与功能安全同样重要的是高性能。因为自动驾驶仍在不断发展,智能化功能在不断扩展,高性能和可扩展性都非常重要。

得益于增加了一个新的SPU单元,使用5nm节点,算力可从单核0.25 TFLOPS的配置,扩展到1.5 TFLOPS的处理能力,DXS的性能相比上一代XS整体提升了50%。

Imagination为SPU做了很多优化工作,比如增加了2D双速纹理处理(2D dual-rate texturing),更新了固件处理器(firmware processor),新增了可变分辨率渲染(fragment shading rate)。

整体而言,对于渲染类任务,DXS单位面积的性能高出竞品2倍。对于以计算为中心的图形处理任务,DXS单位面积性能高出竞品28%左右。

自动驾驶芯片的AI性能也值得单独关注,这是实现更高级别自动驾驶的关键所在。

4核配置的DXS,用于FP16半精度浮点计算时,DXS能提供12 TFLOPS的性能;用于int8计算时,DXS能提供254TOPS。

“这是运行在1GHz主频上的数据,如果芯片设计公司后端能力够强,DXS可以运行在1.2GHz甚至1.5GHz的主频,其性能将更高。”章政表示,“我们研究发现,大部分AI负载FP16的精度就足够满足要求,FP32确实有更高精度,但带宽会增加一倍,系统可能没办法提供这么高的带宽。当然我们的DXS也支持FP32。”

带宽也是限制汽车ADAS实现的重要原因, Imagination DXS增加了片上存储,尽量把所有计算都控制在一个GPU内,大幅降低系统的带宽需求。

不过对于发挥芯片的AI性能,上层的软件同样关键。

由于GPU的人才相对匮乏,为了让开发者充分利用GPU的性能,Imagination开发了一系列库,比如几何库、BLAS库(imgBLAS),专门的CNN 库(imgNN),还有专门处理车载工作的库,如处理雷达数据需要的FFT库(imgFFT)。

Imagination的目标是帮助软件开发人员实现高达80%的GPU利用率。

这些库与新的参考工具包oneAPI和TVM相结合,构成了一个基于开放标准的实用软件栈,软件开发人员可以利用该软件栈轻松地将其计算应用移植到基于Imagination IP的硬件上,并最大限度地提高其性能。

DXS AI性能的提升相比上一代高达近10倍。其中,硬件性能大概提升了50%,所以更大的的提升来自软件的支持和协同。

“计算库提升了2-4倍的性能,采用双速率FP16带来了3倍提升,所以DXS在典型工作负载上带来了6-12倍的性能提升。”章政表示,“DXS大模型、路况视觉观察、驾驶员行为监测、激光雷达系统数据处理等方面已经具备了商用能力。DXS覆盖从座舱到L2/L3自动驾驶的需求,DXS 8-256 MC1主要用于低成本的HMI应用,最高端的IMG DXS-48-1536 MC4满足ADAS的这个需求。”

不同的公司可以根据产品定位,灵活选择合适的配置,甚至可以在下一代产品更新时增加一个新的GPU模块。

这就离不开DXS硬件和软件的灵活性。

为了应对高端制程大芯片良率越来越低的挑战,DXS原生支持小芯片(Chiplet)封装,这得益于Imagination内核之间的低带宽总线和对隔离的支持。

软件层面,基于硬件的虚拟化技术使Imagination GPU能够同时运行8个操作系统,并通过完全的内存隔离,实现完全安全的GPU多任务处理。

目前Imagination的汽车GPU支持OpenGL ES、Vulkan、OpenGL和OpenCL。它们可运行流行的汽车操作系统,如QNX和Green Hills软件公司的INTEGRITY RTOS,以及Linux和Android。

随着高安全等级且高性能DXS的发布,高功能安全的汽车芯片的普及将扫清障碍。

]]>
芯片 //m.drvow.com/category/chips/BZLrvZWsTWVOanIq.html#comments Fri, 20 Sep 2024 15:57:00 +0800
高通再推AI PC新平台,骁龙X Plus 8核覆盖更多人群 //m.drvow.com/category/chips/8AQPSgLla3jNPS4r.html 雷峰网消息,高通在柏林国际电子消费品展览会(IFA)前夕宣布推出全新的AI PC处理器骁龙X Plus 8核,这是继今年4月份推出骁龙X Plus 10核平台之后的又一新平台。

高通的新品进一步丰富了自身PC产品的组合,支持更多层级的AI PC,在加速AI PC普及的同时,也让AI PC市场的竞争更加激烈。

骁龙X Plus 8核将帮助OEM推出700-900美元价格段的Windows 11 AI+ PC产品,宏碁、华硕、戴尔、惠普、联想和三星搭载骁龙X Plus 8核平台的设备将于即日起发售。

骁龙X Plus 8核平台采用4nm工艺,从命名上就可以看出,CPU是8核高通Oryon,能够支持超快响应速度和效率,与英特尔Core Ultra 7 155U相比,相同功耗下比竞品性能高61%,竞品在同性能表现下所需功耗要多179%。

值得注意的是,骁龙X Plus 8核/10核现在已经支持单个 boost 核心,过去是高端骁龙 X Elite 芯片所独有。

GPU方面,骁龙X Plus 8核采用集成GPU,支持三台外接显示器,能够确保卓越图形性能和沉浸式视觉体验。当然,骁龙8 Plus 8核的GPU性能也比骁龙8 Plus 10核稍弱。

作为AI PC平台,骁龙8 Plus 8核的AI性能与骁龙X Elite核骁龙8 Plus 10核相同,NPU性能都是45 TOPS。

其他方面,骁龙X Plus 8核还包括可选的 5G 支持、AV1 编码 / 解码、蓝牙 5.4、同时支持三个 4K / 60Hz 显示器,以及用于跨设备体验的 Snapdragon Seamless 功能。雷峰网

]]>
芯片 //m.drvow.com/category/chips/8AQPSgLla3jNPS4r.html#comments Wed, 04 Sep 2024 20:38:00 +0800
AI与边缘计算融合,产业视角下英特尔如何推动AI2.0发展 //m.drvow.com/category/chips/Y9vn7KGdEw7cWRb2.html 过去几年中,边缘设备源源不断地生成大量数据,传输至云端的成本变得高昂,越来越多的AI应用被部署在边缘端,以便就地处理数据。

相比云计算,边缘计算在低延迟、高安全性上优势明显,但这种越来越分散和接近用户的数据处理方式,也带来了新的挑战。

由于终端设备的算力有限,且对功耗要求较高,因此在实际的产品设计和应用开发中,如何高效利用边缘计算设备有限的硬件资源,实现最优的边缘计算方案,是开发者们在不断思考的问题。

近日,英特尔举办2024网络与边缘计算行业大会,分享了对AI技术和边缘计算的最新洞察、未来展望及技术与产品的创新。

边缘AI成全球趋势,中国大模型聚焦行业应用

随着AI更多在边缘端部署应用,AI模型也将逐步从云端向边缘端转移。一场巨大的创新浪潮正在酝酿,当下正处于这一变革的关键时刻。

英特尔高级副总裁兼网络与边缘事业部总经理Sachin Katti指出:“边缘AI的应用领域,已逐步从机器视觉,扩展到大语言模型、生成式AI等新兴领域。未来英特尔也将更多关注大语言模型和生成式AI的开发与应用。”

Sachin Katti将AI的发展可以分为三个阶段:AI辅助时代(Age of AI Co-Pilots)、AI 助手时代(Age of AI Agents)、全功能AI时代(Age of AI Functions)

AI辅助时代,AI是能够辅助我们更高效地工作;

AI助手时代,AI可以自动地执行一些工作指令;

全功能AI时代,智能体之间将能够相互协作。

当下,我们正处在AI辅助时代。

IDC数据显示,中国生成式AI投资2022到2027年五年的复合年增长率达到86.2%。Gartner预测,到2026年,80%的全球企业将使用生成式AI,50%的全球边缘部署将包含AI。

在这一大趋势下,中美两国边缘AI的发展,虽然在技术上有许多相似之处,但在落地策略上存在明显差异。

国外的大模型多用于消费类场景,如 ChatGPT 面向公众开放,Sora 主要面向教育机构用户,这些模型都涉及庞大的数据训练量和参数量。

中国的大模型更多应用于行业领域,通常训练中等规模的模型,并结合自身数据进行定制化调整,这种策略通常涉及多个模型的并行部署,以适应特定行业的需求。

英特尔中国区网络与边缘事业部首席技术官、英特尔高级首席AI工程师张宇博士强调,“中国在AI创新方面发展迅速,许多AI Agent的功能已经初见端倪。比如电信行业的AI大模型产品可以分析网络日志文件,及时发现异常并通知网络管理人员。”

AI与边缘计算的融合正在重塑产业的发展。英特尔中国团队正专注于利用英特尔的软硬件技术,鼓励本地创新,加速AI技术在行业中的应用。

用本土创新提升新质生产力

生成式AI为网络和边缘计算带来了许多机遇,同时也在重塑着产品和服务模式。

英特尔致力于为企业提供的,是开放、即插即用的解决方案,以及打造开放、可扩展的系统架构。

“未来合作伙伴不会单单采购芯片,而是需要一整套即插即用的系统解决方案。”Sachin Katti表示,英特尔的服务已经不仅仅局限于硬件供应,还扩展到了应用层、软件以及客户服务支持等多个维度,“主要目的在于帮助客户降低部署的复杂性,实现更加高效、便捷的技术应用。”

在全球市场,英特尔坚持提供统一的软件平台,与此同时,每个市场的本地团队,又会根据当地特定垂直领域的需求,进行微调和定制。这样既能在横向上满足全球市场的一致性要求,又能在纵向上针对本地市场的特殊需求提供解决方案。

在不同行业中,AI技术的应用场景和影响各不相同,英特尔携手众多中国本土合作伙伴,已支持大语言模型(LLM)在教育、制造业等不同行业的落地应用。

在教育领域,AI可以通过分析课堂互动生成教学报告,提高教师的效率。

十余年来,英特尔与希沃在“AI+教育”解决方案的开拓上展开紧密合作。基于英特尔®酷睿™Ultra处理器,希沃在本地即可完成AI教学大模型的运行,并显著提高系统响应速度和稳定性。希沃的产品如今已覆盖17万所学校,260万间教室,服务800万名教师,帮助完成了8亿个生成式课件的制作。

在工业领域,AI可以结合机器视觉和自动化技术,提升生产线的安全性和效率。

面向工业数字化转型升级的迫切需求,科东软件通过先进大语言模型实现任务理解及代码生成,并依托科东智能控制器的多模态视觉语言模型,实现对机器人动作的精准控制,极大简化了开发流程并提升了生产效率。通过在英特尔®酷睿™Ultra 处理器上部署大语言模型,还减少了对算力设备和网络传输的依赖,有效降低了操作延迟,满足工业场景对低延迟和高可靠性的需求。、

边缘计算的特点是碎片化,不同行业和用户对算力和性能的需求各不相同。提供丰富的产品组合和多样化的解决方案,以满足不同用户的具体需求。

数据量的限制是边缘调优的一个常见挑战,英特尔通过自动化手段完成数据标注和训练,解决了数据量小的问题,并结合大规模通用数据模型进行进一步优化。

硬件方面,在算力和能耗的平衡上,英特尔通过创新的冷却技术和智能能源管理策略,实现了高效的功耗管理和性能优化;其集成GPU和NPU解决方案为边缘设备提供了AI计算能力,支持一些AI模型的本地运行,展示了边缘AI的潜力。

打造开放、可扩展的企业级AI生态,才能“让AI无处不在”

在不断推动技术创新和解决方案升级的同时,英特尔也在全球范围内,构建了一个广泛、深入且多样化的合作生态系统。

据雷峰网了解,在这个合作系统中,合作伙伴主要分为三大类,合作方式各有不同:

针对原始设备制造商(OEM)和原始设计制造商(ODM),英特尔协助其进行硬件的设计和生产;

针对直接对接终端客户的系统集成商,英特尔提供定制化解决方案和软件培训,帮助他们显著减少开发时间和成本;

针对软件提供商,英特尔采取直接合作的模式,帮助他们优化软件和应用程序,以便在英特尔提供的多样化平台上高效运行。

作为拥有完整软硬件平台的公司,英特尔在AI领域拥有深厚的积淀与领先优势,提供开放、模块化的解决方案,帮助客户在AI时代以更低总拥有成本(TCO)实现更高价值。

张宇博士补充道,为了推动AI本地创新应用,英特尔还花了很大精力赋能开发者,帮助他们更快更好将想法落地。

今年上半年,中国区网络与边缘事业部和英特尔中国其它事业部合作,共同组织AI创新应用大赛。“除此之外,我们还跟包括开发者、ODM、OEM、系统集成商等合作伙伴来共同制定今后在我们国家适用的AI标准。”张宇博士对雷峰网表示。

面向未来的AI转型,英特尔正在引入端到端、可扩展的系统级战略,通过开放的生态系统全速助力企业推进AI创新。

英特尔公司副总裁兼网络与边缘事业部中国区总经理陈伟博士表示:“英特尔对客户的技术支持始终与时俱进,不仅仅是技术的提供者,更是本地合作伙伴的倾听者和同行者,从运用AI进行创新的‘+AI时代’,到今天以AI为主导推动创新的‘AI+时代’,英特尔正站技术转型的前沿,进一步深化战略,确保英特尔的技术更贴近中国用户,更深入地推动各行业的数字化转型。”

数年深耕,通过持续不断的软硬件平台和产品创新,积极推动边缘AI等新兴领域的拓展,相信英特尔将与合作伙伴和客户共同迎接一个由AI驱动、智能优化的全新时代的到来。

]]>
芯片 //m.drvow.com/category/chips/Y9vn7KGdEw7cWRb2.html#comments Fri, 26 Jul 2024 20:43:00 +0800
后摩智能完成数亿元战略融资 //m.drvow.com/category/chips/ndwQqKbbLM3uzvkB.html 雷峰网消息,存算一体 AI 芯片创新企业后摩智能完成数亿元人民币的战略融资。

本轮融资由中国移动旗下北京中移数字新经济产业基金、上海中移数字转型产业基金(以下统称“中国移动产业链发展基金”)共同对公司进行投资。

除了产业资本的支持,本轮融资也为后摩智能的技术创新和战略布局注入了新动能。

中国移动研究院与后摩智能正式签署战略合作,将联合推进存算一体AI芯片的创新研发和量产应用。后摩智能正式成为中国移动体系重点扶持的边端大模型芯片公司。

双方将共同探索面向政企大模型一体机、信创AI PC、家庭计算盒子、机器人、工业质检终端等场景的端侧大模型新产品形态,并共同推动产品的商业化落地。

图源:2024中国移动算力网络大会展区

2024年世界移动通信大会(MWC2024)上,后摩智能与中国移动联合展示了参数规模超70亿的大语言模型在边端侧的实时运行,测试性能达到每秒 15-20 tokens 的高速度,展现了存算一体 AI 芯片在边端大模型计算场景中的卓越性能,现场呈现流畅的中英文会话和实时互动。

后摩智能近日发布的M30能够在12W功耗下,实现最高 100T的算力;下一代芯片采用最新的“天璇”架构,计算效率将会继续倍数提升。

后摩智能的存算一体技术通过完全融合存储和计算单元,能有效解决了传统芯片架构中的数据搬运问题,可大幅提升芯片的计算效率和能效比,为AI PC、AI一体机、智能座舱、智能驾驶、智慧工业等战略性新兴产业提供强大的算力支持。雷峰网

]]>
芯片 //m.drvow.com/category/chips/ndwQqKbbLM3uzvkB.html#comments Mon, 15 Jul 2024 11:24:00 +0800
端侧大模型会带来颠覆性变化吗? //m.drvow.com/category/chips/DonSRKsqBTFXy0PR.html

生成式AI预训练大模型的能力越来越强大,吸引了更多人探索大模型在端侧的落地应用。

不过在生成式AI火爆之前,CNN已经让端侧拥有了AI能力,所以让人更关心的问题是,端侧大模型会带来革命性的变化吗?

2024世界人工智能大会期间,爱芯元智创始人、董事长仇肖莘对雷峰网表示,“目前端侧大模型的应用还是探索阶段,还不好判断是否会带来颠覆。”

爱芯元智创始人、董事长 仇肖莘

在世界人工智能大会期间,爱芯元智主办的“芯领未来丨智能芯片及多模态大模型论坛”上,智慧物联和人工智能创新融合专家殷俊分享,“不应该让用户放弃原有的技术投资,而是要通过大小模型协同和模型小型化,实现最优算力配置,来加快大模型行业落地。

这是一个值得进一步探讨的话题,端侧大模型落地到底面临哪些挑战?会在哪些场景先落地?又会带来怎样的变化? 

端侧大模型到底是不是一场革命?

包括智能手机、城市中随处可见的摄像头几年前已经经历过一轮AI浪潮,借助CNN、RNN等AI算法,手机能够AI拍照、美颜,摄像头也能识别车牌,统计人流等,虽然不够完美,但已经广泛应用。

端侧大模型要带来革命性的变革不仅要效果更好,而且可能要比传统AI方案成本更低,目前业界都还处于探索阶段,技术的变革并非一夜之间发生。

“我们做AI-ISP已经很多年,今年突然成为了爆款。”仇肖莘说,“传统的ISP降噪、防抖功能是通过硬件模块实现,AI-ISP用算法取代了这些模块,但AI算法也只是将传统ISP通路中20多个模块中的几个换成了AI算法。”

同样的道理,端侧大模型是否能带来颠覆,以及何时会带来颠覆,也还值得探讨。

在谈颠覆之前,端侧大模型首先应该解决的是落地的问题。

殷俊认为,大模型在文本、语音等领域快速发展,但在视觉领域的落地却面临可靠性、稳定性、理解不够全面等挑战,真实准确描述客观世界是视觉大模型落地的关键。

算力、内存和带宽都是端侧大模型落地最底层的挑战。

“大模型在端侧的落地,内存大小、带宽的限制超过了算力限制。”仇肖莘进一步表示,“算力可以很大,但数据会成为瓶颈,芯片一定要和算法做联合优化。”

业界也正在积极探索端侧大模型落地内存和带宽限制的问题,比如探索DDR用Wafer to Wafer的形式,实现1024个通道,解决带宽和延迟的问题。又或者开发出能够在端侧使用的HBM,解决数据墙问题。

技术向前演进的同时应用的探索也在加速,仇肖莘认为汽车、手机、PC都将是率先落地端侧大模型的场景。

这些场景无疑需要原生支持Transformer架构的处理器。

押中生成式AI,原生支持Transformer有10倍性能优势

爱芯元智在世界人工智能大会2024上正式发布了爱芯通元AI处理器,在高中低三档算力中已完成布局,已经在智慧城市和辅助驾驶两个领域实现了规模化量产,并且可以支持以文搜图、通用检测、以图生文、AI Agent等通用大模型应用。

这是一个有趣的话题,爱芯通元混合精度NPU早在2021年就已经立项,2022年年中回片,并在年底向客户销售,三年前设计的芯片为什么能原生支持Transformer?

爱芯元智联合创始人、副总裁刘建伟介绍,爱芯元智NPU设计是AI处理器的设计思路,从一开始就考虑各种模型结构包括Transformer等模型的算子支持,爱芯通元AI处理器的核心是算子指令集和数据流微架构。底层采用可编程数据流的微架构提高能效和算力密度。同时,爱芯通元的灵活性也保证了算子指令集的完备性,支撑各种AI的应用。

还有爱芯通元成熟的软件工具链可以让开发者快速上手,也能够快速实现对端侧大模型的适配。

今年四月,爱芯元智就基于AX650N平台完成了Llama 3 8B和Phi-3-mini模型的适配。

爱芯通元V4(AX630C)也已经适配了通义千问0.5B、TinyLlama-1.1 1.1B模型的适配,Token速度也不错。

“爱芯通元AI处理器现在最高支持7B参数的模型。”仇肖莘表示,“我们也注意到苹果手机上的大模型是3B,落地边缘侧和端侧模型的参数大小预计是3B-7B。”

如果模型的参数更大,带来的是更智能,但也更考验芯片和算法的联合调优。

“模型的轻量化很重要,这时候混合精度就非常有价值。比如同样是7B参数,如果用混合精度可以将计算和存储的需求都降低,爱芯通元就支持混合精度。”仇肖莘指出。

得益于爱芯通元采用的DSA架构,相比英伟达GPGPU架构,在端侧Transformer架构推理场景,爱芯通元AI处理器相比英伟达有10倍的性能优势。

爱芯元智会基于这些优势在哪些场景做探索?

手机和汽车两大端侧大模型落地场景

“从此前的单模态,到现在的多模态,AI检测的效率、准确度都会更高,应用场景也会更多。”仇肖莘认为。

手机、PC和汽车无疑是当下端侧大模型最适合落地的场景。

“我们已经接触了很多手机厂商,以及手机芯片厂商,探讨将我们的IP集成到他们SoC里的可能性。”仇肖莘透露。

另外智能手机现在想要快速实现对生成式AI的支持,可以在SoC之外增加一个协处理器,这样做的劣势是成本高,应该是一个临时的解决方案。

“未来一定是在手机SoC中集成NPU,但要集成多大算力的NPU,能够支持手机各种应用的同时成本又不太高,苹果和国内手机厂商的探索都很重要。”仇肖莘说。

汽车的计算实时性需求,以及对智能化的需求,也让汽车成为了落地端侧大模型一个重要的市场。

如今汽车行业关注端到端,比如信号通过ISP之后是否可以通过黑盒子的大模型直接成像、出执行策略,通过大模型降低系统的复杂性,这都是端侧大模型在汽车行业落地非常好的场景。

爱芯元智的AI芯片在2022年下半年就已经通过了车规,基于成熟的工具链很快就做出了demo通过Tire1提供给主机厂。

“我们的时机比较好,那时候国内缺性价比的智驾方案,加上国内的车企比较愿意尝试新方案,很快就拿到了定点。”仇肖莘认为,“目前汽车智能化是一个很好的市场,特别是10万及以下级别汽车的法律法规市场,比如7月份欧盟要求汽车的主动安全变成强制标配,用于减少交通事故,国内主动安全带动的装配量也会快速增长。”

爱芯元智瞄准的是售价10万以下汽车的L2、L2+智能驾驶场景,性价比就是关键。

爱芯元智降低成本的方法是将芯片平台化,也就是取不同应用场景需求的最大公约数设计芯片并平台化,用同一个平台面向不同市场,通过大量出货降低芯片成本。

仇肖莘指出,爱芯元智要做普惠AI,智慧城市是爱芯元智增长的第一曲线,第二曲线是智能驾驶,现在也在探索边缘计算和具身智能。

从传统CV算法到Transformer,从智慧城市到智能汽车再到未来的具身智能,爱芯元智不仅前瞻性的看准了算法演进的方向,还非常明确要做普惠AI以性价比立足市场,无论是技术路线还是战略,爱芯元智显然走在正确的道路上。雷峰网

]]>
芯片 //m.drvow.com/category/chips/DonSRKsqBTFXy0PR.html#comments Wed, 10 Jul 2024 16:13:00 +0800
万卡集群,进入AI核心圈的入场券 //m.drvow.com/category/chips/rYbEPCoWj6wycbiz.html OpenAI的单点集群大概5万张卡,谷歌2.6万张卡,Meta2.45万张卡。

顶级的AI公司已经为这场“暴力美学”的竞赛,设定了单点集群万卡的门槛。

华为昇腾AI集群规模在去年7月已经扩展至16000卡。去年10月科大讯飞启动万卡集群算力平台“飞星一号”。

今年3月,天翼云上海临港国产万卡算力池启用。4月,中国移动宣布今年将商用3个自主可控万卡集群。

摩尔线程创始人兼CEO张建中在2024世界人工智能大会(WAIC)前夕的摩尔线程AI DAY 暨万卡智算集群解决方案发布会上表示,“AI主战场,万卡是最低标配。”

可实现万卡集群至少面临6个层面的挑战,国内公司如何实现国产算力的万卡智算集群? 

AI主战场,万卡是标配

最近两年火爆的生成式AI,被许多人称为“暴力美学”。

也就是在数据量足够大、模型参数数量大到一定程度,模型的精度、准确度会出现智能涌现会,突破传统大模型的准确度。

比如,在自然语言理解场景,当算力参数量和数据量综合算力达到10的23次方时,准确度有极大的飞跃。

这个规律被称作Scaling Law。与Scaling Law相伴的是对算力的指数级增长。

比如训练GPT4,大概需要1千张H100的算力,而如果使用A100则需要3万张。

“GPT5需要的算力是10万卡。”张建中认为。

这是基于假设Scaling Law按照线性比例成长,估算参数、数据量和算力之间的关系。

从GTP3到GPT4,模型的参数从百亿到万亿,100倍的参数增长,数据量也从几TB到几十TB,是10倍的提升,两者一乘,整个算力的需求就是1000倍的提升。

满足Scaling Law的唯一办法就是建立一个单点超大规模算力集群。

“只有这样,才可以把这个大模型在一个地方,一个网络,单节点之内把它训练完成。”张建中指出。

假设训练一个5000亿参数的模型,15TB的数据,如果使用1000P的集群,三年都训练不完。如果要在一个月内,甚至1-2周内训练完5000亿参数的模型,至少要1万P的算力集群。

“从今年开始,所有智算中心万卡是最低标配,万卡以上的智算中心才有价值。”张建中认为。

Scaling Law持续奏效的同时,还不能忽视算法和架构的演进。

目前,Transformer架构虽然是主流,但新兴架构如Mamba、RWKV和RetNet等不断刷新计算效率,加快创新速度。

“有公司专门为Transformer架构做加速计算,这个创意很好,但如果很容易实现一定会被融合到GPU当中,成为GPU当中的Transformer引擎。我们相信未来还会出现各种架构的变种,要支持不停出现的新框架,只有一个办法,就是通用且能持续发展的计算平台。”张建中表示。

那就应该建设一个万卡规模加上通用可扩展的智算中心,这面临众多挑战。 

万卡智算中心的6大难题

有统计数据,2024年国内有上百个在建的智算中心。这是一项超高额的投入,建设几万P的智算中心成本高达几十亿,更大算力规模则需投资上百亿。

“连市场客户都没有就盲目建设智算中心肯定不对,不是所有人都应该去建算力中心,应该由专业的人干专业的事。”张建中进一步表示,“智算中心是否好用,能否通用,能不能稳定运行,有没有能力运营都是建设智算中心需要考虑的事情。”

很多客户喜欢喜欢DIY,但张建中建议不要太多DIY,而是采用整体解决方案,这样集群买回去之后马上就可以用起来,能够避免风险。

特别是从千卡到万卡集群,不是简单的堆叠,复杂度指数级增加,国产千卡/万卡超级系统工程面临着6大难题:包括超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算。

“可以把万卡想象成一个万人团队,需要有非常强的沟通机制,才能协同的把一件事情完成。”摩尔线程CTO张钰勃说,“对于万卡集群,仅靠单卡算力还不够,提供匹配单卡算力的通讯也至关重要。”

卡间互联和交换机是关键。雷峰网了解到,摩尔线程千/万卡集群的卡间互联是自研的MTLink,和NVLink作用相同,目前已经演进到MTLink2.0版本。

“我们还没有交换机芯片,是用行业里的交换机芯片去搭建我们的集群。”张建中透露,“后期我们会自主研发,或者是和行业合作伙伴一起研发下一代大规模的交换机。”

互联之外的另一个难题是稳定性。

“集群规模越大越不稳定。”张建中对雷峰网表示,“千卡集群故障率可能做到0.1%就可以,万卡集群要提升到0.01%甚至是0.001%,这对硬件设计和生产制造都是很大的挑战。摩尔线程投入了很多,确保架构本身的稳定性,以及让芯片的平均无故障时间更长。”

散热也是提升万卡集群稳定性的关键,千卡集群还可以考风冷解决,万卡就需要液冷保证集群的稳定运行。

“还需要不同的容错机制,在出问题的时候硬件自动恢复,而不是靠软件。”张建中表示。

为此,摩尔线程推出了智算中心全栈解决方案夸娥(KUAE),以全功能GPU为底座,构建了夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio)的一体化交付的解决方案。

夸娥智算集群也可以实现从千卡至万卡集群的无缝扩展。

夸娥国产万卡万P智算集群的差异化优势

全新一代夸娥智算集群实现单集群规模超万卡,浮点运算能力达到10Exa-Flops,大幅提升单集群计算性能,能够为万亿参数级别大模型训练提供坚实算力基础。

同时,夸娥万卡集群达到PB级的超大显存总容量、每秒PB级的超高速卡间互联总带宽和每秒PB级超高速节点互联总带宽,实现算力、显存和带宽的系统性协同优化。

算力利用率(MFU)方面,千卡夸娥集群MFU有50%多,万卡夸娥集群的MFU目标是60%。

稳定性层面,摩尔线程夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上。

月级长稳训练远超行业平均水平,得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括软硬件故障的自动定位与诊断预测实现分钟级的故障定位,Checkpoint多级存储机制实现内存秒级存储和训练任务分钟级恢复以及高容错高效能的万卡集群管理平台实现秒级纳管分配与作业调度。

夸娥智算集群还有一个对所有用户来说非常友好的特性——CUDA兼容。

“我们的产品跟国内外主流生态在兼容性方面做的很好,开发者移植到夸娥集群几乎不需要修改代码,迁移成本接近0,可以在数小时之内就完成迁移工作。”张钰勃表示,“当然用户可能需要花数天的时间去调优性能,但整体的迁移成本很低,并不需要几周这么长的时间。”

在诸多的智算中心中,张建中认为摩尔线程夸娥的差异化优势在于,是国内唯一一家用全功能GPU实现通用加速计算的公司。

“摩尔线程有1000多人,我们花了4年时间,把GPU的图形能力、编解码能力、科学计算能力、人工智能训练推理能力都做了提升,我们希望能够搭建首个中国本土通用型的万卡集群。”张建中指出。

摩尔线程的GPU也几乎适配了所有国产CPU,这也是夸娥智算集群的差异化所在。

“我们与国内所有的CPU、操作系统一起打造了一个生态系统,叫PES联盟,形成一个本土化完整生态。”张建中说。

不少人都知道摩尔线程的GPU能做图形渲染,却忽视了基于摩尔线程全功能的GPU能够实现的AI功能。摩尔线程的夸娥千卡集群,已经有包括无问芯穹、清程极智、360、京东云、智平方等合作伙伴。

在摩尔线程夸娥千卡集群上,360分别部署70亿、700亿参数大语言模型,全程软硬件即插即用,工作有效训练时间占比100%;全程稳定无软硬件故障,集群有效训练时间占比100%。

京东基于摩尔线程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理测试,Chatglm2-6B推理测试,S4000的单卡推理性能是RTX 4090D性能的1.26倍,其他两个模型,S4000性能均能达到RTX 4090D性能的90%左右。

夸娥万卡集群,摩尔线程与中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司,分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

接下来,夸娥万卡智算集群就将考验摩尔线程能够作为一家系统级公司,解决国内AI算力紧缺的难题。

张建中要带领摩尔线程做难而正确的事。

]]>
芯片 //m.drvow.com/category/chips/rYbEPCoWj6wycbiz.html#comments Mon, 08 Jul 2024 18:13:00 +0800
算力即服务, RISC-V+AI按下「加速键」 //m.drvow.com/category/chips/B6XbGfv3FexrG6xN.html 公元前119年,汉武帝刘彻遣大将军卫青、骠骑将军霍去病分两路深入漠北,在距离中原最远的战场进行的一次规模最大最艰巨的战役。
漠北决战的胜利是汉武帝反击匈奴之战的标志,解除了匈奴威胁。
横击匈奴,开创了大汉雄风,成就了汉朝的"强汉"之名,刘彻的选择其实是时势使然,更是顺势而为。
两千年后,在中美芯片的科技战场,也在进行一场“时势造英雄”的历史。
2010年,加州大学伯克利分校的研究团队开始了一个新的探索项目:希望创建一个全新的开源指令集架构,这个架构具有易于理解的简洁指令集,并且能够提供高性能和低功耗。这个项目就是 RISC-V。
近年来,中美科技新战场锁定AI芯片,AI芯片技术成国安审查核心,美国商务部多次跃跃欲试,欲封堵中国自研之路。
「没有谁能断供RISC-V,这种开源架构正在全球开花。」
这是RISC-V在眼下国际环境中最醒目的一点,但却不是唯一、最重要的一个特性。
过去几年,「RISC-V」从初露头角到势如破竹、从野蛮生长到模型初成、从无人问津到屹立时代聚光灯之下。截止去年,全球RISC-V处理器出货已超100亿颗。
2024年6月24日,2024年RISC-V欧洲峰会在德国慕尼黑举行。此次大会吸引了40个国家的超过700名与会者,涵盖了工业界、政府、研究、学术界和生态系统组织,深入探讨了人工智能、汽车、嵌入式、物联网、太空、安全等众多领域。
RISC-V已经不再是名不见经传的新生事物,要么将与x86、ARM三分天下,要么一统天下。

1、算力即服务 ,RISC-V红海里的隧道

颠覆,是业内提到RISC-V时频率最高的词之一。
芯片的历史,不过几十年,却已经走过了三个时代:PC时代、移动互联网时代、AIoT时代(AI、物联网时代)。
x86与Windows联盟在PC领域一家独大,ARM与安卓在移动终端领域一统江湖。RISC-V的横空出世,眉清目秀、翩若游龙般俘获了业界的心。
开源、精简、可定制、可扩展性,这些都让RISC-V更富有活力,迸发出蓬勃的生命力。
AI时代的计算架构领域刀光剑影,但难以否认的是,RISC-V的确是为AI而生的架构,这是时代赋予RISC-V的历史机遇。
RISC-V也得到诸多科技巨头的支持。Meta、谷歌,英特尔、高通等在内的芯片巨头纷纷投身RISC-V领域。
AI 2.0时代,谁有足够强大的AI芯片,谁便掌握了AI时代的大动脉。
AI市场正以前所未有的速度发酵。小到手机、个人电脑,还是大到服务器、超级计算机,基于算力的数字应用更是广泛深入到工业、农业、金融、交通、医疗等领域,算力都在走进家家户户,服务千百行业。
市场对算力的需求越来越越复杂多元,算力的应用越来越需要考虑覆盖各行各业的需求、覆盖行业全生命周期的需求。
复杂涌现的计算需求下,不仅应用领域一直存在技术开发与场景需求割裂、重复造轮子的问题,算力跟应用之间的缺口也一直没有得到有效弥补。
要知道,早期,大家对算力的期望是“如水电一样能够即用即取”。算力不仅是计算机硬件的运算能力,更是一种基于计算的服务能力。
算力市场,不只是“建设”的问题,还有“使用”的问题。
随着AI落地的深入,应用问题已经迫不及待,“降低使用门槛,拓展算力应用场景”成为客户的呼喊,也是RISC-V+AI落地的痛点。
算力即服务,是当下RISC-V+AI的落地的成功关键,也是中国在芯片领域弯道超车的绝佳路径。
希姆计算CEO梅迪告诉雷峰网,中国的RISC-V路线选择,是在新战线与美国竞争,新能源汽车和RISC-V一样,国内外起跑线几乎一样。
以汽车为例,如果依然在油车道路跟欧美行业巨头竞争,超越可能性很低,油车的发动机、变速箱等等核心专利、核心技术都掌握在几家头部大厂手中,而且他们会通过汽车认证把门槛壁垒拉得更高。
但电车不一样,而特斯拉能引领电车迅速发展,因为开源,充电桩等基础设施,在生态中,大家群力群策,打破垄断。
往事不可追,但来日尤可期。中国的优势,是可以把应用做得百花齐放。移动互联网不是中国发明的,但中国却是全世界最大的用移动互联网来做支付、物流以及各种应用的市场。
同理,RISC-V领域,也能够通过针对不同的应用、不同的场景,蓬勃地成长起来。
RISC-V要成为指令集领域第三极,关键的一步,是通过全面“交钥匙”的方案,加速软硬件技术的协同发展,更快触达应用层面,进一步推动RISC-V架构走向成熟。
梅迪表示,本质上,客户甚至其实并不关心是ARM架构还是RISC-V架构,他们只关心应用是否好用,你提供的软件工具链是否够友好,性能是否够平稳。
说白了,就是落地为王、服务为王,当下RISC-V比拼的是芯片公司的落地能力。
人工智能产业化过程中最重要的一点,是企业不仅从技术角度考虑可实现性,更从工程角度考虑落地服务。
一个完整的解决方案,AI只是业务系统里的一个模块,一个中间件,要从一个组件变成一个大系统,工程能力和体系化作战能力难度非常大。
人工智能必须商业化落地,技术领先并不意味着人工智能商业化能成功,但如果能规模化、商业化,则能证明技术已经领先了。
正如前文所言,RISC-V的确具有“颠覆性”,但业界都对这种“颠覆”存在一定的误解。
梅迪看来,RISC-V的定位,更像是一场技术革命。RISC-V不存在对x86和ARM颠覆或者替代,而是AI新时代、新需求下的产物,它将会与前者共存。
“就像ARM的出现也不是替代、颠覆了x86,所有笔记本还是x86,它依然有自己坚固的阵地。安卓和ARM时代,软件开源但硬件不开源,AI时代的软硬件都可以开源,这是真正的革命性突破。”

2、希姆,从孤独走到繁华

希姆,一直走在国产算力落地的一线。
2018年,RISC-V在中国才刚开始从技术爱好者群体进入大众群体,大部分人看RISC-V就像雾里看花。
“当时基本上没有人选择我们,当我们和外界讲RISC-V的时候,大家都不一定能理解这个概念。”梅迪告诉雷峰网,那时,设计领域,国产芯片基础薄弱,投资人看芯片的视角大多是“国产替代”,而非技术本身。
但梅迪依然选择2019年创立希姆计算。AI时代,算法迭代速度非常快,梅迪在创业时思考两个问题:
一是能不能在同样的制程条件下,效能不比英伟达GPU的效能低,甚至更高;二是能不能有一样好的可编程性和通用性,从而在算法迭代中,让工程师们更容易编程。
“RISC-V开源,可以扩展,模块化,所以我们可以对AI的计算需求来定制指令,实现加速的效果。同时,RISC-V本身模块化的指令,又是非常完整,可以做CPU,也因此,能提供给客户非常好的可编程性和通用性,几乎没有更好的技术线路。它完全从定义问题、寻找解决问题的技术线路出发,这就是最好的一条技术线路。”
但在那时,这是一条孤独的路。无论是外界还是芯片领域,其实都难以判断怎样的技术路线更好,但希姆计算的幸运在于遇到了字节跳动。
希姆计算也是字节跳动相当长一段时间内唯一投的芯片项目。后续能有好的股东结构,也得益于很多人都相信字节跳动的技术线路的选择能力。
事实证明,他们当时都押对了。
希姆第一代12纳米芯片已经在2022年实现量产出货,第二代芯片也已经设计完成,目前结合大模型进行调整。
希姆作为率先采用RISC-V研发AI大芯片的企业,得到了孙凝晖院士、工委会、北京开芯院和各地政府的认可和支持,并在工信部RISC-V工委会、北京开源芯片研究院内担任重要职务,在雄安新区发起设立了先进芯片研究院。
希姆基于自身国产算力开展大模型政务通的开发,是国内第一批基于RISC-V算力的大模型实际落地项目,达到国内领先水平。
希姆作为RISC-V+AI的代表企业,“算力即服务”的创新模式获得了多个大项目,已经陆续在产业界落地。
今年,希姆在各个地方建设了智算中心集群,目前已有约2000P RISC-V算力中心在落地过程中,很可能是全球规模最大的RISC-V算力集群(Meta去年刚刚回片,谷歌TPU V6版本才开始切换RISC-V)。
据悉,希姆已经跟庆阳政府签订战略协议,规划在未来三年建设10000P RISC-V国产算力集群,打造全球最大的RISC-V算力集群。
除了建设开源算力智算节点,希姆目前还在各种智慧场景基于RISC-V开源算力与生态伙伴展开合作,开发落地应用。
希姆今年投了大量资源,基于大模型进行行业应用开发,对不同场景的大模型应用进行打通,为客户提供软硬结合的解决方案。
算力是AI时代的生产力,目的是让生活更便利,提高产业生产效率,让应用“实用”、“好用”。
梅迪坦言,希姆不是天生做模型的公司,所以不做基础模型,但做基础模型上的应用开发,没有比算力公司、芯片公司更适合做这件事了。把模型应用做好,把算力发挥到极致来降低成本,才会对客户形成新的价值和商业闭环。

3、RISC-V生态野蛮生长的中国力量

RISC-V的技术特点是先天优势,中美贸易战下RISC-V野蛮生长、加速全球化则是“时势造英雄”。
美国政府加大美国先进技术对中国企业的出口管制,英伟达进一步对CUDA生态的封锁,中国半导体行业的喉咙依然在他人之手。
在芯片设计层面其中最为关键的还是指令集架构,打破x86和ARM的生态垄断,让中国大芯片走出IP授权的围城,也是RISC-V的使命之一。
背负着自主可控的希望,RISC-V已经从一个科技领域冉冉升起的新星,成为国家层面的大战略。
今年的4月26日,孙凝晖院士在十四届全国人大常委会作了《人工智能与智能计算的发展》的讲话,专门提到了中国做人工智能的算力的三条线路:
A,跟着美国走CUDA兼容之路,但现在看起来越来越难;
B,中国自己做一套闭源的生态,类似于华为这种巨头。但他认为产业的凝聚,包括中西方之间的同步和共享都比较难实现;
C,就是RISC-V,走国际合作的方式。
目前看,C道路,是适合中国的一条道路。
“4月26号人大常委会明确提出RISC-V要给国际基金会做贡献,这是非常里程碑的一个信号,作为国家最高权力机关,直接讲到了RISC-V,说明最高层已经非常重视RISC-V的发展。”希姆计算CEO梅迪表示。
中国政府在“十四五”规划中明确提出了加快芯片自主创新的战略目标,同时也给予了芯片产业各方面的政策支持和资金投入。
2018年,上海市经信委率先发布“支持RISC-V”的政策,随后中国RISC-V产业联盟成立。
工信部RISC-V工委会已经和雄安,北京,西安,成都,厦门,香港等地达成协议,将在这些地区率先开展RISC-V的应用推广倾斜性支持,雄安和北京亦庄专门建设了RISC-V应用展示中心。
技术壁垒外,生态也是重中之重。
2015年,非盈利性组织RISC-V基金会(RISC-V International)成立,负责标准的制定。已经有超过100个国家的3000多家企业和机构加入,成员数量每年在快速增长,可见发展速度之快。
没有人想将自己的未来和命运完全取决于其他人,芯片主权对欧洲的安全和经济利益至关重要。RISC-V是开源、免版税的,是实现芯片主权的理想平台。RISC-V对于欧洲也同样具有重大的意义。
德国时间6月24日,2024 年RISC-V 欧洲峰会于德国慕尼黑盛大举行,来自全球的专家、学者以及企业在大会上探讨 RISC-V 的创新技术和发展前景。
欧盟领导人提出了几项促进基于RISC-V芯片开发的倡议,为了实现芯片独立,欧盟也在大力投资RISC-V开源架构。
通过采用RISC-V,欧洲可以减少对外国技术供应商的依赖,确保关键技术基础设施处于欧洲控制之下。
无论是技术主权,还是降低依赖性,亦或是促进创新和经济增长等等方面,RISC-V都对欧洲具有重要意义。
希姆计算一直走在RISC-V国际化道路上的一线,是全球最早向基金会提交matrix指令集的单位之一,参与多项RISC-V国际基金会AI方向指令标准化的工作。
在本次RISC-V欧洲峰会上,希姆计算与欧洲本土的VRULL、Software Ecosystems Solutions和Vybium公司宣布了新的战略合作,以进一步为RISC-V AI应用构建更丰富的软件生态系统,提高使用希姆计算NPU IP的AI/ML加速器的程序员的工作效率和生产力,也成为全球生态合作的典范和中国企业参与国际合作的窗口。
正如中国工程院院士倪光南在公开场合上表示:“开源模式已从软件领域走向硬件领域,RISC-V为我国掌握芯片产业发展主动权提供了机遇。中国要在全球开源领域中发挥应有的作用,为打破技术垄断和推动世界协同创新,贡献中国智慧、中国方案和中国力量。”
希姆不光是参与国内社区,跟欧洲的合作也代表了对参与全球RISC-V开源工作的决心。
这条路的开端是孤独,走到了如今的繁华。RISC-V虽然只诞生了14年,生态积淀不如x86和ARM,但生命力非常强。短短14年,RISC-V也从一个校园项目发展成如今最受期待的开源创新芯片生态。
回顾过去,希姆也走过了5年,期间固然有过摔倒,也经历过创业的波折,但我们依然希望他们能够成功。
一个创新的、健康的社会是应该容忍失败和错误的,甚至,这些不断尝试的人才是产业向前的不竭动力,如果没有这些敢闯、敢试、敢冒着巨大的风险的人去走出一条路来,哪来什么时代的潮流和突破。
生态多样性越来越体现,参与者越来越多。未来,我们需要更多的“希姆”,将RISC-V推举到业界的主流架构。
“RISC-V+AI的浩海不止于边边角角,而在于改变世界。”一位希姆工程师告诉雷峰网,即便改变世界的路途,充满坎坷,但“因为热爱,所以坚持。”雷峰网雷峰网雷峰网

]]>
芯片 //m.drvow.com/category/chips/B6XbGfv3FexrG6xN.html#comments Sat, 06 Jul 2024 17:32:00 +0800