在ChatGPT与Sora的带动下,人工智能热潮持续不退,全球都在拥抱人工智能。作为全球应用最为普及的架构,Arm亦成为AI得以运行的基石之一。近日,Arm更新Neoverse产品路线图,宣布推出两款基于全新第三代Neoverse IP构建的新的Arm Neoverse计算子系统 (CSS)。其中,Neoverse CSS V3是高性能V系列中的首款Neoverse CSS产品,与CSS N2相比,其单芯片性能提高了50%;Neoverse CSS N3更聚焦能效优势,与CSS N2相比,每瓦性能可提升20%。
Neoverse CSS汇集了构成系统级芯片核心的关键技术,去年一经推出即受到云服务提供商、初创公司等的青睐,被大量应用于云计算、网络、数据中心基础设施当中。Neoverse CSS V3与CSS N3作为新一代技术,具有更高性能和效率,可以满足更高的工作负载和总体拥有成本 (TCO)的需求。
对此,Arm 高级副总裁兼基础设施事业部总经理Mohamed Awad在日前举办的“Arm 技术媒体沟通会”上指出,计算正变得越来越专用化,通用CPU已经不能满足需求。在基础设施领域,人们可以看到越来越多的厂商正在转型,朝向更加复杂的仓库级计算发展。这种趋势变得越来越明显,厂商关注的重点已不再只是芯片、服务器或者机架,而是整个数据中心。
在此前景下,众多大型科技企业开始基于Arm平台构建新一代的系统和基础设施。英伟达、亚马逊云科技和微软等行业巨头都在从头开始设计系统,并且定制系统级芯片。“这是因为这些科技巨头更加了解自身的工作负载,他们有能力对系统的各个方面进行调优,包括网络、加速甚至是通用计算等。而Arm独特的定位能够赋予合作伙伴快速创建定制解决方案的能力。同时Arm强大的生态系统也受到头部云服务提供商和初创公司的信赖,愿意采用到云计算、网络、数据中心基础设施,以及AI等多种应用当中。”Mohamed Awad表示。据悉,Microsoft Azure Cobalt CPU便是基于 Arm Neoverse CSS 所打造。
Arm Neoverse CSS让定制芯片变得更加简捷
在AI热潮推动下,越来越多科技巨头亲自下场定制AI芯片。首要原因是各大厂商希望优化芯片性能、寻求差异化方案。摩尔定律放缓背景下,以往依靠定律推动芯片性能与效益提升已经越来越难以为继,要想得到最佳计算性能,必须仰赖针对特定应用和数据集合的体系架构。特别是在AI大模型领域,不同厂商均有着不同的差异化需求,一体适用的解决方案已不再适合。此外,降低成本也是各大厂商的现实考量。根据伯恩斯坦分析师StacyRasgon的分析,如果ChatGPT的查询规模增长到谷歌搜索的十分之一,其最初需要大约价值480亿美元的GPU,每年还需要约160亿美元的芯片维持运营。
Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll强调,借助Arm的合作式 IP 业务模式和计算子系统,能够支持头部企业对云计算关键工作负载的计算进行优化,同时以行之有效的方式来打造定制芯片。
2023年,Arm推出Neoverse CSS,让定制芯片变得更加简捷。Neoverse CSS 配置、优化和验证了一套完整的计算子系统,从而使得合作伙伴能够专注于,针对特定系统级工作负载塑造差异化竞争优势,如软件调优、定制加速等。新推出的CSS N3和CSS V3产品则是进一步的升级。CSS N3 的首个实例可以提供32 核,热设计功耗 (TDP) 降至 40W,可覆盖电信、网络和 DPU 等一系列应用;CSS V3 在单芯片上最多可扩展至 128 核,并支持最新的高速内存和I/O标准。
快速打造Chiplet
AI蓬勃发展对芯片算力提出更高要求的同时,也推升了业界对Chiplet(芯粒)等技术的研发与投入。研究显示,当5nm芯片的面积达到200mm2以上,Chiplet方案成本将低于单颗SoC,同时也减少了因芯片面积增加而带来的良率损失。除了成本和良率的优势,Chiplet技术还带来了高速的Die to Die互连,使得芯片设计厂商可以将多颗芯粒集成在一颗芯片之中,实现算力上的大幅提升。越来越多厂商意识到,Chiplet将是AI芯片实现算力跨越的破局之道。
Dermot O’Driscoll表示,芯粒已成为管理良率的常用机制,能让企业在单个芯片上利用到多种工艺节点。例如,使用较旧的工艺节点处理 I/O,同时搭配先进的工艺节点处理逻辑功能。企业也在努力寻找巧妙的方法来复用芯粒,但尤其是当他们将不同团队的设计组合在一起时,还是面临一些挑战。通用芯粒互连技术 (UCIe) 是一项行业标准,旨在解决芯粒物理层兼容性的问题。Arm和生态系统合作伙伴正积极参与这个项目。协议层存在多种标准,包括 PCIe、CXL 和 AMBA。Arm 深入参与到 AMBA CHI,引入芯片到芯片 (C2C) 的扩展功能。
而Neoverse CSS 可以帮助用户快速打造Chiplet,它能提供用户所需的所有接口,以便选择耦合自身的加速器。Arm近期发布芯粒系统架构 (Chiplet System Architecture, CSA),与20多家合作伙伴共同努力,推动整个生态系统释放Chiplet技术的潜力。
庞大生态系统支持
生态系统也是AI芯片设计中人们重点考虑的关键因素之一。Arm 基础设施事业部营销副总裁 Eddie Ramirez称,Arm的独特之处还在于拥有庞大的生态系统支持。Arm 全面设计 (Arm Total Design) 生态项目提供了一个生态系统,参与其中的合作伙伴均致力于无缝交付基于 CSS 的定制芯片。Arm 全面设计推出后短短四个月内,已经有20多家成员加入,包括新的EDA和配套IP提供商,以及来自韩国、印度、中国大陆,以及中国台湾地区的芯片设计合作伙伴。
Eddie Ramirez表示,Arm正在与三家主要代工厂合作,以确保CSS 产品能在其先进工艺节点上进行优化。“定制芯片离不开可靠供应链的支持,Arm可提供多样的技术和选择。Arm 全面设计合作伙伴正在打造多款基于CSS的SoC。”Eddie Ramirez强调。