当前,由生成式AI所引发的创新浪潮,正在席卷整个芯片设计领域。大模型训练和推理等高性能计算场景所带来的海量数据、带宽以及安全性的要求,使得对于系统内的连接速度,存储能力以及安全可靠性变得愈发重要。
11月12日,AMD正式发布第二代AMD Versal Premium系列自适应SoC,带来多项技术创新和变革,全面支持下一代存储器和主机连接能力,助力行业有效应对AI时代的挑战。
AI时代呼唤新的使能技术
海量数据,大带宽、高效率以及安全性一直是半导体行业技术发展过程中所追求的重要指标,由于当前生成式AI,大模型技术的迅速演进以及重度使用,使得对于这些技术的提升需求变得变得更加重要和急迫。
首先,DDR5已经成为行业最为广泛采用的主流趋势,根据市场研究机构的预测,今年起,DDR5在DRAM中的出货量将超过60%,到2027年将会占据超过九成的份额。而CXL存储器采用的年复合增长率预计从2024年到2029年会达到212%。目前已有接近一半的出货的服务器支持CXL。未来五年,支持CXL的服务器将会成为主流。
所以从芯片设计的架构层面,需要更快的主机连接、更多的内存以及更加一致性的接口。而相对应的,未来芯片架构需要能够实现对于PCIe Gen 6、LPDDR5X和CXL 3.1的支持。
正因如此,第二代AMD Versal Premium系列自适应SoC着重在主机连接、内存和数据安全性方面进行了针对性的提升和支持。
比如,在加速主机连接方面,第二代AMD Versal Premium系列支持PCIe Gen 6和CXL 3.1,能够实现每通道64Gb/s速率的带宽。在更快释放更多内存方面,支持LPDDR5X 8533 Mb/s以及DDR5 6400 Mb/s,同时支持CXL存储器扩展模块,从而获得对于更多存储器接口的支持,具有更高的一致性,可以通过组成系统,并且分享池化内存。在增强数据安全性方面,在PCIe连接中增加了PCIe完整性和数据加密(IDE)用于主机连接;增加了硬内联ECC和加密用于DDR存储器;另外采用400G高速加密引擎确保网络安全性。
第二代AMD Versal Premium系列产品适用于大数据量以及高计算密度应用场景,包括数据中心、通信、测试与测量等场景。
上一代Versal Premium系列产品采用7nm制程,而第二代AMD Versal Premium采用的是6nm制程。在AMD自适应与嵌入式计算事业部( AECG ) Versal产品营销总监Manuel Uhm看来,随着摩尔定律的衰减,制程的重要性逐渐走低,架构的重要性凸显,而关键的问题在于用例需求,针对具体用例的环境,选择合适的计算引擎更加重要。
“所以我们Versal系列的产品总是能够非常精准地去针对一些关键的应用,来确保能够有最合适的关于算力、I/O以及内存的组合,实现最高的性价比,而不总是采用最新的制程。”Manuel Uhm说。
六大创新:从性能到安全
具体而言,第二代AMD Versal Premium芯片中包括如下几方面的主要创新。
首先,在高性能计算等场景中,加速主机的连接对于一些关键应用的影响非常重要,而第二代Versal Premium自适应SoC和AMD EPYC CPU之间能够形成非常好的协同。
比如,PCIe Express能够提供Versal Premium和CPU之间的高性能连接,可以用于卸载计算、网络以及存储工作负载。一致性的接口可以使得第二代Versal Premium和EPYC处理器能够共享内存空间,从而减少闲置内存的浪费。
第二,强化安全性,支持PCIe IDE以及内存DRAM加密,能够保障数据做到端到端的安全性。PCIe IDE加上高速加密引擎、DDR内联加密与ECC,数据无论是在传输中、静态中、还是使用中都非常安全。
第三,提高了DSP的计算密度,实现了更高的每平方毫米DSP算力。
第四,增加了新的收发器GTM2,通过与第一代Versal Premium产品上的两个收发器GTM和GTM1的协同,GTM2能够支持从1.25 Gb/s到128 Gb/s的速率,同时还支持NRZ、PAM4编码以及广泛的协议。
第五,针对AI广泛使用所带来的数据量庞大,需要更快的存储器链接并释放更多内存的需求,二代产品中增加了对于DDR5与LPDDR5X的支持(相比DDR4和LPDDR4数据速率2倍提升,功耗下降近30%),最多支持8个控制器。
此外,二代产品还支持CXL 3.1存储器扩展模块,可以增加内存,并能够和很多DRAM供应商产品实现兼容。使用LPDDR5X最高支持256bit带宽,使用两个8道CXL的连接,速率可以达到64 Gb/s。通过这样的架构,外部存储器的带宽可以超过500Gb/s。
第六,在I/O方面,增加了对于高速MIPI C-PHY(10Gb/s)和D-PHY(4.5Gb/s)接口的支持。此外,在第二代中新加入的LDPC解码器的模块适用于高吞吐量的解码并具有高效纠错解决方案。
“整体而言,第二代AMD Versal Premium系列产品在前一代的产品上复用了部分单元模块,同时针对I/O、收发器以及存储/内存的控制器、主机的接口进行了创新,这样的开发模式能够保证非常顺利的推广部署,能够迅速实现过渡。”AMD自适应和嵌入式计算事业部( AECG ) 高级产品线经理Mike Rather说。
2026上半年送样年中量产
在应用与用例方面,第二代AMD Versal Premium系列的CXL 3.1使用PCIe Gen 6,与CXL 2.0相比,能够实现两倍的带宽,能够显著释放更多内存,扩大数据中心的CXL范围,还可以利用NUMA轻松与现有的软件集成。
此外,操作模式能够支持CXL.io、CXL.mem、CXL.cache。在器件模式方面,Versal Premium也可以作为内存的控制器,也可以使用主机模式,支持CXL扩展模块。在用例方面,支持多主机单逻辑设备(MH-SLD)架构和系统可组合性。
在支持GPU集群以及横向扩展方面,第二代AMD Versal Premium能够提供很高的带宽和灵活性,能够在单个网络适配器上支持2个400G接口。
在测试与测量领域,面向PCIe Gen7、下一代MIPI摄像机等测试仪器,包括相关的示波器、分析仪、信号发生器等,上述应用非常重视芯片上的DSP引擎以及内存带宽和其他的接口能力。而开发测试设备公司支持的协议,如C-PHY(4.5GSPS)和D-PHY(4.5Gb/s)支持等,第二代AMD Versal Premium也能够进行很好的支持。
据了解,第二代AMD Versal Premium系列共计包含4种产品。从140万逻辑单元到330万逻辑单元不等,从3300到7600的DSP引擎。另外,还有双核A72应用处理器、双核R5F实时处理器。有从32到72的GTM2收发器,PCIe和CXL方面的器件,还有100G和600G的以太网MAC,以及400G的高速加密引擎和LDPC的解码器。
Vivado是AMD为其Versal器件打造的统一设计环境。一是通过采用新的P&R算法,并且改善多线程的性能,以及增强的增量流,从而减少编译时间。二是Vivado引入了用于顶层设计的RTL流程,以及用于NoC2、GTM2的RTL流程,形成对于开发人员友好型的设计入口。三是改善了质量结果,即QoR与易用性,主要通过工具引导的时序收敛,改进的DFX流程,以及分段配置以便加快CPU启动时间和PCIe的唤醒。
Mike Rather强调,工具上的改进是适用于所有Versal用户,既包括第二代也包括其他的产品。
“对于第二代AMD Versal™ Premium最好的理解就是它是在助力计算,主要是通过更好地来管理系统的内存,因为这方面正是现在人工智能模型以及各种数据集成最需要的。但第二代是针对新的应用,而非取代旧产品,这两代产品我们会同时去推进。”Mike Rather说。
目前,第二代AMD Versal Premium系列已为用户提供早期文档。按照AMD的计划,2024年第四季度,将会提供功率估算工具, 2025年下半年提供全套AMD Vivado工具。2026年上半年将提供芯片的样片以及开发套件,2026年中实现芯片量产。