作者简介:
黄阳棋,博士,高级工程师,中国电子信息产业发展研究院集成电路研究所制造研究室主任。主要从事集成电路产业研究,涉及存储、先进计算及人工智能相关芯片、集成电路制造及其上游设备材料等领域的评估、规划、战略咨询等工作。尤其在存储器领域具备丰富积累,包括闪存、内存产业研究及趋势分析,新型存储技术路线研究及产业趋势分析,存算一体等。主持完成集成电路设计与制造产业、后摩尔时代集成电路制造业、存储产业投资等相关内容项目。
曹明路,博士,高级工程师,中国电子信息产业发展研究院集成电路研究所汽车半导体与系统研究室副主任,主要从事半导体设备技术研究及产业应用创新推动工作。(本文已刊发于2024年10月刊)
摘要
随着数据的爆发式增长和人工智能技术的快速迭代,计算架构、算法框架、数据正面临深刻变革,推动着存储技术的快速演进。本文围绕人工智能时代背景下的数据存储需求,探讨存储技术和产业的新发展趋势,为推动相关技术和产业发展提供参考。
0 引言
算力、算法和数据是人工智能领域中的三大核心要素,三者间相互促进、动态发展。根据新华三集团联合中国信息通信研究院共同编制的《2023智能算力发展白皮书》显示,当前全球智能算力规模达到142EPLOPS,2022年增长25.7%,我国智能算力规模达到41EFLOPS,2022年增长率达到41.4%。算力的快速增长推动算法和算据的迭代发展,促使算法设计者开发出能够更加高效利用算力的算法,同时也催生了对更大规模数据的需求。这种变化也同样反作用于算力,算法和数据的迭代使得对算力的需求呈指数膨胀,传统的“CPU+内存+外部存储”的架构变得不再能满足需求。据美国OpenAI报道【1】,2012年以来全球头部AI模型训练算力需求每3-4个月翻一番,从2012年的深度卷积神经网络(AlexNet)到2018年的围棋程序(AlphaGo Zero),算力需求增长30万倍。以美国英伟达H100为代表的通用图形处理器(GPGPU)和各类AI定制化芯片及其所组成的千卡万卡集群成为AI时代的主要算力基础,从算力芯片直接读写的主存储器到存储整个训练和推理数据的超大规模存储系统都进入了新的发展阶段。
1 人工智能应用推动数据存储技术变革
算力底座的变化使得数据存储技术必须做出相应的改变。AI的爆发催生了对高性能大规模并行计算能力的需求,算力成本急剧上升,存储再一次成为制约系统性能和使用成本的关键部分。
(一)AI时代的存储系统围绕提升AI算力利用率而设计
在大模型时代,提升算力利用率(MFU)成为了当前系统设计中的核心目标。人工智能大模型在具备优异性能的同时,其模型参数、资源消耗也来到了一个新的台阶,并且其规模仍处于快速增长阶段。单个模型的研制和应用往往需要数千甚至数万颗AI算力芯片同时运算,耗费数百万元,例如,根据字节跳动公开的万卡集群大模型训练架构MegaScale的数据【2】,训练拥有1750亿参数的大模型需要在千卡集群上训练接近20天或者万卡集群上训练近2天,按照图形处理器(GPU)使用机时计算,单次训练费用超过200万元,其算力利用率约为50%-60%。在当前算力获取成本高昂的环境下,提升算力利用率成为了有效提升性能和降低成本的关键。
围绕算力利用率的提升,存储系统也需要满足不同应用需求。大模型的全生命周期主要可以分为三个阶段,包括数据的准备、训练(微调)、推理:①在数据准备阶段,存储系统需要高效地存储和调度大规模的数据,包括结构和非结构数据,可能包含文字、视频、音频等多种多样的数据类型。这就要求存储系统必须是大容量、可扩展的,同时支持文件和对象访问协议;②在训练(微调)阶段,存储系统必须足够快速地为AI算力芯片提供训练所需数据,以提升算力利用率,同时定期保存训练中的检查点(checkpoint),这就要求算力芯片主存具备更高的数据带宽,并且整个存储系统需要具备更优的并行扩展性和数据调度能力;③在推理阶段,存储系统需要可靠地存储模型参数,并且具有更快的响应速度,同时还需要兼顾成本和经济性。
(二)AI算力的快速发展使得HBM和GDDR等高带宽存储成为关键
当前的AI算法通常将大型数据分割为多个批次(Batch),算法内也包含大量的矩阵乘法运算,这都导致AI运算具备天然的并行计算特点,对单个计算单元的复杂度要求低,但对众多计算单元的并行度要求高。这一特性与图像处理类似,因而GPU成为了当前AI计算的主流算力芯片,专为GPU开发的图形双倍数据速率内存(GDDR)和高带宽内存(HBM)成为AI计算系统中的主存储器,“GPU+GDDR/HBM”在AI应用中逐步替代了“CPU+DDR”。GDDR和HBM均是在双倍数据速率内存(DDR)基础上重新开发的面向高并行应用需求的内存产品,在存储阵列工艺相同的情况下,通过不同的总线组织形式实现迥异的性能表现【3】。例如,DDR通常单个裸片(die)提供8位总线,8颗芯片组成64位数据总线,实现15-25GB/s的数据传输速率;GDDR5的单die则可以提供16位总线,由4颗芯片组成64位数据总线,数据传输速率可以达到48GB/s;而HBM2由于采用了中间层和硅通孔(TSV)技术,不再受制于芯片焊球尺寸,可以做到单die带宽128位,单颗芯片包含8个die,数据带宽达到1024位,传输速率256GB/s。HBM具备突出的性能优势,但由于成本高昂,通常只用于相对昂贵的训练芯片,在推理芯片中多采用GDDR。
(三)AI应用对高效使用大规模数据集的需求促进了大容量存储技术更迭
在AI应用中,大容量存储技术的选择对于处理和分析海量数据至关重要,近年来涌现了多种适应于AI的数据存储技术。其中,在存储设备方面,全闪存存储提供更高的I/O性能和更低的延迟。根据华为公司《数据存力——高质量发展的数字基石》研究报告,全闪存数据中心相比传统使用机械硬盘为主的数据存储系统在响应速度、空间尺寸、能耗等方面具有显著优势,在热数据存储应用中能够显著降低数据中心的的综合成本。另外,在存储架构方面,数据湖存储技术正受到越来越多的关注。数据湖是2010年由Pentaho公司创始人James Dixon提出的一种新兴的数据管理技术,它允许以自然格式存储来自不同来源的大量原始数据,包括结构化、半结构化和非结构化数据。相比于传统的数据仓库,数据湖直接存储原始数据,能够解决此前数据仓库中数据细节丢失的问题,这一点对于大模型训练尤其重要。此外,数据湖还具有扩展性强、使用灵活、成本低等优势,受到国内外云存储厂商的广泛关注。
2 全球存储产业发展现状
存储器具有高度标准化的特点,全球产业高度集中,韩国的三星、SK海力士和美国美光三家企业在DRAM和NAND Flash等主流存储器领域占据90%以上市场份额。面临人工智能应用的新需求,传统存储厂商凭借已有技术优势继续保持产业领先,同时英伟达、英特尔等算力芯片企业越来越深入参与存储产品的定义和研发。
(一)传统存储巨头仍然把控HBM等先进存储技术
当前,SK海力士、三星和美光三大厂商占据全球HBM产业主导地位,全面掌控相关技术和市场。
(1)技术方面。全球三大存储原厂依托在高端DRAM领域的优势和壁垒,率先掌握HBM量产工艺并引领核心技术发展。HBM制造需要DRAM颗粒量产能力作为基础、先进封装技术作为支撑,来实现DRAM颗粒的垂直堆叠、高效互联及散热控制。其中,SK海力士、美光分别于2023年8月、9月推出目前最新一代的HBM3E产品,并在2024年初投入量产;另外,三星紧随其后,于2024年2月宣布已开发出12层堆叠HBM3E。自2019年在HBM2E产品中开始采用批量回流模制底部填充(MR-MUF)封装技术以来,SK海力士持续保持行业领先地位。三星和美光目前均使用热压非导电薄膜(TC-NCF)封装技术,同时三星也开始研究MR-MUF技术并计划用于最新的HBM产品。由于HBM堆叠层数的增加对散热提出了越来越高的要求,SK海力士和三星均考虑在下一代HBM4制造中引入混合键合(Hybrid Bonding)方案。
(2)市场方面。全球HBM市场近年来保持较为稳定的“三分天下”格局。根据市场分析机构TrendForce的研究【4】,2022年以来,SK海力士凭借量产先发优势成为英伟达的HBM3独家供应商,占据了约50%的市场份额,三星和美光分别瓜分剩下的40%和10%市场。2024年,随着三星HBM3通过AMD验证,美光率先开始量产HBM3E,两家在市场上的加速追赶可能会分走SK海力士的少量份额,但短期内难以动摇其龙头地位。
(二)计算芯片企业深入介入存储技术和产品的发展
自英特尔开发出全球第一款商用的DRAM芯片以来,计算芯片企业与存储技术和产品就始终保持着密切的联系。在人工智能时代,计算芯片对高效可靠的存储需求促使二者更加紧密地结合与相互影响。主要表现:一是计算芯片企业直接参与到存储芯片的产品定义和研发当中。2013年,AMD和SK海力士合作开发了第一代HBM技术,并在2015年AMD的Fury系列显卡上首次商用,成为HBM技术的起点。二是先进的AI芯片往往将主存作为芯片设计的一部分。通过TSV、微凸块等先进封装技术,通过中间层而非传统的数据总线,将存储芯片集成在计算芯片之上。三是AI计算需求催生了新的数据传输标准和存储解决方案。以英特尔的计算快速链接(CXL)为例,GPU、FPGA等AI加速器与CPU共享内存资源和数据高效交互的需求催生了CXL协议的出现,也推动了对应内存和存储解决方案的创新。
(三)地缘政治因素对全球存储产业持续发展产生影响
随着世界百年未有之大变局加速演进,高技术领域成为国际竞争最前沿和主战场,包括存储在内的半导体产业,其历经多年发展形成的高度全球化格局越来越多地遭遇到日趋激烈的地缘经济竞争的影响:一是部分国家采取出口管制、加征关税等贸易政策工具,直接影响高端存储器产品及上游原材料、制造所需设备的进出口成本和流通效率,促使企业设法应对不断加速的全球产业链供应链重组进程。二是多个国家加大本土半导体产业扶持力度,吸引国际龙头企业前来投资建厂,加剧新一轮产业转移。2023年5月,美光宣布计划投资超50亿美元在日本广岛县兴建DRAM新厂,预计最快2027年底投入运营。2023年10月,美光宣布将在未来几年内,向其位于马来西亚槟城的封测工厂增资10亿美元进行扩建。三是地缘政治紧张局势带来的不确定性增加了行业从业人员的风险感知,对产业人才的自由流动和交流合作形成阻力,同时企业间的技术共享、知识产权转让等活动可能会面临更多的法律和行政障碍,一定程度上延缓了技术创新步伐。
3 未来发展趋势分析
以生成式大模型为代表的人工智能技术仍处于快速发展阶段,算力、算法和数据都将面临持续的变革,牵动着存储技术与产业的不断创新。
(一)存储与计算产业将有更加深度的绑定和相互影响
一是存储技术与AI的深度融合。华为提出“一套存储覆盖AI全流程”概念,针对数据获取、预处理、模型训练与评估、模型部署应用等阶段开发针对性存储系统,以提升大模型生产效率和降低成本。二是存储企业与AI企业间的紧密合作。英伟达等计算芯片与存储企业的合作将持续推动HBM等存储技术的不断发展。三是AI对存储的大规模需求牵引存储产业的发展。除了不断增长的云端存储需求,AI手机、AI PC、AI服务器等终端对存储的需求也促使存储厂商提供更加适应AI需求的存储解决方案。
(二)新型存储技术仍有广阔的产业发展空间
一是新存储材料展现出发展潜力。包括磁随机存储器(MRAM)、相变存储器(PCM)、可变电阻式存储器(ReRAM)等新介质产业化逐步成熟,例如,英特尔推出了基于PCM的傲腾系列存储。二是新存储芯片市场逐步扩大。HBM当前已经成为AI芯片必不可少的部分,未来3D DRAM等技术也值得期待。三是新存储架构优势逐步显现。近存计算/存算一体新架构成为潜在发展方向,部分技术已经实现商业化。
4 结语
存储技术与产业的发展始终离不开与计算系统和算法应用的紧密结合。伴随着生成式人工智能大模型,HBM、大容量存储解决方案等技术成为了支撑人工智能应用的关键,迎来了快速发展。未来,存储仍然会是支撑数字经济的关键基石之一。一方面,建议推动存储技术与AI的深度融合发展,搭建由存储制造商、AI芯片企业、大模型应用企业参与的公共服务平台,联合开展标准研发、技术攻关、应用推广等工作。另一方面,建议重视新型存储介质、芯片、架构发展,推动高校、研究机构、企业协同,建立产学研用结合的创新机制,鼓励知识产权、人才等创新要素从研究机构向产业界流动。
【参考文献】
【1】AI and compute,OpenAI
【2】https://arxiv.org/pdf/2402.15627
【3】A Performance & Power Comparison of Modern High-Speed DRAM Architectures,S. Li et al.,MEMSYS, October 1–4, 2018, Old Town Alexandria, VA, USA
【4】https://www.trendforce.cn/presscenter/news/20230418-11646.html