算力军备竞赛国产GPU发起冲锋

作者：李映 2023-06-19

相关舆情 AI解读生成海报

来源：爱集微 #GPU# #算力# #天数智芯# #大模型#

2.6w

（文/李映）由ChatGPT引发的算力军备竞赛已悄然而至，在这场大模型引发的算力军备竞赛当中，GPU已成为整个行业的新焦点。在生成式AI开创的黄金时代，GPU将犹如翱翔于浩渺天空的翅膀，赋予AI大模型行业强大的推进力。

在这一场新的军备赛中，英伟达一骑绝尘，AMD紧随其后，英特尔虎视眈眈，而国产GPU厂商在经过AI的洗礼之后，加之国产替代紧迫的“引力”，不能更不应缺席这场“盛宴”。

尽管高端芯片的突围实非易事，但国产GPU能否好风凭借力，率先打破藩篱？

满足通用易用好用功能

或许，这先要从底层明了真正支撑大模型的算力需求。

天数智芯产品线邹翾表示，这要从模型和算法需求来入手，一是大模型的起点仍是小模型算法模块，针对这些模块要尽可能复用和可调试，实现兼容；二是随着参数量不断提升，GPU框架层对于大模型的拆解要考虑各种并行方式，包括计算、存储、通信的拆分；三是当多个GPU卡互联之后，出现了新的算子，需基于底层灵活的通用指令集支撑算子的调优。

考虑到这些需求，邹翾认为，GPU要满足三大要素：一是通用，可支持模型的快速变形、快速支持新算子、快速支持新通信；二是易用，可利用现有算法模块实现、调优经验可借鉴；三是好用，可重构并行计算、访存全交换、计算全互联。

实现这三大要素，背后还隐藏着芯片业运行的底层逻辑：GPU在前期巨大研发投入之后可大规模量产，具备搭建与主流兼容的生态，并使得软硬一体产品化在垂直应用中落地走向正反馈。

除这些“硬指标”之外，为满足训练集群成千上万张卡连续工作且不出故障，邹翾进一步提到，这对产品稳定性和可靠性产生极严格的要求。同时，还要支持可扩展的弹性能力，实现算力弹性可扩容。此外，还要提供坚实的保障，在故障出现时能迅速定位并快速恢复。

从国内GPU整体现状来看，与国外巨头的差距依然横亘，但经过前几年AI市场的淬炼之后，已然实现了国产通用GPU从0到1的突破，达到可用的程度。

值得一提的是，为全面助力大模型的发展，天数智芯还围绕底层技术支撑做了大量功课。邹翾介绍说，一方面天数智芯将通过最大化数据复用、可扩展大矩阵计算和存算异步、混合精度Transformer加速、高效高带宽显存及P2P等方式来提升芯片性能。另一方面，持续在基础软件方面提升实力，在支持前沿大模型、支持混合并行策略、支持新型Att加速、兼容APIs支持模型压缩等轻量化部署等层面布局。

进一步来看，应用落地是提升国产GPU实力的最佳“试验田”。邹翾提及，一方面，GPU从可用到好用还需要技术和时间积累，需要积累口碑、扩大品牌效应。另一方面，国产GPU可着力应用落地，加大与客户合作力度，在打开局面之后再逐渐扩大领地。

路径要小步快跑

要在应用中加快落地，生态是绕不过的“坎”。

目前在AI大模型领域，不仅要兼容主流生态，还要适配支持更高效、更复杂算法的大模型。

着眼于此，天数智芯率先布局，通过对高效Tensor引擎和可编程的GPGPU引擎的有机配合,硬件直接兼容主流生态，解决了通用性和高效率的双重难题。在获得量产和生态的“敲门砖”之后，天数智芯在生态层面的“朋友圈”也在持续扩大。

据介绍，天数智芯的通用GPU产品天垓、智铠系列具有高性能、广通用、开发成本低的特点，广泛支持DeepSpeed、Colossal、BM Train等各种大模型框架，基于其构成的算力集群方案不仅能够有效支持LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pretrain和Finetune，还适配了清华、智源、复旦等在内的国内多个研究机构的开源项目，可以为行业伙伴提供一站式的大模型算力及赋能服务。

一系列的合作项目也捷报频传。日前天数智芯就宣布其天垓100加速卡算力集群，基于北京智源人工智能研究院70亿参数的Aquila语言基础模型，使用代码数据进行继续训练，稳定运行19天，模型收敛效果符合预期，证明天数智芯有支持百亿级参数大模型训练的能力。

前段时间，天数智芯通用GPU天垓100与飞桨已完成III级兼容性测试。测试结果显示，双方兼容性表现良好，整体运行稳定，这也是天数智芯加入“飞桨硬件生态共创计划”后的阶段性成果。

而从进阶路径来看，不能过于求大求快，而要由小及大、小步快跑。邹翾表示，国产GPU厂商可从几十上百个卡集群的推理任务入手，相比性能层面与国外产品基本持平，然后在此基础上再逐步拓展，扩展到上千或上万个卡集群，以时间换空间。

“中国在应用场景上有着自己独特的优势，很多国内头部企业也正在思考如何让大模型更好的运用起来，创造出类似“新四大发明”的独特应用，实现原生技术的通用性。”邹翾进一步建议，“因此，底层技术与市场差异化的融合将成为关键，需要国家的机制引领，以及产业链的协同创新，以共同推动全国产化进程。”

对于市场的破局，邹翾满怀信心表示，随着时间的推移，国产GPU性能不断攀升、应用全面开花，有望在5~10年实现追赶。

系统层面加以优化

随着一个个大模型相继落地，基于Transformer结构的大模型由于训练参数量级的增长致使计算需求亦量级增长，算力需求的缺口在不断扩大。

对于如何填补“缺口”的问题，邹翾从短期和长期进行了深入分析。

“对头部企业来说，早期的GPT大模型大概需要1万张的英伟达GPU，但迭代的大模型或至少需要数千张最先进的GPU才能完成。随着这一领域出现众多的跟随者，对于跟随企业来说，势必要在算力上不能输于头部企业，甚至还要进行更多的算力基础设施投资才能实现追赶。”邹翾指出，“而且现在主流产品已难以购买，算力是否充足将决定各公司大模型产品的成败。”

但从长期趋势来看，邹翾认为，现在业界掀起了百模大战，因业界尚未将大模型的性能潜力全部挖掘出来，头部企业希望能够率先抓住制高点，于是不断调高通用大模型的参数以开发新功能。但随着大模型的不断迭代，最终不可能有那么多的算力投资都真正产生效益，最终要面临落地产生闭环的考验，在未来两年内或会分出胜负，许多重复性的投资会达到收敛阈值，这时的算力基础设施需求将更趋于理性。

由于应用的爆棚和算法的快速演进，可以看到，通用GPU市场需求仍将迎来爆发式增长。据VerifiedMarketResearch数据，2020年中国大陆的独立GPU市场规模为47.39亿美元，预计2027年将超过345.57亿美元。

为加快适应这一“加速度”，邹翾还强调，业界要从系统层面来加以优化：一是大模型八九成的参数难以激活，如何让算法更简化、更高效需要持续着力；二是若做好AI大模型的算力最低门槛是1万颗英伟达A100芯片，GPU不仅要实现高算力，同时功耗至关重要，集群散热方案也十分关键；三是成本，不仅要考量GPU成本，还要考量降低存储、互联成本以及整体部署和运维成本。

在经过多年耕耘之后，天数智芯已实现了新的突破，在应用层面正步步为营，巩固了新的阵地，也为未来的持续精进打下了坚实的基石。

随着大模型需求会持续走高，最后邹翾提到，天数智芯将持续自主开发好用易用的通用GPU，不断升级算力解决方案，适配支持更高效、更复杂算法的大模型，为我国大模型创新发展和应用落地提供更加坚实的算力支撑。