2023年6月2日—3日,第七届集微半导体峰会在厦门隆重召开。作为第七届集微半导体峰会的重磅会议之一,峰会首日举办的通用芯片行业应用峰会以“聚焦应用,集智创芯”为主题,邀请相关厂商探讨不同应用场景下的芯片发展趋势,共同剖析产品应用和技术突破,共建核心竞争力。
天数智芯产品线总裁邹翾在此次峰会上发表了题为《国产GPU助力大模型的实践》的演讲。
随着AI大模型的兴起,邹翾认为算力需求的缺口巨大,但在寻求算力时用户首先要厘清大模型对自身业务的价值以及其对算力有怎样的要求。
从大模型的发展历史来看,无论在自然语音、图像还是视频领域,其价值的核心都是智能的表现力超出人的预期,可以对日常工作进行切实的协助。而且,随着大模型的参数超出一定的规模,新的能力也在不断的“涌现”。
另一方面,随着预训练模型的普及,新的领域建模方式在获得更好效果的同时,也可以降低模型的获得成本,这将直接推动大模型应用的加速普及。邹翾指出,相对于传统的模型训练方式需要大量的标注数据和进行模型训练,预训练新范式可以降低用户的数据获取成本以及模型计算成本、支持更快速的应用落地,使企业获益。
随着大模型落地,算力需求的缺口在不断扩大。 基于Transformer结构的大模型由于训练的参数量级的增长致使计算需求量级增长,导致计算算力短缺。邹翾指出,算力是否充足将决定各公司大模型产品的成败。对头部企业来说,早期的GPT大模型大概需要1万张的英伟达GPU,但迭代的大模型或至少需要数千张最先进的GPU才能完成。随着这一领域出现众多的跟随者,对于跟随企业来说,势必要在算力上不能输于头部企业,甚至还要进行更多的算力基础设施投资才能实现追赶。
市场上尽管有众多不同的算力芯片,但要从底层明了真正支撑大模型的算力需求是什么?邹翾表示,这要从算法需求:模型、计算框架层和算子加速着手。要看到大模型的起点仍是小模型算法模块,针对这些模块要尽可能复用和可调试;而框架层对于大模型的拆解,要考虑各种并行方式,最重要的要支持计算/访存/通讯可拆分;算子层方面,为实现进一步的并行优化,需要将执行一个单元拆分后的新任务重组,并进行逻辑排布,而这种重构需要芯片底层灵活的通用指令集支撑。
因而,邹翾总结,算力需求层面要考虑三大要素:一是通用,可支持模型的快速变形、快速支持新算子、快速支持新通讯;二是易用,可利用现有算法模块实现、调优经验可借鉴;三是通用,可重构并行计算、访存全交换、计算全互联。
除算力之外,还有进一步的考量因素。邹翾进一步提到,训练的集群需要成千上万张卡同时运行,要保证在训练过程中能连续工作且不出故障,对产品稳定性和可靠性产生极严格的要求。同时,还要支持可扩展的弹性能力,实现算力弹性可扩容。此外,还要提供坚实的保障,在故障出现时能迅速定位并快速恢复。
顺应大模型的发展潮流,天数智芯依托通用GPU架构,从训练和推理两个角度为客户提供支撑,全力打造高性价比、通用性的全栈式集群解决方案,为大模型时代提供强大算力底座。
据介绍,天数智芯的通用GPU产品天垓、智铠系列具有高性能、广通用、开发成本低的特点,广泛支持DeepSpeed,Colossal,BM Train等各种大模型框架,基于其构成的算力集群方案不仅能够有效支持LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pretrain和Finetune,还适配了清华、智源、复旦等在内的国内多个研究机构的开源项目。可以为行业伙伴提供一站式的大模型算力及赋能服务。同时面向大模型推理侧的一体机,性价比已经可以超过国内现有市场主流产品。
为全面助力大模型的发展,天数智芯还围绕底层技术支撑做了大量功课。邹翾介绍说,一方面天数智芯将通过最大化数据复用、可扩展大矩阵计算和存算异步、混合精度Transformer加速、高效高带宽显存及P2P等方式来提升芯片性能。另一方面,持续在基础软件方面提升实力,在支持前沿大模型、支持混合并行策略、支持新型Att加速、兼容APIs支持模型压缩等轻量化部署等层面布局。
最后邹翾提到,不论从应用还是研发角度来看,大模型需求会持续走高,天数智芯也将持续致力于通过算法简化、推理模型优化以及降低存储和互联成本助力。天数智芯将持续自主开发用户易用的通用GPU产品,不断升级算力解决方案,适配支持更高效、更复杂算法的大模型,为我国大模型创新发展、应用落地提供更加坚实的算力支撑。