AI大模型兴起 考验国产GPU算力成色

来源:爱集微 #GPU# #天数智芯# #壁仞科技#
4.6w

自ChatGPT爆火之后,AI大模型的研发层出不穷,不同种类的AI大模型也相继推出,国内俨然已掀起狂热的百模大战。

作为革命性的数据模型,ChatGPT带来的惊喜不仅仅是内容生产方式的变化,更让业界看到了通用人工智能的希望,推动AI大模型和新应用不断涌现。有专家称,未来人工智能研究将有八九成将转向大模型,我们正奔向大模型时代。

曾经算力、数据、算法是传统AI的三要素,共同造就了人工智能的广泛应用。但伴随着通用人工智能时代(AGI)到来,海量数据需要进行大量的训练和优化,以达到更高的预测准确性和泛化能力,对算力的需求早已不可同日而语。

在大模型如火如荼之际,算力供给与需求之间存在的巨大“鸿沟”仍在放大,如何解决算力“焦虑”已成为产业界着力的新目标。

算力缺口巨大

基于Transformer结构的大模型要不断优化,就需要越来越巨量的参数“投喂”,由于训练的参数量级的增长,致使算力需求也量级增长,算力集群正变得愈发庞大。

以ChatGPT为例,仅就算力而言,OpenAI为了训练ChatGPT,构建了由近3万张英伟达V100显卡组成的庞大算力集群。以半精度FP16计算,这是一个将近4000P的算力集群。

有消息称,GPT-4达到了100万亿的参数规模,其对应的算力需求同比大幅增加。数据显示,大模型参数数量的增长与算力的平方成正比。

随着投身AI大模型的公司如雨后春笋般涌现,再加上围绕大模型的人工智能生态和由此产生的用于推理的算力需求,未来的算力缺口将更加惊人。

显然,算力是否充足将决定各公司大模型产品的成败。天数智芯产品线总裁邹翾认为,对头部企业来说,早期的GPT大模型大概需要1万张的英伟达GPU,但迭代的大模型或至少需要数千张最先进的GPU才能完成。随着这一领域出现众多的跟随者,对于跟随企业来说,势必要在算力上不能输于头部企业,甚至还要进行更多的算力基础设施投资才能实现追赶。

壁仞科技系统架构副总裁丁云帆在人工智能行业盛会——北京智源大会发表《基于高性能通用GPU打造国产大模型训练系统》的演讲时指出,ChatGPT的成功要素在于工程和算法的协同创新,数据是燃料也是基础,特别是高质量的数据;算法发挥引擎的作用;算力则是加速器,不止涉及超大GPU集群,存储与网络集群也至关重要。

由于受禁令影响,国内市场需求主力为英伟达针对中国市场推出的A800和H800,随着需求不断扩容,英伟达A800价格涨幅惊人,且交货周期也被拉长,甚至部分新订单“可能要到12月才能交付”。

所幸的是,在通用GPU领域国内诸多企业已率先布局,在芯片量产、生态构建、应用拓展领域也在步步推进,在划时代的AIGC产业兴起之际,也迎来了新的市场空间。

需算力软硬一体

尽管面临前所未有的新商机,但要把握住AI大模型的兴起机遇,要从底层明了真正支撑大模型的算力需求。

对此邹翾表示,从模型、计算框架层和算子加速等出发,算力要满足三大要素,一是通用,可支持模型的快速变形、快速支持新算子、快速支持新通讯;二是易用,可利用现有算法模块实现、调优经验可借鉴;三是好用,可重构并行计算、访存全交换、计算全互联等。

而要实现这三大要素,其实背后透露更本质的逻辑。正如昆仑芯研发总监罗航直言,国内算力产业化必经三道窄门:一是量产,量产可以极大摊薄先期流片的巨大投入,通过量产摊薄成本是实现盈利的唯一方式,也是衡量芯片成熟度的指标之一;二是生态,为了让客户更好地开发应用,要着力构建一个合理、合适的软件生态;三是软硬一体产品化,要与垂直行业结合起来实现产品的价值传递。

此外,为了进一步支持训练参数的海量扩展,不仅GPU厂商要有打造数千至数万张GPU卡训练集群的能力,同时要保证在训练过程中能连续工作且不出故障,对产品稳定性和可靠性产生极严格的要求。同时,还要支持可扩展的弹性能力,实现算力弹性可扩容。

丁云帆总结,训练千亿参数大模型,客户考量的最主要是要存得下、易扩展,此外还要求易使用、速度快、成本低。

值得一提的是,为全面助力大模型的发展,国内包括寒武纪、昆仑芯、燧原、壁仞、天数智芯、沐曦、摩尔线程等厂商也均围绕底层技术支撑做了大量功课,通过最大化数据复用、可扩展大矩阵计算和存算异步、混合精度Transformer加速来提升芯片性能。同时,持续在基础软件方面提升实力。

“壁仞除在GPU算力、成本等方面着力之外,还多维切入提供强大的支撑:一是集群规模按需扩展,多个数据面并行通信,减少冲突;二是可访问多个机器学习框架,以数据并行维度进行弹性调度,支持自动容错和扩缩容,大大加快训练速度,提升效率,并支持任务跨交换机迁移,降低单交换机下资源碎片,提升资源利用率,保障任务稳定性。”丁云帆表示。

生态是未来关键

更深层次来看,国产大模型的训练既离不开大算力GPU的支持,也更需要构建一个软硬一体全栈覆盖的成熟产业生态。

进行AI大模型训练,称得上是一项考验全面升级的系统工程。丁云帆介绍说,这一工程包含涉及高性能算力集群、机器学习平台、加速库、训练框架和推理引擎等,需要包括CPU、存储、通信在内的分布式硬件支持高效互联,并与训练框架流程实现全面的协同,同时要实现并行扩展和稳定可靠。

也正是由于这样的需求,国产GPU要适应大模型训练系统考量的角度就不仅限于算力基础,如何为行业伙伴提供一站式的大模型算力及赋能服务才是终极考验,因而生态构建也至关重要。

围绕这一需求,国内一些GPU厂商已然先行布局,致力于打造软硬一体的全栈大模型解决方案,在包括以大算力芯片为基础的高性能基础设施、智能调度管理数千GPU卡的机器学习平台、高性能算子库和通信库以及兼容适配主流大模型的训练框架层面持续发力。

为共同推进算力与大模型应用的协同创新,GPU厂商与国产大模型的产业生态也在加快合作步伐。

据悉壁仞科技已先后加入了智源研究院FlagOpen(飞智)大模型技术开源体系与智源研究院“AI开放生态实验室”项目,并在AI大模型软硬件生态建设领域开展了一系列合作。双方参与的科技部科技创新2030“新一代人工智能”重大项目——“人工智能基础模型支撑平台与评测技术”业已取得重要进展。

此外,壁仞科技还参与了“飞桨AI Studio硬件生态专区”的建设与联合发布,希望与包括百度飞桨在内的众多生态合作伙伴紧密协作,结合中国AI框架与AI算力的优势,为中国AI产业的发展提供强大驱动力。

据介绍,天数智芯的通用GPU产品广泛支持DeepSpeed、Colossal、BM Train等各种大模型框架,基于其构成的算力集群方案也有效支持LLaMa、GPT-2、CPM等主流AIGC大模型的Pretrain和Finetune,还适配了清华、智源、复旦等在内的国内多个研究机构的开源项目。

放眼未来,AI大模型需求会持续走高,国内GPU厂商如何持续迭代产品、不断升级算力解决方案,适配支持更高效、更复杂算法的大模型,仍将是一项持久的考验。(校对/萨米)

责编: 张轶群
来源:爱集微 #GPU# #天数智芯# #壁仞科技#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...