大模型引爆算力需求,国产GPU如何才能尽快入座

来源:爱集微 #天数智芯#
2.7w

ChatGPT引爆大语言模型发展浪潮,人工智能产业风头正劲,迄今国内也已经相继发布了80余个大模型,千行百业都在准备迎接大模型带来的变革性机遇。

在大模型发展的核心三要素“算法、数据和算力”中,算力是大模型的底座支撑,各类大模型的推出带动算力需求的井喷式增长。作为通用算力的主要源动力,GPGPU芯片现已成为人工智能新时代中石油一般的存在。目前,市面上的绝大多数“石油”都出自于英伟达之手。

然而,去年10月7日美国商务部新规出台后,英伟达高端GPU向中国出口开始受限。在如今国内企业的算力布建中,出于供应链安全考虑,也开始引入国产GPU供应商。

在上个月结束的世界人工智能大会上,国产GPU展出了最新技术进度和产品,同时也包括在大模型领域的落地案例。

关于大模型:国产GPU进度

在国产通用GPU行业正处于领先地位的天数智芯,在世界人工智能大会上便带来了其天垓、智铠系列通用GPU产品,以及这些产品在大模型方面的应用成果和20+行业典型应用案例。

在天数智芯展台上的大模型专区,该公司集中展示了产品对大模型落地的支持能力,其千卡集群已经率先用于国内650亿通用大模型训练,GPU训练算力支持诸多垂直行业大模型微调,并可覆盖所有微调方式。

天数智芯董事长兼CEO盖鲁江指出,天数智芯产品主打兼容主流生态模式,在国内的大量应用中已经可以对一些国外高端产品进行替代。天数智芯展区工作人员则介绍称,在天数智芯GPU产品加持下的大模型推理应用,目前已经能够覆盖法律问答、代码生成与自动补全、金融预测以及虚拟数字人等领域。

众所周知,如果GPU产品的通用性不够,则无法跑通层出不穷的各类大模型。天数智芯的云端训练通用芯片天垓100的架构设计始于2018年,当时显然没有人能够预想到今年的大模型爆火,盖鲁江告诉集微网:“天垓100在产品定义时便以通用性为重点,因此即便是五年前设计的产品,如今也能够完全适配国内这些大模型企业,在训练层面为他们提供源源算力。”

另外,在推理层面,天数智芯的智铠系列在大模型上的实测性能亦有亮眼表现。盖鲁江直言,对标国际主流公司的性能,天数智芯的现有水平不差。而且智铠后续的产品还在持续演进的过程中,今年年底和明年,我们都会有新产品推出,同时有针对性地在新产品上对一些大模型算法进行硬件级优化,这将在算力的通用性和性能方面带来大幅度提升。

关于生态:让客户尽快用起来

本土GPU行业正呈野火燎原之势,但在庞大市场中所取得的份额却微乎其微。按照各家GPU公司的统一说法。目前国内在训练层面,英伟达仍然处于绝对的垄断地位,占据着几乎99%的现有市场,这离不开其硬件架构和软件生态。

在整个英伟达的CUDA生态里,全球有超过300万开发者长期参与其中,下游应用多年来一直在沿用CUDA生态架构。盖鲁江认为,这便是国内GPU企业普面临的最大挑战,也就是客户的生态迁移问题。

目前,绝大多数企业都是基于CUDA来编写代码,如果要切换到一个新的生态中,开发者就要面临大量的代码迁移和改变,进而带来巨大的金钱和时间成本。因此,国产GPU企业要想抢夺市场份额,就需要设法兼容主流生态,降低客户的生态迁移成本。

在初始阶段就踏上兼容国际主流生态路线的天数智芯,长期将生态系统的建设视为发展重心,这也是该公司能在目前领跑本土GPU行业的原因之一。

盖鲁江告诉集微网,天数智芯的所有产品都采用通用架构,基于通用性的硬件去做软件栈的开发,再在API接口层面兼容主流生态,进而让产品能被下游客户更方便的导入,降低迁移成本。

在提及天数智芯现有优势时,盖鲁江再次提到了该公司的产品通用性。另外,天数智芯还具有一支完整的、经验丰富的研发团队,主打全自主IP;在人员占比方面,天数智芯硬件设计和软件开发的人数比例大约为1:2,在芯片硬件追求卓越的同时强化生态建设,强化市场竞争力。

而相比于国际GPU大厂,天数智芯等国内企业除了在产品性价比方面具有竞争力以外,还能为客户提供更好的在地化服务,以此让客户尽快开始接触和使用国产GPU芯片。

盖鲁江表示,打磨GPU产品还有非常重要但容易被忽视的一点,即从客户端获取有效信息。结合客户需求去做产品的设计和优化,包括算力精度、产品性能如何提升等,客户反馈将为芯片公司提供经验。

“如果没有积累到五百家以上的客户,GPU公司有很多信息和反馈是缺漏的。而缺少客户的反馈,后续产品迭代也将受到一定影响,”盖鲁江认为,“对于国产GPU而言,尽快让客户用起来是至关重要的,这样才能发现产品的不足,以及哪些优点可以沿用。”

责编: Lau
来源:爱集微 #天数智芯#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...