掘金东数西算“芯赛道”，国产DPU难破高能耗之痛

作者：席安帝 2022-07-29

相关舆情 AI解读生成海报

来源：爱集微 #DPU# #东数西算# #产业链#

2.2w

随着如今“东数西算”逐步成为中国建设国家级“算力网络”的重点工程，各地数据中心大项目也正逐步铺开并加速落地。东数西算“大算力网络”的铺设，无疑将释放大量对DPU的应用需求，国产DPU有望成为这一国家级大工程背后的中坚力量。

具体从收益来看，尽管“东数西算”相关项目大量采用DPU耗资不菲。但长期下去，数据中心的整体运营成本有望降低15%-30%，对于云服务运营商来说也将是持续性利好。

不过，如今各地PUE指标政策正逐步趋严，当下全国平均指标已降为1.3，国产DPU虽已拿到入局“东数西算”赛道的门票，但从实际应用情况来看，国产DPU仍需攻破高能耗这一最大痛点。

破解“剪刀差”难题，东数西算催生海量DPU需求

与传统的CPU、GPU类似，DPU的诞生也是为了解决数据中心场景广泛面临的处理器性能增长率与数据量增长率之间的“剪刀差”问题。从算力芯片性能的更迭历史来看，传统CPU的性能从5-10年前每年30%的增幅，到三年前大概只有每年不到3%的性能增幅。但相比之下，如今的网络带宽每年却依然持续保持着35%左右的增长。

因此，芯片的处理性能和应用场景带宽增速的比例也从原来的大概1:1的旗鼓相当，变成了如今的1:10左右。当二者之间存在10倍以上的差距时，以往的架构便无法进行平行化的扩展，此时就需要采用专用的系统新架构来弥补不足，因此DPU的出现恰逢其时。

可DPU的目的并非为了替代传统的CPU和GPU，而是从功能上与前述二者相互结合。DPU底层逻辑是为了提高CPU的处理效率，释放CPU算力，同时为CPU和GPU提供基础数据服务。三者之间相辅相承，互不竞争，走3U（CPU、GPU、DPU）一体的架构路线，从而实现从边缘到核心数据中心的“架构、管理、调度”的三方统一。

这也因应了“东数西算”这类对算力优化有强烈需求的项目场景。毕竟，当数据中心规模足够大时，任何一个（具体到硬件）任务的Offload（卸载）对于服务器来说都意味着非常显著的性能提升和成本降低。

对于急于寻找应用场景的DPU企业来说，今年2月，“东数西算”这一国家级大工程的正式启动，无疑是恰逢其时。从地区来看，截止目前，从张家口、韶关、重庆、天府、贵安、庆阳、中卫、和林格尔等8大数据中心集群及所在地均给出了较为具体的“十四五”期间数据中心建设目标。

另据发改委数据，年初以来，从全国10大国家数据中心集群中，新开工项目25个，数据中心规模达54万标准机架，算力超过每秒1350亿亿次浮点运算，约为2700万台个人计算机的算力，带动各方面投资超过1900亿元。

根据常见的服务器标准机架是采用1U（1U=1.75英寸）、2U、4U三种规格的配置标准。其中，全1U设备部署数量一般不超过16台服务器，全2U设备一般不超过12台，全4U设备一般为4-7台。以“东数西算”项目新增机架数量测算，年初新增的算力集群所需服务器总台数约为216万到864万台不等。而DPU的用量与服务器用量往往持平甚至更多（1：X的比例），这也意味着在非等比例采用的情况下，DPU的需求量甚至可能超过864万颗。

本土初创公司蓄势待发，DPU“降本增效”实力如何？

为了抢占DPU赛道的红利，如今国内涌现出越来越多初创企业，通过高起点的架构理念和自主创新研发，不少本土DPU初创公司已日益在这条百亿美元赛道上崭露头角。

目前来看，国内DPU赛道主流玩家包括芯启源、中科驭数、云豹智能、大禹智芯、边缘智芯、星云智联、云脉芯联等初创公司。

但在DPU技术路线上，各家选择略有不同。据笔者了解，从当前的主流技术架构来看，DPU的设计架构一般有三种，一是Arm多核或MIPS多核；第二种是基于FPGA的SmartNIC架构；第三种是异构核阵列的架构。

各DPU技术路线优劣势对比

其中，基于Arm多核或MIPS多核阵列的架构虽然可以卸载明确定义的任务，例如标准化的安全和存储协议，但由于是基于软件可编程处理器，缺乏处理器并行性，这些处理器在用于网络处理时速度较慢。同时，多核SmartNIC ASIC中的固定功能引擎无法扩展来处理新的加密或安全算法，因为它们缺乏足够的可编程性，只能适应轻微的算法更改。

而基于FPGA的SmartNIC架构打造的DPU，具备灵活性高，可编程的优势。在开发上，可以如CPU一样具有高度的可编程性，也可以像在SoC解决方案上一样快速开发新功能，同时可以在接口上省去一些功夫，但很多重要的部分尚未突破，同时FPGA价格昂贵众所周知，借此打造的DPU方案成本也相对不菲。

相比之下，异构核阵列的架构目前最受初创公司看好，主要是由于异构具有更高的灵活性，并能带来更高效的数据处理效率。但也存在弱势，比如企业需要自研架构，研发投入成本较高。如KPU架构，将四类异构核组织起来，分别处理网络协议，OLAP\OLTP处理，机器学习和安全加密运算核。

但对于东数西算下的“大算力网络”应用来说，最终考量的依旧还是DPU的性价比。如今，随着东数西算项目的启动，国内以运营商为代表的云服务企业们对该领域的投入和重视度便持续提升，从3家运营商披露的资本开支规划来看，均在东数西算项目上耗资不菲。

从具体数据方面来看，中国移动规划2022年算力网络资本开支480亿元，投产对外可用IDC机架达约45万架，累计投产云服务器超66万台；中国电信2020年至2022年（预计）产业数字化占资本开支的比例或由15.6%上升至30%，其中2022年计划IDC投入65亿元（增加4.5万机架），算力投入140亿元（增加16万云服务器），2022年算力规模达3.8EFLOPS，同比增长超80%。

与此同时，中国联通也将围绕国家东数西算8大算力枢纽节点，优化扩大“5+4+31+x”的资源布局，比如中国联通在津启动“东数西算”京津冀国家枢纽节点建设项目，建成后可容纳机柜约2.5万架。中国联通贵安云数据中心项目总投资约60亿元，规划总机架3.2万架，可容纳60万台服务器。

有行业人士对笔者表示：“一台服务器可能没有GPU，但一定会有一颗或者多颗DPU，就好比每台服务器都必须配网卡类似。”以三大运营商中服务器投建体量最大的中国移动为例，2022年新增云服务器超66万台，每颗DPU若以1万元左右来计算，最低配置的话，运营商的附加成本支出将达到66亿元。

虽然前期对于投建数据中心项目而言，这种附加成本相对偏高，但DPU对整个数据中心系统的数据资源优化价值是长期且持续性的。据笔者从DPU芯片开发商处获悉，若按不同类型的云服务场景来划分，大规模采用DPU之后，数据中心的整体运营成本可降低约15%-30%左右，这对于动辄高达百万台机架规模的“东数西算”项目而言，成本的优化蔚为大观。

2025年是大规模入场期，国产DPU尚需破“高能耗”之痛

众所周知，由于“东数西算”属于涉及信息安全的项目，这种特性决定了这场国家级的大工程注定会是国产DPU品牌的天下。当前，除了以阿里（目前多为自用）和华为等少数具备资本和产品落地实力的巨头之外，对于国内大多数DPU创企而言，眼下正处赛道征伐的“准备期”。

有行业人士告诉笔者，从2022年开始算起，DPU要真正在“东数西算”这类市场发挥作用，至少还需要2-3年的时间。即DPU市场真正的成熟期预计在2025年左右，届时只有硬件和软件同步成熟之后，才会真正开始在各类应用场景大规模爆发。

由于各家公司的DPU从今年开始着手设计开发，从设计到真正硬件系统成型至少也需要2-3年时间。近三年，各家初创企业之间并不会出现强烈的竞争关系，企业竞争的核心还是比拼技术迭代周期，产品导入市场的周期，以及小规模出货能力。

但要真正进入“东数西算”领域，即便是国内DPU企业也存在诸多门槛。当前，国内虽涉及“东数西算”的数据中心建设体量足以容纳一大波本土初创公司。但由于政府项目的特殊性，对企业在项目上的耕耘经验、DPU产品综合技术能力、产品性能及功能、配套能力、团队综合实力等方面都提出了多方考验。

另外，在关乎能耗的问题上，也逐渐成为DPU企业当前面临的主要痛点。能耗，对于任何一款芯片来说无疑都是很大的掣肘，DPU也不例外。尤其是随着2021年下半年监管开始更为严厉的把控，以东部沿海区域为主，政府针对数据中心项目的管理办法越来越严格，管理路径和手段也逐渐增多。

而数据中心项目作为重点用能单位，需要地方政府审批并提供节能报告等，提供的各项指标也由各地发改和经信相关部门设置和管理。针对数据中心的指标以控制能耗为主，主要包括PUE（Power Usage Effectiveness，电能利用效率），可再生能源结构比例以及碳排放量三个维度，其中PUE是核心的政策抓手。

各地PUE政策要求（摘自：广西壮族自治区大数据研究院）

据悉，PUE是数据中心总能耗与IT设备能耗的比值，基准是2，数值越接近1代表其用能效率越高。2021年7月，工信部发布《新型数据中心发展三年行动计划(2021-2023年)》指出，能效水平方面，新建大型及以上数据中心PUE降低到1.3以下，严寒和寒冷地区力争降低到1.25以下。从各地情况来看，2021年上海要求存量数据中心PUE不高于1.4，新建数据中心PUE限制在1.3以下，北京和深圳要求PUE在1.4以下。

国内各主要地区PUE政策指标对比

但2022年至今，不到一年时间内，各地指标从1.5降至1.4，个别寒冷地区甚至控制到1.25。可实际上，1.3以下的数值对一个规模型的数据中心来说很难达到，这也对数据中心采用的各种零部件提出了更高的能耗要求。

不过，由于技术的发展不够成熟，当前“过热”、功耗太高是DPU相当大的痛点。即便是国外的Fungible、英伟达的DPU，还是英特尔的IPU，功耗都是此类产品的一大瑕疵。过去，单颗网络DMA芯片功耗仅5瓦左右，如今一个DPU功耗动辄100瓦以上（Fungible F1 120瓦）。

因此，目前来说，大部分应用场景尚且很难承受如此大功耗的网络设备。尤其是在100/200G以上，在光模块功耗已经超过网络设备的情况下，如果再增加一个100瓦的网络DPU，将会极大的提升网络的能源消耗，更难符合当前“东数西算”越来越严格的PUE要求。由此可见，DPU入局“东数西算”场景，功耗仍旧是当前的痛点所在。

(校对/孙俐俐)