英伟达云原生超级计算技术全面助力“超算上云”

作者：武守哲 2022-11-29

来源：爱集微 #英伟达# #云原生# #超算#

1.9w

集微网消息，经过十几年的不懈努力，时至今日，业界几乎无人质疑英伟达已经打造了一个真正现代意义上的领先的计算平台。虽然当下以PC为代表的消费类产品的周期性销售放缓，给半导体行业的很多资深玩家带来很多不确定性，但英伟达的数据中心业务仍在快速发展，并且前途一片光明。从CPU演进到DPU，随着对高带宽网络的需求以及超算、AI和数据分析工作负载的不断加大，英伟达数据中心业务的高增长性的原发性动力来自企业敢于直面挑战各类难题的决心，“云原生超级计算”的创新性就是一则典型案例。

在日前举行的线上英伟达网络媒体会上，英伟达网络亚太区高级总监宋庆春对云原生超级计算技术的初心和推动力，实现原理和过程，以及其优异的市场竞争力和良好落地反馈做了全面介绍。

英伟达网络亚太区高级总监宋庆春

初心与目标

云原生超级计算的主要目标，是能让数据中心在支持多任务时，或者当我们的业务在上云时能得到该业务独享所有计算和存储资源时相同的性能——换言之，该技术是旨在解决数据中心在上云时遭遇到的性能挑战应运而生的。

传统意义上或者典型数据中心是由CPU主导处理各类应用，GPU充当加速器，然后通过网络搭建成一个大规模的数据中心。在这种架构下，很多基础性的工作，比如存储或者和安全相关的业务依然需要CPU来参与，对其业务效率产生了较为显著的负面影响，同时产生的背景噪声（background noise）以及长尾延迟或者短板效应影响了整个数据中心系统的运行性能。这时，DPU被赋予了新的职责使命。

数据中心工作序列的同步操作与资源配置一直是困扰业界的难题，如计算和通讯如何实现overlap就需要BlueField DPU为CPU做到工作负载的减负和优化；英伟达云原生超级计算技术不但对此做了针对性部署，而且该技术还实现了租户（tenant）之间隔离及业务性能的隔离，意味着在应用之间不干扰的前提下做到了应用与应用之间的性能隔离。

通常，在同一个数据中心架构下，两个不同的应用可能在共享CPU和存储，或者在一个共享网络里，这就可能出现业务的互相干扰。云原生超级计算架构就是负责把原来由CPU做的基础设施操作卸载到BlueField DPU，把CPU资源留给计算操作，同时和GPU等其他一些加速器协同工作，优化整个数据中心系统的算力资源。宋庆春指出：“这样我们可以以更低的成本或者更少的硬件来构建更高性能的系统，这是一种最有效的降低能耗的方式。”

云原生超级计算技术的武器库

涉及到英伟达是如何实现卸载、加速和隔离来自CPU的基础设施应用，从而释放BlueField DPU工作潜力，就不能不提该公司的软件框架NVIDIA DOCA。

BlueField DPU可以通过DOCA跑各种各样的加速库，如专门面向集合操作的UCC，专门面向点对点操作的UCX，DOCA软件框架可以通过标准的MPI Framework直接或者其它的标准通信库为应用提供一个标准的接口，在应用无感知加速库的前提下，享受到这些加速库带来加速优势，从而简化和加快BlueField DPU上每个数据中心节点上的应用程序开发和部署。

宋庆春还详细阐述了BlueField DPU/DOCA卸载及加速通讯流程，以及DPU卸载和加速带来的性能优势，并且演示了CPU的通信作业是如何被“减负”的。用BlueField DPU来做加速集合通信时，以host发送通知的方式通知本地DPU和远端的DPU进行沟通，DPU就可以在本地的host memory和远端的host memory之间建立一个通信通道，然后通过RDMA技术在host memory之间直接实现数据传递。宋庆春解释：“通信的的控制都是由DPU来完成，但数据通信过程还是直接由host CPU的memory之间完成，这样就可以把我们通信的Framework由原来的CPU卸载到了DPU上来了，CPU不需要参与通信操作，用于通信的CPU算力也就被释放了出来。”

基于英伟达BlueField DPU和Quantum网络计算技术，从而实现的DPU卸载和加速带来的性能优势在分子动力学的应用中实现了20%的性能提升，在一些数学建模上实现了26%的性能提升，在天气预告模型中实现了24%的提升。

除此之外，非常值得一提的是，英伟达还创造性地研究出了云原生超级计算技术，包括目前英伟达所独有的技术——交换机计算技术（SHARP网络计算技术），以达成在交换机上的数据聚合（aggregation）和归约（reduction）。

SHARP技术可以让我们突破网络物理带宽的限制。同时，数据的聚合和归约在交换机上完成，也避免了多打一通信这样的网络Burs造成网络拥塞。

宋庆春用基于英伟达SuperPod参考架构直观展示了SHARP技术的威力，他指出：“在SuperPod架构下，我们一般推荐用户用8张200Gb/s（等于25GB/s）的InfiniBand网卡，总共的聚合带宽为200GB/s，如果用了SHARP技术之后，实际测到的性能或者实际用到的性能，可以达到230GB/s甚至到260GB/s。”可以说，SHARP技术颠覆性地拓宽了网络带宽的极限，使得网络资源的利用率更上了一个新的台阶。

最后，英伟达云原生超级计算技术在业界率先实现公有云上的业务性能隔离，困扰业界数十年的应用性能隔离难题通过网络计算技术实现了突破，在云上实现高性能不再是梦想，并且在现实层面上，该技术已经通过与微软Azure公有云的合作得到了广阔的展示。

超算大会上英伟达的表现

英伟达网络和计算助力全球算力的落地性有多强？在前不久发布的Top500超算榜单中，英伟达GPU和网络在榜单中处于绝对领先的位置，有72%的Top500的系统在用英伟达GPU或者网络；在前100系统里有63%的系统在使用InfiniBand 网络，并且在Top500里有67%的系统在使用NVIDIA InifniBand和以太网技术。Green500排名前100的系统中，75%的系统在使用InfiniBand互连解决方案；从存储的角度看，最新的IO500排名10节点的测试中，前5名的系统里有4台用了InfinBand互连技术。对此，宋庆春指出：“在IO500高性能存储网络解决方案中，10节点测试中的前四名都是基于英伟达Quantum InfiniBand网络，以10节点作为测试基准，相对来说最为公平。”

在InfiniBand网络平台相对以太网的竞争力问题上，宋庆春从六个角度告诉集微网，该网络平台极大的拓宽了DPU这一概念的广度和深度：“一，更加侧重于业务的性能提升，实现了计算和通信的重叠，让CPU资源完全释放给了应用的计算任务；二，利用DPU的算力资源参与应用的计算，为应用贡献了更多的算力；三，DPU运行存储框架，实现了基于文件存储的模拟，充分发挥远端共享文件存储系统的性能；四，实现了增强的Telemetry技术，利用DPU来提供应用的信息给用户分析和训练，进一步优化性能；五，DPU还是应用性能隔离的重要组件，DPU可以和InfiniBand拥塞控制技术一起提供Pre-Active拥塞控制，实现性能隔离；六，DPU还在零信任环境中扮演重要作用，用于隔离应用和其它基础设施操作、存储操作和通信操作。”

总之，英伟达加速计算或网络在为72%的Top500系统提供服务，自2019年以来，每年都保持了显著的年度增长率。无论是提升算力还是提升存储性能，InfiniBand网络的都保持了强劲的市场份额和领先的生态位。

写在最后

超级计算中心和公有云的诉求正走向融合，既要保证高算力，又要保证网络通信的安全和易用。英伟达云原生超级计算技术要解决的问题，就是要针对现在那些需要运行在超算上的应用上云的最大障碍 - 性能问题，在云上多应用之间的性能干扰导致这些关键应用性能的不稳定和不可预测性是应用无法承受的。云原生超级计算技术中的性能隔离率先解决了这个问题，让关键应用在云上实现了在独享算力中心资源时同样的性能。除此之外，通过DPU实现了通信和计算的重叠，实现了存储和计算的重叠，还实现了增强的遥测技术，让超级计算中心和公有云的融合更加顺畅。

英伟达云原生超级计算技术充分优化了数据中心的各种网络资源和计算资源，在业界率先实现了性能隔离，让每一个业务都能得到最优性能的展现，通过减少硬件的数量降低了数据中心的功耗，这也是构建绿色数据中心，实现节能减排和“双碳”目标的题中之义。