墨芯首席科学家严恩勖：用稀疏化解决时代最严峻的算力挑战

作者：爱集微 2022-07-12

来源：爱集微 #墨芯#

8.6w

人工智能进入黄金时代，正改变各行各业以及我们的日常生活。

今日随着人工智能应用的普及，稀疏化进入人工智能行业的主流玩家视野。稀疏化计算能帮助人工智能突破硬件算力极限，有望实现十倍、甚至百倍的人工智能应用加速，并大幅降低计算成本。
墨芯人工智能从诞生起，即墨芯是稀疏化计算引领者，致力于提供云端和终端AI计算平台和服务。墨芯独创双稀疏算法，运用企业优势，为客户提供高品质AI计算解决方案，携手共创AI计算未来。为此，墨芯人工智能首席科学家严恩勖针对企业目前的发展历程、研究成果、企业优势、未来发展等，与集微网分享了他的看法和观点。以下为访谈内容：

在AI报告中，集微网发现墨芯人工智能在稀疏化计算的商业进展令人瞩目。墨芯是2018年成立的，当时稀疏化应该是很小众的，能和笔者分享一下，墨芯为什么选择稀疏化这条技术路径作为创业方向吗？

【严恩勖】我之所以对稀疏化这么感兴趣，是因为它具有巨大潜力和想象空间。稀疏化计算能够帮助人工智能突破目前硬件能够达到的算力极限，给社会带来的进步是激动人心的。

2008年，我还在念本科研究机器学习的时候，就对稀疏化算法技术感兴趣了。我在卡内基梅隆大学读博士发表的第一篇论文就是关于稀疏化，这也成为我博士期间的研究方向。在稀疏化领域，我独创了双稀疏算法，坚信它能够让AI前沿技术变成现实，可以解决目前世界上一些严峻挑战。

其实在当时，我们就用稀疏化在CPU上做AI加速了。过去，算法优化是最常用的AI加速方法，而稀疏化是算法优化中，我用过最好用的加速方案。尤其当AI模型越来越大的时候，稀疏化几乎是唯一一个可以实现十倍、百倍AI训练和推理加速的方案。

但如何将技术从理论变成现实？这是一个难点。虽然我的大部分职业生涯都在学术领域，但其实从初中开始，我就想创业了。初中时候，我就能自学完大学的数学课程，于是意识到教育资源并不稀缺，我曾想做一个教育平台帮助更多的人，更自主便捷地获取他们想要的教育资源，而不用在传统教育体制中卷来卷去。后来这件事因为我去美国读博而没有继续。但我个人的热情在于将学术和现实相结合，真的去解决一些现实中的问题，用科技为社会带来更多的机会和进步。

2018年，我遇到了在卡内基梅隆大学的校友，也就是墨芯人工智能的创始人王维先生，他也是我们的CEO。王维先生是拥有15年经验的硅谷数模混合电路专家，曾任CPU高速链路架构师。他拥有数年硅谷半导体创业经验，曾任Intel、高通核心架构师，参与开发了五代Intel CPU处理器，累计量产超50亿片。

最重要的是，王维先生和我都坚信稀疏化是AI计算的未来，于是决定一起创业，将稀疏化算法升级到计算层面，用我们掌握的技术，为人工智能带来一些让我们骄傲的改变。墨芯现在的核心团队，无论是首席架构师或工程VP等，都有一个共同的信念：“稀疏化一定能够改变AI的未来”。

集微网了解到墨芯基于Antoum®️的首个高稀疏倍率AI计算卡S4即将发布。能否分享一下在墨芯创业的过程中，从稀疏算法到稀疏计算，将高倍率稀疏计算卡变成现实，您遇到的困难和挑战是什么？墨芯是怎么解决的？

【严恩勖】墨芯人工智能专注于稀疏化，并将稀疏化从算法升级到计算层面，这样才能实现高倍率稀疏算法。

当时我们遇到的一个主要挑战是，要实现高倍率稀疏化计算，CPU和GPU都不是理想的硬件。因为要实现墨芯稀疏化技术的理想加速效果，现有的硬件必须既要能实现高倍率稀疏化，又要能够支持大规模并行计算。现有GPU的硬件架构无法实现高倍率稀疏化，而CPU尽管能支持高倍率稀疏加速，但由于其内核数量的限制无法实现大规模并行计算，它也不是支持稀疏化计算的最理想的硬件。

为此，我们需要从算法和软件出发，设计相应的硬件和架构。因此墨芯坚持软硬协同开发，构建了持续多层次优化稀疏运算的底层算法能力，架构保证可编程性、高度可拓展性及快速迭代能力。墨芯的首个计算卡产品S4就是这些理念的具体体现。

那么，墨芯的稀疏化计算方案可以应用于哪些行业哪些场景？目前取得了哪些进展呢？

【严恩勖】墨芯的稀疏化计算产品和解决方案，可广泛应用于互联网、运营商、生物医药等数据中心人工智能应用场景。目前墨芯人工智能首个高倍率稀疏化计算卡S4就是专注于数据中心AI推理应用。

今年是AI芯片的商业落地年，可否和我们分享一下，墨芯今年在产业化上的最新进展？

【严恩勖】2021年最后一天，墨芯首个芯片Antoum®️成功回片。目前已在多个客户和生态合作伙伴测试环境下跑通多个主流AI模型，性能测试令人满意。

今年6月13日，墨芯加入浪潮元脑，我们和浪潮一起共建稀疏化生态。墨芯以领先的稀疏化计算技术和产品，广阔的生态潜能，融合资源与算法，共创全栈AI解决方案，为各行各业AI应用提供强大算力引擎和生态支撑，为企业降本增效，并加速产业的人工智能化进程。

在接下来的时间里，我们还将与大家分享更多的产业化进展。比如在需要将大模型落地的场景，稀疏化计算具有特别优势。实测数据显示，S4运行主流AI模型ResNet-50和BERT，性能为国际大厂主流 AI推理卡的6倍，功耗仅为后者的一半。

值得注意的是，S4能够实现“单卡推理大模型”，解决目前大模型普遍需要分布式部署，落地难、成本高的痛点。在最近的一次测试中，S4在单卡支持大模型T5-8B时，内存占用率仅为7.8%，这也意味着S4具有更多的想象空间，最大可以支持千亿参数级别的大模型。

集微网注意到稀疏化目前已经有了一些产业化应用，和其他行业玩家相比，墨芯稀疏化技术的核心优势是什么？

【严恩勖】总体而言，墨芯的计算解决方案具备高性能、高能效比、高精度和高性价比个优势。在一些对算力和能效比要求特别高、对功耗又非常敏感的应用场景中，墨芯的计算方案尤其具有优势。这意味着客户在不用大幅提高服务器运维成本的情况下，就能够获得大幅性能提升。

具体而言，我们的优势有以下三个：

一是在业界，我们的解决方案率先支持高倍率稀疏计算，且不影响精度。这意味着墨芯的计算卡能够突破单卡算力极限，在性能表现上为客户带来惊喜；

二是我们对大模型友好，不仅可以单卡支持大模型，为客户提供高性能的同时，还可以保持低功耗和高精度、高能效比。这在很多场景是非常有竞争力的，如互联网和生命科学领域。

三是我们支持大规模并行计算。根据目前潜在客户的反馈，稀疏化计算是极富有竞争力的AI计算解决方案。

我们认为稀疏化计算解决方案的优势是既能够突破算力极限，又具有良好的通用灵活性，帮助企业能够以极低的迁移成本，一键式地将稀疏计算功能添加到现有的计算设施中。

在目前的稀疏化技术发展中，有哪些趋势性的研究方向令您眼前一亮？

【严恩勖】谷歌近年来对稀疏化的关注和研究令人称道。谷歌人工智能主管Jeff Dean在2021年提出了名为Pathways的通用AI架构，判断稀疏化是下一代AI架构的关键词之一。特别值得注意的是，在谷歌研发的下一代transformer模型家族中，谷歌去年底发布的一篇论文中提出的Scaling Transformers尤其印证了墨芯“稀疏化是AI计算的未来”的这一判断。

谷歌提到，大的transformer模型在许多任务上表现令人印象深刻，但其训练甚至微调都成本高昂。不仅如此，它的解码速度很慢，不易使用，落地就非常困难。谷歌便想到利用稀疏化来解决这个问题。

谷歌提出的Scaling Transformers，他们认为在目前的硬件设备条件下，稀疏化是最快的一种方式，可以使得每一个终端都跑得起高性能的大模型。稀疏化技术的引入，只选择重要的参数进行运算，使得扩大后的稀疏模型在保留标准transformer模型精度的前提下，运行速度大幅提升。在这篇论文中，谷歌也使用了其他类型的稀疏化算法技术来达到这一结果，谷歌认为稀疏化能与最先进的（AI加速）技术竞争。

这和我们判断非常一致。稀疏化计算大有可为，是AI计算的未来。

能否最后和我们分享下，您从科学家的身份到创业者的身份，遇到的最大的挑战是什么？最有成就感的事情是什么？

【严恩勖】我遇到最大的挑战是，不同于做学术、做计算解决方案，不仅需要你在你擅长的领域做到极具竞争力，在其他的地方也需要满足客户的需求，并做到足够优秀。最有成就感的事情，就是看到自己研发的计算解决方案真的能够在行业领域得到认可同时在现实中满足可客户需求，帮助客户解决棘手问题，用科技为社会带来更多的机遇，带来更快的进步。