【芯观点】后摩尔时代的AI革命：算力需求激增，催生芯片创新

作者：干晔 2020-12-03

相关舆情 AI解读生成海报

来源：爱集微 #芯观点# #机器学习# #AI#

1.3w

图片来源：网络

机器学习已然无处不在。它藏身于很多智能设备中，一部智能手机、一个智能音响、线上购物娱乐的一个个APP里……它像是虚拟世界和物理世界的“缝合者”，用算法和数据试图“猜透”人心。

各大厂商对机器学习的热情越来越高，对算法、算力和数据提出新的要求，尤其是对算力需求的激增，进一步催生相关芯片和专用设备的蓬勃创新，而在后摩尔时代，这种创新或将成为突破算力极限的关键。

数据“喂”大的机器智能

什么是机器学习？简单来说，机器学习使用算法在数据中发现模式，然后使用一个能识别这些模式的模型对新的数据进行预测。

由此可见，数据是让一个算法从实验室走到物理世界的关键。数据量、数据多样性以及规模化的、成本可靠的数据来源渠道等都是影响最终结果的关键要素。其中，有一项关键的工作需要大量的人力参与——数据的社会化标注。“某种意义上，机器永远离不开人类。”澳鹏（Appen）中国产品总监张童皓对集微网表示。澳洲公司Appen成立于1996年，多年来一直是AI产业链中比较靠前的数据节点来为客户提供服务，业务涉及提供图像、文本、语音、音频、视频及其他数据收集和标注服务。

众所周知，神经网络是当前人工智能发展的基石技术。“神经网络的专长就是在像素点里面尝试着取出一系列的关键点，而这些关键点是由人工标注出来的。”张童皓说，“如果你丢给机器一堆无规则的随机图片，它永远都不知道这个图片里面有人。”

随着AI应用要求的不断提升，训练的难度和对数据的要求也随之提升。张童皓告诉集微网，他们曾经为配合一家手机客户的一项算法训练提供数据服务，拍摄全世界各地不同经度、不同纬度的月亮照片。“如果采用在一个国家的不同地方所观察到的月亮，而不是在全球各个地方实地观察，那么其标注的数据一旦应用于全世界数据中，错误的数据将会给后续一系列应用带来错误的结果。”目前Appen的平台上有超过100万名参与人工智能数据收集、标注的人员，他们来自全球130个国家或地区的7万多个地方，涵盖180 多种语言和方言。

机器对数据的“胃口”越来越越大。以谷歌的BERT为例，这是该公司2018年建立并用于其搜索引擎的AI语言模型，它具有超过3.5亿个内部参数，使用33亿个文字单词进行了训练，大部分来自在线的维基百科。而研究人员称，如果可以用更大的数据量，比如300亿个单词训练一个系统，那么它的性能显然将更好。而更多的数据意味着需要更多的计算能力来处理这一切。

算力需求激增催生芯片创新

据《经济学人》统计，从2012年到2018年，用于训练大型模型的计算能力已增长了30万倍，并且约每三个半月翻一番。值得注意的是，支持这一发展速度需要的远不止摩尔定律所能实现的改进。更何况如今正值摩尔定律走向枯竭之际，如何不断提升系统性能以满足人工智能训练的需求？后摩尔时代的AI革命显然需要新的颠覆——从计算架构开始，做算法、硬件和软件的共同优化变得尤为关键。

对算力需求的激增，也进一步催生AI专用芯片和专用设备的蓬勃发展，并促使芯片层面的多种创新。

张童皓也观察到了芯片技术和机器学习之前的相互影响。他指出，基于机器学习的芯片架构发展，已经从最初的硬件通用化到场景定制化服务，“很多AI行业的领头羊在特定芯片模组上的投入，都是在服务AI场景化落地。”

比如，苹果的自研芯片里有一个专门用于机器学习的处理器——神经引擎，它和CPU、GPU一起处理机器学习所需要的大量的运算。据苹果公司全球副总裁葛越在今年上海的世界人工智能大会上透露，该神经引擎每秒钟可以完成高达五万亿次的运算。此外，谷歌自行设计了TPU（张量处理单元）芯片，百度自行开发的AI芯片“昆仑”。英特尔则在去年12月以20亿美元收购了以色列公司哈瓦那实验室（Habana Labs），该公司的云端AI推理芯片已经商用。成立于2016年的英国公司Graphcore则正在开发一种新型处理器——IPU（intelligent processing unit，智能处理器），可以帮助加速机器智能产品和服务的开发，该公司2019年的估值已达到20亿美元。

此类创新将变得越来越重要，因为AI引发的计算能力需求的激增正值摩尔定律逐渐枯竭之际——在过去50年里，传统数字计算机的性能按照摩尔定律一路提升——集成电路（微芯片）的容量大约每18-24个月翻一番。如今，数字计算机性能的发展速度似乎正在放慢。

突破摩尔定律的尝试

摩尔定律和冯诺依曼架构的瓶颈在算力需求激增之下日益凸显。寻找新的替代方案突破蛮力计算变得尤为重要。

复旦大学信息学院研究员、新氦类脑智能首席科学家邹卓教授指出，摩尔定律的挑战在于——无法承受的能耗密度，原子尺度的尺寸、制程、器件的不稳定性和偏差，以及比例缩小并没有带来实质性的性能提升，高昂的研发和制造成本。与此同时，冯诺依曼计算架构不断抵近极限，即内存的读取速度和芯片的处理速度渐渐难以实现同步。

量子计算是一种解决方式——利用量子力学的反直觉特性来大幅加速某些类型的计算。比如，微软研究院量子架构与计算小组负责人提出一种称为葛洛沃算法（Grover's algorithm）的量子计算技术，该技术有望大大提高计算速度。因为关于机器学习的一种思考方式是将其视作优化问题，即计算机试图在数百万个变量之间折中取舍，以求出误差尽可能小的解

另一种思路则是从生物学中得到启发。这个领域以大脑的神经网络架构为基础开发下一代计算机。神经形态计算聚焦脉冲神经网络（spiking neural network，SNN）被业界称作第三代神经网络

“生物是很高效的计算系统。”邹卓指出，借助类脑技术大规模并行、事件驱动、实施环境交互、感算存紧密耦合协同等特点，开发能够如人脑般感知、传递、处理和运用信息的智能芯片与系统，有望突破摩尔定律以及冯诺依曼架构的瓶颈。

“像人脑一样的存算一体，打破了传统冯诺依曼架构存储计算分离的架构，这是类脑计算的核心突破。”新氦类脑智能企业战略总监程韫韵对集微网解释，存算一体的模式，即把内存和计算单元两者作为一个单元，不会因计算任务的架构复杂化而功耗激增，这也让计算耗电和散热两大难题找到了新的方向。

Facebook内部做过一项统计，其AI负责人曾透露，该公司那些最大型的模型进行一轮训练可能需要耗费数百万美元的电力。相比之下，同样的情况人脑消耗的能量可能仅需其千分之一。

看起来，这似乎在突破蛮力计算上充满潜力，近年来不少科技公司也都涉足研究“神经形态”芯片。

2011年，IBM发布了TrueNorth芯片。2014年TrueNorth更新了第二代，功耗达到了平方厘米消耗20毫瓦，印证了类脑芯片的低功耗价值，也在一些AI任务上印证了类脑芯片的实际工作能力。紧随其后的是英特尔。2017年，英特尔发布了类脑芯片Loihi，其拥有13万个人造突触。2019年7月，英特尔又发布了首个大规模神经形态计算系统Pohoiki Beach。该系统由64块Loihi组合而成，可以在自动导航、陆续规划等需要高效执行的AI任务中带来高于GPU的功耗和处理能力。此外，高通也开发过名为Zeroth的类脑芯片。中国业界在该领域也加紧投入，如浙大的“达尔文”芯片、清华的“天机”芯片等都已在路上。其中清华的“天机”芯片作为全球首款异构融合类脑芯片去年登上了《自然》（Nature）杂志封面。

但需要指出的是，这一切都尚未成熟。量子计算的应用落地还面临很多工程设计问题。类脑智能层面，一方面科学家仍然不完全了解大脑究竟是怎么工作的，另一方面适配类脑计算的架构、算法、编程方案等等也处在广泛的空白期。

显然，找到绕开比特编程和摩尔定律的替代方案，并使之从实验室步入现实世界，还有很长的路要走。

（校对/零叁）