Transformer如何在端侧、边缘侧落地？爱芯元智AX650N成为答案

作者：李映 2023-06-01

来源：爱集微 #爱芯元智# #AI#

1.9w

ChatGPT的大火引发了全球各大厂商纷纷在大模型领域跑步上车，入局预训练大模型的老将新兵纷至沓来，市场呈现出“百模大战”的白热化态势。

与之相适应的是，AI包括视觉、图像处理、语音识别、语音合成、知识图谱等领域纷纷走向基于Transformer网络，成为新的‘显学’。这些基于Transformer网络结构的预训练大模型将改变业界的开发范式，预示着新范式拐点的到来。在这一演进过程中，边缘侧的大模型加速落地业已风起云涌，需要更多的AI芯片提供强力的支撑。

特别是在视觉AI层面，无论是智能安防、智慧交通、工业智造、智能汽车到消费电子，边缘侧的需求已成燎原之势，如何让边缘侧的视觉AI借力基于Transformer的预训练大模型持续打力?

爱芯元智给出了自己的答卷：第三代高算力、高能效比的SoC芯片——AX650N，致力于成为解决这一难题的最佳“桥梁”。

大模型边缘侧落地开启

在基于Transformer的预训练大模型“热战”集中于云端之际，让其在边缘侧落地看起来有些“超前”，爱芯元智联合创始人、副总裁刘建伟在接受采访时表示，随着国内基于Transformer结构百模大战的展开，从时间轴上来看，在大模型推出之后即要着手于云、边、端的相应部署，而从体量来看，在端侧、边缘侧显然前景巨大。

爱芯元智在关于Transformer部署的实践经验中发现，以往边缘侧AI加速需求着重于标准化场景，但长尾场景效果不明显，客户也不愿过多投入，导致长尾场景落地不畅。但在预训练大模型问世之后，不需要围绕长尾场景进行从头到尾的训练，在场景适配上也降低了复杂度，在降低AI落地的边际成本的同时还可提高精度，因而未来在端侧和边缘侧AI的应用还将再上一个台阶。

以河道垃圾监测为例，以往采用卷积神经网络CNN模型，对于河道上出现的垃圾，要先去采集数据，在数据采集完毕后需要人为去标注、训练。如果某天出现一种新垃圾品类，是之前数据标注和训练没有覆盖的，CNN模型就难以识别出来并预警。但基于Transformer预训练大模型，采用无监督的训练范式，对画面有一定的语义理解能力，可快速判断并及时预警。

但Transformer模型毕竟是一新生事物，在边缘侧部署Transformer模型仍面临不少的挑战。

就AI视觉而言，爱芯元智认为，首先是算法。由于计算机视觉模型过往一直由CNN主导，在转向Transformer网络模型之后，要在算法侧寻求将模型缩小的途径。

Transformer应用到图像领域时主要有两大挑战：1）视觉实体变化大，在不同场景下视觉Transformer性能未必很好；2）图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大。2021年微软提出了Swin Transformer（SwinT）这一新的视觉Transformer结构，通过类似于CNN的层次化方式来构建Transformer层，引入Locality和Windows设计来节省计算量。经过测试，在各大图像任务上SwinT都实现了较高的性能。

接着是算力平台。相对而言，云端的GPU对于MHA结构计算支持更友好，而边缘侧/端侧AI芯片由于其架构限制，以及客观存在的芯片研发周期，导致目前市面上并没有专门针对Transformer进行优化的芯片平台。

最后是商业化的成本诉求。爱芯元智认为，商业化必然要考虑算力平台的好用性与易用性，这些都和成本相关，反映了使用成本和部署成本，因而这对边缘侧AI芯片厂商提出了加码的考验。

实现好用、易用

但正如机会属于先知先行者，立足于Transformer落地在边缘侧为行业带来的价值，爱芯元智“先人一步”，以最新发布的第三代智能视觉芯片AX650N为利刃发起了冲锋，开启了基于Transformer大模型在边缘侧落地的“攻略”。

而从“实战”结果来看，AX650N平台部署Swin Transformer模型实现了每秒最快计算361FPS高性能、80.45%的高精度、原版模型PTQ量化易部署以及199FPS/W的低功耗，交出不错的成绩单。

以英伟达的AGX模组来对标，每秒最快计算在400帧以内，性能基本接近，但功耗更高。而且，后者定位于自动驾驶等高算力应用场景，售价高昂，相较之下爱芯元智的性价比更高。

原版SwinT模型在爱芯元智AX650N上PTQ量化精度为80.45%，而且部署简便，客户拿到爱芯元智开发板和文档，一小时就可完成Demo的复现以及原版模型的运行。相较之下，有些公司虽然宣称平台也支持SwinT，但需要对模型进行修改，或会引发一系列如精度下降较多、重新训练等不可控的连锁反应。

公开资料显示，爱芯元智对主流Transformer网络如DETR、ViT等不仅均可全面支持，而且还实现了低比特混合精度支持，在大模型参数较大时可减少对内存和带宽的占用，降低了在端侧边缘侧部署的成本。

在诸多优异表现的加成下，客户的反馈也相当积极：爱芯元智的平台可提供好用且易用的体验，好用是性能较高，实时支持更多的应用，对场景的适应性较强；易用是客户上手速度较快，相应地大幅缩短了量产周期。

爱芯元智率先开山劈路，基于Transformer大模型在边缘侧的落地进行探索，不仅使路径更加明晰，也为未来的蓬勃兴起添加了新动能。

未来持续优化

表现如此优异，AX650N究竟有何神力？

从指标来看，AX650N是一款兼具高算力、高能效比和超强编解码性的SoC芯片，集成了八核A55 CPU，43.2TOPs@INT4或10.8TOPs@INT8高算力的NPU，支持8K 30fps的ISP，以及H.264、H.265编解码的VPU。而AX650N扎实的技术表现，来自于全面优化的设计和高性能的多核架构，也来源于爱芯元智对于原创技术的不断突破——拥有自研混合精度NPU和爱芯智眸®AI-ISP两大核心技术。

NPU通过混合精度技术减少了数据搬运，从而在一定程度上减小了AI芯片开发内存墙和功耗墙的阻碍，提高了效率。AI-ISP基于混合精度技术，网络中许多中间层都是采用INT4精度，相比原来的8比特网络，数据搬运量可能就变成原来的1/2，计算量缩减为1/4，相当于在单位面积内提供数倍于传统NPU的等效算力，同时降低了成本和功耗。

不止在硬件上“武力充沛”，爱芯元智推出了新一代AI工具链，在吸取上一代工具链的优秀行业经验和不足之处的反思后进行的优化，依然包含“模型转换、离线量化、模型编译、异构调度”四合一功能，进一步强化了网络模型快速、高效的部署需求，扩展了算子&模型支持的能力及范围，对Transformer结构的网络实现了较好的支持。同时针对编译速度慢的痛点，进行了大幅度优化。

以针对基于Transformer的目标检测算法DETR为例，新工具链可一键完成图优化、离线量化、编译、对分功能。整个过程耗时不到5分钟。

无疑，爱芯元智的AX650N平台先声夺人，在Transformer网络的边缘侧落地获得了最早的用户青睐。在这一基石之上，爱芯元智也将持续精进，在硬件、算法和工具链层面迭代和夯实。

此外，爱芯元智也将加大在开源生态方面的投入，将基于AX650N发布新一代开发板，实现高性价比、更易用、AI示例更丰富、支持神秘大模型应用。同时，在工具链层面，后续计划适配更多基于Transformer网络的目标检测、分割任务算法模型以及适配视觉大模型如SAM、DINOv2等。

“爱芯元智将继续努力打造基于芯片+软件的端侧、边缘侧人工智能算力平台，让智能落实到生活的真实场景，最终实现普惠AI造就美好生活的企业愿景”，爱芯元智创始人、CEO仇肖莘女士表示。（校对/萨米）