从智能家居到工业机器人,Arm物联网新品加速大模型边缘落地

来源:爱集微 #Arm# #物联网# #大模型#
6541

5G、物联网时代的快速发展,极大推动了边缘计算设备的普及,而ML和AI技术,特别是生成式AI的浪潮,正让这些设备变得更加智慧。

边缘AI潜力巨大,有望助力多个领域的持续智能化演进与转型。在此过程中,Arm架构扮演着重要作用。目前,全球约有 90% 的 AI 都运行在基于 Arm 架构的 CPU 上,这些持续投入使 Arm 成为全球最普遍的 AI 计算平台之一,吸引了越来越多的开发者加入。

特别是伴随着 Transformer 与大模型的发展,AI 模型的普适性、多模态支持,以及模型微调效率都有了质的突破,加上低功耗的AI加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。

日前,Arm推出新一代Ethos-U AI加速器及全新物联网参考设计平台,加速推进边缘 AI 发展进程。

Ethos-U85 NPU:性能提升4倍 支持主流AI框架

人工智能时代的发展,使得NPU的重要性日益凸显。Arm Ethos-U NPU系列是业界首款AI微加速器,Arm Ethos-U85是Arm推出的面向边缘AI的第三代产品。

与上一代产品相比,Ethos-U85性能提升四倍,能效提高 20%,同时,其MAC单元可从128个扩展到 2048 个(在 1GHz 时,算力实现 4TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。

Arm物联网事业部业务拓展副总裁马健介绍,边缘 AI 的重要特点就是节省带宽、更具安全性、减少数据传输、提高响应速度和可靠性,但也面临一些设计上的挑战,就是对能效和成本方面有比较严格的限制。所以,在设计 Ethos-U85 的过程中,除了顺应边缘 AI 对性能和能耗的提升要求之外,还在能效及成本方面做了优化。

此外,Arm Ethos NPU的亮点不仅体现在硬件上,还在软件工具链的一致性、易用性方面都有非常强大的优势。Arm 生态系统合作伙伴们在使用最新的 Ethos-U85 时,可沿用之前 Ethos 的一系列工具链,例如 Vela Compiler 以及 ML Evaluation Kit 都可从此前推出的 Ethos-U55 和 Ethos-U65 延展到 Ethos-U85 上,为开发者提供一致性的无缝开发体验。

Ethos-U85的显著特征之一,是支持了TensorFlow Lite和PyTorch等AI框架。在算子支持方面,Ethos-U85支持Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。而这些能力是优化大模型边缘落地微调时间、提升模型泛化的一个关键特性,有利于快速驱动新AI应用的发展。

“Transformer 在视觉和生成式AI用例中,比如视频理解、图文结合,图像增强与生成、图像分类和目标检测等方面都极有价值。Transformer架构网络的注意力机制容易利用并行计算来实现,提高硬件使用效率,使得这些模型能够部署在计算资源有限的边缘设备上。开发者可以通过选用针对 Transformer 架构网络优化的设计,发掘边缘 AI 的新机遇,使这些应用享有更快的推理、更优化的模型性能和可扩展性。”马健表示。

据了解,Transformer 架构在推动新的应用,特别是面向视觉和生成式 AI 用例中,对于理解视频、填充图像的缺失部分或分析来自多个摄像头的数据以进行图像分类和目标检测等任务非常有效。Ethos-U85有望在智能家居、零售、工业等新兴的边缘AI应用场景中得到持续部署,满足对更高性能计算的需求,并支持最新的AI框架。

此外,在工业机器视觉、可穿戴设备和消费者机器人等高性能边缘计算系统中,越来越多的应用处理器、诸如Linux 等标准操作系统以及高级开发语言的部署,这种模式更有利于云原生开发和云边端负载调度。尤其是在处理数据量日益增长的AI应用系统中,这个趋势尤为显著。

Ethos-U85不仅支持低功耗MCU系统中的AI加速,也能够很好地支持上述需求,Ethos-U85在设计上实现了与Armv9 Cortex®-A CPU 的结合,以加速处理机器学习 (ML) 任务,并为更广泛的更高性能设备提供高能效的边缘推理能力。

Arm Corstone-320:为视觉应用优化

在万物智能的驱动下,无处不在的MCU和嵌入式系统对性能和AI加速的需求与日俱增。顺应这一趋势,同时为帮助合作伙伴简化系统开发流程,加快产品上市时间,Arm推出了包括Cortex-M系列最高性能的嵌入式处理器Cortex-M85,以及全新的 Ethos-U85 NPU AI 加速器的边缘AI参考设计平台Arm Corstone-320。

由于视觉在多模态感知中起到了关键作用,许多边缘MCU和传感器系统越来越依赖于视觉和图像感知,因此,Corstone-320还中设计包含了Arm Mali-C55 ISP,以实现为视觉应用优化的低功耗系统。

据马健介绍,这个参考设计是针对实际工作负载开发的,参考用例包括部署在智能家居中的电池供电摄像系统,以及在工业和零售系统中的低帧率网络摄像头。同时,Corstone-320 参考设计提供了有安全保证的软硬件组合,使得在此参考设计基础上开发的合作伙伴们能够顺利地通过 PSA Certified Level 2 认证,实现对区域和全球安全标准的合规。

同此前推出的Arm物联网参考设计一样,Corstone-320不仅仅提供芯片计算子系统IP组合,还附带了软件、AI模型库和开发工具,以实现软件的复用,同时也利用了Arm强大的生态系统。此外,Corstone-320还附带了仿真Corstone-320 完整系统的Arm 虚拟硬件 (Arm Virtual Hardware),以及单独的CPU和NPU 的固定虚拟平台 (FVP) 模型,以简化开发并加速产品设计,支持软硬件并行协同开发。

“这种提供边缘 AI 和智能物联网计算子系统全套软硬件和工具链的方法,使得我们的合作伙伴能够在一系列性能点上快速开发,并聚焦于打造差异化价值。”马健说。

在马健看来,相较于此前的 AI 技术,大模型和生成式 AI 最大的优势是泛化能力,及对多模态的支持。例如对图像生成、图像分割等多种用例的泛化、普遍性的支持。另外,大模型和多模态的优势是微调时间,用比较少的新样本进行模型的重新训练和微调,使这些模型很快适应之前没有看到过的新环境。可以想像,大模型就像一位非常有经验、见多识广的智者,因为它受过大量数据的训练。所以,它可以成为各行各业的工作者和各种用例的有力助手。

“例如智能家居的一些用例,已经从单一模型支持不同的传感器,到统一模型支持各种不同的多模态传感器的输入,家庭有了‘大脑’,帮助我们来做各种各样不同的事情,而不只是支持单一功能。这种趋势与 Arm 在物联网领域一贯的策略不谋而合。我们认为只有普适性的通用计算平台才可能达到规模化,进而更好地实现丰富的软件支持。期待未来通过大模型和多模态,物联网碎片化问题可以得到更好的改进,AI 会从一个单一功能到多功能,甚至是向通用 AI 的方向演进,这样的演进方式也非常适合搭载 Arm 推出的通用处理器,不管是嵌入式处理器还是应用处理器,还是处理器上实现的统一的工具链以及对操作系统 (OS) 和中间件的软件支持。”马健告诉集微网。

助力边缘AI生态枝繁叶茂

过去十年,Arm在边缘AI领域持续创新探索。最初聚焦在优化各类传感器必需的嵌入式处理器(包括 Cortex-M 处理器、Cortex-A 处理器),致力于实现超低成本、低功耗和小面积,并支持控制级代码的开发。

物联网时代,连接使边缘算力和安全性变得越来越重要,Arm也因应这些趋势,推出了Armv8-M 和 Arm TrustZone 等技术来增强算力与安全。而随着边缘与端侧 AI 推理需求的增长,在嵌入式领域,Arm引入了Armv8.1-M。Arm Helium 技术使CPU能够执行更多计算密集型的 AI 推理算法,此后又推出了Arm Ethos系列AI加速器,以满足更高性能和更复杂的AI工作负载。

随着边缘终端的智能算力、AI能力的不断提升,芯片系统设计难度和复杂度也在增加,也对系统的软硬件协同能力,以及生态提出了更高要求。

“Arm 不仅仅聚焦处理器 IP,更是在软件与工具链方面加强投资,以满足更简单、快速的高性能边缘 AI 系统的开发需求,支持诸多 AI 算子与应用在 Arm 计算平台上的优化运行,使边缘 AI 在 Arm 平台上枝繁叶茂。当然,我们必须和生态伙伴齐心协力,才能达成这一目标。”马健说。

在马健看来,简单易用才更适于普及推广,这也是为什么随着边缘 AI 的持续扩展,物联网生态链上下游的芯片与系统供应商、算法软件开发者与集成商们越来越汇聚在 Arm 计算平台。因为只有 Arm 计算平台才能提供 AI 从云到端、现代敏捷开发和部署流程中所需的特性和功能,实现基于量产验证的一致架构,并采用统一工具链的 AI 转型。

“包括开发者、数据科学家、学术界在内的 AI 研究开发社区,不仅持续受益于 Arm 生态系统与合作伙伴提供的丰富信息与知识,也围绕 Arm 计算平台构建日益增长的软件和工具生态系统,以及开源软件库和 AI 框架。比如大家熟知的 PyTorch 开源 ML 框架,广泛用于构建和训练神经网络模型,而我们也很高兴看到 PyTorch 基金会投资边缘 AI,发布针对移动和边缘设备推理工具包 ExecuTorch,提供了轻量级运行时 (Runtime) 和算子注册表,覆盖了 PyTorch 生态系统中的各类模型。此外,由于 Arm 特有的 IP 授权许可模式和开放生态,OEM 和 ODM 可以有多种基于 Arm 架构和计算平台的芯片与模组选择,更灵活地开发适于最终应用的系统方案。”马健表示。

马健介绍,Arm 始终重视协同生态的力量,为开发者提供助力。去年年底,Arm生态系统合作伙伴 Seeed Studios 发布了一款 AI 视觉开发板,该开发板由奇景光电基于 Arm Cortex-M55 和 Ethos-U55 的智能视觉芯片而打造。在这个开发板上,Seeed Studios 集成了一系列的 AI 工具和模型,帮助开发者在这些参考设计以及芯片和开发板上快速地进行 AI的开发。此外,Arm 在发布每款参考设计的同时,也会提供相应的 Arm虚拟硬件,虚拟硬件是对参考设计 IP 组合子系统的一个仿真。仿真可以在子系统的芯片就绪之前,就启动在云端仿真平台上的 AI 和 ML 以及应用的开发。

此外,为了支持中国广大的物联网嵌入式开发者,Arm将虚拟硬件落地在百度云,正在实现与百度 BML 和 EasyDL 工具链的组合,使基于Arm 技术的 AI 开发可以在百度飞桨 (PaddlePaddle)这一中国本土框架上变得更加容易,且实现软硬件协同开发,即在基于 Arm 最新 IP 量产芯片就绪之前,就可以预先做软件应用的开发以及 AI/ML 算法的开发和优化。

责编: 陈炳欣
来源:爱集微 #Arm# #物联网# #大模型#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...