炬芯科技周正宇：焕新声音活力，AI驱动下的音频芯片创新

作者：爱集微 2023-11-16

来源：爱集微 #炬芯科技# #ICCAD#

3.5w

人类高度依赖对声音的感知，从某些角度出发甚至高于对于视觉的依赖。海伦凯勒说：盲隔离人和物，聋隔离人和人。可以说声音是人与人交互最重要的手段。人对声音的高度依赖从生到死永不停息，耳朵是一生从不关断的感应装置，即使在睡眠中也始终保持敏锐，每时每刻都在接收环境内所有的声音并传递给大脑。因此，在人工智能时代，声音也将是人机交互的最重要手段之一。

也正因为人类对声音感知的高度依赖，人类对美好声音的追求永无止境。从最早的留声机到收录机、从CD到 MP3，从蓝牙音箱到TWS 耳机，人们对高品质音频体验的追求更是永不停息，昨天发烧友的愿望往往成为明天普通人的标配。相伴而行的是人们持续对于音频产品便携化，小型化，长待机的需求。

历史证明了，音频产品虽然历史悠久，但却常常在各个时代引领时尚。从早期的留声机到八十年代的收录机成为家庭和街头的时尚，从70年代的三转一响到80-90年代八大件作为结婚标配，都有音频产品引领时尚的历史痕迹。苹果公司是全球最具创新力的公司之一，多次以颠覆性的创新改变人们的生活，其中有两次都是以音频产品成功引领时尚，一次是iPod引领 MP3 便携式音频的新体验，其后是Airpods引领TWS耳机风潮。

近几年，以亚马逊Alexa为标志的智能音箱风靡一时，带来了人机语音互动的新体验。新一代基于语音互动的ChatGPT则让所有人对于未来的AI体验有了无尽的想象空间。相信在AI 时代，AI化的音频产品依然会引领 AI 时代的时尚，最早落地生根。而芯片，是让这些引领时尚的音频产品成为现实的核心，音频 AI 化必将再一次驱动芯片跳跃式创新。

2023年11月10日，炬芯科技股份有限公司董事长兼CEO周正宇博士受邀出席中国集成电路设计业2023年会（ICCAD2023)，结合音频领域的发展趋势及AI时代热潮，分享便携式产品如何在AI时代打造高算力，发表主题演讲：《焕新声音活力：AI驱动下的音频芯片创新》。

低功耗前提下打造高算力是便携式AI音频SoC的核心基础

周正宇博士指出：AI时代，对于音频穿戴或者音频便携式产品而言，提升AI体验的挑战和机遇，是如何在每毫瓦功耗上打造尽可能大的算力，而不是简单追求大算力绝对值。以电池供电为基础的便携式音频或者穿戴产品，成功AI化的核心诉求是在低功耗下打造大算力，才能实现更好的AI体验。

算力和功耗两者是矛盾的统一体，大算力必然需要更大的功耗，功耗的增大又成为算力提升的障碍。周正宇博士提到，“实现单位mW下算力的数量级提升不能光是期待和依赖先进工艺，必须在计算架构和芯片电路实现上进行创新。”

以最典型的两种穿戴产品：TWS耳机和智能手表为例，基于4.2V的锂电池供电, 其使用的典型完整功能 SoC平均工作电流一般在3-5mA；也就是说, 便携式音频或穿戴产品核心SoC整体功耗总预算在15-20mW以下，在电池技术没有革命性变革的情况下，便携式音频或穿戴产品SoC应该以10mW或者以下的功耗预算来打造更大的AI算力。

通过对当下较著名的不同领域AI模型和算法所需算力进行系统的分析和归纳，AI音频模型算力需求基本在1TOPS 以下，并且典型算力在200-500GOPS即可提供很好的音频AI体验。所以，我们面对的挑战是如何在低于10mW的功耗下打造200-500GOPS的AI算力。200-500GOPS的算力貌似挑战不大，几乎所有的NPU IP都能达成，但在10mW以下的功耗预算内达成却极具挑战。

以基于传统计算架构的NPU周易公开数据为例，它在28nm下能效比约2TOPS/W, 也就是说200-500GOPS需要100-250mW的功耗，比10mW以下的功耗预算高了10-25倍以上。即便使用7nm，周易可以达成10TOPS/W，但功耗仍有20-50mW，仅进入了合理的量级，依然高了2-5倍。换而言之，即使使用7nm先进工艺，在功耗限制下依然只能提供比目标值低很多的算力。

也就是说，要达到“10mW以下功耗预算打造200-500GOPS的音频AI算力”的目标，传统冯诺依曼计算架构必须依赖比7nm更先进的工艺，如5nm或者3nm，并且这都还是假设传统NPU能够发挥百分百的计算效率, 不受“存储墙”和“功耗墙”的限制。

冯诺依曼计算架构的特点是存储和计算是完全分离的，由于处理器的设计以提升计算速度为主，存储则更注重容量提升和成本优化，“存”“算”之间性能失配从而导致了访存带宽低、时延长、功耗高等问题，主要功耗消耗及性能瓶颈在存和算之间的数据搬移，即通常所说的“存储墙”和“功耗墙”。访存愈密集，速度越快，“墙”的问题愈严重，算力提升愈困难。

为了突破冯诺伊曼架构的“存储墙”和“功耗墙”，存内计算（Compute-In-Memory ，简称CIM）是一种富有潜力的技术路径。在芯片设计过程中，不再区分存储单元和计算单元，真正实现存算融合，在存储单元上实现计算，直接消除“存”“算”界限，使计算能效达到数量级提升。这样的一种极度的近邻的布局，基本上完全消除了数据移动延迟和功耗, 是解决传统冯诺依曼架构下存储墙与功耗墙问题的关键技术。

当下，基于几种最普及的存储介质，例如Flash, DRAM, SRAM和其它新兴Memory发展CIM各有优缺点和合理的应用领域。基于Flash的CIM最大问题在于写速度慢而且写的次数有限制，写多次后芯片就坏了，同时它需要使用特殊工艺，虽成熟但不宜和SoC的其他电路整合，不是CIM技术的理想选择。基于DRAM的CIM虽然没有写次数的限制，但相对能效比在四种介质中最低，不适合低功耗算力的打造，同时DRAM也是特殊工艺无法在SoC集成，但它具备密度高的优势，所以适合云计算、服务器类打造超大算力采用。新兴的存储介质如RRAM、MRAM等虽然理论上具备非常多的优势，未来可能给大家带来惊喜，但当前工艺极其不成熟，还没有到可大规模量产的阶段。

而基于SRAM的CIM最大缺点是密度低不适合适用在超大算力（如几十TOPS的AI应用），然而上述讨论音频AI应用并不需要超大算力（仅0.2-0.5TOS），有效规避了SRAM的密度相对小的弱点。

于是在低功耗下打造音频产品算力的应用里，基于SRAM的CIM具有非常显著的技术优势包括：

1、能效比高，功耗低，读写速度快，适合低功耗高性能装置使用；

2、写次数没有限制，适用于模型反复调整的，基于自学习或者自适应的AI模型和算法，也便于需要经常切换模型的支持多种神经网络算法的自适应调节和分时处理；

3、工艺成熟，可大规模量产。标准CMOS工艺成熟，稳定，普适，所有的FAB都可大规模生产；

4、工艺领先，适合集成。容易采用最先进的工艺节点，方便在任何工艺节点实现单芯SoC 集成。

周正宇博士总结：针对低功耗的音频SoC，基于SRAM的CIM是目前打造低功耗音频AI算力的首选。

在极低的功耗预算下达成为便携式或穿戴产品提供音频 AI 算力

基于SRAM的CIM电路实现有两种主流的实现方法，一是基于纯模拟设计的电路实现，另一种是基于模数混合设计的电路实现。它们的主要差异在于模拟CIM的运算单元以ADC和模拟乘法器和加法器实现运算单元，而模数混合的CIM的运算单元则是使用custom-design的方式来融合存储单元和实现数字的逻辑运算单元。周正宇博士提出，炬芯科技选择了基于模数混合电路的SRAM存内计算（Mixed-Mode SRAM based CIM，简称MMSCIM）的技术路径，它兼备模拟和数字电路各有的优势，当然设计的壁垒也相对高。

相对于模拟CIM的设计思路，MMSCIM有几个明显的好处：

第一，精度是无损的，模拟是会受电路的噪声和环境因素的干扰，每一次计算出来的结果并不完全一致，精度有损失。

第二，数字实现运算单元具有高可靠性和高量产一致性，这是数字化天生的优势。

第三，易于工艺升级和不同FAB间的设计转换。

第四，容易提升速度，进行性能/功耗/面积(PPA)的优化。

第五，资料的读取与计算在 SRAM 内部是同步的，能效比更高。

第六，自适应模型的稀疏性易基于此提升能效比。

MMSCIM基于已经实现的Testchip测试和估算结果，在22nm工艺下能效比能达到7.8TOPS/W，接近使用7nm先进工艺实现的传统架构NPU；MMSCIM预计在16nm下能效比能达到15.6TOPS/W，高于7nm先进工艺下传统架构的NPU。但10mW以下的功耗下依然不足以打造出200-500GOPS算力的需求，所以技术上还需要继续创新。

周正宇博士提出, 利用AI矩阵计算的稀疏性提升能效比将是一个重要突破口。音频算法的AI模型大部分具有矩阵稀疏性的特性，也就是有许多模型参数为零，遇到零可以不做运算，以便节省功耗。传统NPU可以通过特殊逻辑电路设计来执行Skip-Zero技巧以降低功耗。然而，这种Skip-Zero的逻辑电路对于一维AI算子相对容易实现，但面临2D算子则实现挑战较大，而且需要付出额外逻辑电路成本和功耗的代价，使得Skip Zero所提升的能效比有所打折。

而MMSCIM却拥有天生的自适应稀疏矩阵的特性，乘法运算单元遇到输入零则不耗电，无论1D或2D的算子，都能无需附加逻辑电路的帮助自然达成Skip-Zero 的效果，使得MMSCIM技术浑然天成达到更好的能效比。

炬芯科技透过仿真分析, 当矩阵稀疏性在50%-80%的范围内，MMSCIM在22nm可以达成24.5TOPS/W-70.38TOPS/W的能效比，对应10mW功耗可以打造245GOPS-704GOPS算力。而在12nm的实现下, 在矩阵稀疏性在20%-50%的范围内，能效比就达成23.5-46.9TOPS/W, 对应10mW的算力可达235GOPS-469GOPS。

所以，基于模数混合设计的 SRAM based存内计算（MMSCIM），在稀疏矩阵的加持下，两者有机结合，可以在极低的功耗预算下，可达成为便携式音频或穿戴产品提供音频 AI 算力的目标，即“在10mW以下功耗预算打造200-500GOPS的音频AI算力”，且可实现迅速的大规模量产。 22nm MMSCIM能效比就有望超过 7nm传统冯诺依曼架构的NPU，12nm的情况下大幅超越7nm传统架构的NPU。

炬芯科技将推出最新基于MMSCIM的高端AI音频芯片

周正宇博士最后分享总结，音频AI化将再次驱动芯片技术的创新，尤其是 SoC技术的创新，而这个创新的最主要的基础是如何在端侧便携式产品上在低功耗前提下来提供大算力，这是穿戴和便携式SoC以及终端产品在 AI 时代所面临的挑战，只有坚持不懈地创新，才能帮助大家突破困局，也为国产端侧AI音频芯片带来了巨大的市场机会。

一直以来，炬芯科技致力于打造基于CPU+DSP双核异构音频处理架构的低功耗下的低延迟高音质技术，炬芯科技将顺应人工智能的发展大势，从高端音频芯片入手，整合低功耗 AI 加速引擎，逐步全面升级为 CPU+DSP+NPU（based MMSCIM）三核异构的AI SoC架构，为便携式产品提供更大的算力。不久将为AI降噪、人声分离、人声隔离等应用带来高品质的提升，也将广泛应用于智能音频、智能办公、智能教育、智能陪护等多个市场领域。