“一心多用”:SMT技术成为智能体时代的效率提升密码

来源:灵睿智芯 #灵睿智芯# #SMT技术#
1704

在CPU技术的演进历程中,有一项技术始终扮演着“隐形功臣”的角色——它没有大小核调度那样的高调亮相,也没有AI加速单元那样的光环加身,却默默支撑着服务器在亿万并发请求中高效运转。这就是同时多线程(Simultaneous Multi-Threading,简称SMT)技术,Intel CPU中广为人知的“超线程”(Hyper-Threading)就是SMT技术的一种具体实现。

什么是SMT?

让一个核心“分身”干活

简单来说,SMT技术让一个物理CPU核心能够同时执行多个线程的指令。在操作系统看来,一个物理核心等同于多个逻辑核心。打个比方:传统的非SMT核心就像一条单车道公路,同一时间只能有一辆车通行;而SMT核心则像一条多车道公路,多辆车可以并排行驶,互不干扰。

单线程与SMT线程的对比(来自AMD官网)

从技术原理上看,SMT是超标量技术与多线程技术的深度结合。超标量技术让CPU可以在一个时钟周期内执行多条指令;多线程技术则让CPU可以同时处理来自多个线程的指令。SMT将两者融合,在每个时钟周期从多个线程中选择不相关的指令,发射到不同的功能部件去执行。由于这些指令来自不同线程、彼此没有数据依赖关系,CPU能够充分填满执行单元的“发射槽”,最大化计算资源的利用率。

SMT的理念最早可追溯至1968年IBM的ACS-360项目。自20世纪90年代后期起,IBM开始在POWER系列处理器中推进SMT技术的商业化落地,早期产品相继采用SMT2与SMT4规格;自2013年发布的POWER8起,其核心产品线持续沿用SMT8技术。在x86阵营中,英特尔率先实现SMT技术的商业化,于2002年在奔腾4处理器上首次引入超线程技术,此后SMT技术逐步成为英特尔至强系列和AMD Zen架构服务器处理器的标准配置。

Intel超线程技术(来自Intel官网)

SMT的核心价值:

榨干CPU的每一分算力

为什么SMT如此重要?答案在于效率。

现代乱序超标量CPU拥有强大的执行单元(如算术逻辑单元、浮点单元等),但单个线程的指令流往往无法填满这些执行单元——因为很多指令存在数据依赖:或是等待前一条指令的计算结果,或是等待数据从主存读入。这就导致执行单元时常处于“饥饿”状态,大量算力被白白浪费,这种情况在IO密集型和控制密集型任务场景中尤为突出。

SMT技术正是为了解决这一问题而生。当一个线程因缓存未命中需要访问主存、或因对其它指令的计算结果依赖而“卡住”时,SMT可以让另一个线程的指令立即填充进来,保持执行单元持续运转。英特尔曾表示,超线程设计实现了约30%的性能提升,而晶体管或面积代价仅仅在5%左右。

值得一提的是,SMT技术的研发并非国际大厂专属。国内企业如海光、灵睿智芯等,均已掌握扎实的多线程核心技术。以灵睿智芯的P100内核为例,作为国内首款实现动态SMT4的RISC-V CPU内核,它不仅提供最高4线程的并发能力,更创新性地支持运行时动态线程模式切换——通过操作系统配置,可实时在SMT1至SMT4间调整,而无需重启系统,在灵活性与能效比上展现出独特优势。

SMT4与4-core Cluster的对比(来自灵睿智芯)

智能体时代:

为什么SMT变得更加重要?

如果说SMT在过去是“锦上添花”,那么在智能体时代,它正在成为“雪中送炭”。

智能体(AI Agent)与大模型推理有着本质区别。大模型推理的核心是“生成”——输入提示词,输出文本;而智能体的核心是“执行”——拆解任务、规划步骤、调用工具、验证结果、循环迭代。一个智能体可能需要完成代码编写、网页抓取、数据库查询、API调用、沙盒环境运行等一系列操作。这些工作负载呈现出鲜明的“控制流密集”与“IO密集”交织的特征——大量分支判断、系统调用、上下文切换和工具间数据交互贯穿其执行全过程。

智能体的运行模式对CPU提出了前所未有的依赖。据Intel与佐治亚理工学院联合研究表明,CPU侧运行时间占智能体端到端执行时间的50%至90.6%,这意味着CPU已成为智能体性能的关键瓶颈。相比之下,大模型训练和推理以GPU为核心,计算量大但逻辑相对单一;而智能体工作负载中包含的大量串行逻辑、系统交互和内存访问,正是CPU的“主场”。

这一趋势在头部厂商的产品布局中得到充分验证——英伟达在GTC 2026上发布的Vera CPU,是全球首颗专为AI智能体超大规模运行打造的处理器。Vera搭载88个自研Olympus架构ARM核心,首次采用空间多线程(SMT2)技术,目标直指智能体场景中代码编译、运行时执行、脚本编写、数据转换等串行任务的加速和并发需求,其沙盒环境性能较传统CPU基础设施最高可提升70%。

Nvidia Vera CPU(来自Nvidia官网)

SMT:

支撑智能体大规模部署的关键技术

智能体的爆发式增长对CPU提出了双重挑战:既要单核够快,又要并发够多。SMT技术正是应对这一挑战的高效解决方案。

首先,SMT显著提升了单核心的任务并发能力。在智能体场景中,每个智能体可能同时运行多个子任务——一个线程负责推理决策,另一个线程负责工具调用,第三个线程负责结果验证。SMT让这些线程可以在同一物理核心上并行执行,减少了核心之间的通信延迟和缓存同步开销。

其次,SMT大幅提高了CPU的资源利用率。智能体工作负载常常包含大量的I/O等待和内存访问延迟——比如等待数据库查询结果、等待网页加载、等待代码编译完成。在这些“等待间隙”中,SMT可以让其他线程的指令插入执行,避免执行单元空转。

第三,动态SMT技术可以根据负载特性灵活调整并发度。计算密集型场景可以降低SMT级别以提升单线程性能;I/O密集型或高并发场景则可以提升SMT级别以增加吞吐量。灵睿智芯P100的SMT1至SMT4的动态切换能力,正是这种灵活性的最佳体现。

结语

从IBM在1968年的首次提出,到POWER和x86架构的商业化落地,再到今天英伟达为智能体时代量身定制——SMT技术走过了半个多世纪的发展历程。它可能不是最“性感”的技术,但正是这种“让每个核心物尽其用”的效率哲学,支撑起了从云计算到AI工厂、从数据中心到智能体应用的庞大算力需求。

英伟达创始人黄仁勋在GTC Taipei 2026上说了一句意味深长的话:AI工厂的竞争,已经从“每张卡多少钱”变成“每瓦电能产出多少token”。在这种效率至上的竞争逻辑下,SMT技术将扮演越来越关键的角色——它让每一个CPU核心都能“一心多用”,以最低的成本承载最高的并发,为智能体的大规模部署提供坚实的算力基座。

责编: 爱集微
来源:灵睿智芯 #灵睿智芯# #SMT技术#
THE END
关闭
加载

PDF 加载中...