北京大学集成电路学院/集成电路高精尖创新中心共3篇论文在MICRO 2024大会发表

作者：集小微 11-15 15:50

来源：北京大学 #集成电路# #高层次综合# #北京大学# #北大集成#

7126

近日，以北京大学集成电路学院为第一完成单位的3 篇论文在美国奥斯汀举行的第57届微架构国际研讨会（57th International Symposium on Microarchitecture，MICRO‘57）发表，此次会议论文接受率为22.7%（113/497）。3 篇论文的成果涵盖高层次综合，CXL内存等多个方面。

01.Hestia: 面向高层次综合的跨层次调试器

高层次综合（HLS）通过自动将高层次描述转换为寄存器传输级（RTL）设计，为硬件设计提供了软件级的设计机会。然而，HLS编译器往往被视为复杂的黑盒过程，缺乏对设计者的透明度，进而影响调试过程。程序员通常依赖于仿真HLS设计，以理解生成的硬件行为。RTL仿真作为主流的硬件调试方法，在应用于HLS设计时耗时长且细节过多。而软件级仿真虽快速，但无法模拟硬件特有的细节。调试难题的核心在于软件描述与RTL实现之间的语义差异。为应对这一挑战，梁云团队提出了名为Hestia的高效跨层调试器，使得HLS设计的多层级调试成为可能。Hestia提供了多层级解释器，帮助减少硬件细节负担并降低时间成本，从而在HLS流程中调试各种问题。通过跨层级的等效映射，Hestia便于定位并识别错误，提供多种粒度的断点与单步调试。该工作从仿真效率、调试能力和可扩展性三个方面验证了Hestia的有效性。实验结果表明，Hestia相比传统的RTL仿真和现有方法，在仿真速度上实现了显著提升。该工作以《Hestia: An Efficient Cross-level Debugger forHigh-level Synthesis》为题发表（博士生徐瑞帆为第一作者，梁云教授为通讯作者）。

02.面向基于CXL的异构内存系统的软硬件协同内存分层技术

Compute Express Link（CXL）互连通过其字节可寻址的SerDes链路，使得将多种类型的内存集成到服务器中成为可能。由于存在不同的访问延迟，要充分释放基于CXL的异构内存系统的潜力，亟需高效的内存分层管理技术。然而，现有研究由于内存访问分析技术分辨率低且开销大，难以取得实质性进展。为应对这一关键挑战，孙广宇团队提出了一种名为NeoMem的创新内存分层解决方案，采用硬件和软件协同设计。NeoMem将内存分析功能卸载到CXL设备端控制器，并集成了一个名为NeoProf的专用硬件单元。NeoProf能够实时监控内存访问，并向操作系统提供关键的页面热点统计信息和其他有用的系统状态信息。在操作系统内核方面，孙广宇团队设计了一种全新的内存分层策略，基于NeoProf提供的统计数据，实现对热点页面的准确和及时提升。该工作在基于FPGA的真实CXL内存平台和Linux内核v6.3上实现了NeoMem。综合评估结果表明，与现有多种内存分层解决方案相比，NeoMem实现了32%至67%的几何平均加速效果。该工作以《NeoMem: Hardware/Software Co-Design forCXL-Native Memory Tiering》为题发表（博士生周哲与博士生陈奕奇为共同第一作者，孙广宇副教授为通讯作者）。

03.针对数据库多算子加速的忆阻器存算一体指令集架构

随着信息技术的迅猛发展，数据量的急剧增加和处理需求的不断提升，现代数据库系统面临存储效率、数据传输效率和计算效率三大挑战。然而，现有的以存储为中心的计算架构尚未以非易失性器件为存储介质，并且无法支持泛用数据库算子的执行。为了解决这些关键问题，该工作设计并提出了基于新兴忆阻器交叉阵列的MeMCISA指令集架构，不仅保留了存内计算的高并行度优势，还享有近存计算对算子的广泛支持。该工作为这种存内和近存计算结合的模式开发了新的多周期向量指令集，支持比特级、元素级、向量级和数据流控制指令。基于向量指令集，该工作设计了乱序调度机制，采用三阶段流水并行执行，相比顺序调度，极大提高了硬件资源的利用率，在单条跨模块命令上就可以达到1.72倍到7.46倍的速度提升。团队同时设计了端到端仿真框架，支持单命令模式和代码块模式。其中，代码块模式能够根据带有MeMCISA标签的PyTorch/SQL代码块生成相应的汇编格式指令，并在架构中调度和执行这些指令。MeMCISA架构在执行单条命令时，处理速度较传统架构提升了33.86倍至3561.56倍，而在处理多种数据库工作负载时，提升了41.84倍至1767.70倍。此外，MeMCISA的能耗相较于传统架构同样有所降低。该工作以《MeMCISA: Memristor-enabled Memory-Centric Instruction-Set Architecture for Database Workloads》为题发表（论文的第一作者是北京大学集成电路学院2022级博士研究生朱奕航，通讯作者是北京大学杨玉超教授和陶耀宇研究员）。

背景链接

在芯片制作的流程中，好的工艺和设计自动化（EDA）工具构成了芯片的躯体，决定了芯片的性能极限；而体系结构则是芯片的大脑，负责控制芯片的组织架构，以充分发掘芯片的性能。由电气电子工程师协会（IEEE）和美国计算机学会（ACM）共同举办的微架构国际研讨会（MICRO）是最富有影响力的微架构领域国际会议之一。该会议是展示、讨论和辩论先进计算和通信系统微体系结构思想和技术的顶级论坛。会议旨在结合学术界与工业界的不同观点，讨论面向未来的芯片架构。MICRO 与计算机架构国际研讨会（ISCA）共同被认为是体系结构领域最重要的两个会议。今年，MICRO 为第 57 届会议，于 2024 年 11 月 2 日到 11 月 6 日在美国奥斯汀举行。