北京大学集成电路学院/集成电路高精尖创新中心13篇论文在DATE 2026大会发表

来源:北京大学 #集成电路# #EDA算法# #智能芯片#
1275

近日,第26届欧洲设计自动化与设计会议(DATE 2026)在意大利维罗纳举行,本次大会上,北京大学集成电路学院(第一完成单位统计)共有13篇论文发表。这13篇论文内容涉及新型EDA算法以及新型智能芯片、架构和系统等多个学术前沿领域。

本次会议中,李萌老师获得2025年国际计算机学会(Association for Computing Machinery, 简称ACM)集成电路设计自动化专业组(Special Interest Group on Design Automation,简称SIGDA)颁发的ACM SIGDA Outstanding New Faculty Award(ACM SIGDA杰出新教授奖),成为该奖项自2000设立以来,第二位获得该奖的中国大陆学者。

部分参会师生合影

李萌老师获得ACM SIGDA杰出新教授奖

新型EDA算法方向发表论文(共6篇)总结如下:

1.面向版图到拓扑映射的最优平面 Pareto 最近邻搜索算法

在现代超大规模集成电路物理设计中,许多关键优化问题都需要在平面版图信息与图拓扑结构之间建立高质量映射。例如,时序驱动布线算法需要首先从平面上的管脚集合中构建稀疏邻接图,再在该图上进行 Steiner 树构建、路径搜索与时序优化等操作。对于每个点而言,四个象限中的 Pareto最近邻是一类兼具一般性与完备性的候选集合,能够为不同距离度量下的后续优化保留潜在最优连接对象。然而,传统 Pareto 最近邻构造方法通常需要进行大量两两比较,时间复杂度达到二次量级,难以适应大规模设计中高扇出线网和海量管脚场景。为解决这一问题,林亦波副教授研究团队提出了一种新型的平面 Pareto 最近邻搜索算法。该方法基于双单调链扫描思想,在保持四象限 Pareto 邻接关系完整性的同时,首次将该问题的求解复杂度降低到输出敏感的最优量级。具体而言,该算法能够在 O(∑ki) 时间和 O(n) 空间内完成全部 Pareto 最近邻搜索,其中 n 为点的总数,ki 为第 i 个点输出的 Pareto 邻居数量。该方法突破了传统 O(n²) 算法瓶颈,在理论上达到了该问题的信息论下界。实验结果表明,在大规模线网上,该算法在保持 OpenROAD 级别 Steiner 树质量的同时,运行速度最高可提升 39 倍。该工作为从几何结构到拓扑结构的高效映射提供了新的基础算法原语,可广泛服务于布局感知优化、时序驱动布线等物理设计任务。该工作以《Provably Optimal Planar Pareto Nearest Neighbor Search with Double Monotone Chains》为题发表,博士生郭资政为第一作者,林亦波副教授为通讯作者。

2.基于新型网格划分算法和层合板理论的高效翘曲仿真

利用有限元方法进行翘曲仿真对于优化2.5D/3D封装系统的可制造性和可靠性至关重要。然而,2.5D/3D封装系统独特的薄层堆叠结构给有限元仿真带来了挑战。一方面,这种结构使得直接划分高质量网格变得非常困难;另一方面,极大的宽高比导致了不成比例的面内和面外刚度,这会显著增加系统矩阵的条件数,使得求解器收敛困难。为了解决这些挑战,林亦波副教授—王润声教授团队提出了一套面向真实场景中复杂2.5D/3D封装结构的高效翘曲仿真算法。首先,团队提出了一种新型的扫掠网格划分算法,可以高效地为复杂2.5D/3D封装结构生成高质量的六面体网格。在生成的扫掠网格的基础上,团队进一步提出了一种改进的层合板理论以消除面外刚度项。相比于传统的二维板理论,该理论具有更高的灵活性和精度。在一系列复杂的2.5D/3D封装系统上的测试表明,和Ansys相比,本工作提出的新型网格划分算法可以大幅度降低网格划分时间及网格数量,或提升网格质量并加快收敛速度,同时误差低于0.5%。在新型网格算法的基础上使用改进的层合板理论时,可以进一步实现3.75倍到12.6倍的求解速度提升,并将误差保持在3%以下。该工作以《Efficient Warpage Simulation of Complex 2.5-D/3-D IC Structures with Novel Meshing Algorithm and Layerwise Plate Theory》为题发表,博士生朱天翔为第一作者,林亦波副教授和王润声教授为通讯作者。

3.面向互连热点预测与缓解的跨层电迁移感知布局布线EDA流程

随着先进工艺节点下芯片互连电流密度持续升高,电迁移(EM)已成为影响超大规模集成电路可靠性的关键问题。现有流程大多在布局布线完成后基于Black方程进行分析,并采用迭代方式处理违例。然而一方面,Black方程中的拟合参数与互连几何和工艺条件密切相关;另一方面,统一温度假设和后处理式修复容易造成过度设计或多轮迭代。为解决这些挑战,刘晓彦教授团队提出了一套跨层电迁移感知布局布线EDA流程:首先结合第一性原理计算与玻尔兹曼输运理论提取互连材料的温度相关电热学参数,并利用物理紧凑模型生成可覆盖不同几何尺寸的EM技术文件;随后构建基于三维热阻网络的GPU加速全芯片热仿真器,在布局布线阶段输出分层温度图;在此基础上,团队分别提出功率感知全局布局策略和EM感知全局布线算法,将温度—线长临界曲线、线长感知图形布线以及基于Dijkstra算法的迷宫布线代价函数嵌入设计流程,从而在设计过程中提前预测并缓解互连EM热点。实验结果表明,在ISPD2018基准电路的测试中,EMaper在多种工作条件下可消除92.1%至100%的EM违例,线长和通孔数量综合开销仅为4.49%至16.3%;在300 K等热条件较温和的场景下,EMaper不引入额外开销,体现了自适应的可靠性优化能力。该工作以《EMaper: Cross-level Electromigration Aware Placement and Routing EDA Workflow for Interconnects Hotspot Prediction and Mitigation》为题发表,博士生叶成林和卢雨泽为第一作者,周正助理研究员和刘晓彦教授为通讯作者。

4.面向复杂拓扑与存储层级空间加速器的通用架构-算子建模框架

随着深度神经网络在智能计算场景中的广泛部署,空间加速器已成为提升算子执行效率的重要硬件平台。然而,现代空间加速器正从传统层次化架构演进到更加复杂的数据流架构,其内部往往包含异构处理单元、单向互连以及跨处理单元的多级存储结构,使得精准的架构-算子联合建模面临显著挑战。现有模型通常将硬件抽象为层次化链式结构、将算子抽象为循环树,难以刻画现代数据流加速器中的复杂拓扑、非对称数据通路与跨层级数据驻留关系,进而导致算子延迟预测不准确,并限制了算子优化与硬件资源利用。针对上述挑战,梁云教授团队提出LATIAS——一种面向复杂拓扑与存储层级空间加速器的通用架构-算子建模框架。该工作首先提出基于单向边的架构图表示方法,用于统一描述从层次化架构到数据流架构的任意硬件拓扑;随后设计数据流感知的tile-centric算子表示,在传统循环树基础上引入数据传输节点,以刻画多样化的数据搬运路径与数据流模式;在此基础上,LATIAS进一步提出图引导的树分析方法,能够在硬件约束下准确解析张量驻留位置、数据传输行为与算子执行延迟。实验结果表明,在华为Ascend 910B3平台上,LATIAS针对GEMM、向量算子、融合向量算子以及来自BERT、ViT、T5等模型的代表性算子形状,实现了与真实运行时间超过0.99的相关性,显著优于现有建模方法,并能够为复杂空间加速器的算子优化与架构设计提供有效指导。该工作以《LATIAS: A General Architecture-Operator Model for Spatial Accelerators with Complex Topology and Memory Hierarchy》为题发表,博士生张呈瑞为第一作者,梁云教授为通讯作者。

5.基于多智能体与大语言模型的宏块布局优化框架

宏块布局(Macro Placement)是数字芯片物理设计中的关键步骤,直接影响芯片的性能、功耗与面积(PPA)。随着设计规模和复杂度的不断提升,传统方法(如模拟退火、解析优化和强化学习)在收敛速度、数据依赖性以及最终PPA优化能力方面存在明显局限。同时,尽管大语言模型(LLM)在自动化设计中展现出潜力,但其在物理约束理解和迭代优化能力方面仍存在不足。为解决上述问题,团队提出了一种基于多智能体协同与反馈驱动优化的宏块布局框架 CHIP-MAP。首先,该方法构建了由 Analysis、Group、Floorplan 和 Verification 四个智能体组成的闭环优化系统,实现设计信息解析、宏块语义分组、布局生成及质量评估的协同优化;其次,引入模块连接权重分析器(MWA)以刻画模块间连接强度,从而指导宏块邻近放置;同时提出标准单元可用性评分(SCUS)用于评估布局连续性与紧凑性,并通过多轮反馈实现布局迭代优化。此外,框架通过结构化约束表达与Chain-of-Thought推理提升了LLM对物理设计规则的理解能力。实验结果表明,在多个OpenROAD基准测试上,该方法可实现最高1.5%的面积优化,并平均修复61.6%的总负时序裕量(TNS),同时在布线长度和时序性能方面均取得显著提升;在极限面积约束下,仍能保持更优的PPA表现,体现出良好的鲁棒性和泛化能力。该工作以《CHIP-MAP: A Collaborative Optimization Framework for Macro Placement Using Large Language Models》为题发表,硕士生杜一鸣为第一作者,梁令助理研究员和蔡一茂教授为通讯作者。

6.面向CMP工艺的神经网络驱动及时序感知虚填充优化方法

在先进工艺节点中,化学机械抛光(CMP)对互连层平坦化至关重要,而虚填充(Dummy Fill)技术是实现CMP均匀性的核心手段。然而,虚填充优化面临多重挑战:CMP过程具有强非线性特性,优化变量维度极高,同时寄生电容效应会对关键路径时序产生负面影响。现有方法(规则驱动、模型驱动及神经网络方法)在优化精度、运行效率和时序协同方面均存在不足。针对上述问题,团队提出了SONIC框架,一种基于神经网络建模与梯度优化的CMP驱动虚填充方法。首先,该方法利用SE-ResUNet构建神经CMP仿真器,实现由版图密度到CMP后高度的快速预测;其次,将虚填充问题建模为可微优化问题,通过反向传播计算密度梯度,并结合L-BFGS-B优化算法实现高效求解;此外,引入时序感知虚填充策略,通过识别关键路径并限制填充区域,同时优化候选填充以降低耦合电容,从而在保证CMP性能的同时减少时序劣化。实验结果表明,与传统方法相比,SONIC在CMP平坦化指标(高度变化、线偏差、异常点)上最高分别降低86.16%、90.10%和51.61%,同时实现最高1830倍的仿真加速,并降低约13.05%的耦合电容,显著提升了优化效率与设计质量。该工作以《SONIC: Smart Optimization for Neural-Integrated CMP with Timing-Aware Fills》为题发表,硕士生谭家俊为第一作者,梁令助理研究员和蔡一茂教授为通讯作者。

新型智能计算电路和架构方向发表论文(共7篇)总结如下:

1.面向多层级异构NPU的量化数据流与量化范式协同优化

随着大模型与智能感知任务在边缘端和高性能计算平台上的快速部署,神经网络量化已成为提升NPU执行效率与能效的重要技术路径。然而,现代多层级异构NPU通常集成分布式存储模块与多类型计算单元,量化算子的高效映射不仅需要协调不同存储层级之间的数据搬运,还需要将反量化、矩阵计算、缩放与激活等多样化操作合理分配至适配的计算单元,给编译优化带来了显著挑战。针对上述挑战,梁云教授团队提出Dolphium——一种面向多层级异构NPU的量化数据流与量化范式协同优化方法。该工作系统构建了从量化计算到数据流映射的优化空间:首先生成NPU友好的量化计算流程,使量化相关操作能够更好适配异构计算单元;其次提出操作与数据的一体化协同映射机制,在计算单元分配与数据布局之间进行联合优化;进一步针对跨存储层级的数据传输,确定合适的数据搬运粒度与频率,从而降低存储访问开销并提升整体执行效率。在此基础上,Dolphium进一步利用量化数据流特征反向指导量化范式选择,使量化策略不再仅由精度约束决定,而是能够结合NPU硬件结构与执行效率进行协同优化。实验结果表明,Dolphium相比现有最先进量化编译器实现了1.67–2.03×的映射加速;同时,其选择的量化范式在不损失模型精度的前提下,在NPU上带来了平均2.18×的效率提升,充分展示了量化算法、数据流映射与多层级异构NPU架构协同优化的广阔潜力。该工作以《Dolphium: Co-Optimizing Quantization Dataflow and Paradigms on Poly-Hierarchical NPUs》为题发表,博士生崔修萍为第一作者,梁云教授为通讯作者。

2.面向智能体大语言模型的资源分区与动态调度芯粒架构

智能体大语言模型(Agentic LLM)通过将大模型作为核心控制器并与外部工具持续交互,正成为处理复杂多步任务的新兴范式。然而,这种多轮迭代的工作流带来了独特的底层挑战:由于每一次工具调用和反馈都会生成新的上下文,系统需要处理持续急剧生长且不可预测的KV Cache;同时,模型在计算密集的预填充(Prefill)阶段与访存密集的解码(Decode)阶段之间频繁切换,导致极端的资源需求不平衡。现有硬件架构难以应对这种动态负载,面临严重的内存带宽瓶颈与资源浪费。为解决此问题,贾天宇助理教授团队提出了软硬协同设计的芯粒架构ACES。在硬件层面,该架构将底层的芯粒阵列划分为专用于预填充的P区、专用于解码的D区,以及可根据实时负载灵活切换角色的弹性S区。在软件层面,团队提出以对话为中心的动态调度策略,通过拓扑感知的任务映射、主动双向缓存同步以及自适应资源转换机制,最大化数据局部性并实现全局硬件资源的动态平衡。评估结果表明,相比现有先进的芯粒基线系统,ACES架构实现了2.33倍的吞吐量提升,并平均降低了58%的端到端对话延迟,展现出卓越的性能与可扩展性。该工作以《ACES: A Chiplet Architecture with Resource Partition and Dynamic Scheduling for Agentic LLMs》为题发表,本科生李泓欧为第一作者,贾天宇助理教授为通讯作者。

3.面向新一代基于芯粒集成和光互连技术的LLM训练机群跨层级优化方法

在大规模分布式LLM训练中,设备间的通信已成为核心性能瓶颈。芯粒技术能通过先进封装将多个芯粒构建成带宽更高、通信延迟更低、规模更大的节点,而光互连技术,特别是共封装光学能够提供节点间长距离、高带宽的集群连接。但如何将二者高效结合并针对LLM训练特征进行架构优化,仍缺乏研究和探讨。为解决这一问题,贾天宇教授团队建立了一个跨层优化框架,协同优化以下三个维度:在架构层,探索单芯粒的裸片面积、集成规模,以及内存和光I/O端口的配置;在网络层,根据训练流量的时空特性优化光互连网络拓扑,并考虑链路动态复用;在系统层,搜索混合并行策略与新型硬件架构进行适配映射。针对芯粒与光互连架构,该工作设计了适配的优化流程以加速搜索时间。结果表明,使用芯粒与光互连技术后,新集群相比于传统GPU集群有19.58倍性能提升。在同样使用芯粒与光互连技术且成本相近的条件下,该工作相比现有先进设计实现了 41%的性能提升,并为未来的集群建设提供了参考与洞察。该工作以《ChipLight: Cross-Layer Optimization of Chiplet Design with Optical Interconnects for LLM Training》为题发表,博士生白康博为第一作者,贾天宇助理教授为通讯作者。

4.面向低延迟机器视觉的可重构3D RRAM传感器内计算架构

尖端机器视觉应用对边缘设备提出了严格的延迟和能效要求。尽管传感器内计算(ISC)和3D RRAM技术能有效减少数据移动开销,但现有架构依赖静态资源分配,无法解决卷积神经网络(CNN)中动态的“转移瓶颈”问题——即早期层受限于计算并行度,后期层受限于数据读出。为解决这一挑战,黄鹏助理教授团队提出了一种名为Re-RIS的可重构3D RRAM传感器内计算架构。该架构能够根据不同层的特征,在高并行度模式与高吞吐量模式之间动态切换硬件粒度,从而优化资源利用率。在VGG-16模型上的实验结果表明,Re-RIS实现了0.93毫秒的端到端延迟,与静态基准相比延迟降低了75%,并实现了244.6 TOPS/W的能效与1.85 TOPS/mm²的面效。该工作以《Re-RIS: A Reconfigurable 3D RRAM In-Sensor Architecture for Low-Latency Machine Vision》为题发表,博士生李诗阳为第一作者,黄鹏助理教授为通讯作者。

5.基于阻变存算一体技术的三维点云并行感知架构与电路设计

随着自动驾驶、机器人与AR/VR等应用的快速发展,三维点云感知任务的实时处理对边缘计算系统的效率与能效提出了更高要求。由于点云神经网络(PNN)中固有的数据依赖特性,传统加速器串行执行降采样与特征计算,导致系统瓶颈相互叠加;而现有存算一体(CIM)架构虽可缓解存储墙瓶颈、加速矩阵向量乘运算,却缺乏对欧氏距离计算的高效硬件支持,使得系统级优化严重失衡。针对上述挑战,王宗巍研究员、蔡一茂教授团队提出GMaC——一种基于RRAM存算一体平台、面向并行点云加速的算法-电路-架构协同设计。该工作提出硬件友好的几何映射算法,将输入点云解耦为全局体素坐标与局部相对坐标,使降采样与特征计算得以在专用硬件单元中并行执行,削减近半系统时延;在电路层面,设计了新型RRAM-based地址索引计算电路,在模拟域直接完成欧氏距离所需的差值与平方乘运算,显著缓解最远点采样带来的巨额数字电路开销;针对系统级优化,提出可扩展双指针缓冲区,以单尺度坐标高效重构多尺度特征表示,大幅降低片上缓存压力。实验结果表明,GMaC相比SOTA ASIC设计实现3.57×加速与4.96×能效提升,充分展示了RRAM存算一体技术在边缘点云智能感知中的广阔潜力。该工作以《GMaC: NvCIM Architecture for Parallel Point-based Point Cloud Acceleration via Geometric Mapping and Address-Index Computation》为题发表于DATE 2026(博士生高一为第一作者,王宗巍研究员为通讯作者)。

6.低数据冗余的混合读出动态视觉传感器与像素内去噪架构

动态视觉传感器(DVS)凭借事件驱动、高时间分辨率和低功耗等优势,在自动驾驶、具身智能和低延迟机器视觉等场景中具有重要应用潜力。然而,在相机运动或低光照条件下,DVS容易产生大量冗余事件和噪声事件,削弱其数据稀疏性与感知可靠性。为解决这一挑战,唐希源研究员—王源教授团队提出了一种名为LiteDVS的低数据冗余动态视觉传感器架构。该架构首先引入基于感兴趣区域(ROI)的混合读出机制,在关键区域保留异步事件流以维持微秒级时间精度,而在背景或低重要性区域将事件积分为事件帧,从而降低数据传输冗余。进一步地,团队设计了一种兼容事件流和事件帧两种模式的轻量级像素内去噪单元,通过局部时空相关性判断并在行列仲裁前抑制噪声事件,实现低延迟、低开销的片上去噪。该设计采用SMIC 55 nm CMOS工艺实现,阵列规模为128×128,像素间距为9.27 μm,填充因子为19.5%。仿真结果表明,LiteDVS在事件流模式和事件帧模式下的去噪能耗分别为317 fJ/event和41.8 fJ/event,并在运动与静止场景中保持了具有竞争力的去噪AUC表现。该工作在保持DVS低延迟优势的同时,实现了冗余压缩、低功耗和鲁棒去噪的统一,为面向边缘智能和低功耗视觉系统的新型事件相机设计提供了有效方案。该工作以《LiteDVS: A Low-Data-Redundancy Dynamic Vision Sensor with Hybrid Readout and In-Pixel Denoising》为题发表,博士生孔子琛为第一作者,唐希源研究员和王源教授为通讯作者。

7.基于忆阻器的高能效基因组处理加速器

随着生物信息学的快速发展,基因组处理任务(包括序列比对和分类等)所需的计算密集度不断提高。在处理这些任务时,传统的冯·诺依曼架构处理器由于数据传输带宽受限,面临着速度和功耗上的严峻挑战。尽管存内计算范式(IMC)可以缓解这一问题,但现有的存算一体基因组处理架构通常会因多比特序列编码而产生较高的硬件开销。针对上述挑战,杨玉超教授-陶耀宇助理教授团队提出了MGPA——一种基于RRAM存算一体架构的低延迟、高能效基因组处理加速器,它采用了一种紧凑的序列编码方案,可将器件数量减少50%~75%。在单细胞RNA测序任务的仿真中,MGPA相比SOTA IMC方案实现了51.7倍的加速和394.6倍的能效提升,充分展现了基于忆阻器的存算一体架构在序列匹配与分析领域的潜力。该工作以《MGPA: A Memristor-based Genome Processing Accelerator for Single-cell RNA Sequencing》为题在DATE 2026发表(本科生韩阳与博士生余连风为共同第一作者,杨玉超教授、陶耀宇助理教授为通讯作者)。

责编: 集小微
来源:北京大学 #集成电路# #EDA算法# #智能芯片#
THE END
关闭
加载

PDF 加载中...