电子科技大学“网络与分布式系统”实验室连续在计算机系统结构CCF A类会议和期刊发表论文

来源:电子科技大学 #GPU优化# #三对角化# #性能提升#
1424

近日,计算机科学与工程学院(网络空间安全学院)“网络与分布式系统”实验室的研究成果在计算机体系结构CCF A类会议PPoPP与A类期刊TPDS上录用。电子科技大学均为两篇论文的第一单位与通讯单位。

以2023级博士生王瀚生为第一作者的“Improving Tridiagonalization Performance on GPU Architectures”(作者:王瀚生、段哲凯、赵子天、伍思琦、郑塞琦、李乔、姜徐、张少帅【通讯作者】)论文被PPoPP 2025录用。

矩阵的三对角化是矩阵特征值分解的重要步骤,通常占据特征值分解90%以上的计算时间。然而,在GPU架构上,尤其是英伟达最新的H100 GPU上,英伟达官方cuSOLVER库的特征值分解仅能达到H100峰值性能的3%;由图灵奖得主Jack Dongarra主导研发的MAGMA库中的特征值分解算法同样只能利用H100峰值性能的4%。

本论文深入分析了矩阵的三对角化的性能,指出了其中的性能瓶颈在于其中的矩阵秩2k更新与CPU侧的Bulge Chasing。对于传统算法中的矩阵秩2k更新,其性能仅能达到H100峰值性能的30%,因此本论文区别于传统算法中的单分块方式,首次提出了双分块算法,使得矩阵秩2k更新的效率可以达到硬件峰值性能的70%以上。

而对于Bulge Chasing这一瓶颈问题,之前由图灵奖得主Jack Dongarra于2018发表的论文认为Bulge Chasing的计算很难由GPU进行加速。本论文充分挖掘了Bulge Chasing中的块内与块间并行性,并高效实现了底层的CUDA算子,最大达到最优算法的12.5倍的性能提升,进而否定了此前关于Bulge Chasing难以被GPU加速的论证。最终本轮文相对于英伟达官方cuSOVLER库与MAGMA库在三对角化上最大达到了10.1倍的性能提升,并在整体的特征值分解上达到了6.1倍的性能提升。

ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming,即PPoPP,是由ACM主办的并行计算国际会议,为计算机体系结构领域CCF A类会议,2025年PPoPP仅收录38篇论文,本论文为近五年西南地区发表的唯一一篇PPoPP论文。本次会议将于2025年3月1日至5日在美国拉斯维加斯举办,网络与分布式系统实验室成员将参会并宣讲论文。

以2022级硕士生冷玉含为第一作者的“High Performance Householder QR Factorization On Emerging GPU Architectures Using Tensor Cores”(作者:冷玉含、邹高远、王瀚生、Panruo Wu、张少帅【通讯作者】)论文被TPDS录用。

Tensor Cores是英伟达为其GPU设计的一种专用硬件加速单元,设计目标是加速深度学习和高性能计算中的矩阵运算。自其问世以来,深度学习等领域的计算速度得到了飞速提升。与此同时,也有不少研究者将Tensor Cores应用扩展至科学计算领域,利用其对矩阵乘法的加速效果来实现计算的整体性能提升。作为科学计算中重要且常见的矩阵分解,在优化方面往往也需要先对矩阵进行分块分解,再利用GPU强大的并行计算能力加速其中涉及的乘法部分。

本论文在将Tensor Cores扩展至矩阵分解的基础上,深入硬件底层特性,考虑矩阵的不同精度(FP16、FP32、FP64)表示提出针对性的Householder QR分解优化方法,尤其考虑对于高瘦矩阵,进行内部二次分块计算,优化实际分解矩阵形状,提高计算访存比,从而突破高瘦矩阵的计算效率瓶颈。除此之外,本论文在保持高性能矩阵分解的同时,显著减缓了QR分解中正交性损失的问题。与英伟达官方cuSOLVER库相比,本论文的算法实现在英伟达 A100和RTX GeForce 3090 GPU上能获取最高8.67倍的加速比。

《IEEE Transactions on Parallel and Distributed Systems》(TPDS)是由IEEE主办的并行与分布式计算领域顶级期刊,为中国科学院/JCR一区与CCF A类期刊。该期刊主要收录并行与分布式计算领域的并行计算系统、边缘计算系统、通信系统和高性能计算领域论文。

责编: 集小微
来源:电子科技大学 #GPU优化# #三对角化# #性能提升#
THE END
关闭
加载

PDF 加载中...