SpMV计算的ARM和FPGA异构加速器设计OA北大核心CSTPCD
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。
朱明达;薛济擎;艾纯瑶;
中国石油大学(北京)信息科学与工程学院,北京102249
计算机与自动化
稀疏矩阵向量乘(SpMV)异构加速器硬件加速
《电讯技术》 2024 (002)
P.302-309 / 8
中国高校产学研创新基金(2020HYA08001);中国石油大学(北京)科研基金(2462020YXZZ025)。
评论