基于FPGA的YOLOv5s网络高效卷积加速器设计OA北大核心CSTPCD
为提升在资源受限情况下的嵌入式平台上卷积神经网络(Convolutional Neural Network,CNN)目标识别的资源利用率和能效,提出了一种适用于YOLOv5s目标识别网络的现场可编程门阵列(Field Programmable Gate Array,FPGA)共享计算单元的并行卷积加速结构,该结构通过共享3×3卷积和1×1卷积的计算单元提高了加速器硬件资源利用率。此外,还利用卷积层BN(Batch Normalization)层融合、模型量化、循环分块以及双缓冲等策略,提高系统计算效率并减少硬件资源开销。实验结果表明,加速器在200 MHz的工作频率下,实现的卷积计算峰值性能可达97.7 GOPS(Giga Operations per Second),其YOLOv5s网络的平均计算性可达78.34 GOPS,与其他FPGA加速器方案相比在DSP效率、能耗比以及整体性能等方面具有一定的提升。
刘谦;王林林;周文勃;
中国科学院国家空间科学中心,北京100190 中国科学院大学计算机科学与技术学院,北京100049中国科学院国家空间科学中心,北京100190
计算机与自动化
卷积神经网络(CNN)目标识别YOLOv5s并行卷积加速结构
《电讯技术》 2024 (003)
P.366-375 / 10
国家重点研发计划(2020YFE0202100)。
评论