面向灵活并行度的稀疏卷积神经网络加速器OA北大核心CSTPCD
A Sparsity-Aware Convolutional Neural Network Accelerator with Flexible Parallelism
大规模卷积神经网络计算复杂度高且资源开销大,这极大提高了深度学习算法的硬件部署成本.在模型推理过程中充分利用层间稀疏激活的信息冗余,以较低资源开销和几乎无损的网络精度降低推理时延和功耗提供高效的加速器解决方案.针对稀疏卷积神经加速器中控制粒度过大导致运算模块利用率过低问题,本文提出基于FP-GA具有灵活并行度的稀疏卷积神经网络加速器架构.基于运算簇思想对卷积运算模块实现灵活调度,根据卷积层结构在线调整输入通道和输出激活的并行度;根据输出激活并行运算的数据一致性设计了一种输入数据的并行传播方式.本文在Xilinx VC709目标设备上实现了提出的加速器硬件架构,它包含1024个乘累加单元,提供409.6 GOP/s理论峰值算力;实际运算速度在VGG-16模型中达到325.8 GOP/s,等效于稀疏激活优化前加速器的794.63 GOP/s,运算性能达到baseline模型4.6倍以上.
袁海英;曾智勇;成君鹏
北京工业大学信息学部,北京100124北京工业大学信息学部,北京100124北京工业大学信息学部,北京100124
信息技术与安全科学
FPGA卷积神经网络硬件加速稀疏感知并行计算
《电子学报》 2022 (8)
1811-1818,8
评论