适配PAICORE2.0的硬件编码转帧加速单元设计OA北大核心CSTPCD
为了解决北京大学脉冲神经网络芯片PAICORE2.0类脑终端系统中软件编码和转帧过程速度较慢的问题,提出一种硬件加速方法。通过增加硬件加速单元,将Xilinx ZYNQ的处理系统PS端串行执行的软件编码转帧过程转移到可编程逻辑PL端的数据通路中流水化并行执行。硬件加速单元主要包含高度并行的卷积单元、参数化的脉冲神经元和位宽平衡数据缓冲区等。实验结果表明,该方法在几乎不增加数据通路传输延迟的前提下,可以消除软件编码和转帧过程的时间开销。在CIFAR-10图像分类的例子中,与软件编码和转帧方法相比,硬件编码转帧模块仅增加9.3%的LUT、3.7%的BRAM、2.6%的FF、0.9%的LUTRAM、14.9%的DSP以及14.6%的功耗,却能够实现约8.72倍的推理速度提升。
丁亚伟;曹健;李琦彬;冯硕;杨辰涛;王源;张兴;
北京大学软件与微电子学院,北京102600北京大学集成电路学院,北京100871北京大学集成电路学院,北京100871 北京大学深圳研究生院集成微系统科学工程与应用重点实验室,深圳518055
计算机与自动化
脉冲神经网络芯片PAICORE2.0ZYNQ脉冲编码硬件加速卷积加速单元
《北京大学学报(自然科学版)》 2024 (005)
P.786-798 / 13
深圳市科技创新委员会基金(KQTD20200820113105004)资助。
评论