动态深度神经网络的硬件加速设计及FPGA实现OA北大核心CSTPCD
基于现场可编程门阵列(Field Programmable Gate Array,FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备。然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题。为此,提出了动态深度神经网络的实现方法。通过引入模型定点压缩技术和并行的卷积分块方法,并结合低延迟的数据调度策略,实现了高效卷积计算。同时对神经网络动态退出机制中引入的交叉熵损失函数,提出便于硬件实现的简化方法,设计专用的加速电路。根据所提方法,在Xilinx xc7z030平台部署了具有动态深度的ResNet110网络,平台最高可完成2.78×104 MOPS(Million Operations per Second)的乘积累加运算,并支持1.25 MOPS的自然指数运算和0.125 MOPS的对数运算,相较于i7-5960x处理器加速比达到287%,相较于NVIDIA TITAN X处理器加速比达到145%。
王鹏;任轶群;范毓洋;张嘉诚;
中国民航大学民航航空器适航审定技术重点实验室,天津300300 中国民航大学安全科学与工程学院,天津300300中国民航大学民航航空器适航审定技术重点实验室,天津300300 中国民航大学电子信息与自动化学院,天津300300中国民航大学民航航空器适航审定技术重点实验室,天津300300
计算机与自动化
边缘设备动态深度神经网络动态退出机制硬件加速加速电路
《电讯技术》 2024 (003)
P.358-365 / 8
国家重点研发计划(2021YFB1600600);中央高校基本科研业务费(XJ2021003601)。
评论