面向稀疏卷积神经网络的CGRA加速器研究OA北大核心CSTPCD
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。
谭龙;严明玉;吴欣欣;李文明;吴海彬;范东睿;
中国科学院计算技术研究所处理器国家重点实验室,北京100190 中国科学院大学,北京100049中国科学院计算技术研究所处理器国家重点实验室,北京100190
计算机与自动化
稀疏卷积神经网络(CNN)专用加速结构粗粒度可重构架构(CGRA)动态指令过滤动态负载调度
《高技术通讯》 2024 (002)
P.173-186 / 14
国家自然科学基金(62202451);中国科学院青年基础研究(YSBR-029);中国科学院青年创新促进会项目资助。
评论