首页|期刊导航|国防科技大学学报|注意力机制量化剪枝优化方法

注意力机制量化剪枝优化方法OACSTPCD

Quantization and pruning optimization method for attention mechanism

中文摘要英文摘要

面向基于注意力机制模型的巨大计算和访存开销问题,研究量化和剪枝协同优化的模型压缩技术,提出针对注意力机制中查询、键、值、概率共四个激活值矩阵的对称线性定点量化方法.同时,提出概率矩阵剪枝方法和渐进式剪枝策略,有效降低剪枝精度损失.在不同数据集上的实验结果表明,针对典型基于注意力机制模型BERT,在较低或者没有精度损失的情况下该优化方法可达到4 位或8 位定点量化、0.93~0.98的稀疏度,大幅度降低模型计算量,为加速量化稀疏模型的推理奠定良好的基础.

To address the significant computation and memory overhead of models based on attention mechanism,model compression techniques,such as collaborative optimization of quantization and pruning,were studied.A symmetric linear fixed point quantization method was proposed for four activation matrices of query,key,value and probability in the attention mechanism.Meanwhile,a probability matrix pruning method and a progressive pruning strategy were proposed to effect…查看全部>>

何源宏;姜晶菲;许金伟

国防科技大学 计算机学院,湖南 长沙 410073||国防科技大学 并行与分布计算全国重点实验室,湖南 长沙 410073国防科技大学 计算机学院,湖南 长沙 410073||国防科技大学 并行与分布计算全国重点实验室,湖南 长沙 410073国防科技大学 计算机学院,湖南 长沙 410073||国防科技大学 并行与分布计算全国重点实验室,湖南 长沙 410073

计算机与自动化

自然语言处理注意力机制量化剪枝

natural language processingattention mechanismquantizationpruning

《国防科技大学学报》 2024 (1)

113-120,8

重点实验室稳定支持重点资助项目(WDZC20215250103)

10.11887/j.cn.202401012

评论

您当前未登录!去登录点击加载更多...