|国家科技期刊平台
首页|期刊导航|计算机技术与发展|基于双层路由注意力及特征融合的细粒度图像分类

基于双层路由注意力及特征融合的细粒度图像分类OACSTPCD

中文摘要

近年来,视觉Transformer(Vision Transformer,ViT)在图像识别领域取得了突破性进展,其自注意力机制能够从图像中提取出不同像素块的判别性标记信息,进而提升图像分类的精度。在图像分类领域中,细粒度图像分类具有类与类之间的特征差距小、类内的特征差距大的特点,从而导致了分类困难。针对细粒度图像分类中数据分布具有小型、非均匀和难以发现类与类之间的差异等特征,提出一种基于双层路由注意力(Bi-level Routing Attention,BRA)的细粒度图像分类模型。基准骨干网络采用多阶段层级架构设计的新型视觉Transformer模型作为视觉特征提取器,从中获得局部信息和全局信息以及多尺度的特征。同时引入特征增强、融合模块,以此提高网络对关键特征的学习能力。实验结果表明,该模型在CUB-200-2011和Stanford Dogs这两个细粒度图像数据集上的分类精度分别达到了91.7%和92.2%,相较于多个主流细粒度图像分类模型,该模型具有更好的分类结果。

沈宇麒;崔衍;

南京邮电大学物联网学院,江苏南京210003

计算机与自动化

细粒度图像分类神经网络视觉Transformer注意力机制特征融合

《计算机技术与发展》 2024 (006)

P.23-28 / 6

中国国家博士后基金(2020M671554)。

10.20165/j.cnki.ISSN1673-629X.2024.0072

评论