基于双层路由注意力及特征融合的细粒度图像分类OACSTPCD
近年来,视觉Transformer(Vision Transformer,ViT)在图像识别领域取得了突破性进展,其自注意力机制能够从图像中提取出不同像素块的判别性标记信息,进而提升图像分类的精度。在图像分类领域中,细粒度图像分类具有类与类之间的特征差距小、类内的特征差距大的特点,从而导致了分类困难。针对细粒度图像分类中数据分布具有小型、非均匀和难以发现类与类之间的差异等特征,提出一种基于双层路由注意力(Bi-level Routing Atte…查看全部>>
沈宇麒;崔衍
南京邮电大学物联网学院,江苏南京210003南京邮电大学物联网学院,江苏南京210003
计算机与自动化
细粒度图像分类神经网络视觉Transformer注意力机制特征融合
《计算机技术与发展》 2024 (6)
P.23-28,6
中国国家博士后基金(2020M671554)。
评论