面向图像分类的视觉Transformer研究进展OA北大核心CSTPCD
Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的…查看全部>>
彭斌;白静;李文静;郑虎;马向宇
北方民族大学计算机科学与工程学院,银川750021北方民族大学计算机科学与工程学院,银川750021 图像图形智能信息处理国家民委重点实验室,银川750021北方民族大学计算机科学与工程学院,银川750021北方民族大学计算机科学与工程学院,银川750021北方民族大学计算机科学与工程学院,银川750021
计算机与自动化
深度学习视觉Transformer网络架构图像分类自注意力机制
《计算机科学与探索》 2024 (2)
P.320-344,25
国家自然科学基金(62162001,61762003)宁夏自然科学基金(2022AAC02041)宁夏优秀人才支持计划。
评论