面向图像分类的视觉Transformer研究进展OA北大核心CSTPCD
Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的全局建模能力。因此,深入探讨Transformer在图像分类任务中的问题是非常有必要的。首先以Vision Transformer为例,详细介绍了Transformer的核心原理和架构。然后以图像分类任务为切入点,围绕与视觉Transformer研究中的性能提升、计算成本和训练优化相关的三个重要方面,总结了视觉Transformer研究中的关键问题和最新进展。此外,总结了Transformer在医学图像、遥感图像和农业图像等多个特定领域的应用情况。这些领域中的应用展示了Transformer的多功能性和通用性。最后,通过综合分析视觉Transformer在图像分类方面的研究进展,对视觉Transformer的未来发展方向进行了展望。
彭斌;白静;李文静;郑虎;马向宇;
北方民族大学计算机科学与工程学院,银川750021北方民族大学计算机科学与工程学院,银川750021 图像图形智能信息处理国家民委重点实验室,银川750021
计算机与自动化
深度学习视觉Transformer网络架构图像分类自注意力机制
《计算机科学与探索》 2024 (002)
P.320-344 / 25
国家自然科学基金(62162001,61762003);宁夏自然科学基金(2022AAC02041);宁夏优秀人才支持计划。
评论