首页|期刊导航|计算机科学与探索|面向图像分类的视觉Transformer研究进展

面向图像分类的视觉Transformer研究进展OA北大核心CSTPCD

中文摘要

Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的…查看全部>>

彭斌;白静;李文静;郑虎;马向宇

北方民族大学计算机科学与工程学院,银川750021北方民族大学计算机科学与工程学院,银川750021 图像图形智能信息处理国家民委重点实验室,银川750021北方民族大学计算机科学与工程学院,银川750021北方民族大学计算机科学与工程学院,银川750021北方民族大学计算机科学与工程学院,银川750021

计算机与自动化

深度学习视觉Transformer网络架构图像分类自注意力机制

《计算机科学与探索》 2024 (2)

P.320-344,25

国家自然科学基金(62162001,61762003)宁夏自然科学基金(2022AAC02041)宁夏优秀人才支持计划。

10.3778/j.issn.1673-9418.2310092

评论

您当前未登录!去登录点击加载更多...