融合上下文信息和注意力机制的行人检测算法OA
针对复杂交通场景下行人特征信息提取不完整、检测精度不高的问题,提出一种基于YOLOv5网络改进的融合上下文信息和注意力机制的行人检测算法——YOLOv5-STRDC。将Swin Transformer置于骨干网络中,在高效获取全局信息的同时丰富上下文信息。提出融合5个并行空洞卷积和改进卷积块注意模块(Convolutional Block Attention Module,CBAM)注意力机制的空间金字塔池化(Spatial Pyramid Pooling,SPP)模块,输出较大图像范围信息的同时分别从通道和空间维度上增强了特征的融合能力。集成坐标注意力(Coordinate Attention,CA)机制,突出局部重点区域,以得到更准确的特征信息。YOLOv5-STRDC算法在公开的WiderPerson数据集和INRIA数据集上的平均精度均值(mean Average Precision,mAP)分别达到了71.60%和92.01%,相比YOLOv5模型,分别提升了1.80%和1.34%,实现了较好的行人检测效果。所提算法的检测速度分别达到了137.34、114.71帧/秒,满足了实时检测的要求。
荣幸;张志华;冯东东;袁昊;
兰州交通大学数理学院,甘肃兰州730070 地理国情监测技术应用国家地方联合工程研究中心,甘肃兰州730070 甘肃省地理国情监测工程实验室,甘肃兰州730070地理国情监测技术应用国家地方联合工程研究中心,甘肃兰州730070 甘肃省地理国情监测工程实验室,甘肃兰州730070 兰州交通大学测绘与地理信息学院,甘肃兰州730070
计算机与自动化
行人检测上下文信息空洞卷积特征金字塔注意力机制
《无线电工程》 2024 (009)
P.2152-2161 / 10
国家重点研发计划(2022YFB3903604);甘肃省自然科学基金(23JRRA870)。
评论