基于多尺度时序交互的第一人称行为识别方法OA北大核心CSTPCD
对于第一人称行为识别任务,现有方法大多使用了目标边界框和人眼视线数据等非行为类别标签对深度神经网络进行辅助监督,以使其关注视频中手部及其交互物体所在区域。这既需要更多的人工标注数据,又使得视频特征的提取过程变得更为复杂。针对该问题,提出了一种多尺度时序交互模块,通过不同尺度的3D时序卷积使2D神经网络提取的视频帧特征进行时序交互,从而使得单一视频帧的特征融合其近邻帧的特征。在只需行为类别标签作监督的情况下,多尺度时序交互能够促使网络更加关注第一人称视频中手部及其交互物体所在区域。实验结果表明,提出的方法在识别准确率优于现有第一人称行为识别方法。
罗祥奎;高陈强;陈欣悦;王升伟;
重庆邮电大学通信与信息工程学院,重庆400065 信号与信息处理重庆市重点实验室,重庆400065
计算机与自动化
行为识别第一人称视觉时序交互深度学习
《重庆邮电大学学报(自然科学版)》 2024 (003)
P.524-532 / 9
重庆市教委科学技术研究项目(KJZD-K202100606)。
评论