|国家科技期刊平台
首页|期刊导航|光学精密工程|多模态跨级特征知识转移下音频目标检测网络

多模态跨级特征知识转移下音频目标检测网络OA北大核心CSTPCD

中文摘要

声音作为物体固有属性之一能为目标检测提供有价值的信息,当前仅通过监测环境声进行目标定位的方法鲁棒性较低,为解决这一问题提出了跨级特征知识转移下的多模态自监督目标检测网络。首先,针对教师网络和学生网络同级特征间学习能力有限的问题,设计了基于注意力融合的多教师跨级特征知识转移损失,通过注意力融合的方式融合学生的深层和浅层特征,更高效地学习对应的教师中间层特征,以提取更多的知识,同时结合KL散度,实现教师和学生网络中间层特征的对齐。此外,为了解决定位信息的缺失的问题,加入定位蒸馏损失,通过让学生的包围盒分布去拟合教师的包围盒分布的方式,来获取更多的定位信息。在多模态视听检测MAVD数据集中对网络进行训练,该网络的mAP值在IOU值为0.5,0.75和平均的情况下较基线网络分别有6.71%,14.36%和10.32%的提升。实验结果证明了该检测网络的优越性。

刘诗蓓;陈莹;

江南大学轻工过程先进控制教育部重点实验室,江苏无锡214122

计算机与自动化

多模态知识蒸馏目标检测自监督深度学习

《光学精密工程》 2024 (002)

P.237-251 / 15

国家自然科学基金资助项目(No.62173160)。

10.37188/OPE.20243202.0237

评论