基于多模态唇部状态识别的语音导航抗干扰系统OA北大核心
针对现有车载语音导航设备易受到车内外噪声干扰、无法准确判定声音信号来源的问题,提出了一种基于唇部状态识别的语音导航抗干扰系统.通过摄像头实时识别驾驶员唇部状态,准确判定驾驶员声音信号的起止时间端点,进而控制语音导航输入信号开启和关闭,增强驾驶员对语音导航的控制权限,减少车内外的噪声干扰.为保证唇部状态识别的准确性和鲁棒性,提出了一种基于关键点-外观短时特征融合的多模态唇部状态识别网络,进行了关键点短时特征有效性试验、多模态特征融合的唇部状态识别消融试验、实验室模拟环境和真实车载环境下的语音导航抗干扰试验.结果表明,文中提出的关键点短时特征算子可增强唇部状态变化表征能力14%以上,关键点-外观特征融合的唇部状态识别网络通过特征互补提升识别准确性8.98%以上.基于该网络的语音导航抗干扰系统准确性高(92.6%)、实时性好(检测速度为35帧/s);在驾驶员左、右侧面超过70°的大幅度头部姿态变化下,能有效减少车内外噪声对导航语音控制的干扰,表现出较高的鲁棒性.
王晗;陈怡霖;季钰姣;杜若琳
南通大学信息科学技术学院,江苏南通226019 南通大学交通与土木工程学院,江苏南通226019南通大学信息科学技术学院,江苏南通226019南通大学交通与土木工程学院,江苏南通226019南通大学交通与土木工程学院,江苏南通226019
计算机与自动化
语音导航抗干扰系统唇部状态识别关键点外观特征特征融合长短期记忆网络
《江苏大学学报(自然科学版)》 2025 (1)
P.82-90,9
国家自然科学基金资助项目(61872425)江苏省研究生创新计划项目(SJCX24_2009)。
评论