特征注意力Transformer模块在3D唇语序列身份识别中的应用OA北大核心CSTPCD
唇语行为是一种新兴起的生物特征识别技术,三维(three-dimensional,3D)唇语点云序列因包含真实嘴唇空间结构和运动信息,已成为个体身份识别的重要生物特征。但是,3D点云的无序与非结构化的特点导致时空特征的提取非常困难。为此,提出一种深度学习网络模型,用于3D唇语序列身份识别。该网络采用四层改进的PointNet++作为网络骨干,以分层方式抽取特征,为了学习到更多包含身份信息的时空特征,设计一种动态唇特征注意力Transformer模块,连接于PointNet++网络每一层之后,可以学习到不同特征图之间的相关信息,有效捕捉视频序列不同帧的上下文信息。与其他注意力机制构建的Transformer相比,提出的Transformer模块具有较少的参数,在S3DFM-FP和S3DFM-VP数据集上进行的实验表明,提出网络模型在3D唇语点云序列的身份识别任务中效果显著,即使在不受姿态约束的S3DFM-VP数据集中也表现出良好的性能。
骈鑫洋;王瑜;张洁;
北京工商大学人工智能学院,北京100048北京科技大学自动化学院,北京100083
计算机与自动化
说话人识别TransformerPointNet++三维唇语点云
《计算机工程与应用》 2024 (007)
P.141-146 / 6
北京市自然科学基金-北京市教育委员会科技计划重点项目(KZ202110011015);国家自然科学基金(61906004)。
评论