基于并行多注意力的语音增强网络OA北大核心CSTPCD
针对受干扰语音的频域增强问题,提出一种基于并行多注意力机制和编解码结构的语音增强网络(PMAN)。网络输入经过短时傅里叶变换(STFT)的语音频域特征,包含振幅谱和复数谱,编码器使用密集卷积模块对输入数据信息进行整合,中间层的并行多注意力模块学习频域的局部和全局信息,并融合局部块注意力(LPA)机制捕捉语音频域二维(2D)结构,实现干净语音与干扰因素的2D层面分离。解码器将学习到的信息进行整合,分别生成振幅掩模和复数频谱,根据加权求和生成最终的语音复数频谱,使用时域与频域联合损失函数实现相位信息的融合。在VoicеBank+DEMAND语音数据集上的实验结果表明,与基于两阶段变换器的时域语音增强神经网络(TSTNN)相比,经过PMAN增强后语音的客观语音质量评价(PESQ)、短时客观可懂度(STOI)、分段信噪比(SSNR)指标值分别提升10.8%、1.1%、11.8%,具有较好的语音增强效果。
张池;王忠;姜添豪;谢康民;
四川大学电气工程学院,四川成都610065国网浙江省电力有限公司温州供电公司,浙江温州325029
电子信息工程
语音增强频域多注意力机制Transformer网络并行模块
《计算机工程》 2024 (004)
P.68-77 / 10
四川省科技厅支撑计划(2015FZ061);四川省教育厅2018年度自然科学重点科研项目(18ZA0307)。
评论