C-BGA:结合对比学习的多模态语音情感识别网络OA北大核心CSTPCD
当前多模态语音情感识别(speech emotion recognition,SER)数据集规模较小,蕴含信息量较大,导致模型对各模态信息的拟合度不足,且无法挖掘出数据背后蕴含的信息。针对该问题,提出了基于对比学习的多模态语音情感分类网络。一方面在网络中引用跳连接(skip connections,SC)方法,有效解决了网络退化问题;另一方面借助对比学习(contrastive learning,CL)理论提出一种新的Loss计算方法,加快模型的拟合速度。模型在IEMOCAP数据集上进行实验,未加权精度(UA)为82.68%,加权精度(WA)为82.35%,实验结果表明了该模型的优越性。
苗博瑞;许云峰;赵少杰;王嘉麟;
河北科技大学信息科学与工程学院,石家庄050000
计算机与自动化
多模态语音情感识别对比学习注意力机制
《计算机工程与应用》 2024 (016)
P.168-176 / 9
河北省重点研发计划(21373802D);教育部人工智能协同育人项目(201801003011)。
评论