结合多级注意力和多流图神经网络的多模态会话情绪识别OA北大核心CSTPCD
为了融合多模态信息、解决全局-局部特征建模问题并提高多模态会话情绪识别准确率,提出了结合多级注意力和多流图神经网络的多模态会话情绪识别模型(multimodal conversation emotion recognition combining multilevel attention and multi-stream graph neural networks,MCER-MAMGNN)。设计多级注意力机制提取语境化融合特征,用于增强各模态的表示能力,有效捕捉多模态信息之间的相关性和互补性,并减少噪声干扰;设计多流图神经网络以处理不同模态的信息,通过构建话语的异质性情绪依赖关系来捕捉局部特征,并使用双向Mogrifier LSTM网络捕捉全局特征(语境特征),以此更全面和深入地理解会话中的情绪;设计多流合并分类模块融合各模态流输出,通过自注意力机制进一步提取语境化融合情绪特征。实验结果表明,该模型在IEMOCAP和MOSEI数据集上取得了较好的性能。
封红旗;郭永祥;张登辉;杨昕立;
常州大学计算机与人工智能学院,江苏常州213100浙江树人学院信息科技学院,杭州310000
计算机与自动化
多模态情绪识别注意力机制图神经网络
《计算机工程与应用》 2024 (021)
P.154-163 / 10
浙江省公益技术研究计划(LGF21F020024);浙江省自然科学基金(LQ21F020025)。
评论