混合CTC/attention架构端到端带口音普通话识别OA北大核心CSCDCSTPCD
Hybrid CTC/attention architecture for end-to-end multi-accent Mandarin speech recognition
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classifica-tion,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法.实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之…查看全部>>
杨威;胡燕
武汉理工大学 计算机科学与技术学院,武汉430000武汉理工大学 计算机科学与技术学院,武汉430000
信息技术与安全科学
口音混合CTC/attention的端到端模型多头注意力链接时序主义语音识别
《计算机应用研究》 2021 (3)
755-759,5
湖北省自然科学基金资助项目(2019CFC919)
评论