TCN-Transformer-CTC的端到端语音识别OA北大核心CSTPCD
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果…查看全部>>
谢旭康;陈戈;孙俊;陈祺东
江南大学人工智能与计算机学院,江苏无锡214122江南大学人工智能与计算机学院,江苏无锡214122江南大学人工智能与计算机学院,江苏无锡214122江南大学人工智能与计算机学院,江苏无锡214122
信息技术与安全科学
端到端语音识别Transformer时序卷积神经网络连接时序分类
《计算机应用研究》 2022 (3)
P.699-703,5
评论