基于降噪原型序列的汉越神经机器翻译OA北大核心CSTPCD
[目的]在汉越低资源场景下,平行语料匮乏,原型序列蕴含庞杂的信息,直接使用会增加翻译模型训练的难度,甚至引入噪声,故对原型序列的降噪策略进行研究.[方法]首先,利用跨语言检索得到原型序列;其次,基于实体词典对原型序列中的噪声信息进行掩盖,再综合稀有词词频及语义相似度,得到原型序列的参考价值;最后使用额外的编码器接收原型序列,并允许解码器到两个编码器间建立注意力机制.[结果]相比基线模型,相似度评分、稀有词词频、依据实体词典降噪,以及3种降噪融合的策略使汉越神经机器翻译的性能分别提升0.24,0.12,0.29,以及0.69个百分点的BLEU值.[结论]经降噪策略处理的原型序列能提升汉越神经机器翻译的性能.
杨汉清;赖华;于志强;余正涛;
昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500
计算机与自动化
汉越神经机器翻译低资源原型序列降噪
《厦门大学学报(自然科学版)》 2024 (004)
P.705-713 / 9
国家自然科学基金(61732005,61972186,U21B2027);云南省重大科技专项(202103AA080015,202002AD080001,202202AD080003);云南省高新技术产业专项(201606);云南省教育厅科学研究基金项目(2022J0449)。
评论