基于降噪原型序列的汉越神经机器翻译OA北大核心CSTPCD
[目的]在汉越低资源场景下,平行语料匮乏,原型序列蕴含庞杂的信息,直接使用会增加翻译模型训练的难度,甚至引入噪声,故对原型序列的降噪策略进行研究.[方法]首先,利用跨语言检索得到原型序列;其次,基于实体词典对原型序列中的噪声信息进行掩盖,再综合稀有词词频及语义相似度,得到原型序列的参考价值;最后使用额外的编码器接收原型序列,并允许解码器到两个编码器间建立注意力机制.[结果]相比基线模型,相似度评分、稀有词词频、依据实体词典降噪,以及3种降噪融合的…查看全部>>
杨汉清;赖华;于志强;余正涛
昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500
计算机与自动化
汉越神经机器翻译低资源原型序列降噪
《厦门大学学报(自然科学版)》 2024 (4)
P.705-713,9
国家自然科学基金(61732005,61972186,U21B2027)云南省重大科技专项(202103AA080015,202002AD080001,202202AD080003)云南省高新技术产业专项(201606)云南省教育厅科学研究基金项目(2022J0449)。
评论