基于降噪原型序列的汉越神经机器翻译OA北大核心CSTPCD

中文摘要

[目的]在汉越低资源场景下,平行语料匮乏,原型序列蕴含庞杂的信息,直接使用会增加翻译模型训练的难度,甚至引入噪声,故对原型序列的降噪策略进行研究.[方法]首先,利用跨语言检索得到原型序列;其次,基于实体词典对原型序列中的噪声信息进行掩盖,再综合稀有词词频及语义相似度,得到原型序列的参考价值;最后使用额外的编码器接收原型序列,并允许解码器到两个编码器间建立注意力机制.[结果]相比基线模型,相似度评分、稀有词词频、依据实体词典降噪,以及3种降噪融合的…查看全部>>

作者：杨汉清;赖华;于志强;余正涛

作者单位：昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500昆明理工大学信息工程与自动化学院,云南昆明650500 云南省人工智能重点实验室,云南昆明650500

分类：计算机与自动化

中文关键词：汉越神经机器翻译低资源原型序列降噪

刊名：《厦门大学学报（自然科学版）》 2024 (4)

页码/页数：P.705-713,9

基金：国家自然科学基金(61732005,61972186,U21B2027)云南省重大科技专项(202103AA080015,202002AD080001,202202AD080003)云南省高新技术产业专项(201606)云南省教育厅科学研究基金项目(2022J0449)。

DOI：10.6043/j.issn.0438-0479.202209028

您当前未登录！

去登录

点击加载更多...

基于降噪原型序列的汉越神经机器翻译OA北大核心CSTPCD

评论