首页|期刊导航|计算机工程与科学|基于同义词数据增强的汉越神经机器翻译方法

基于同义词数据增强的汉越神经机器翻译方法OA北大核心CSCDCSTPCD

A Chinese-Vietnamese neural machine translation method based on synonym data augmentation

中文摘要

汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果.数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法.由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易.因此,提出一种基于低频词的同义词替换的数据增强方法.该方法利用小规模的平行语料,首先通过对单语词向量的学习,获得一端语言低频词的同义词列表;然后对低频词进行同义词替换,再利用语言模型对替换后的句子进行筛选…查看全部>>

尤丛丛;高盛祥;余正涛;毛存礼;潘润海

昆明理工大学信息工程与自动化学院,云南昆明650500昆明理工大学云南省人工智能重点实验室,云南昆明 650500昆明理工大学信息工程与自动化学院,云南昆明650500昆明理工大学云南省人工智能重点实验室,云南昆明 650500昆明理工大学信息工程与自动化学院,云南昆明650500

信息技术与安全科学

汉越数据增强同义词替换神经机器翻译

《计算机工程与科学》 2021 (8)

基于枢轴语言的汉越句法统计翻译方法研究

1497-1502,6

国家重点研发计划(2019QY1801,2019QY1802,2019QY1800)国家自然科学基金(61761026,61972186,61732005,61672271,61762056)云南省高新技术产业专项(201606)云南省自然科学基金(2018FB104)昆明理工大学省级人培项目(KKSY201703005)

10.3969/j.issn.1007-130X.2021.08.019

评论

您当前未登录!去登录点击加载更多...