首页|期刊导航|计算机与数字工程|基于在线翻译的中文文本数据增强技术

基于在线翻译的中文文本数据增强技术OACSTPCD

Chinese Text Data Augmentation Technology Based on Online Translation

中文摘要英文摘要

数据增强是少样本学习领域中的一种常见方法,对于文本数据,一种通用的增强方式是反译,通过神经翻译机,将数据翻译为某种中间语言,再翻译为原语言.但受限于公开平行语料库的数量与质量,个人研究者很难训练出符合要求的神经翻译机.为了解决反译法对平行语料库的依赖,论文提出了一项基于在线翻译的文本数据增强技术.该文以百度翻译为例,研究了不同中间语言带来的收益,以及不同数据量下,最适合的增强倍数,并通过可视化的方式研究了增强数据的标签有效性.实验表明,基于在线翻…查看全部>>

Data augmentation is a common method in the field of few shot learning.For text data,a common way of augmenta-tion is back translation.Through the neural translator,the data is translated into an intermediate language,and then is translated in-to the original language.However,limited by the quantity and quality of open parallel corpora,it is difficult for individual research-ers to train qualified neural translators.In order to solve the dependence of …查看全部>>

王小天;奚彩萍

江苏科技大学电子信息学院 镇江 212000江苏科技大学电子信息学院 镇江 212000

计算机与自动化

数据增强自然语言处理反译文本分类

data augmentationnatural language processingback translationtext classification

《计算机与数字工程》 2024 (3)

791-794,4

10.3969/j.issn.1672-9722.2024.03.027

评论

您当前未登录!去登录点击加载更多...