基于在线翻译的中文文本数据增强技术OACSTPCD
Chinese Text Data Augmentation Technology Based on Online Translation
数据增强是少样本学习领域中的一种常见方法,对于文本数据,一种通用的增强方式是反译,通过神经翻译机,将数据翻译为某种中间语言,再翻译为原语言.但受限于公开平行语料库的数量与质量,个人研究者很难训练出符合要求的神经翻译机.为了解决反译法对平行语料库的依赖,论文提出了一项基于在线翻译的文本数据增强技术.该文以百度翻译为例,研究了不同中间语言带来的收益,以及不同数据量下,最适合的增强倍数,并通过可视化的方式研究了增强数据的标签有效性.实验表明,基于在线翻…查看全部>>
Data augmentation is a common method in the field of few shot learning.For text data,a common way of augmenta-tion is back translation.Through the neural translator,the data is translated into an intermediate language,and then is translated in-to the original language.However,limited by the quantity and quality of open parallel corpora,it is difficult for individual research-ers to train qualified neural translators.In order to solve the dependence of …查看全部>>
王小天;奚彩萍
江苏科技大学电子信息学院 镇江 212000江苏科技大学电子信息学院 镇江 212000
计算机与自动化
数据增强自然语言处理反译文本分类
data augmentationnatural language processingback translationtext classification
《计算机与数字工程》 2024 (3)
791-794,4
评论