TS-Aug架构的半监督自训练情感分类算法OA
网络教学资源的普及使得资源评价的文本数据规模逐步增大.传统的有监督学习文本分类对标注数据的依赖度较高,需要足够的数据量和高质量数据才能得到良好的结果.在网络教学资源的评价文本工作中,由于标注数据难以获取且质量参差不齐,使得这一任务的难度越来越高.针对这一困难,提出一种TS-Aug半监督自训练方案,通过添加无标签数据并进行伪标签训练,能在强力数据增广的作用下大幅扩充样本集,解决数据增广中的过拟合风险.首先利用标注数据和弱增广策略进行初始化监督训练,然后利用无标注数据和强增广策略进行半监督训练,最后使用标注数据进行微调监督训练.在自建的在线课程评论数据中,能将分类F 1-Score从0.88提升至0.95,表明TS-Aug半监督自训练方案在文本分类任务中具有较好的应用前景.
郭卡;王芳;
安徽外国语学院信息与数学学院,安徽合肥231200
计算机与自动化
少样本学习半监督训练数据增广情感分类
《南京师范大学学报(工程技术版)》 2024 (001)
P.45-52 / 8
安徽省高校自然科学研究项目(KJ2021A1197)、安徽省省级质量工程课程思政教学团队项目(2020kcszjxtd34)和安徽外国语学院校级质量工程教学创新团队项目(aw2023jxcxtd06).
评论