首页|期刊导航|电子学报|熵权约束稀疏表示的短文本分类算法

熵权约束稀疏表示的短文本分类算法OA北大核心CSCDCSTPCD

Effectively Classifying Short Texts by Entropy Weighted Constraints Sparse Representation

中文摘要

针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.

脱婷;马慧芳;李志欣;赵卫中

西北师范大学计算机科学与工程学院,甘肃兰州730070西北师范大学计算机科学与工程学院,甘肃兰州730070桂林电子科技大学广西可信软件重点实验室,广西桂林541004广西师范大学广西多源信息挖掘与安全重点实验室,广西桂林541004

信息技术与安全科学

短文本分类词向量稀疏表示

《电子学报》 2020 (11)

跨媒体语义映射与智能检索关键技术研究

2131-2137,7

国家自然科学基金(No.61762078,No.61363058,No.61663004,No.61966004,No.61762079)广西可信软件重点实验室研究课(No.kx202003)广西多源信息挖掘与安全重点实验室开放基金(No.MIMS18-08)西北师范大学2019年度青年教师科研能力提升计划(No.NWNU-LKQN2019-2)

10.3969/j.issn.0372-2112.2020.11.006

评论