基于聚类改进的 KN N文本分类算法OA北大核心CSCDCSTPCD
Improved KNN text classification algorithm based on clustering
传统的KN N文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KN N算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KN N算法在文本分类中的效率,提出一种基于聚类的改进KN N算法。算法开始之前采用改进χ2统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KN N方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好地进行文本分类。
The traditional KNN text classification algorithm is a classification method which is an unsupervised,no parame-ters,simply,more popular and it’s easily to achieve.But it need to constantly calculate the similarity between the test and sample text sets,when larger amounts of the text,the efficiency will be much more worse.To improve the classification effi-ciency of the traditional KNN algorithm,this paper proposed an improved KNN algorithm based on the clus…查看全部>>
周庆平;谭长庚;王宏君;湛淼湘
中南大学 软件学院,长沙410075中南大学 软件学院,长沙410075中南大学 软件学院,长沙410075中南大学 软件学院,长沙410075
信息技术与安全科学
文本分类KNN聚类化训练集
text classificationKNNclusteringtraining set
《计算机应用研究》 2016 (11)
行为经济学在分布式系统合作性中的研究
3374-3377,3382,5
国家自然科学基金资助项目(61379057,61309001,61379110,61103202,61301136);国家教育部博士点基金优先发展领域课题(20120162130008)
评论