一种改进的k均值文本聚类算法OA
An improved k-means algorithm for text clustering
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法.该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类.在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚…查看全部>>
张银明;黄廷磊;林科;张嫱嫱
桂林电子科技大学计算机与信息安全学院,广西桂林541004桂林电子科技大学计算机与信息安全学院,广西桂林541004桂林电子科技大学计算机与信息安全学院,广西桂林541004桂林电子科技大学计算机与信息安全学院,广西桂林541004
信息技术与安全科学
文本聚类fp-growthk均值
text clusteringfp-growthk-means
《桂林电子科技大学学报》 2016 (4)
311-314,4
国家863计划(2012AA011005)
评论