| 注册
首页|期刊导航|计算机应用研究|一种面向文本分类的特征向量优化方法

一种面向文本分类的特征向量优化方法

郭正斌 张仰森 蒋玉茹

计算机应用研究2017,Vol.34Issue(8):2299-2302,2348,5.
计算机应用研究2017,Vol.34Issue(8):2299-2302,2348,5.DOI:10.3969/j.issn.1001-3695.2017.08.013

一种面向文本分类的特征向量优化方法

Feature vector optimization method for text classification

郭正斌 1张仰森 1蒋玉茹1

作者信息

  • 1. 北京信息科技大学 智能信息处理研究所,北京 100192
  • 折叠

摘要

Abstract

It is a general method that using vector space model to construct a vector to represent text.There are two methods to optimize the text vector: adjust weights or adjust dimensions.This paper proposed a novel feature vector optimization method for text classification.First it optimized the features in text vector by removing the synonyms.Second it proposed a novel concept——contributor factor to optimize the feature value.Result shows that the text classification accuracy of this work is increased by 0.96% compared with the Naive Bayesian method.Therefore, by removing synonyms and adjusting the weight of the feature words, it can achieve the goal of optimizing the text vector and improving the accuracy of text classification.

关键词

机器学习/Mahout/特征向量/向量优化/文本分类

Key words

machine learning/Mahout/feature vector/vector optimization/text clustering

分类

信息技术与安全科学

引用本文复制引用

郭正斌,张仰森,蒋玉茹..一种面向文本分类的特征向量优化方法[J].计算机应用研究,2017,34(8):2299-2302,2348,5.

基金项目

国家自然科学基金资助项目(61370139) (61370139)

北京市教委科研计划面上项目(KM201411232014) (KM201411232014)

北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519) (IDHT20130519)

北京信息科技大学促进高校内涵发展专项项目(5111623403) (5111623403)

计算机应用研究

OA北大核心CSCDCSTPCD

1001-3695

访问量0
|
下载量0
段落导航相关论文