|
国家科技期刊平台
登录
|
注册
检索
高级检索
相关度
相关度
发表时间
每页显示10条
每页显示10条
每页显示20条
每页显示30条
已找到
4
条结果
一种融合多种信息的Web文档分类方法
作者:
段国仑
谢钧
郭蕾蕾
王晓莹
发表期刊:
信息技术与网络安全 2018年6期
关键词:
Web文档分类
信息融合
遗传算法
支持向量机
摘要:
当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息.为提高Web文档的分类精度,提出一种融合Web文档中多种信息(如正文、描述信息、关键字、图片相关文本、标题以及文章中加粗等特殊字体)的文本分类方法.鉴于不同信息对于分类的贡献不尽相同,采用遗传算法给各种信息设置合适的权重,最终采用支持向量机对Web文档进行分类.实验结果表明,与仅使用正文文本进行分类的方法相比,所提出的融合多种信息的方法能有效提高分类精度.
基于Rough集潜在语义索引的Web文档分类
北大核心
CSCD
CSTPCD
作者:
何明
冯博琴
傅向华
发表期刊:
计算机工程 2004年13期
关键词:
粗糙集
潜在语义索引
Web文档分类
信息过滤
信息检索
摘要:
Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具.提出了一种基于Rough集理论的潜在语义索引的Web文档分类方法.首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类规则,最后利用多知识库进行文档分类.通过试验比较,该方法具有较好的分类效果.
基于新的关键词提取方法的快速文本分类系统
北大核心
CSCD
CSTPCD
作者:
罗杰
陈力
夏德麟
王凯
发表期刊:
计算机应用研究 2006年4期
关键词:
计算机应用
中文信息处理
关键词提取
Web文档分类
摘要:
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键.系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将Web文档进行快速有效分类的目的.实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高.
Web文档分类中TFIDF特征选择算法的改进
CSTPCD
作者:
段国仑
谢钧
郭蕾蕾
王晓莹
发表期刊:
计算机技术与发展 2019年5期
关键词:
Web文档分类
特征选择
TFIDF算法
SVM
摘要:
随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视.在Web文档分类的研究中,特征选择算法有着重要的研究意义.特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型.传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约.针对存在的不足进行改进,提出了类内分布因子以及类间分布因子.基于类…
查看全部>>