| 注册
首页|期刊导航|数据采集与处理|搜索引擎中基于密度聚类的混合编码检测算法

搜索引擎中基于密度聚类的混合编码检测算法

章晟 张启飞 潘雪增 朱旭辉

数据采集与处理2011,Vol.26Issue(1):95-100,6.
数据采集与处理2011,Vol.26Issue(1):95-100,6.

搜索引擎中基于密度聚类的混合编码检测算法

Density-Based Clustering Algorithm for Hybrid Coding Detection in Search Engines

章晟 1张启飞 1潘雪增 1朱旭辉2

作者信息

  • 1. 浙江大学计算机科学与技术学院,杭州,310027
  • 2. 中国人民解放军南京军区73610,部队,南京,210018
  • 折叠

摘要

Abstract

Aimed at Chinese HTML hybrid coding documents on the internet, this paper studies the character encoding composition of Chinese HTML files and clusters the contents of the hybrid coding files. The HTML files are separated into several categories using the classical data mining algorithms DBSCAN. Then, based on feature encoding each class is detected, after clustering hybrid encoding files. Experimental results show that when selecting the appropriate parameters each class in line with the Chinese character encoding features reaches 100%. The method can be used in the field of search engines.

关键词

搜索引攀/密度聚类/字符编码

分类

通用工业技术

引用本文复制引用

章晟,张启飞,潘雪增,朱旭辉..搜索引擎中基于密度聚类的混合编码检测算法[J].数据采集与处理,2011,26(1):95-100,6.

基金项目

国家支撑计划(2008BAH21B03)基金项目 (2008BAH21B03)

浙江省公益性技术应用研究计划(2010C31003)基金项目. (2010C31003)

数据采集与处理

OA北大核心CSCDCSTPCD

1004-9037

访问量0
|
下载量0
段落导航相关论文