大数据量的高效重复记录检测方法OA北大核心CSCDCSTPCD

Efficient duplicate records detection method for massive data

中文摘要

针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%.

作者：庞雄文;姚占林;李拥军

作者单位：华南师范大学计算机学院,广东,广州,510300华南理工大学计算机科学与工程学院,广东,广州,510640华南理工大学计算机科学与工程学院,广东,广州,510640

分类：信息技术与安全科学

中文关键词：数据处理重复记录检测检测方法概念依赖图数据清洗

英文关键词：data processingduplicate records detectiondetection methodconcept dependency graphdata cleaning

刊名：《华中科技大学学报（自然科学版）》 2010 (2)

页码/页数：8-11,4

基金：广东省安全生产科研专项资金资助项目(x2jsB2080910)广东省自然科学基金资助项目(9451063101002213).

您当前未登录！

去登录

点击加载更多...

大数据量的高效重复记录检测方法OA北大核心CSCDCSTPCD

Efficient duplicate records detection method for massive data

评论