首页|期刊导航|华中科技大学学报(自然科学版)|大数据量的高效重复记录检测方法

大数据量的高效重复记录检测方法OA北大核心CSCDCSTPCD

Efficient duplicate records detection method for massive data

中文摘要

针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%.

庞雄文;姚占林;李拥军

华南师范大学计算机学院,广东,广州,510300华南理工大学计算机科学与工程学院,广东,广州,510640华南理工大学计算机科学与工程学院,广东,广州,510640

信息技术与安全科学

数据处理重复记录检测检测方法概念依赖图数据清洗

data processingduplicate records detectiondetection methodconcept dependency graphdata cleaning

《华中科技大学学报(自然科学版)》 2010 (2)

8-11,4

广东省安全生产科研专项资金资助项目(x2jsB2080910)广东省自然科学基金资助项目(9451063101002213).

评论

您当前未登录!去登录点击加载更多...