大数据量的高效重复记录检测方法OA北大核心CSCDCSTPCD
Efficient duplicate records detection method for massive data
针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%.
庞雄文;姚占林;李拥军
华南师范大学计算机学院,广东,广州,510300华南理工大学计算机科学与工程学院,广东,广州,510640华南理工大学计算机科学与工程学院,广东,广州,510640
信息技术与安全科学
数据处理重复记录检测检测方法概念依赖图数据清洗
data processingduplicate records detectiondetection methodconcept dependency graphdata cleaning
《华中科技大学学报(自然科学版)》 2010 (2)
8-11,4
广东省安全生产科研专项资金资助项目(x2jsB2080910)广东省自然科学基金资助项目(9451063101002213).
评论