基于特征聚类的近似查询分块选择方法OA
大数据集群环境中,随机访问的低效性使得基于行级别抽样的近似查询处理方法在构建样本时效率低下。该文将利用集群环境中数据分块存储的特性,以分块级别来进行抽样。在基准测试数据集和真实数据集上的实验,显示此方法在降低数据读取率,提高查询响应速度的同时,保持较高的查询精度。实验中,仅需要读取少于20%的数据就可以获得低于5%的查询误差,且为数据集每个分块的预计算的特征数据所需要的存储空间小于数据集所占空间的0.04%。
周云亮;张淳瑞;
北方工业大学信息学院,北京100144
计算机与自动化
近似查询处理聚类分块抽样数据跳过特征计算
《科技创新与应用》 2024 (024)
P.19-22,26 / 5
国家自然科学基金国际(地区)合作与交流项目(62061136006);国家自然科学基金重点项目(61832004)。
评论