流数据实时接收方案的研究OA北大核心CSTPCD
针对现代数据仓库系统中常见的需接收大量流数据,且其与磁盘上已有的数据做连接后再入库的场景进行了探讨。通过合理设置磁盘分页和应用缓存模块,分散磁盘I/O压力,在已有研究的基础上提出了一种具有更高效率的数据接收方案,并引入一致性哈希函数将其扩展到分布式环境,提出一种应用于分布式环境的D-CACHEJOIN算法。通过理论计算算法的成本模型,并使用服从Zipfian分布的数据进行模拟实验。实验结果表明,在接近现实的实际应用场景下,所提算法拥有比现有算法更高的效率,同时能够快速方便地扩展到分布式环境。
张笑燕;刘志浩;杜晓峰;陆天波
北京邮电大学计算机学院(国家示范性软件学院),北京100876北京邮电大学计算机学院(国家示范性软件学院),北京100876北京邮电大学计算机学院(国家示范性软件学院),北京100876北京邮电大学计算机学院(国家示范性软件学院),北京100876
信息技术与安全科学
流数据缓存分布式系统一致性哈希函数
《通信学报》 2022 (4)
P.154-163,10
评论