Spark框架下支持差分隐私保护的K-means++聚类方法OA北大核心CSTPCD
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率.
石江南;彭长根;谭伟杰;
公共大数据国家重点实验室(贵州大学),贵阳550025现代制造技术教育部重点实验室(贵州大学),贵阳550025
计算机与自动化
数据挖掘聚类算法差分隐私Spark框架指数机制
《信息安全研究》 2024 (008)
P.712-718 / 7
国家自然科学基金项目(62272124,62361010);国家重点研发计划项目(2022YFB2701401);贵州大学培育项目(贵大培育[2019]56号);贵州大学人才引进科研项目(贵大人基合字(2020)61号);现代制造技术教育部重点实验室2021年度开放基金项目(GZUAMT2021KF[01])。
评论