|国家科技期刊平台
首页|期刊导航|统计与决策|基于密度峰值聚类的不平衡数据过抽样方法

基于密度峰值聚类的不平衡数据过抽样方法OA北大核心CHSSCDCSSCICSTPCD

Oversampling Method for Imbalanced Data Based on Density Peak Clustering

中文摘要英文摘要

大多数不平衡数据过抽样方法依赖于太多参数,容易生成噪声并难以处理流形数据集.为此,文章提出了一种基于密度峰值聚类的不平衡数据过抽样方法(OVMEDPC).首先,OVMEDPC用密度峰值聚类(DPC)来发现不平衡数据的空间结构;其次,OVMEDPC设计了一种基于密度峰值聚类的噪声过滤方法来移除噪声;最后,OVMEDPC设计了一种基于密度峰值聚类的插值技术来生成少数类的合成样本.实验证明,就随机森林分类器而言,OVMEDPC在F-measure和G-mean上优于5个先进的过抽样方法.

Most oversampling methods for imbalanced data rely on too many parameters,which are easy to generate noise and difficult to handle manifold data sets.Therefore,this paper proposes an oversampling method for imbalanced data based on density peak clustering(OVMEDPC).First,OVMEDPC uses density peak clustering(DPC)to reveal the spatial structure of imbalanced data.Second,OVMEDPC designs a density peak clustering-based noise filter to remove noise.Finally,OVMEDPC designs an in-terpolation method to create synthetic minority class samples.Experiments show that in terms of random forest classifiers,OVMEDPC outperforms 5 advanced over-sampling methods on F-measure and G-mean.

张智驹

重庆航天职业技术学院 智能信息工程学院,重庆 400021

计算机与自动化

不平衡分类过抽样方法分类密度峰值聚类

imbalanced classificationoversampling methodclassificationdensity peakclustering

《统计与决策》 2024 (008)

11-16 / 6

10.13546/j.cnki.tjyjc.2024.08.002

评论