一种基于数据分布的不平衡数据过采样方法OA北大核心CSTPCD
针对现有不平衡数据过采样方法生成重叠样本、潜在价值不高样本以及过拟合等问题,提出了一种基于数据分布的过采样方法.该方法首先将少数类样本划分成不同子簇,根据样本的空间分布位置识别噪声样本和少数类边界样本,并删除噪声样本;进而将对分类边界决策影响大的少数类边界样本作为种子样本,并结合种子样本所在子簇的稀疏因子及其识别的难易程度确定采样权重;最后在种子样本所在的子簇中生成新样本.为了验证所设计采样方法的有效性,分别使用AdaBoost(adaptive boosting)和SVM(support vector machine)算法对12个数据集进行分类实验,结果表明,与传统的过采样算法相比,所设计的过采样方法在保证了整体分类性能下,提高了不平衡数据中对少数类的分类效果.
陈丽萍;王洪海;何舒平;
巢湖学院计算机与人工智能学院,安徽巢湖238024 安徽大学电气工程与自动化学院,安徽合肥230601巢湖学院计算机与人工智能学院,安徽巢湖238024安徽大学电气工程与自动化学院,安徽合肥230601
计算机与自动化
不平衡数据数据分布过采样稀疏因子重叠样本
《安徽大学学报(自然科学版)》 2024 (005)
P.26-36 / 11
国家自然科学基金面上项目(62073001);安徽省高校省级自然科学研究项目(KJ2021A1030);安徽省创新创业领军人才特殊支持计划(T000706);巢湖学院校级重点科学研究项目(XLZ-202106);巢湖学院学科建设质量提升工程立项建设项目(kj21gczx03)。
评论