一种面向不平衡数据集的过采样算法

张文辉, 罗鸿豪

桂林电子科技大学学报 ›› 2023, Vol. 43 ›› Issue (05) : 363-370. DOI: 10.16725/j.cnki.cn45-1351/tn.2023.05.001

一种面向不平衡数据集的过采样算法

  • 张文辉, 罗鸿豪
作者信息 +
History +

摘要

传统过采样算法通过合成少数类样本来改善不平衡问题,但未考虑产生噪点与样本分布不均匀等问题,针对该类问题,提出了一种基于聚类与对改进SMOTE的过采样算法SK-SMOTE。该算法在聚类前,先合成一部分少数样本,以此提高少数类样本数量,同时根据合成的少数类样本的邻居样本的类别和距离赋予权重,通过权重总和是否大于设定的值来决定该样本是否可以被保留。在提高少数类样本数量后,再使用KMeans算法进行聚类,然后保留少数样本较多的簇。在簇内进行过采样,相对稀疏的簇将合成更多的少数类样本。选取UCI和KEEL数据库中的不平衡数据集,将SVM、RF、KNN作为分类算法,并选用几种经典的SMOTE算法与SK-SMOTE进行多组对比实验。实验结果表明,SK-SMOTE算法可有效平衡不平衡数据集,且在不平衡比例较高的数据集上取得了比传统过采样算法更好的结果。

关键词

SMOTE算法 / 不平衡数据 / 评分机制 / K-Means算法 / 过采样

中图分类号

TP311.13

引用本文

导出引用
张文辉, 罗鸿豪. 一种面向不平衡数据集的过采样算法. 桂林电子科技大学学报. 2023, 43(05): 363-370 https://doi.org/10.16725/j.cnki.cn45-1351/tn.2023.05.001

基金

国家自然科学基金(61966007); 广西自然科学基金(2022GXNSFAA035629)

评论

Accesses

Citation

Detail

段落导航
相关文章

/