对《MAHAKIL》过采样技术的复现

《MAHAKIL》提出了一种针对软件缺陷预测的重采样方法,旨在解决类不平衡问题。通过模拟遗传学繁殖过程,生成多样性的新样本,增强模型预测能力。主要流程包括:计算少数类样本的马氏距离,将其分为两部分,然后成对选取生成新实例。这种方法避免了新样本单一性,新实例在少数类边界内均匀分布,提高了模型的precision和recall。
摘要由CSDN通过智能技术生成

一般而言,类不平衡问题将会提高预测准确的难度。然而,在软件缺陷预测中,一直都面临着缺陷模块远少于无缺陷模块的情况。虽然近年来的许多方法,诸如SMOTE、ADASYN,都能通过创造新的少数类实例样本来平衡类的分布,但是,这些方法生成的新实例大多是之前少数类实例的复制,或者是临近关系。这就导致了少数类样本的单一性。

在《MAHAKIL: Diversity Based Oversampling Approach to Alleviate the Class Imbalance Issue in Software Defect Prediction》一文中提出的MAHAKIL重采样方法很好的解决了新样本多样性的问题,而且能有效地提升模型的预测能力。

一般的重采样之后,数据分布会如下图中的(b),新样本分布在少数类附近;经过MAHAKIL 重采样后,数据分布如下图中的(c),新样本在少数类边界内均匀分布。
这里写图片描述

主要流程

在MAHAKIL 中,主要通过模拟遗传学中的繁殖过程,来产生新的样本。简要过程可分为三个阶段:

phase 1: 将少数类样本从需要处理的数据集中分离出来,记为 bin b i n ,对于 bin b i n 中每一个少数类样本,计算其马氏距离(Mahalanobis distance)。

d2=(xμ)TS1(xμ) d 2 = ( x − μ ) T S − 1 ( x − μ )

  其中 S=1NNi=1(xiX¯)T
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值