对《MAHAKIL》过采样技术的复现

最新推荐文章于 2024-08-21 20:54:16 发布

whu_谢宇

最新推荐文章于 2024-08-21 20:54:16 发布

阅读量1.6k

点赞数 4

分类专栏：软件缺陷预测文章标签： MHAKIL 重采样过采样软件缺陷预测论文复现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ylxieyu/article/details/81810732

版权

《MAHAKIL》提出了一种针对软件缺陷预测的重采样方法，旨在解决类不平衡问题。通过模拟遗传学繁殖过程，生成多样性的新样本，增强模型预测能力。主要流程包括：计算少数类样本的马氏距离，将其分为两部分，然后成对选取生成新实例。这种方法避免了新样本单一性，新实例在少数类边界内均匀分布，提高了模型的precision和recall。

摘要由CSDN通过智能技术生成

一般而言，类不平衡问题将会提高预测准确的难度。然而，在软件缺陷预测中，一直都面临着缺陷模块远少于无缺陷模块的情况。虽然近年来的许多方法，诸如SMOTE、ADASYN，都能通过创造新的少数类实例样本来平衡类的分布，但是，这些方法生成的新实例大多是之前少数类实例的复制，或者是临近关系。这就导致了少数类样本的单一性。

在《MAHAKIL: Diversity Based Oversampling Approach to Alleviate the Class Imbalance Issue in Software Defect Prediction》一文中提出的MAHAKIL重采样方法很好的解决了新样本多样性的问题，而且能有效地提升模型的预测能力。

一般的重采样之后，数据分布会如下图中的(b)，新样本分布在少数类附近；经过MAHAKIL 重采样后，数据分布如下图中的(c)，新样本在少数类边界内均匀分布。
这里写图片描述

主要流程

在MAHAKIL 中，主要通过模拟遗传学中的繁殖过程，来产生新的样本。简要过程可分为三个阶段：

phase 1: 将少数类样本从需要处理的数据集中分离出来，记为 $bin$ ，对于 $bin$ 中每一个少数类样本，计算其马氏距离（Mahalanobis distance）。

d 2 = (x - μ) T S - 1 (x - μ)

$d^2 = (x-\mu)^TS^{-1}(x-\mu)$
　　其中

S=1N∑Ni=1(xi−X¯)T

最低0.47元/天解锁文章

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。