一篇文章总结python机器学习类不平衡问题的处理-class imbalance（ROC，混淆矩阵，f1 score等）

最新推荐文章于 2024-06-07 17:39:41 发布

ZachhhBweg

最新推荐文章于 2024-06-07 17:39:41 发布

阅读量1.2k

点赞数 1

分类专栏： python机器学习 - 用python深入机器学习的世界文章标签： python 机器学习人工智能数据分析

本文链接：https://blog.csdn.net/weixin_44145222/article/details/105473844

版权

本文介绍了Python中处理机器学习类不平衡问题的方法，包括使用混淆矩阵、准确率、召回率、F1 Score和ROC曲线。强调在类不平衡场景下，准确率的局限性以及召回率和F1 Score的重要性。文章提供了相关Python实现，并探讨了多类分类问题的评价策略。

摘要由CSDN通过智能技术生成

source: python machine learning 3rd

所谓的类不平衡问题，指的就是数据集中一类的样本量明显小于另一类。在这类特殊问题中，如果不进行处理，默认训练模型时对小类和大类数据的惩罚相同，会导致对数据更加敏感，样本量更少的小类产生预测上的偏差。如何处理这一偏差，让模型对大类和小类都有良好的预测结果? 本文将给出总结性的方法集合

本文中python实现的数据集建议来自Breast Cancer Wisconsin dataset

混淆矩阵

混淆其实不是专门用来处理类不平衡问题的，但是它能够帮助我们清晰直观地分析类不平衡问题，之后我们要介绍到的种种方法，基本都要涉及到混淆矩阵的使用。

混淆矩阵能够详细地给我们展示以下四种预测情况的分布：

TP: true positive - 样本预测结果为1，实际分类结果也为1
TN: true negative - 样本预测结果为0，实际分类结果也为0
FP: false positive - 样本预测结果为1，实际分类结果为0
FN: false negative - 样本预测结果为0，实际分类结果为1

注：本文中的y=1样本都默认表示为想要预测的种类，一般情况下都为小类
迷惑矩阵

python实现

之后的所有代码都会假设X_train, y_train已获得且被合理分割

...
# 导入迷惑矩阵
from sklearn.metrics import confusion_matrix

# 使用一个模型训练数据，如此中SVC pipeline
pipe_svc.fit(X_train, y_train)
# 获得模型的预测结果
y_pred = pipe_svc.predict(X_test)
# 使用预测结果和真实结果一步生成混淆矩阵
confmat = confusion_matrix(y_true=y_test, y_pred=y_pred)

可视化:

# matplotlib
fig, ax = plt.subplots(figsize=(2.5, 2.5))
ax.matshow(confmat, cmap=plt.cm.Blues, alpha=0.3)
for i in range(confmat.shape[0]):
    for j in range(confmat.shape[1]):
        ax.text(x=j, y=i, s=confmat[i, j], va='center', ha='center')

plt.xlabel('Predicted label')
plt.ylabel('True label')

plt.tight_layout()
plt.show()

稍加注意这里的坐标分布和我们之前介绍的是反的，即0在左上角

准确度，召回率和f1 score

准确率(ACC/PRE)

准确率（accuracy/precision）直接反应了我们机器学习模型的表现，得分越高，预测结果的正确率越高

具体而言：
$R=\frac{F P+F N}{F P+F N+T P+T N}$
$C=\frac{T P+T N}{F P+F N+T P+T N}=1-E R R$
所以说，准确率越高，模型中预测正确的结果占比越大，一般我们使都使用准确率来表示测试集得分

召回率(REC)

尽管准确率十分常用，但是在面对类不平衡问题时，它也有很大的局限性

假设我们使用准确率为99.5%的超级棒棒模型去预测1005位体检者是否可能患有癌症&

最低0.47元/天解锁文章

ZachhhBweg

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
一篇文章总结python机器学习类不平衡问题的处理-class imbalance（ROC，混淆矩阵，f1 score等）

文章目录迷惑矩阵准确度，召回率和f1 scoreROC多类分类问题-加权均分其它方法迷惑矩阵准确度，召回率和f1 scoreROC多类分类问题-加权均分其它方法
复制链接

扫一扫

专栏目录