机器学习实战之AdaBoost元算法（四）非均衡分类问题及小结

最新推荐文章于 2024-07-27 12:20:46 发布

琼简

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量1k

点赞数

文章标签： python 机器学习人工智能算法

本文链接：https://blog.csdn.net/weixin_45814668/article/details/107388942

版权

转载请注明作者和出处：https://blog.csdn.net/weixin_45814668
知乎：https://www.zhihu.com/people/qiongjian0427
Git：https://github.com/qiongjian/Machine-learning/
运行环境：anaconda—jupyter notebook
Python版本： Python3.x

更多精彩内容，尽在微信公众号，欢迎您的关注：
在这里插入图片描述

其他分类性能度量指标：正确率、召回率及ROC曲线

错误率指的是在所有测试样例中错分的样例比例。实际上，这样的度量错误掩盖了样例如何被分错的事实。在机器学习中，有一个普遍适用的称为混淆矩阵（confusion matrix）的工具，它可以帮助人们更好地了解分类中的错误。有这样一个关于在房子周围可能发现的动物类型的预测，这个预测的三类问题的混淆矩阵如下表所示：
在这里插入图片描述
利用混淆矩阵就可以更好地理解分类中的错误了。如果矩阵中的非对角元素均为0，就会得到一个完美的分类器。

考虑另外一个混淆矩阵，这次的矩阵只针对一个简单的二类问题。下表中给出了该混淆矩阵，在这个二类问题中，如果将一个正例判为正例，那么就可以认为产生了一个真正例（True Positive，TP，也称真阳）；如果对一个反例正确地判为反例，则认为产生了一个真反例（True Negative，TN，也称真阴）。相应地，另外两种情况则分别称为伪反例（False Negative，FN，也称假阴）和伪正例（False Positive，FP，也称假阳）。如下表所示：

在分类中，当某个类别的重要性高于其他类别时，我们就可以利用上述定义来定义出多个比错误率更好的新指标。第一个指标是正确率（precision），它等于TP/(TP+FP)，给出的是预测为正例的样本中的真正正例的比例。第二个指标是召回率（recall），它等于TP/(TP+FN)，给出的是预测为正例的真实正例占所有真实正例的比例。在召回率很大的分类器中，真正判错的正例的数目并不多。
在这里插入图片描述
我们可以很容易构造一个高正确率或高召回率的分类器，但是很难同时保证两者成立。如果将任何样本都判为正例，那么召回率达到百分之百而此时正确率很低。构建一个同时使正确率和召回率最大的分类器是具有挑战性的。

另一个用于度量分类中的非均衡性的工具是ROC曲线（ROC curve），ROC代表接收者操作特征（receiver operating characteristic），它最早在二战期间由电气工程师构建雷达系统时使用过。下图给出了一条ROC曲线的例子。是利用10个单层决策树的AdaBoost马疝病检测系统的ROC曲线。
在这里插入图片描述
图中有一条虚线一条实线。图中的横轴是伪正例的比例（假阳率=FP/(FP+TN)），而纵轴是真正例的比例（真阳率=TP/(TP+FN)）。ROC曲线给出的是当阈值变化时假阳率和真阳率的变化情况。左下角的点对应的是将所有样例判为反例的情况，而右上角的点对应的则是将所有样例判为正例的情况。虚线给出的是随机猜测的结果曲线。

ROC曲线不但可以用于比较分类器，还可以基于成本效益（cost-versus-benefit）分析来做出决策。

在理想的情况下，最佳的分类器应该尽可能地处于左上角，这就意味着分类器在假阳率很低的同时获得了很高的真阳率。例如在垃圾邮件的过滤中，这就相当于过滤了所有的垃圾邮件，但没有将任何合法邮件误实为垃圾邮件而放入垃圾邮件的文件夹中。

对不同的ROC曲线进行比较的一个指标是曲线下的面积（Area Unser the Curve，AUC）。AUC给出的是分类器的平均性能值，当然它并不能完全代替对整条曲线的观察。一个完美分类器的AUC为1.0，而随机猜测的AUC则为0.5。

最低0.47元/天解锁文章

琼简

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
机器学习实战之AdaBoost元算法（四）非均衡分类问题及小结

转载请注明作者和出处：https://blog.csdn.net/weixin_45814668知乎：https://www.zhihu.com/people/qiongjian0427Git：https://github.com/qiongjian/Machine-learning/运行环境：anaconda—jupyter notebookPython版本： Python3.x更多精彩内容，尽在微信公众号，欢迎您的关注：
复制链接

扫一扫