机器学习 | 第2章（续）性能度量

最新推荐文章于 2024-04-23 10:48:46 发布

键盘上有个川宝

最新推荐文章于 2024-04-23 10:48:46 发布

阅读量590

点赞数 1

分类专栏：干货总结--机器学习（西瓜书）知识点文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_60911831/article/details/124907446

版权

干货总结--机器学习（西瓜书）知识点专栏收录该内容

4 篇文章 1 订阅

订阅专栏

在训练模型的过程中，不仅需要可行的实验估计方法，还需要衡量模型泛化能力的评价标准，简单来说，就是评价模型好不好，下面川宝带你看一看几个常用的性能度量标准：

1.均方误差

回归任务最常用的性能度量是均方误差，即预测值与真实值的差值和再取平均，即

2.错误率与精度

错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。

错误率定义为：

精度定义为：

3.查准率，查全率，F1

查准率是指模型预测的结果中，准确率有多少。

查全率是指模型预测的结果中，所有正例的结果你找到了多少。

下面我们以二分类问题介绍一下查准率，查全率该如何计算：

我们将类别划分为真正例(true postive)，假正例(false postive)，真反例(true negative)，假反例(false negative)四种情况，分别取首字母来代替，显然有TP+FP+TN+FN=样例总数，分类结果的混淆矩阵如图所示：

依据定义，查准率P与查全率R分别定义为：

注意：查准率和查全率是一对矛盾的度量，查准率高了，我们必然要选择有把握的一些样本，所以查全率肯定会低，而查准率高，我们要尽可能地取选择可能为正确的样本，查准率又会下降。

在很多情况下，为了直观，我们会做这样的处理，把多个样本按照可能性大小进行排序，逐个把样本添加到正例的集合中，计算会得到一系列的（P，R）点，连线，则会得到一个PR曲线，如下图：

通过PR曲线，我们可以比较两个学习器泛化性能的好坏:具体比较方式如下：

1.如果一个曲线被另外一个曲线包住，则另一个曲线泛化性能好，如A，C，显然A完全包住了C，所以A的性能更好。

2.如果两个曲线发生交叉，可以判断图像与坐标轴所包围的面积，面积越大，性能越好。

3.有时判断面积不容易，所以可以看平衡点，即曲线与y=x的交点，交点坐标值越大，性能越好。

为了更精确，我们常用的度量还有F1度量：

F1度量实际上是一个调和平均

若P，R的重要性不同，我们可以对其赋予相应的权重，得到：

此外，在实际的训练中，我们做一次实验往往是不够的，需要进行多次实验，然后取平均值，取平均值有两种方式，计算出每个P，R，然后取平均值，在计算F1，得到的是“宏查准率”，“宏查全率”，“宏F1”；若我们先对混淆矩阵的对应元素惊喜平均，在进行计算，得到的是“微查准率”，“微查全率”，“微F1”，对应公式如下：

4.ROC与AUC

与绘制PR曲线类似，我们将样例按照可能性大小进行排序，依次把每个样本作为正例进行预测，每次计算两个值，然后做图，即得到ROC曲线，AUC即使曲线与坐标轴包围的面积。

此处计算的两个值为真正例率(TPR)，假正例率(FPR)，定义公式为：

绘制的ROC曲线如图：

人为绘图非常简单，其大概步骤是：

假设一共有m个样本，按照可能性大小排序，依次将每个样本作为正例，从起始点(0,0)出发，如果当前样例是真正例，则向上画 $\frac{1}{m}$ 的短线，如果当前样例是假正例，则向右画 $\frac{1}{m}$ 的短线，如果预测的样例既可以是真正例，也可以是假正例，则分别向右跟向上画，即斜向上画一条短线。

排序损失定义为：

比较重要的公式是，正确率+损失=1，即：

5.代价敏感错误率与代价曲线

在我们的实际生活中，把正例预测为反例的代价可能跟把反例预测为正例的代价不一致，例如古代名言“宁可错杀一千，不可放过一个”，说的就是这个道理。所以我们需要给分类施加不同的代价，即得到代价矩阵：

“代价敏感”错误率定义为：

我们的目的是最小化总体代价，而ROC曲线无法得到代价相关信息，所以我们更常用的是代价曲线，代价曲线的绘制非常简单，步骤如下：

ROC曲线上的每一点对应了代价曲线的每一条线段，对于ROC曲线上的每一点，我们画一条从(0,FPR)到(1,FNR)的线段，最终画出的所有线段包围的公共面积即为期望总体代价，如图所示：

6.比较检验

比较检验是基于统计学的知识进行比较学习器的性能，这里我们不做过多的展开。

我们来看下面这张图：

通过这张图，我们需要知道如何判断三个算法的好坏，比较步骤如下：

若两个算法的横线段有交叠，则说明这两个算法没有显著差别，否则说明有显著差别，并且平均序值越小，算法越好。

如图，算法A和算法B有交叠，故没有显著差别，算法A与算法C没有交叠，且算法A的平均序值更小，故算法A显著优于算法 C。

7.偏差与方差

在这我们主要看一下泛化误差由哪几部分组成，在通过一系列的推到之后，我们可以得到：

泛化误差可分解为偏差，方差与噪声之和，即：

偏差说的是模型预测值与真实值之间的误差，学习算法本身的拟合能力

方差说的是训练集不同而造成训练模型的不同所带来的误差，即数据扰动造成的影响。

噪声说的是训练样本的标记与真实标记不同带来的误差，即刻画了学习问题本身的难度。

偏差与方差是有关系的，如图：

解释：当训练程度小的时候，学习器的拟合能力不强，偏差占据了主要的地位，随着训练程度的增加，拟合能力增强，偏差逐渐减小，数据集本身的一些特征也被学习器学到，方差逐渐增大，方差占据主导地位，总而言之，随之训练程度的增加，是一场从欠拟合到过拟合的过程。

好啦，本章的知识点川宝先带大家看到这里，川宝想说的是：无论生活多么难，但还是需要坚持下去，黑夜过后，黎明终将到来。

键盘上有个川宝

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习 | 第2章（续）性能度量

在训练模型的过程中，不仅需要可行的实验估计方法，还需要衡量模型泛化能力的评价标准，简单来说，就是评价模型好不好，下面川宝带你看一看几个常用的性能度量标准：1.均方误差回归任务最常用的性能度量是均方误差，即预测值与真实值的差值和再取平均，即2.错误率与精度错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。错误率定义为：精度定义为：3.查准率，查全率，F1查准率是指模型预测的结果中，准确率有多少。查全率是指模型预测的结果中，所有正
复制链接

扫一扫