简单机器学习系统的构建以及对于不对称性的分类介绍和性能评价

最新推荐文章于 2022-06-06 12:28:08 发布

三省少年

最新推荐文章于 2022-06-06 12:28:08 发布

阅读量560

点赞数

分类专栏：机器学习文章标签：机器学习不对称性查准率召回率

本文链接：https://blog.csdn.net/xd15010130025/article/details/108042541

版权

机器学习专栏收录该内容

36 篇文章 5 订阅

订阅专栏

1.前言

这篇文章主要是总结简单机器学习系统的构建，简单的误差分析，特别的，对于不对称性分类的误差评估做了介绍，并对这种情况做了性能指标的规定。
关键词：机器学习系统不对称性分类查准率召回率

2.内容介绍

2.1构建机器学习系统的简单例子

假设我们需要做一个垃圾邮件屏蔽器，要怎么开始做呢？

首先快速设计一个简单的算法，并且在交叉验证集上使用和测试它
画出学习曲线决定是否需要更多的数据，更多的特征等等
误差分析，在交叉验证集分析你的错误，看能否分析出错误的一些趋势。

例子：
$m_{CV}$ =500个例子在交叉验证集上，算法错误分类了100个例子，检查这100个例子，用这两个标准分类这些错误：

这些邮件是什么类型的
那些特征你觉得可以让算法更正确的分类它们

错误拼写	5
不寻常的邮件名	16
不寻常的标点符号	32

用一个数值评价算法的效果后，我们可以针对错误最多的不寻常的标点符号来改进算法，改进算法的办法上篇博文有提到。

2.2不对称性分类的误差评估

2.2.1不对称性类的介绍

假设有这样一种情况：在交叉验证集上运行算法，发现会有5%的错误概率，可是在样本集中只有3%的错误样本，也就是说，我们设计一个算法：

function y=predict(x)
y=0;
return

运行这样的算法我们也能得到3%的错误概率，可是显而易见的，这并不是一个好的算法。
所谓不对称性类是指在样本中占的比例很小的类。
既然占的比例很小，那么我们会有一个问题：假设我们的预测算法将准确率熊95%提升到了97%，我们的算法是进步了还是退步了呢？因为不知道算法是否是朝着y=0去拟合。鉴于此，针对不对称类，我们提出了一个新的评估方法

2.2.2新的误差评估方法

在这里插入图片描述
我们定义查准率(precision)为 $precision=\frac{true\ positive}{true\ postive+false\ positive}$ 定义召回率(recall)为 $recall=\frac{true\ positive}{true\ positive+false\ negetive}$

2.2.3查准率和召回率的权衡

看一个例子：
对于逻辑回归，假设我们改变门限，即
$predict=\begin{cases} 1& h(\theta)>=0.7 \\ 0& h(\theta)<0.7 \end{cases}$ 即只有很高的把握才会预测为1，这样会提高查准率，但是召回率会降低，同样的，如果我们将门限改为0.3，即 $predict=\begin{cases} 1& h(\theta)>=0.3 \\ 0& h(\theta)<0.3 \end{cases}$ 很少会预测错的出来，召回率会提高，但是查准率会降低。

2.2.4评价指标

怎么来评价什么系统好呢？是查准率高的系统好，还是召回率高的系统好呢？在这里给出一个评价指标
$F_1=\frac{2PR}{P+R}$ 至于恰好在[0,1].
这样的评价指标对于我们提出的问题有没有解决呢？
给出一个例子：
在这里插入图片描述
可以发现若是所有的数都取0，即Recall等于1，我们会发现 $F_1$ 依然很小，用 $F_1$ 可以很好地评价不对称性系统。

3.reference

吴恩达机器学习

三省少年

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单机器学习系统的构建以及对于不对称性的分类介绍和性能评价

1.前言这篇文章主要是总结简单机器学习系统的构建，简单的误差分析，特别的，对于不对称性分类的误差评估做了介绍，并对这种情况做了性能指标的规定。关键词：机器学习系统不对称性分类查准率召回率目录1.前言2.内容介绍2.1构建机器学习系统的简单例子2.2不对称性分类的误差评估2.2.1不对称性类的介绍2.2.2新的误差评估方法2.2.3查准率和召回率的权衡2.2.4评价指标3.reference2.内容介绍2.1构建机器学习系统的简单例子假设我们需要做一个垃圾邮件屏蔽器，要怎么开始做呢？首先
复制链接

扫一扫

专栏目录