Coursera machine learning week 6(二)

一 误差分析

当应用机器学习时,建议的顺序是:

1.首先构建一个比较简单的模型或学习算法;

2.画出模型的学习曲线、诊断模型是否有高偏差(欠拟合)或者高方差(过拟合)问题,从而决定是否需要更多的数据或者更多的特征来解决;

3.误差分析,手动检查算法算错的那些样例,然后找出算法算错的样例术语那种类型。


二 偏斜类的误差度量指标

2.1 偏斜类(Skewed classes):是指假设一个样本中有两类,其中一类的数目比另一类的样本数目要多的多,这时我们用总体分类精度来评价该机器学习模型可能会出现较大的误差和问题,比如利用一个简单的模型(y=0)就可以获得很高的模型精度,但是这显然不适合实际样本的,所以就需要使用其他方法来对该模型进行评价,避免偏斜类的问题。所以就产生了准确率(Precision)和召回率(Recall)评价方法。


准确率和召回率的计算公式:


个人理解:准确率是把多少原本是0的误判为1; 召回率是把多少原本是1的误判为0了。

2.2 准确率和召回率的平衡问题

以逻辑斯蒂回归为例,准确率和召回率的关系如下图所示:


1.通过准确率和召回率参数可以定量评价一个模型,但是有时需要根据实际情况选择是高准确率还是高召回率,对于逻辑斯蒂回归模型,可以通过修改阈值来实现。

2.利用precision和recall无法全面的对模型进行评价,F Score是将准确率和召回率合在一起的度量参数评价指标,可以基本权衡一个算法的有效性。 计算公式如下:



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值