Lecture 8:Noise and Error

Lecture 8:Noise and Error

【参考】https://redstonewill.com/227/

【概括】在这里插入图片描述

8.1 Noise and Probablistic target

Data Sets的Noise一般有三种情况:

  1. 由于人为因素,正类被误分为负类,或者负类被误分为正类;
  2. 同样特征的样本被模型分为不同的类;
  3. 样本的特征被错误记录和使用。
    在这里插入图片描述

在引入noise的情况下,新的学习流程图如下所示:
在这里插入图片描述

8.2 ERROR Measure

g对错误的衡量有三个特性:

  1. out-of-sample:样本外的未知数据
  2. pointwise:对每个数据点x进行测试
  3. classification:看prediction与target是否一致,classification error通常称为0/1 error

pointwise error是机器学习中最常用也是最简单的一种错误衡量方式,未来课程中,我们主要考虑这种方式。pointwise error一般可以分成两类:0/1 error和squared error。0/1 error通常用在分类(classification)问题上,而squared error通常用在回归(regression)问题上。

在这里插入图片描述
有了错误衡量,就会知道当前的g是好还是不好,并会让演算法不断修正,得到更好的g,从而使得g与目标函数更接近。所以,引入error measure后,学习流程图如下所示:
在这里插入图片描述

8.3 Algorithmic Error Measure

Error有两种:false accept和false reject。false accept意思是误把负类当成正类,false reject是误把正类当成负类。
根据不同的机器学习问题,false accept和false reject应该有不同的权重,这根实际情况是符合的,比如是超市优惠,那么false reject应该设的大一些;如果是安保系统,那么false accept应该设的大一些。
在这里插入图片描述
引入algorithm error measure之后,学习流程图如下:
在这里插入图片描述

8.4 Weighted Classification

实际上,机器学习的Cost Function即来自于这些error,也就是算法里面的迭代的目标函数,通过优化使得Error(Ein)不断变小。
cost function中,false accept和false reject赋予不同的权重,在演算法中体现。对不同权重的错误惩罚,可以选用virtual copying的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值