Lecture 8:Noise and Error
【参考】https://redstonewill.com/227/
【概括】
8.1 Noise and Probablistic target
Data Sets的Noise一般有三种情况:
- 由于人为因素,正类被误分为负类,或者负类被误分为正类;
- 同样特征的样本被模型分为不同的类;
- 样本的特征被错误记录和使用。
在引入noise的情况下,新的学习流程图如下所示:
8.2 ERROR Measure
g对错误的衡量有三个特性:
- out-of-sample:样本外的未知数据
- pointwise:对每个数据点x进行测试
- classification:看prediction与target是否一致,classification error通常称为0/1 error
pointwise error是机器学习中最常用也是最简单的一种错误衡量方式,未来课程中,我们主要考虑这种方式。pointwise error一般可以分成两类:0/1 error和squared error。0/1 error通常用在分类(classification)问题上,而squared error通常用在回归(regression)问题上。
有了错误衡量,就会知道当前的g是好还是不好,并会让演算法不断修正,得到更好的g,从而使得g与目标函数更接近。所以,引入error measure后,学习流程图如下所示:
8.3 Algorithmic Error Measure
Error有两种:false accept和false reject。false accept意思是误把负类当成正类,false reject是误把正类当成负类。
根据不同的机器学习问题,false accept和false reject应该有不同的权重,这根实际情况是符合的,比如是超市优惠,那么false reject应该设的大一些;如果是安保系统,那么false accept应该设的大一些。
引入algorithm error measure之后,学习流程图如下:
8.4 Weighted Classification
实际上,机器学习的Cost Function即来自于这些error,也就是算法里面的迭代的目标函数,通过优化使得Error(Ein)不断变小。
cost function中,false accept和false reject赋予不同的权重,在演算法中体现。对不同权重的错误惩罚,可以选用virtual copying的方法。