Lecture 8：Noise and Error-CSDN博客

本文链接：https://blog.csdn.net/weixin_43860935/article/details/108867100

本文概述了机器学习中的噪声来源，包括数据集的误分类和特征错误。介绍了三种错误衡量方法：点wise error（0/1和平方误差）、算法错误（false accept/reject）和分类权重的应用。重点讲解了如何通过优化cost function来减少错误，涉及weighted classification和不同场景下的错误权重调整。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Lecture 8：Noise and Error

【参考】https://redstonewill.com/227/

【概括】在这里插入图片描述

8.1 Noise and Probablistic target

Data Sets的Noise一般有三种情况：

由于人为因素，正类被误分为负类，或者负类被误分为正类；
同样特征的样本被模型分为不同的类；
样本的特征被错误记录和使用。

在引入noise的情况下，新的学习流程图如下所示：
在这里插入图片描述

8.2 ERROR Measure

g对错误的衡量有三个特性：

out-of-sample：样本外的未知数据
pointwise：对每个数据点x进行测试
classification：看prediction与target是否一致，classification error通常称为0/1 error

pointwise error是机器学习中最常用也是最简单的一种错误衡量方式，未来课程中，我们主要考虑这种方式。pointwise error一般可以分成两类：0/1 error和squared error。0/1 error通常用在分类（classification）问题上，而squared error通常用在回归（regression）问题上。

在这里插入图片描述
有了错误衡量，就会知道当前的g是好还是不好，并会让演算法不断修正，得到更好的g，从而使得g与目标函数更接近。所以，引入error measure后，学习流程图如下所示：

8.3 Algorithmic Error Measure

Error有两种：false accept和false reject。false accept意思是误把负类当成正类，false reject是误把正类当成负类。
根据不同的机器学习问题，false accept和false reject应该有不同的权重，这根实际情况是符合的，比如是超市优惠，那么false reject应该设的大一些；如果是安保系统，那么false accept应该设的大一些。
在这里插入图片描述
引入algorithm error measure之后，学习流程图如下：

8.4 Weighted Classification

实际上，机器学习的Cost Function即来自于这些error，也就是算法里面的迭代的目标函数，通过优化使得Error（Ein）不断变小。
cost function中，false accept和false reject赋予不同的权重，在演算法中体现。对不同权重的错误惩罚，可以选用virtual copying的方法。