吴恩达ML课程笔记（Chapter 15：异常检测anomaly detection）

最新推荐文章于 2020-05-29 15:05:40 发布

阿袁的小园子

最新推荐文章于 2020-05-29 15:05:40 发布

阅读量206

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/yuanren201/article/details/103861316

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

文章目录

15 异常检测（anomaly detection）

15 异常检测（anomaly detection）

15-1 问题动机

1.比如给定一个数据集，这个数据集里的样本都是正常的，现在有一个新的样本点，我们需要判断这个样本点是不是正常的，这时候我们就需要对数据进行建模，得到模型P(X)，并设定一个值ε，如果P(x_test)<ε,那这个新样本点就是异常的，否则就不是异常
在这里插入图片描述
2.实际应用有用户行为异常检测、飞机零部件检查等

15-2 高斯分布

1.对于高斯分布X~N(μ，σ²)，它的曲线如下：
在这里插入图片描述
这里σ是标准差

2.高斯分布曲线下面围成的面积一定是1

3.对μ和σ的估计方法如下
在这里插入图片描述
有时候，σ的那个式子的分母还可以是m-1，其实分母取m还是m-1在实际应用中区别不大

15-3 算法

1.异常检测算法的步骤：
在这里插入图片描述
1）从一大堆特征值中选出你觉得有可能能帮助我们指出异常样本的特征值x_i，一共选出n个
2）根据给定的数据，计算所有特征值的均值和方差：
μi=1/m $\sum_{j=1}^m{x}^{(j)}_i$
σi²=1/m $\sum_{j=1}^m({x}^{(j)}_i-μ_i)^2$
3）给定新样本x，计算相应的概率，如果概率小于ε就是异常值，计算公式为：
P(X)= $\prod_{i=1}^np(xi;μi,σ^2)$

15-4 开发和评估异常检测系统

1.比如说有一个飞机零件制造厂造了10000个好的部件，然后造了20个坏的部件。我们可以把这10000+20个数据按6000，2000+10，2000+10分成训练集，验证集和测试集。我们用训练集的数据去拟合模型，通过真阳性、假阳性等指标判断这个模型是否合适，从而进一步判断这个模型用到的特征值是否符合要求
在这里插入图片描述

15-5 异常检测VS监督学习

1.使用异常检测和监督学习的条件
在这里插入图片描述
总结起来就是：

异常检测	监督学习
正样本（也就是异常样本）少得可怜,负样本却多的很	有大量的正样本和负样本
异常点有很多类型，未来可能出现的异常点和已知的大相径庭	正样本多到足以涵盖未来可能出现的正样本

2.异常检测和监督学习的应用：
在这里插入图片描述