斯坦福大学机器学习笔记——异常检测算法(高斯分布、多元高斯分布、异常检测算法)

异常检测问题介绍:
异常检测算法主要用于无监督学习问题,但从某种角度看它又类似于一种有监督学习的问题,下面我们从一个例子中简单介绍一下什么是异常检测问题。
比如我们有一个飞机引擎制造商,对于一个新造出的飞机引擎我们想判断这个引擎是不是异常的。
假如我们有两个飞机引擎的特征:1)引擎运转时产生的热量;2)引擎的震动强度。我们得到了一个数据集: x1,x2,...,xm ,绘制的关于特征的数据分布如下图所示:
这里写图片描述
这里的每个叉都是上述的无标签的样本。
异常检测的问题可以定义如下:对于给定的数据集 x1,x2,...,xm ,我们假使数据集是正常的,我们希望知道新的数据 xtest 是不是异常的,即这个数据不属于改组数据集的几率如何。我们所构建的模型应该能够根据预测数据的位置告诉我们其属于这一组数据的可能性 p(x)
这种方法称为密度估计,表达式如下:
这里写图片描述
其中, p(x) 代表新来的样本 x 属于这一组数据的可能性。值得注意的是,我们假设数据集中的样本是正常的,也就是说对于我们原来的数据集,正常的样本应该占据很大的比例,这样用异常检测的效果才会很好。
异常检测的其他应用:
1.一些生产物件的异常检测(飞机引擎、家电等);
2.可以用来识别欺骗。检测用户是否被盗号(通过用户的行为与之前行为的区别)。

高斯分布:
通过上述例子的解析我们知道了什么是异常检测,同时我们知道了对于异常检测算法来说,一个关键的问题是我们怎么对于给定的数据集进行密度估计得到 p(x) 。所以我们这一节介绍一种密度估计的方法——高斯分布。
我们先简单介绍一下什么是高斯分布,通常我们认为变量 x 符合高斯分布 xN(μ,σ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值