《DataWhale打卡第三天》异常检测(三)

今天讲的模型是线性模型,两大类:线性回归与主成分分析(PCA)

异常检测中线性模型需要满足两点假设:
  假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。

  假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

线性回归

线性回归也是老生常谈了,不外乎是通过梯度下降法来获得最优解,然后得出一条类似 y = ω ⋅ x + b y = \omega \cdot x + b y=ωx+b,然后计算出y(这个 ω \omega ω还有另外一个约束:得是单位向量,据说是为了后续的计算方便,个人认为,如果涉及到计算复杂的问题,还是考虑使用神经网络和深度学习吧),这时还应该给出一个阈值,偏离这个阈值,或者说,严重偏离大多数数据点即为异常点。(感觉这有点像相似度检测,都是有一条公式,设个阈值,然后再分)

主成分分析

这个其实起着降维的作用,这个体现了假设二,还是那句话,如果数据维数比较高,那么计算量必定复杂,那么使用线性模型的效果就不好。

今天也就这样了,感觉使用线性模型来做异常检测在现实中效果大多不好,毕竟对于一个数据集(现实中),很难线性可分或者是近似线性可分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值