《DataWhale打卡第三天》异常检测（三）

最新推荐文章于 2021-06-19 21:01:05 发布

安铺靓仔

最新推荐文章于 2021-06-19 21:01:05 发布

阅读量129

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44935814/article/details/116952824

版权

今天讲的模型是线性模型，两大类：线性回归与主成分分析（PCA）

异常检测中线性模型需要满足两点假设：
假设一：近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。

假设二：子空间假设。子空间假设认为数据是镶嵌在低维子空间中的，线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

线性回归

线性回归也是老生常谈了，不外乎是通过梯度下降法来获得最优解，然后得出一条类似 $\omega \cdot x + b$ ，然后计算出y（这个 $\omega$ 还有另外一个约束：得是单位向量，据说是为了后续的计算方便，个人认为，如果涉及到计算复杂的问题，还是考虑使用神经网络和深度学习吧），这时还应该给出一个阈值，偏离这个阈值，或者说，严重偏离大多数数据点即为异常点。（感觉这有点像相似度检测，都是有一条公式，设个阈值，然后再分）

主成分分析

这个其实起着降维的作用，这个体现了假设二，还是那句话，如果数据维数比较高，那么计算量必定复杂，那么使用线性模型的效果就不好。

今天也就这样了，感觉使用线性模型来做异常检测在现实中效果大多不好，毕竟对于一个数据集（现实中），很难线性可分或者是近似线性可分。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。