今天讲的模型是线性模型,两大类:线性回归与主成分分析(PCA)
异常检测中线性模型需要满足两点假设:
假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。
假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。
线性回归
线性回归也是老生常谈了,不外乎是通过梯度下降法来获得最优解,然后得出一条类似 y = ω ⋅ x + b y = \omega \cdot x + b y=ω⋅x+b,然后计算出y(这个 ω \omega ω还有另外一个约束:得是单位向量,据说是为了后续的计算方便,个人认为,如果涉及到计算复杂的问题,还是考虑使用神经网络和深度学习吧),这时还应该给出一个阈值,偏离这个阈值,或者说,严重偏离大多数数据点即为异常点。(感觉这有点像相似度检测,都是有一条公式,设个阈值,然后再分)
主成分分析
这个其实起着降维的作用,这个体现了假设二,还是那句话,如果数据维数比较高,那么计算量必定复杂,那么使用线性模型的效果就不好。
今天也就这样了,感觉使用线性模型来做异常检测在现实中效果大多不好,毕竟对于一个数据集(现实中),很难线性可分或者是近似线性可分。