机器学习笔记整理（七）——异常检测

最新推荐文章于 2024-04-08 20:57:25 发布

xyq1212

最新推荐文章于 2024-04-08 20:57:25 发布

阅读量443

点赞数

分类专栏：机器学习&强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/xyq1212/article/details/106418524

版权

18 篇文章 1 订阅

订阅专栏

异常检测：由于没有与异常值相关的信息，因此实际上理想的异常检测很困难

下面介绍几种异常检测方法：

对偏离大部分数据的异常数据进行检测的方法。该方法是无监督的异常检测算法，依赖于事先制定的规则（k值）。

计算过程：

$x\rightarrow x^{'}$ 的可达距离： $RD_{k}(x,x^{'})=max\left ( \left \| x-x^{(k)} \right \|,\left \| x-x^{'} \right \| \right )$ ，其中 $x^{(k)}$ 是离第近的点，是自定义的一个值；
的局部可达密度： $LRD_{k}(x)=(\frac{1}{k}\sum_{i=1}^{k}RD_{k}(x^{(i)},x))^{-1}$ ，其中 $RD_{k}(x^{(i)},x)$ 是 $x^{(1)},...,x^{(k)}$ 距的可达距离，密度值越高， $RD_{k}(x)$ 的值越小， $LRD_{k}(x)$ 的值就越大；
x的局部异常因子： $LOF_{k}(x)=\frac{\frac{1}{k}\sum_{i=1}^{k}{LRD_{k}(x^{(i)})}}{LRD_{k}(x)}$ ，即 $x^{(1)},...,x^{(k)}$ 局部可达密度的平均值除以的局部可达密度，该值越大，是异常值的可能就越大。

在无监督学习的异常检测中引入学习要素

方法：求出几乎包含所有训练样本的超球，未包含在超球内的训练样本即异常值

弱监督异常值检测问题：给定正常样本的情况下，找出测试样本中的异常值

方法：

问题：

与3相比，不计算概率密度，直接进行密度比估计

方法：

将 $w_{\alpha }(x)$ 转换为参数为 $\alpha$ 的线性模型或者核模型等
使 $w_{\alpha }(x)p(x)$ 朝着近似 $p^{'}(x)$ 的风险对参数 $\alpha$ 进行学习，两者的相似度成为KL距离，两者相等时距离为0
迭代方法求解，因为该方法有一些约束条件，因此具有稀疏解的特征

关注

专栏目录