异常业务预警算法总结

weixin_47939744

已于 2022-01-23 19:26:56 修改

阅读量2.9k

点赞数

文章标签： python 数据挖掘机器学习

于 2022-01-23 19:22:49 首次发布

本文链接：https://blog.csdn.net/weixin_47939744/article/details/122655677

版权

OneClassSVM
OneClass SVM 是一個非监督学习的算法，顾名思义训练数据只有一个分类。透过这些正常样本的特征取学习一个决策边界，再透过这个边界去判别新的数据是否与训练数据类似。超出边界即视为异常。
参考文献：Python机器学习笔记：异常点检测算法——One Class SVM
Isolation Forest(以下简称iForest)主要是利用集成学习的思路来做异常点检测，目前几乎成为异常点检测算法的首选项。iForest适用于连续数据（Continuous numerical data）的异常检测，将异常定义为“容易被孤立的离群点（more likely to be separated）可以理解为分布稀疏且离密度高的群体较远的点。
Local Outlier Factor（局部离群因子）
Local Outlier Factor（LOF）是基于密度的经典算法（Breuning et. al. 2000）。在 LOF 之前的异常检测算法大多是基于统计方法的，或者是借用了一些聚类算法用于异常点的识别（比如，DBSCAN，OPTICS）。但是，基于统计的异常检测算法通常需要假设数据服从特定的概率分布，这个假设往往是不成立的。而聚类的方法通常只能给出 0/1 的判断（即：是不是异常点），不能量化每个数据点的异常程度。相比较而言，基于密度的LOF算法要更简单、直观。它不需要对数据的分布做太多要求，还能量化每个数据点的异常程度（outlierness）。

LOF算法是一种无监督的异常检测方法，它计算给定数据点相对于其邻居的局部密度偏差。每个样本的异常分数称为局部异常因子。异常分数是局部的，取决于样本相对于周围邻域的隔离程度。确切地说，局部性由k近邻给出，并使用距离估计局部密度。通过将样本的局部密度与其邻居的局部密度进行比较，可以识别密度明显低于其邻居的样本,，这些样本就被当做是异常样本点。

算法原理如下：

计算k-distance of p：计算点p的第k距离，也就距离样本点p第k远的点的距离，不包括p;
计算k-distance neighborhood of p：计算点p的第k邻域距离，就是p的第k距离以内的所有点，包括第k距离;
计算reach-distance：可达距离，若小于第k距离，则可达距离为第k距离，若大于第k距离，则可达距离为真实距离，公式如下(说明:d(p,o)为p到o的距离)： $KaTeX parse error: Expected '}', got 'EOF' at end of input: \dotstance(o),d(p,o)$ 。点o到点p的第k可达距离，至少是点o的第k距离，或者为o与p间的真实距离。
计算local reachability density：局部可达密度。 $d_k(p)=frac{1}{ frac{1}{|Nk(p)|} sum _{o in Nk(p)}reach-istance_k(p,o)}$

最低0.47元/天解锁文章

weixin_47939744

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
异常业务预警算法总结

OneClassSVMOneClass SVM 是一個非监督学习的算法，顾名思义训练数据只有一个分类。透过这些正常样本的特征取学习一个决策边界，再透过这个边界去判别新的数据是否与训练数据类似。超出边界即视为异常。参考文献：Python机器学习笔记：异常点检测算法——One Class SVM...
复制链接

扫一扫