异常检测-基于统计学的方法

最新推荐文章于 2024-04-01 00:44:51 发布

私の未来は夢じゃない

最新推荐文章于 2024-04-01 00:44:51 发布

阅读量146

点赞数

分类专栏：异常检测笔记文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/weixin_45064713/article/details/112690611

版权

异常检测笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这篇博客探讨了统计学方法在异常检测中的重要性，包括参数方法和非参数方法。参数方法假设数据遵循特定的参数分布，如正态分布，通过计算概率识别异常点；非参数方法则直接从数据中学习模型。博客还详细介绍了基于正态分布的一元和多元异常检测，以及非参数方法中的HBOS算法。

摘要由CSDN通过智能技术生成

基于统计学的方法

概述

统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。
异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。
即利用统计学方法建立一个模型，然后考虑对象有多大可能符合该模型。
根据如何指定和学习模型，异常检测的统计学方法可以划分为两个主要类型：参数方法和非参数方法。
参数方法假定正常的数据对象被一个以 $\Theta$ 为参数的参数分布产生。该参数分布的概率密度函数 $\Theta)$ 给出对象 $x$ 被该分布产生的概率。该值越小， $x$ 越可能是异常点。
非参数方法并不假定先验统计模型，而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的，不预先确定（所以非参数方法并不是说模型是完全无参的，完全无参的情况下从数据学习模型是不可能的）。

参数方法

基于正态分布的一元异常点检测

仅涉及一个属性或变量的数据称为一元数据。我们假定数据由正态分布产生，然后可以由输入数据学习正态分布的参数，并把低概率的点识别为异常点。
假定输入数据集为 $\left\{x^{(1)}, x^{(2)}, \ldots, x^{(m)}\right\}$ ，数据集中的样本服从正态分布，即 $x^{(i)} \sim N\left(\mu, \sigma^{2}\right)$ ，我们可以根据样本求出参数 $u$ 和 $\sigma$ 。
$\mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)}$
$\sigma^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)^{2}$
求出参数之后，我们就可以根据概率密度函数计算数据点服从该分布的概率。正态分布的概率密度函数为 $p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)$
如果计算出来的概率低于阈值，就可以认为该数据点为异常点。
阈值是个经验值，可以选择在验证集上使得评估指标值最大（也就是效果最好）的阈值取值作为最终阈值。
例如常用的3sigma原则中，如果数据点超过范围 $(\mu-3 \sigma, \mu+3 \sigma)$ ，那么这些点很有可能是异常点。
这个方法还可以用于可视化。箱线图对数据分布做了一个简单的统计可视化，利用数据集的上下四分位数（Q1和Q3）、中点等形成。异常点常被定义为小于Q1－1.5IQR或大于Q3+1.5IQR的那些数据。

多元异常点检测

涉及两个或多个属性或变量的数据称为多元数据。许多一元异常点检测方法都可以扩充，用来处理多元数据。其核心思想是把多元异常点检测任务转换成一元异常点检测问题。例如基于正态分布的一元异常点检测扩充到多元情形时，可以求出每一维度的均值和标准差。对于第维：
$\begin{aligned} \mu_{j} &=\frac{1}{m} \sum_{i=1}^{m} x_{j}^{(i)} \\ \sigma_{j}^{2} &=\frac{1}{m} \sum_{i=1}^{m}\left(x_{j}^{(i)}-\mu_{j}\right)^{2} \end{aligned}$
计算概率时的概率密度函数为
$p(x)=\prod_{j=1}^{n} p\left(x_{j} ; \mu_{j}, \sigma_{j}^{2}\right)=\prod_{j=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma_{j}} \exp \left(-\frac{\left(x_{j}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right)$
这是在各个维度的特征之间相互独立的情况下。如果特征之间有相关性，就要用到多元高斯分布了。

多个特征相关，且符合多元高斯分布

$\mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)}$
$\sum=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)\left(x^{(i)}-\mu\right)^{T}$
$p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)$