[Machine Learning] 异常检测(Anomaly Detection)

在这里插入图片描述

13 Anomaly Detection(异常检测)

13.1 Problem Motivation

异常检测(Anomaly detection)问题,是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。

什么是异常检测呢?
举个例子:假设你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行QA(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。
在这里插入图片描述
如果生产了𝑚个引擎的话,得到一个从𝑥(1)到𝑥(𝑚)的数据集,然后将这些数据绘制成图表,看起来就是上图这样:每个叉都是无标签数据。这样,异常检测问题可以定义如下:我们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量𝑥𝑡𝑒𝑠𝑡。所谓的异常检测问题就是:我们希望知道这个新的飞机引擎是否有某种异常,或者说,我们希望判断这个引擎是否需要进一步测试。因为,如果它看起来像一个正常的引擎,那么我们可以直接将它运送到客户那里,而不需要进一步的测试。

给定数据集 𝑥(1), 𝑥(2), . . , 𝑥(𝑚),假设数据集是正常的,我们希望知道新的数据 𝑥𝑡𝑒𝑠𝑡是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 𝑝(𝑥)。
在这里插入图片描述
上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。

这种方法称为密度估计,表达如下:
在这里插入图片描述
欺诈检测:𝑥(𝑖) = 用户的第 𝑖个活动特征
模型𝑝(𝑥) 为我们其属于一组数据的可能性,通过𝑝(𝑥) < 𝜀检测非正常用户。

异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。再一个例子是检测一个数据中心,特征可能包含:内存使用情况,被访问的磁盘数量,CPU 的负载,网络的通信量等。根据这些特征可以构建一个模型,用来判断某些计算机是不是有可能出错了。

13.2 Gaussian Distribution(高斯分布)

高斯分布,也称为正态分布。
在这里插入图片描述
在这里插入图片描述
注:机器学习中对于方差通常只除以𝑚而非统计学中的(𝑚 − 1)。这里顺便提一下,在实际使用中,到底是选择使用1/𝑚还是1/(𝑚 − 1)其实区别很小,只要你有一个还算大的训练集,在机器学习领域大部分人更习惯使用1/𝑚这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同,但是在实际使用中,他们的区别甚小,几乎可以忽略不计。

13.3 Algorithm

异常检测算法:
对于给定的数据集 𝑥(1), 𝑥(2), . . . , 𝑥(𝑚),针对每一个特征计算 𝜇 和 𝜎2 的估计值。
在这里插入图片描述
一旦获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算𝑝(𝑥):
在这里插入图片描述

当𝑝(𝑥) < 𝜀时,为异常。

下图是一个由两个特征的训练集,以及特征的分布情况:
在这里插入图片描述

下面的三维图表表示的是密度估计函数,𝑧轴为根据两个特征的值所估计𝑝(𝑥)值:
在这里插入图片描述
选择一个𝜀,将𝑝(𝑥) = 𝜀作为我们的判定边界,当𝑝(𝑥) > 𝜀时预测数据为正常数据,否则为异常。

13.4 Developing and Evaluating an Anomaly Detection System

异常检测算法是一个非监督学习算法,意味着无法根据结果变量 𝑦 的值来告诉数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当开发一个异常检测系统时,从带标记(异常或正常)的数据着手,选择其中一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。

例如:有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 可以这样分配数
据:

  • 6000 台正常引擎的数据作为训练集
  • 2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
  • 2000 台正常引擎和 10 台异常引擎的数据作为测试集

具体的评价方法如下:

  1. 根据测试集数据,估计特征的平均值和方差并构建𝑝(𝑥)函数
  2. 对交叉检验集,尝试使用不同的𝜀值作为阀值,并预测数据是否异常,根据 F1 值或者查准率与查全率的比例来选择 𝜀
  3. 选出 𝜀 后,针对测试集进行预测,计算异常检验系统的𝐹1值,或者查准率与查全率之比。

13.5 Anomaly Detection vs. Supervised Learning

异常检测监督学习
非常少量的正向类(异常数据 𝑦 = 1), 大量的负向类(𝑦 = 0)同时有大量的正向类和负向类
许多不同种类的异常,非常难。根据非常少量的正向类数据来训练算法。有足够多的正向类实例,足够用于训练算法,未来遇到的正向类实例可能与训练集中的非常近似。
未来遇到的异常可能与已掌握的异常、非常的不同。
例如:欺诈行为检测、生产(例如飞机引擎)、检测数据中心的计算机运行状况例如:邮件过滤器、天气预报、肿瘤分类

另外,对于很多技术公司可能会遇到的一些问题,通常来说,正样本的数量很少,甚至有时候是 0,也就是说,出现了太多没见过的不同的异常类型,那么对于这些问题,通常应该使用的算法就是异常检测算法。

13.5 Choosing What Features to Use

对于异常检测算法,使用的特征是至关重要的,下面谈谈如何选择特征:

异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:𝑥 = 𝑙𝑜𝑔(𝑥 + 𝑐),其中 𝑐为非负常数; 或者 𝑥 = 𝑥𝑐,𝑐为 0-1 之间的一个分数,等方法。
在这里插入图片描述
注:在 python 中,通常用 np.log1p()函数,𝑙𝑜𝑔1𝑝就是 𝑙𝑜𝑔(𝑥 + 1),可以避免
出现负数结果,反向函数就是 np.expm1()

误差分析:
一个常见的问题是一些异常的数据可能也会有较高的𝑝(𝑥)值,因而被算法认为是正常的。这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。

异常检测误差分析:
在这里插入图片描述
通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小),例如,在检测数据中心的计算机状况的例子中,我们可以用 CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。

13.7 Multivariate Gaussian Distribution

假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。

下图中是两个相关特征,洋红色的线(根据 ε 的不同其范围可大可小)是一般的高斯分布模型获得的判定边界,很明显绿色的 X 所代表的数据点很可能是异常值,但是其𝑝(𝑥)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界。
在这里插入图片描述
在一般的高斯分布模型中,计算 𝑝(𝑥) 的方法是: 通过分别计算每个特征对应的几率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起来计算 𝑝(𝑥)。

首先计算所有特征的平均值,然后再计算协方差矩阵:
在这里插入图片描述
注:其中𝜇 是一个向量,其每一个单元都是原特征矩阵中一行数据的均值。最后我们计算多元高斯分布的𝑝(𝑥): 在这里插入图片描述
其中:
|𝛴|是定矩阵,在 Octave 中用 det(sigma)计算

𝛴1 是逆矩阵,那么协方差矩阵是如何影响模型的?
在这里插入图片描述
上图是 5 个不同的模型,从左往右依次分析:

  1. 是一个一般的高斯分布模型
  2. 通过协方差矩阵,令特征 1 拥有较小的偏差,同时保持特征 2 的偏差
  3. 通过协方差矩阵,令特征 2 拥有较大的偏差,同时保持特征 1 的偏差
  4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关性
  5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关性

多元高斯分布模型与原高斯分布模型的关系:
可以证明的是,原本的高斯分布模型是多元高斯分布模型的一个子集,即像上图中的第1、2、3,3 个例子所示,如果协方差矩阵只在对角线的单位上有非零的值时,即为原本的高斯分布模型了。

原高斯分布模型和多元高斯分布模型的比较:

原高斯分布模型多元高斯分布模型
不能捕捉特征之间的相关性,但可以通过将特征进行组合的方法来解决自动捕捉特征之间的相关性
计算代价低,能适应大规模的特征计算代价较高,训练集较小时也同样适用
必须要有 𝑚 > 𝑛,不然的话协方差矩阵,不可逆的,通常需要 𝑚 > 10𝑛 另外特征冗余也会导致协方差矩阵不可逆

原高斯分布模型被广泛使用着,如果特征之间在某种程度上存在相互关联的情况,我们可以通过构造新新特征的方法来捕捉这些相关性。

如果训练集不是太大,并且没有太多的特征,我们可以使用多元高斯分布模型。

13.8 Anomaly Detection Using the Multivariate Gaussian Distribution

多元高斯分布和多元正态分布:
在这里插入图片描述
分布有两个参数, 𝜇 和 𝛴。其中𝜇是𝑛维向量和 𝛴 是协方差矩阵(𝑛 × 𝑛的矩阵)。而p(x),通过调整 𝜇 和𝛴,可以得到一个范围不同的分布。

参数拟合/参数估计问题
有一组样本𝑥(1), 𝑥(2), . . . , 𝑥(𝑚)都是一个𝑛维向量,并且样本服从多元高斯分布。那么,如何尝试估计参数 𝜇 和 𝛴 ?

对于估计参数有一个标准公式
假设 𝜇 是你的训练样本的平均值:
在这里插入图片描述
并设置𝛴:在这里插入图片描述

这和使用 PCA 算法时,写 𝛴 是一样的。所以只需将上述两个公式插入到p(x)中,就能估计参数 𝜇 和𝛴,并将其代入到异常检测算法。那么,如何把这些综合起来开发一个异常检测算法?

首先,用训练集来拟合模型,通过设定 𝜇 和𝛴来计算𝑝(𝑥)。
接下来,当有一个新样本x,即测试样本,用该样本计算p(x),若p(x)很小就标记为异常。
在这里插入图片描述
如上图,该分布在中央最多,越到外面圈的范围越小,并且绿色这个点的概率非常低,即能够检测出绿色点为一个异常。

原始模型与多元高斯模型的关系如图:
在这里插入图片描述

原始模型和多元高斯分布比较如图:
在这里插入图片描述

©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页