吴恩达机器学习15-异常检测
1.问题引入
判断飞机引擎是否出现异常
-
收集飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等
这里的每个点、每个叉,都是无标签数据。这样,异常检测问题可以定义如下:假设新的飞机引擎的特征变量为𝑥𝑡𝑒𝑠t,判断其是否发生异常。
- 给定数据集 x ( 1 ) , x ( 2 ) , … , x ( m ) x^{(1)}, x^{(2)}, \ldots, x^{(m)} x(1),x(2),…,x(m) , 我们假使数据集是正常的, 我们希望知道新的数据 x test x_{\text {test }} xtest 是不是异常的, 即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据 该测试数据的位置告诉我们其属于一组数据的可能性 p(x) 。
上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该
组数据的可能性就越低。
-
进行判别
i f if if
p ( x ) { < ε anomaly > = ε normal p(x)\left\{\begin{array}{ll}<\varepsilon & \text { anomaly } \\ >=\varepsilon & \text { normal }\end{array}\right. p(x){<ε>=ε anomaly normal 若可能性小于阈值则判断为异常
2.高斯分布
高斯分布, 也称为正态分布,通常如果我们认为变量 x x x 符合高斯分布 x ∼ N ( μ , σ 2 ) x \sim N\left(\mu, \sigma^{2}\right) x∼N(μ,σ2)
则其概率密度函数为:
p ( x , μ , σ 2 ) = 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) p\left(x, \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) p(x,μ,σ2)=2πσ1exp(−2σ2(x−μ)2)
我们可以利用已有的数据来预测总体中的 μ 和 σ 2 \mu 和 \sigma^{2} μ和σ2 的计算方法如下:
μ = 1 m ∑ i = 1 m x ( i ) \quad \mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)} μ=m1∑i=1mx(i)
σ 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ) 2 \sigma^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)^{2} σ2=m1∑i=1m(x(i)−μ)2
下图是例子:
u u u决定分布位置, σ \sigma σ决定分布形状,越小越尖锐
3.利用高斯分布开发异常检测算法
- 对于给定的数据集 x ( 1 ) , x ( 2 ) , … , x ( m ) , 我们要针对每一个特征计算 μ 和 σ 2 的估计值: \text { 对于给定的数据集 } x^{(1)}, x^{(2)}, \ldots, x^{(m)} \text {, 我们要针对每一个特征计算 } \mu \text { 和 } \sigma^{2} \text { 的估计值: } 对于给定的数据集 x(1),x(2),…,x(m), 我们要针对每一个特征计算 μ 和 σ2 的估计值:
μ = 1 m ∑ i = 1 m x ( i ) \quad \mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)} μ=m1∑i=1mx(i)
σ 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ) 2 \sigma^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)^{2} σ2=m1∑i=1m(x(i)−μ)2
-
一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 𝑝 ( 𝑥 ) : 一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 𝑝(𝑥): 一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算p(x):
p ( x ) = ∏ j = 1 n p ( x j ; μ j , σ j 2 ) = ∏ j = 1 1 1 2 π σ j exp ( − ( x j − μ j ) 2 2 σ j 2 ) p(x)=\prod_{j=1}^{n} p\left(x_{j} ; \mu_{j}, \sigma_{j}^{2}\right)=\prod_{j=1}^{1} \frac{1}{\sqrt{2 \pi} \sigma_{j}} \exp \left(-\frac{\left(x_{j}-\mu_{j}\right)^{2}}{2 \sigma_{j}^{2}}\right) p(x)=∏j=1np(xj;μj,σj2)=∏j=112πσj1exp(−2σj2(xj−μj)2)
-
进行判别:
当𝑝(𝑥) < 𝜀时,为异常。
上图是一个实际例子,二号样本为异常点
4.开发和评价一个异常检测系统
首先,将数据分为训练集、交叉验证集和测试集
例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数据:
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集
具体的开发评价方法为:
- 根据训练集数据,我们估计特征的平均值和方差并构建𝑝(𝑥)函数
- 对交叉检验集,我们尝试使用不同的𝜀值作为阀值,并预测数据是否异常,根据 F1 值(可参见11机器学习系统的设计)
或者查准率与查全率的比例来选择 𝜀 - 选出 𝜀 后,针对测试集进行预测,计算异常检验系统的𝐹1值,或者查准率与查全率
之比。
5.异常检测与监督学习对比
异常检测 | 监督学习 |
---|---|
非常少量的正向类(异常数据y = 1 ), 大量的负向类(y = 0) | 同时有大量的正向类和负向类 |
许多不同种类的异常,非常难根据非常少量的正向类数据来训练算法。 且未来遇到的异常可能与已掌握的异常、非常的不同 | 有足够多的正向类实例,足够用于训练算法,未来遇到的正向类实例可能与训练集中的非常近似。 |
例如:欺诈行为检测 生产(例如飞机引擎)检测数据中心的计算机运行状况 | 例如:邮件过滤器 天气预报 肿瘤分类 |
两者的核心区别在于异常类型是否尽量可知,当出现了太多没见过的不同的异常类型选择异常检测
6.选择特征
-
异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够
工作,但是最好还是将数据转换成高斯分布。例如:𝑥 = 𝑙𝑜𝑔(𝑥 + 𝑐),其中 𝑐为非负常数; 或者 𝑥 = 𝑥𝑐,𝑐为 0-1 之间的一个分数,等方法。(在 python 中,通常用 np.log1p()函数,𝑙𝑜𝑔1𝑝就是 𝑙𝑜𝑔(𝑥 + 1),可以避免出现负数结果,反向函数就是 np.expm1())
-
一个常见的问题是一些异常的数据可能也会有较高的𝑝(𝑥)值,因而被算法认为是正常的。这时我们需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。
通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小),例如,在检测数据中心的计算机状况的例子中,我们可以用CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。
7.多元高斯分布
假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。
下图中是两个相关特征,洋红色的线(根据 ε 的不同其范围可大可小)是一般的高斯分布模型获得的判定边界,很明显绿色的 X 所代表的数据点很可能是异常值,但是其𝑝(𝑥)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界:
在一般的高斯分布模型中,我们计算 𝑝(𝑥) 的方法是: 通过分别计算每个特征对应的几率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起来计算 𝑝(𝑥)。
我们首先计算所有特征的平均值,然后再计算协方差矩阵:
μ
=
1
m
∑
i
=
1
m
x
(
i
)
Σ
=
1
m
∑
i
=
1
m
(
x
(
i
)
−
μ
)
(
x
(
i
)
−
μ
)
T
=
1
m
(
X
−
μ
)
T
(
X
−
μ
)
\mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)} \\ \Sigma=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)\left(x^{(i)}-\mu\right)^{T}=\frac{1}{m}(X-\mu)^{T}(X-\mu)
μ=m1∑i=1mx(i)Σ=m1∑i=1m(x(i)−μ)(x(i)−μ)T=m1(X−μ)T(X−μ)
Σ \Sigma Σ在matlab中用det计算。
注:其中 μ \mu μ 是一个向量, 其每一个单元都是原特征矩阵中一行数据的均值。最后我们计算多元高斯分布的p(x):
p ( x ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right) p(x)=(2π)2n∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))
Σ \Sigma Σ协方差矩阵对模型的影响:
上图是 5 个不同的模型,从左往右依次分析:
- 是一个一般的高斯分布模型
- 通过协方差矩阵,令特征 1 拥有较小的偏差,同时保持特征 2 的偏差
- 通过协方差矩阵,令特征 2 拥有较大的偏差,同时保持特征 1 的偏差
- 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关性
- 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关性
μ \mu μ特征的平均值对模型的影响:
改变模型的分布位置。
8.使用多元高斯分布进行异常检测
1.计算 μ 和 Σ \mu和\Sigma μ和Σ
μ = 1 m ∑ i = 1 m x ( i ) Σ = 1 m ∑ i = 1 m ( x ( i ) − μ ) ( x ( i ) − μ ) T = 1 m ( X − μ ) T ( X − μ ) \mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)} \\ \Sigma=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)\left(x^{(i)}-\mu\right)^{T}=\frac{1}{m}(X-\mu)^{T}(X-\mu) μ=m1∑i=1mx(i)Σ=m1∑i=1m(x(i)−μ)(x(i)−μ)T=m1(X−μ)T(X−μ)
2.计算p(x)
p ( x ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right) p(x)=(2π)2n∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))
3.设定阈值进行异常判别
Flag an anomaly if p ( x ) < ε \text { Flag an anomaly if } p(x)<\varepsilon Flag an anomaly if p(x)<ε
当协方差矩阵符合以下分布时,原高斯分布模型与多元高斯模型的结果是一致的
原始模型与多元高斯模型对比:
原高斯分布模型 | 多元高斯分布模型 |
---|---|
不能捕捉特征之间的相关性 但可以通过将特征进行组合(创建新特征)的方法来解决 | 自动捕捉特征之间的相关性 |
计算代价低,能适应大规模的特征 | 计算代价较高,训练集较小时也同样适用 但是 必须要有m>n,且特征之间不能存在相关性,不然的话协方差矩阵不可逆的,通常需要m>10n(样本数远大于特征数)另外特征冗余也会导致协方差矩阵不可逆 |
原高斯分布模型被广泛使用着,如果特征之间在某种程度上存在相互关联的情况,我们可以通过构造新新特征的方法来捕捉这些相关性。
如果训练集不是太大,并且没有太多的特征,我们可以使用多元高斯分布模型。