一、异常检测
模型 p(x) 为这个测试数据属于一组数据的可能性,通过 p(x) < ε 检测为异常。
1、高斯分布
x 符合高斯分布 x~ N(μ,σ2),则其概率密度函数为:
2、参数估计
可以利用已有的数据来预测总体中的 μ 和 σ 的计算方法如下:
3、密度估计
对于给定的数据集 {x(1),x(2),…,x(m)},我们要针对每一个特征计算 μ 和 σ2 的估计值。
一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x):
4、数据集
数据集分为训练集、交叉验证集和测试集。比例6:2:2
- 首先,用训练集{x(1),x(2),…,x(m)}拟合p(x)
- 对于CV集,通过尝试使用不同的 ε 值作为阈值,并预测数据的y。再通过最大的F1值来确定 ε 值。
- 最后,选出 ε 值,针对测试值进行预测。
5、特征
最后让特征服从高斯分布。
使用log 或者 xc ,c∈(0,1)
6、异常检测与监督学习对比
7、多元高斯分布
①概率密度
②拟合参数 μ、∑
③用新样本 xtest,计算p(x)。若 < ε,为异常。