异常检测:由于没有与异常值相关的信息,因此实际上理想的异常检测很困难
下面介绍几种异常检测方法:
1.局部异常因子
对偏离大部分数据的异常数据进行检测的方法。该方法是无监督的异常检测算法,依赖于事先制定的规则(k值)。
计算过程:
- 的可达距离:,其中是离第近的点,是自定义的一个值;
- 的局部可达密度:,其中是距的可达距离,密度值越高,的值越小,的值就越大;
- x的局部异常因子:,即局部可达密度的平均值除以的局部可达密度,该值越大,是异常值的可能就越大。
2.支持向量机异常检测
在无监督学习的异常检测中引入学习要素
方法:求出几乎包含所有训练样本的超球,未包含在超球内的训练样本即异常值
- 求超球球心C和半径R的最优化问题
- 需要使用核映射进行非线性化,核函数和正则化参数需要用户寻找,无法主动学习到
3.基于密度比的异常检测
弱监督异常值检测问题:给定正常样本的情况下,找出测试样本中的异常值
方法:
- 密度比:,其中是正常样本的概率密度,是测试样本的概率密度
- 正常样本的,异常样本和1相差较大
问题:
- 当分母值较小时,误差会相应的增大,因此提出了KL散度密度比估计法。
4.KL散度密度比估计法
与3相比,不计算概率密度,直接进行密度比估计
方法:
- 将转换为参数为的线性模型或者核模型等
- 使朝着近似的风险对参数进行学习,两者的相似度成为KL距离,两者相等时距离为0
- 迭代方法求解,因为该方法有一些约束条件,因此具有稀疏解的特征