机器学习笔记整理(七)——异常检测

异常检测:由于没有与异常值相关的信息,因此实际上理想的异常检测很困难

下面介绍几种异常检测方法:

1.局部异常因子

对偏离大部分数据的异常数据进行检测的方法。该方法是无监督的异常检测算法,依赖于事先制定的规则(k值)。

计算过程

  • x\rightarrow x^{'}的可达距离:RD_{k}(x,x^{'})=max\left ( \left \| x-x^{(k)} \right \|,\left \| x-x^{'} \right \| \right ),其中x^{(k)}是离xk近的点,k是自定义的一个值;
  • x的局部可达密度:LRD_{k}(x)=(\frac{1}{k}\sum_{i=1}^{k}RD_{k}(x^{(i)},x))^{-1},其中RD_{k}(x^{(i)},x)x^{(1)},...,x^{(k)}x的可达距离,x密度值越高,RD_{k}(x)的值越小,LRD_{k}(x)的值就越大;
  • x的局部异常因子:LOF_{k}(x)=\frac{\frac{1}{k}\sum_{i=1}^{k}{LRD_{k}(x^{(i)})}}{LRD_{k}(x)},即x^{(1)},...,x^{(k)}局部可达密度的平均值除以x的局部可达密度,该值越大,x是异常值的可能就越大。

2.支持向量机异常检测

在无监督学习的异常检测中引入学习要素

方法:求出几乎包含所有训练样本的超球,未包含在超球内的训练样本即异常值

  • 求超球球心C半径R的最优化问题
  • 需要使用核映射进行非线性化,核函数和正则化参数需要用户寻找,无法主动学习到

3.基于密度比的异常检测

弱监督异常值检测问题:给定正常样本的情况下,找出测试样本中的异常值

方法

  • 密度比:w(x)=\frac{p^{'}(x)}{p(x)},其中p^{'}(x)是正常样本的概率密度,p(x)是测试样本的概率密度
  • 正常样本的w(x)\approx 1,异常样本w(x)和1相差较大

问题

  • 当分母值较小时,误差会相应的增大,因此提出了KL散度密度比估计法。

4.KL散度密度比估计法

与3相比,不计算概率密度,直接进行密度比估计

方法

  • w_{\alpha }(x)转换为参数为\alpha的线性模型或者核模型等
  • 使w_{\alpha }(x)p(x)朝着近似p^{'}(x)的风险对参数\alpha进行学习,两者的相似度成为KL距离,两者相等时距离为0
  • 迭代方法求解,因为该方法有一些约束条件,因此具有稀疏解的特征
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值