2021-01-21基于相似度的方法


TASK04:基于相似度的方法

我们所说的异常通常是指:具有特定业务意义的那一类特殊的异常值。

基于距离的度量

基于距离的方法:基于最近邻距离来定义异常值。
适用:

  • 多维数值数据
  • 分类数据
  • 文本数据
  • 时间序列数据
  • 序列数据

前提假设:
异常点的 K K K近邻距离要远大于正常点。
最简单的方法:
嵌套循环。

基于单元的方法

基于单元的方法:数据空间被划分为单元格。
数据的每个维度被划分为宽度最多为 D 2 ⋅ d \frac{D}{{2\cdot\sqrt d}} 2d D的单元格。
可以观察到以下性质:

  • 单元格中两点之间的距离最多为 D / 2 D/2 D/2
  • 一个点与 L 1 L_{1} L1邻接点之间的最大距离为 D D D
  • 一个点与它的 L r Lr Lr邻居(其中 r r r>2)中的一个点之间的距离至少为 D D D

基于索引的方法

利用多维索引结构来搜索每个数据对象 A A A在半径 D D D范围内的相邻点。

基于密度的度量

算法主要有:

  • 局部离群因子(LOF, local outlier factor)
  • LOCI局部关联积分
  • CLOF基于组合局部孤立点的噪声处理算法
  • 等基于LOF的改进算法。

密度聚类

局部离群因子

K-distance

K-distance neighbourhood

reachability distance

local reachability density

local outlier factor

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值