【笔记】数据异常检测与修复总结

一、异常种类

不同的研究对象,有着不同的异常分类方式

1. 对于移动对象的数据异常

异常数据信息,包括重复数据、无序数据、缺失数据、 无效数据、漂移数据、模糊数据。

类型描述
重复数据由于设备或其他因素问题 导致的数据重复存储造成的
无序数据是网络传输延迟造成的不正确的数据存储顺序
缺失数据通过比较两个数据之间的时间差和数据收集的频率来确定的
无效数据由数据的纬度或经度是否超出范围来确定
漂移数据是指不符合行驶规则,明显偏离行驶轨迹的数据记录
模糊数据\

2. 对于时序数据的异常检测

除了重复数据、无序数据、缺失数据、 无效数据。
又可以将数据的异常精确地分为:

  • 点异常值:相对于全局其他数据的异常实例。
  • 上下文异常值:上下文异常值通常在它们自己的上下文中具有相对较大/较小的值,但不是全局的。
  • 集体异常值:被定义为相对于整个数据集异常的相关异常数据实例的集合。

以上这些异常的检测难度也较大。

再细分的话,集体异常值又可以分类为:

  • shapelet outliers (异常的局部子序列): 。
  • seasonal outliers (异常周期性的局部子序列): 。
  • trend outliers (异常趋势的局部子序列):
    在这里插入图片描述

二、异常数据清洗流程

在这里插入图片描述

三、数据预处理

  1. 是否要排序
  2. 是否要规定索引
  3. 是否要填充缺失值、删除重复值
  4. 是否要调整数据格式(列位置调换、提取所需数据)

四、异常检测算法

在这里插入图片描述

五、异常修复算法

  1. 均值填充
  2. 最大似然估计
  3. NNF

近邻数据填充 NNF(Nearest Neighbor Fill)算法
在这里插入图片描述
NNF 算法不仅具有 MA 算法均等填充数据的优势,而且对于逐渐演化的数据也有很好的填充优 势,在变化的数据中,NNF 比 MA 有更好的填充效果

  1. 。。。

六、漂移数据清洗

一种结合范围约束最大似然估计的算法

  1. 修复漂移较大的数据异常:范围约束
  2. 修复漂移较小的数据异常:滑动窗口统计
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值