两种寻找异常样本的方法 20.9.20

一、箱线图(Boxplot)

(一)基本概念

(1)最小值
(2)第1(上)四分位数Q1
位置:(n+1)/4(n是数据序列长度)
(3)中位数(Q2)
(4)第3(下)四分位数Q3
位置:(n+1)*3/4(n是数据序列长度)
(5)最大值

(二)实例

假设有数据集合num = c(1,2,3,4,5,6,7,20) n=8
(1)Q1
位置: ( 8 + 1 ) 4 \frac{(8+1)}{4} 48+1=2.25
说明上四分位数在第2.25个位置数,实际上这个数是不存在的,假想从第2个数到第3个数之间是均匀分布的。那么第2.25个数就是 第 二 个 数 ∗ 0.25 第二个数*0.25 0.25+ 第 三 个 数 ∗ 0.75 第三个数*0.75 0.75,即Q1= 2 ∗ 0.25 2*0.25 20.25+ 3 ∗ 0.75 3*0.75 30.75=0.5+2.25=2.75
(2)Q3
位置: ( 8 + 1 ) ∗ 3 4 \frac{(8+1)*3}{4} 48+1)3=6.75
原理同Q1,则Q3对应的具体的值是Q3= 0.75 ∗ 6 0.75*6 0.756+ 0.25 ∗ 7 0.25*7 0.257=6.25。
(3)四分位距IQR
IQR=Q3-Q1=6.25-2.75=3.5
(4)下内限
下内限=Q1-1.5IQR=2.75- 1.5 ∗ 3.5 1.5*3.5 1.53.5=-2.5
(5)上内限
上内限=Q3+1.5
IQR=6.25+ 1.5 ∗ 3.5 1.5*3.5 1.53.5=11.5
(6)在[-2.5,11.5]区间外的数值为异常点,所以20为异常值点

二、LSTM + 无监督 +非参数异常阈值设定

(一)方法来源

《Detecting Spacecraft Anomalies Using LSTMs and Nonparametric Dynamic Thresholding》–2018年KDD

(二)方法介绍

第一步:用LSTM学习时序数据做预测
单通道模型
预测通道的值
第二步:收集每一步误差构成误差向量
在这里插入图片描述

以t+1时刻为例,计算 t +1时刻实际值与模型预测值(利用t-ls到t之间的特征值预测)之差,得到e(t),以此类推,得到向量e
注意y (t)=x(t+1)</sup

第三步:对误差作加权平均的平滑处理
在这里插入图片描述

第四步:根据平滑后的数据计算阈值
在这里插入图片描述
在这里插入图片描述

第五步:高于阈值标为样本

在这里插入图片描述
部分内容来源:https://blog.csdn.net/WangZixuan1111/article/details/105046528/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值