异常值outlier剔除方法

       当遇到一组数据中需要剔除一下有明显异常的值,如[14.1 , 15.3, 13.8 ,14.0, 15.2, 15.7, 100.5, 13.9, 14.0, 16.0]对于这一组数据中很明显100.5数据值过大,需要将其剔除。

        异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。

        遇到这一类问题常用的方法有:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。

         1)拉依达准则法(3δ准则):简单,无需查表。测量次数较多或要求不高时用。是最常用的异常值判定与剔除准则。但当测量次数<=10次时,该准则失效。如果实验数据值的总体x是服从正态分布的,则异常值(outlier)的判别与剔除(rejection)式中,μ与σ分别表示正态总体的数学期望和标准差。此时,在实验数据值中出现大于μ+3σ或小于μ—3σ数据值的概率是很小的。因此,根据上式对于大于μ+3σ或小于μ—3σ的实验数据值作为异常值,予以剔除。

 

         2)  中值剔除法:先对一组数据进行排序后取中值middle_value,对于这一中值适当扩大或者缩小,如保留0.8middle_value与1.2middle_value之间的值。这一方法适用于剔除大众数据变化不大,小部分差异非常大的数据。

 

  • 3
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值