Python：使用拉依达准则（3σ准则）剔除excel表中异常数据

最新推荐文章于 2023-11-19 09:07:30 发布

原创

最新推荐文章于 2023-11-19 09:07:30 发布 · 7.1k 阅读

69 ·

CC 4.0 BY-SA版权

文章标签：

#python

1.简介
拉依达准则(Pau’ta Criteron)是先假设一组数据中只含有随机误差，首先按照一定准则计算标准偏差，按照一定概率确定一定区间，认为不在这个区间的为异常值。当数据呈正太分布或者近似正太分布时可以使用

2.数据集示例
在这里插入图片描述
3.完整处理代码

import numpy as np
import pandas as pd
#设置需读取文件的路径
datapath = "traning处理前.xlsx"
data = pd.read_excel(datapath)
# 记录方差大于3倍的值
#shape[0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

coast_s

关注关注

3
点赞
踩
69

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Day 1 - 基本语法

qq_41175455的博客

09-22

1426

Day 1 1.基本语法一、语句（1条有效程序） print('你好！') print('世界！') # 一行有多条语句，要用分号隔开 print('你好！');print('世界！') 二、注释注释是代码中不参与编译执行的说明性文字（不影响程序功能） # 单行注释————Ctrl+/ print('hello world!') # 在控制台打印hello world! # 多行注释————将文字放入一对'''或"""之间 """ 注释1 注释2 注释3 """ ''' A B

python实现拉依达准则处理异常数据

02-14

首先本项目的数据来源于参加的数学建模比赛官方C题提供的相关数据，由于在进行建模和数据分析时，发现预处理的数据存在随机异常性、离散性等不利于模型分析的性质，所以使用了拉依达准则对数据进行处理，而python的对于大多数编程基础较弱但又想通过编程实现某种算法的同学十分地友好，所以我将使用python进行拉依达准则的实现，话不多说，上代码！

参与评论您还未登录，请先登录后发表或查看评论

怎样用excel剔除异常数据_excel如何去除异常值？(excel表格数据异常丢失)

weixin_39945795的博客

12-29

8364

急！！！java用poi导出excel文件，打开导出的文件时报错“文件错误，数据可能丢失”我遇到过这个问题后调查发现两个原因：1.你的excel模版本身有问题，可以尝试新建一个模版。2.你的excel使用了一些POI不支持的函数。Excel突然死掉，如何恢复文件1开工作簿，单击文件；2到管理版本，鼠标放在管理版本处，会“恢复未保存的工作簿”。也可以直接点击上方“今天没保存时就关闭”，可以直接跳出当...

数据分析系列之3σ规则/依据拉依达准则来剔除异常值

langxiaolin的博客

07-04

1995

3σ原则为数值分布在(μ-σ,μ+σ)中的概率为0.6827 数值分布在(μ-2σ,μ+2σ)中的概率为0.9545 数值分布在(μ-3σ,μ+3σ)中的概率为0.9973 可以认为，Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%....

拉依达准则python实现

qq_40041133的博客

12-29

3992

根据拉依达准则（3σ准则）去除异常值 3σ准则：设对被测量变量进行等精度测量，得到x1，x2，……，xn，算出其算术平均值x及剩余误差vi=xi-x（i=1,2,…,n），并按贝塞尔公式算出标准误差σ，若某个测量值xb的剩余误差vb（1<=b<=n），满足|vb|=|xb-x|>3σ，则认为xb是含有粗大误差值的坏值，应予剔除。贝塞尔公式如下：代码如下： import math import matplotlib.pyplot as plt # import numpy as np i

python拉依达准则

08-26

- *1* *3* [Python：使用拉依达准则（3σ准则）剔除excel表中异常数据](https://blog.csdn.net/weixin_43996337/article/details/120830794)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630",...

2、异常值（outliers）检测：业务法、Z-score、3σ准则、箱线图

qq_34120015的博客

05-22

6503

三、3σ\sigmaσ准则（异常值检测） 3σ\sigmaσ准则又称拉依达准则，是指先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。 3σ准则3\sigma准则3σ准则，仅局限于对正态或近似正态分布的样本数据处理，它是以测量次数充分大为前提的。在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴,如下图： 3σ原则为： p(μ-σ<X<μ+σ)中的

python删除异常值所在行_数据处理——拉伊达法则去除异常值（Python实现）

weixin_35141284的博客

01-29

4048

数据处理——拉伊达法则去除异常值(Python实现)背景：题目出自2020年中国研究生数学建模竞赛B题代码及附件上传时间：2020.12.241 数据采集原始数据采集来自于中石化高桥石化实时数据库(霍尼韦尔PHD)及LIMS实验数据库。其中操作变量数据来自于实时数据库，采集时间为2017年4月至2020年5月，采集操作位点数共354个。2017年4月至2019年9月，数据采集频次为3分钟/次；20...

使用3sigma原则去除数据表中的极端值

qq_51397866的博客

08-08

4017

本文使用3sigma解决数据表中出现的极端值问题,其中包括基本原理、使用原则（检验方法）、代码展示这3个部分

拉依达准则的python代码

记录和分享属于我的“IT”时光。

04-30

945

拉依达准则的python代码

python实现对excel进行数据剔除操作实例

01-20

前言学习Python的过程中，我们会遇到Excel的各种问题。下面这篇文章主要给大家介绍了关于python对excel进行数据剔除操作的相关内容，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧。 Python解析Excel时需要安装两个包，分别是xlrd（读excel）和xlwt（写excel），安装方法如下： pip install xlrd pip install xlwt 需求分析：判断excel2表中的某个唯一字段是否满足条件，如果满足条件，就在excel1中进行查询，若存在excel中，就将该数据进行剔除。 python脚本的实现： from __future

利用Python进行异常值分析实例代码

12-24

前言 异常值是指样本中的个别值，也称为离群点，其数值明显偏离其余的观测值。常用检测方法3σ原则和箱型图。其中，3σ原则只适用服从正态分布的数据。在3σ原则下，异常值被定义为观察值和平均值的偏差超过3倍标准差的值。P(|x−μ|>3σ)≤0.003，在正太分布假设下，大于3σ的值出现的概率小于0.003，属于小概率事件，故可认定其为异常值。 异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的，不加剔除地把异常值包括进数据的计算分析过程中，对结果会产生不良影响；重视异常值的出现，分析其产生的原因，常常成为发现问题进而改进决策的契机。 异常值是指样本中的个别值，其

拉依达准则去除异常数据

huhu123444的博客

07-25

7590

1.Concept 拉依达准侧（Pau’ta Criteron）是先假设一组数据中只含有随机误差，首先按照一定准侧计算标准偏差，按照一定概率确定一定区间，认为不在这个区间的为异常值。使用数据类型：数据呈正太分布或者近似正太分布。 2.举例实验该实验中使用正太分布函数确定区间，认为剩余误差超过3 σ\sigmaσ为异常值。 python 代码实验： # encoding:utf-8 ''' @Author：noodles 2020-7-25 17:00:48 ''' import math import

C#使用拉依达准则（3σ准则）剔除异常数据（.Net剔除一组数据中的奇异值）

热门推荐

祝紫山（大可山人）博客[GDI+,WPF, .Net图形图像]

07-11

2万+

3σ准则又称为拉依达准则，它是先假设一组符合正态分布的检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差（奇异值），含有该误差的数据应予以剔除。对数值分布在（μ-3σ,μ+3σ)中的概率为0.9974，根据大概率原则，剔除小部分奇异数据。在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴 3σ原则：数值分布在（μ-σ,μ+σ)中的概率为0.6827 数值分布在（μ-2σ,μ+2σ)中的概率为0.9544 数值分布

python中，使用3σ原则来删除数据中的异常值

d_vv_b的博客

03-19

1万+

MBA智库对3σ原则的描述： σ代表标准差,μ代表均值样本数据服从正态分布的情况下数值分布在（μ-σ,μ+σ)中的概率为0.6826 数值分布在（μ-2σ,μ+2σ)中的概率为0.9544 数值分布在（μ-3σ,μ+3σ)中的概率为0.9974 可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%。在python中实现 #用numpy随机生成1...

python剔除不合理值：3σ原则

qq_57313910的博客

09-29

9026

使用python，对满足正态分布的数据，依据3σ原则，剔除异常值所在行的数据

Matlab读取excel并使用拉依达准则筛选数据

卖瓜小农的博客

08-06

6022

1、Matlab读取Excel表格版本：matlab R2020a，Excel2019的xlsx格式文件 1.1 导入数据 1.2 选择并打开要导入的.xlsx文件 1.3 选择数据区域，选择输出到matlab工作区的数据类型默认刚导入时自动选择了所有数据区域（不带title的）这里以输出为二维矩阵为例 1.4 导入成功，在工作区域命名变量名并在命令行测试输出 1.5 使用命令导入，效果一样 mat= xlsread('附录1 目标客户体验数据.xlsx','sheet1','A2:AB196

Python中，我们可以使用pandas和numpy库对Excel数据进行预处理，包括读取数据、数据清洗、异常值剔除等

qlkaicx的博客

11-19

2987

数据预处理是一种对数据进行清洗、整理、转换等操作的过程，旨在提高数据质量，使其适应模型的需求，从而改进数据挖掘或机器学习的结果。提高数据质量：现实世界中的数据往往存在各种问题，如缺失、异常、噪声等，这些问题可能导致模型效果不佳。通过数据预处理，可以检测并纠正这些问题，提高数据的质量。适应模型需求：不同的模型对数据的要求也不同。例如，一些模型可能要求数据必须是数值型，而另一些模型可能要求数据必须满足特定的分布。通过数据预处理，可以将数据转换为适合模型的格式。提高模型精度和性能。

使用Python快速处理Excel操作笔记四：表格数据缺失值与异常值的处理

wait me的博客

05-22

9845

1、缺失值当读取csv文件或者excel文件生成DataFrame时，某些单元格的数据是缺失的，缺失的部分会显示为NaN,None或者NaT（取决于单元格的数据类型） NaN 表示数字类型的缺失值 NaT 表示时间类型的缺失值 None 表示字符串类型的缺失值实际项目中，如果缺失值一直存在原始的数据源总，后续数据分析时很可能有错误的结果需要根据实际情况进行抉择，来降低缺失值对于分析结果的影响 a 按单元格查看缺失值情况使用isna函数 # 假设data_info为已经读取为DataFrame da