缺失值的介绍

1.定义:在生成、采集、计算的过程中被遗漏的数据信息。

注意:表现为缺失状态(np.nan)的值不一定是缺失值,只有当无法溯源到原始信息时才为缺失值。

例如:在记录数时,张三的学号和李四的成绩B显示缺失,但根据业务逻辑判断,李四成绩B虽为缺考,但因记录为0;张三的学号为缺失值。

学生成绩表
姓名学号成绩A成绩B
张三8562
李四212034195缺考

2.缺失值的具体表现形式及检验方法

缺失值一般用None或Null表示,推荐使用Numpy(一种用于科学计算的库)中np.nan来表示缺失值。

import pandas as pd 
df_one = pd.DataFrame({"A":[1, 2, 3], "B":[2, 3, np.nan]})
print(df_one)

   A    B
0  1  2.0
1  2  3.0
2  3  NaN

# 1.通过info()方法查看整体缺失值的情况
df_one.info()

#<class 'pandas.core.frame.DataFrame'>
#RangeIndex: 3 entries, 0 to 2
#Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
#---  ------  --------------  -----  
 #0   A       3 non-null      int64  
 #1   B       2 non-null      float64
#dtypes: float64(1), int64(1)
#memory usage: 176.0 bytes

#2.通过isnull()或isna()方法检验每个值是否为缺失值,两种方法输出一样结果,如果是NaN,则返回True
print(df_one.isnull())
print(df_one.isna())
#        A      B
# 0  False  False
# 1  False  False
# 2  False   True

# 3.按列统计缺失值,返回每列缺失值的个数
print(df_one.isnull().sum())
# A    0
# B    1
# dtype: int64

编写计算每一列缺失值占比的函数(方法):

缺失值指数据集中某些变量的某些观测值缺失或不可用。缺失值可能由于多种原因而导致,例如数据输入错误、设备故障、数据采集过程中出现问题等等。由于缺失值可能会对数据分析和建模造成影响,因此需要对缺失值进行处理。本文将介绍常见的缺失值处理方法。 1. 删除缺失值 最简单的方法是直接删除包含缺失值的观测值或变量。删除缺失值的优点是简单、快速、不需要对数据进行额外的处理。但是,删除缺失值也有缺点,因为可能会导致数据量的减少,从而影响模型的准确性。 2. 插值法 插值法是一种常见的方法,可以用于估计缺失值。插值法的基本思想是根据已知的数据点,推断出缺失值。插值法的常见方法包括: (1)均值插补法 均值插补法是指用变量的平均值来代替缺失值。均值插补法适用于变量分布比较均匀的情况,但是如果变量的分布不均匀,均值插补法可能会引入偏差。 (2)回归插补法 回归插补法是指用其他变量的值来预测缺失值。回归插补法适用于变量之间存在相关性的情况。 (3)最近邻插补法 最近邻插补法是指用最接近的观测值来代替缺失值。最近邻插补法适用于数据集中存在较多的相关性的情况。 (4)插值法 插值法是指根据数据中已有的值推断出缺失值。插值法适用于数据比较平滑的情况。 3. 分类预测法 分类预测法是指用已有的数据来预测缺失值所属的类别。分类预测法适用于变量是分类变量的情况。 4. EM算法 EM算法是一种迭代的算法,用于估计缺失值。EM算法的基本思想是在缺失值和已知值之间进行交替迭代,不断逼近最优解。EM算法适用于缺失值较多的情况。 5. 多重插补法 多重插补法是指重复利用插补法来估计缺失值,并且每次插补都会得到不同的结果。多重插补法适用于数据集中存在较多的缺失值的情况。 总之,不同的缺失值处理方法适用于不同的情况。在进行缺失值处理时,需要根据数据集的特点和分析目的选择合适的方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值