缺失数据(missing data)的处理(理论)

在这里插入图片描述
expectation maximization 期望最大化
maximum likelihood 最大似然
case substitution
prior knowledge 先验知识

图片来源:https://github.com/dataprofessor/infographic

缺失值的分类

对原始数据进行缺失值检查。
若无缺失数据,则继续进行其他数据预处理步骤,进而进行机器学习模型的建立。
若有缺失数据,按照数据缺失机制可分为:

  • (1) 完全随机缺失(missing completely at random, MCAR)
    数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。简单来说,就是数据丢失的概率与其假设值以及其他变量值都完全无关。
  • (2) 随机缺失(missing at random, MAR)
    随机丢失意味着数据丢失的概率与丢失的数据本身无关,而仅与部分已观测到的数据有关。也就是说,数据的缺失不是完全随机的,该类数据的缺失依赖于其他完全变量。
  • MCAR与MAR均被称为是可忽略的缺失形式.可以根据其出现情况删除缺失值的数据,同时,随机缺失可以通过已知变量对缺失值进行估计。
  • (3) 非随机缺失(not missing at random, NMAR), 亦称为不可忽略的缺失(non-ignorable missing ,NIM),也有研究将其称为MNAR(missing not at random)
    数据的缺失与不完全变量自身的取值有关。分为两种情况:缺失值取决于其假设值(例如,高收入人群通常不希望在调查中透露他们的收入);或者,缺失值取决于其他变量值(假设女性通常不想透露她们的年龄,则这里年龄变量缺失值受性别变量的影响)。
  • 对于不可忽略的缺失,删除包含缺失值的数据可能会导致模型出现偏差,同时,对数据进行填充也需要格外谨慎。
  • ps:在数据集中,常将不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量

成列删除(listwise deletion):删除掉所有存在缺失值的个案。
成对删除(pairwise deletion):在进行多变量的联立时,只删除掉需要执行的变量的缺失数据。

缺失值的处理方法

在这里插入图片描述

1.删除
将存在遗漏信息属性值的样本(行)或特征(列)删除,从而得到一个完整的数据表。
优点:简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比较小的情况下非常有效。
缺点:当缺失数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。
补充:成对删除(pairwise deletion):
在进行多变量的联立时,只删除掉需要执行的变量的缺失数据。
在重要变量存在的情况下,成对删除只会删除相对不重要的变量行。这样可以尽可能保证充足的数据。该方法的优势在于它能够帮助增强分析效果,但是它也有许多不足。它假设缺失数据服从完全随机丢失(MCAR)。如果你使用此方法,最终模型的不同部分就会得到不同数量的观测值,从而使得模型解释非常困难。
补充:成列删除(listwise deletion):删除掉所有存在缺失值的个案。

2.插补

  • 人工填写(filling manually),一般不推荐

  • 特殊值填充(Treating Missing Attribute values as Special values)
    将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。一般作为临时填充或中间过程。有时可能导致严重的数据偏离,一般不推荐

  • 平均值填充(Mean/Mode Completer)
    将初始数据集中的属性分为数值属性非数值属性来分别进行处理。
    如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值; 如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。

  • 条件平均值填充法(Conditional Mean Completer)。在该方法中,用于求平均的值并不是从数据集的所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。它是用现存数据的多数信息来推测缺失值。

  • 热卡填充(Hot deck imputation,或就近补齐)
    对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。

  • K最近距离邻法(K-means clustering)
    先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
    在本方法中,先根据某种距离度量选择出k个“邻居”,他们的均值就被用于插补缺失数据。这个方法要求我们选择k的值(最近邻居的数量),以及距离度量。KNN既可以预测离散属性(k近邻中最常见的值)也可以预测连续属性(k近邻的均值)。
    根据数据类型的不同,距离度量也不尽相同:
    1)连续数据:最常用的距离度量有欧氏距离,曼哈顿距离以及余弦距离。
    2)分类数据:汉明(Hamming)距离在这种情况比较常用。对于所有分类属性的取值,如果两个数据点的值不同,则距离加一。汉明距离实际上与属性间不同取值的数量一致。
    KNN算法优点:它易于理解也易于实现。其非参数的特性在某些数据非常“不寻常”的情况下非常有优势。
    KNN算法缺点:在分析大型数据集时会变得非常耗时,因为它会在整个数据集中搜索相似数据点。此外,在高维数据集中,最近与最远邻居之间的差别非常小,因此KNN的准确性会降低。

  • 使用所有可能的值填充(Assigning All Possible values of the Attribute)
    用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大。一般不推荐。

  • 回归(Regression)
    基于完整的数据集,建立回归方程,或利用机器学习中的回归算法。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。较常用。但是要注意——防止过拟合

  • 期望值最大化方法(Expectation maximization,EM)
    EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步(Excepctaion step,期望步),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步(Maximzation step,极大化步),用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。

  • 多重插补(Multiple Imputation,MI)
    多重填补方法分为三个步骤:
    1)插补:将不完整数据集缺失的观测行估算填充m次(图中m=3)。请注意,填充值是从某种分布中提取的。模拟随机抽取并不包含模型参数的不确定性。更好的方法是采用马尔科夫链蒙特卡洛模拟(MCMC,Markov Chain Monte Carlo Simulation)。这一步骤将生成m个完整的数据集。
    2)分析:分别对(m个)每一个完整数据集进行分析。
    3)合并:对来自各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。
    在这里插入图片描述

  • C4.5方法
    通过寻找属性间的关系来对遗失值填充。它寻找之间具有最大相关性的两个属性,其中没有遗失值的一个称为代理属性,另一个称为原始属性,用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。

3.不处理缺失值
不处理缺失值,直接在包含空值的数据上进行数据挖掘的方法。其中包括:贝叶斯网络和人工神经网络等。
贝叶斯网络提供了一种自然的表示变量间因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。人工神经网络也类似。

参考资料:
数据分析——缺失值处理详解(理论篇)

  • 8
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析和机器学习中,缺失值是一个很常见的问题。在处理缺失值之前,我们需要先了解数据集中缺失值的情况和原因,以此来决定如何处理它们。 以下是一些处理缺失值的常见方法: 1. 删除缺失值 这是最简单的方法,直接删除包含缺失值的行或列。但是,这种方法可能会导致数据丢失过多,因此需要谨慎使用。 ```python import pandas as pd # 读取数据集 df = pd.read_csv('data.csv') # 删除包含缺失值的行或列 df.dropna(axis=0) # 删除包含缺失值的行 df.dropna(axis=1) # 删除包含缺失值的列 ``` 2. 填充缺失值 这种方法可以根据数据的分布和特点,选择合适的数值来填充缺失值。比如,可以使用均值、中位数或众数来填充数值型数据缺失值;使用最常见的类别值来填充类别型数据缺失值。 ```python import pandas as pd # 读取数据集 df = pd.read_csv('data.csv') # 填充数值型数据缺失值 df.fillna(df.mean(), inplace=True) # 使用均值填充数值型数据缺失值 # 填充类别型数据缺失值 df.fillna(df.mode().iloc[0], inplace=True) # 使用最常见的类别值填充类别型数据缺失值 ``` 3. 插值填充 这种方法可以根据数据的分布和特点,选择合适的插值方法来填充缺失值。比如,可以使用线性插值、多项式插值或样条插值来填充数值型数据缺失值。 ```python import pandas as pd # 读取数据集 df = pd.read_csv('data.csv') # 使用线性插值填充数值型数据缺失值 df.interpolate(method='linear', inplace=True) ``` 4. 随机森林填充 这种方法可以使用随机森林算法来预测缺失值。它可以根据数据集的其他特征,来预测缺失值所应该具有的数值。 ```python from sklearn.ensemble import RandomForestRegressor import pandas as pd # 读取数据集 df = pd.read_csv('data.csv') # 对于需要填充的列,将该列看作预测目标,其他列看作特征 # 将数据集分为已知值和未知值两部分 known = df[df['target'].notnull()] unknown = df[df['target'].isnull()] # 使用随机森林算法来预测缺失值 X_train = known.drop('target', axis=1) y_train = known['target'] X_test = unknown.drop('target', axis=1) rf = RandomForestRegressor() rf.fit(X_train, y_train) y_pred = rf.predict(X_test) # 填充缺失值 df.loc[df['target'].isnull(), 'target'] = y_pred ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值