特征缺失值用平均值代替


import numpy as np


e14601 = np.loadtxt(open("/home/zlf/Documents/e14601_data_set.csv", "rb"), delimiter=",", skiprows=0)  

a = e14601.shape;
print(a[0], a[1]);

not0_num = [0 for x in range(a[1]-1)];
not0_sum = [0 for x in range(a[1]-1)];
not0_mean = [0 for x in range(a[1]-1)];
nans = [0 for x in range(a[1]-1)];

for j in range(a[1]-1):
    for i in range(a[0]):
        if e14601[i][j]!=0:
            not0_num[j] = not0_num[j] + 1;
            not0_sum[j] = not0_sum[j] + e14601[i][j];

for j in range(a[1]-1):
    if j<len(not0_num):
        if not0_num[j]==0:
            nans[j] = 1;
            e14601 = np.delete(e14601, j, axis=1);
            not0_num = np.delete(not0_num, j, axis=0);
            not0_sum = np.delete(not0_sum, j, axis=0);

        
a = e14601.shape;
print(a[0], a[1]);

not0_mean = np.divide(not0_sum, not0_num);


for j in range(a[1]-1):
    for i in range(a[0]):
        if e14601[i][j]==0:
            e14601[i][j]=not0_mean[j]
 

np.savetxt('/home/zlf/Documents/e14601_data_set_n0.csv', e14601, delimiter=',')



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 缺失的处理取决于缺失的数量、缺失所在的特征的重要性以及数据的类型和分析目的等因素。一般来说,如果某个特征中的缺失占比较大,超过了整体数据的一定比例,可能需要考虑去除该特征。但是,在去除特征之前,需要评估该特征的重要性,如果该特征对于分析目的较为重要,则需要考虑其他方法来填补缺失。同时,对于分类变量和连续变量的缺失处理方法也有所不同。因此,缺失的处理需要根据具体情况进行评估和决策。 ### 回答2: 一般情况下,缺失多过一定的比例需要去除特征。但具体的去除比例并没有一个固定的标准,需要根据数据集的具体情况来决定。 常见的做法是设定一个阈,例如当某个特征缺失超过30%时就去除该特征。这是因为当缺失较少时,可以通过合理的填充方法来处理,而当缺失过多时,填充的结果可能会引入较大的误差,会影响模型的准确性。 此外,还要考虑缺失对于特征的重要性。如果某个特征是非常重要的,即使有较多的缺失,也应该尽可能保留该特征。相反,如果某个特征对于问题的解决没有很大的帮助,即使缺失较少,也可以考虑去除该特征。 另外,还可以通过其他方法来处理缺失,例如使用均、中位数、众数进行填充,或者使用插等方法进行填充。这样可以保留更多的特征,同时尽量减少缺失对于模型的影响。 综上所述,一般来说,当某个特征缺失超过一定的比例(如30%)时,可以考虑去除该特征。但具体的去除比例需要根据具体情况来确定,并且要考虑特征的重要程度以及其他处理缺失的方法。 ### 回答3: 一般来说,当某一特征中的缺失超过30%时,可以考虑去除该特征。这是因为当缺失过多时,填补缺失可能会引入较大的误差,导致分析结果不准确。另外,在实际操作中,对于某些特征可能存在一定的主观判断,需要根据具体情况来确定是否去除。 在决定是否去除特征时,还需要考虑特征的重要性和对分析结果的影响。如果缺失特征对分析结果没有太大的影响或者其他特征已经包含了相似的信息,那么可以考虑去除该特征。然而,如果缺失特征是非常重要的,并且没有其他可代替特征,那么需要尽可能地寻找其他方法来填补缺失,而不是直接去除。 在处理缺失时,常见的方法有删除、插和模型预测等。删除是最直接的方法,但需要注意删除缺失可能会引发样本不平衡的问题。插方法主要包括平均值、中、众数等,选择合适的插方法需要根据特征的性质进行判断。模型预测方法可以利用其他特征来预测缺失,例如使用回归模型或者决策树等算法来进行预测。 总之,对于缺失过多的特征,需要根据具体情况综合考虑特征的重要性和影响,并选择合适的方法进行处理,以保证数据分析的准确性和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值