一. 相关函数
df.dropna()
df.fillna()
df.isnull() ( df.isna() )
df.notnull()
二. 具体解释
1. df.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
函数作用:删除含有空值的行或列
axis:维度,axis=0表示index行,axis=1表示columns列,默认为0
how:"all"表示这一行或列中的元素全部缺失(为nan)才删除这一行或列,"any"表示这一行或列中只要有元素缺失,就删除这一行或列
thresh:一行或一列中至少出现了thresh个才删除。
subset:当axis=0时,给定列的索引组成的列表subset = [ ],这些列中存在空值则删除空值所在的行(当axis=1时相反)
inplace:刷选过缺失值得新数据是存为副本还是直接在原数据上进行修改。
除了上述方法你也可以直接填充 常数 或 字典 来填充缺失值
例 :df.fillna(0) , df.fillna({‘列标’:填充值})
2. df.fillna( [‘value=None’, ‘method=None’, ‘axis=None’, ‘inplace=False’, ‘limit=None’, ‘downcast=None’, ‘**kwargs’],)
函数作用:填充缺失值
value:需要用什么值去填充缺失值
axis:确定填充维度,从行开始或是从列开始
method:插值方法,如果没有其他参数,默认是‘ffill’ ffill:用缺失值前面的一个值代替缺失值,如果axis =1,那么就是前一列该位置的值替换后面的缺失值,如果axis=0,那么则是前一排该位置的值替换下面的缺失值。backfill/bfill,缺失值后面的一个值代替前面的缺失值。注意这个参数不能与value同时出现
limit:确定每列可填充的个数,如果limit=2,则每列只填充两个缺失值。
3. df.isnull() 或 df.isnull()
函数作用:判断是不是缺失值
df.isnull.sum() :用于统计缺失值个数
4. df.notnull()
函数作用:同上
df.isnull.sum() :用于统计非缺失值的个数