处理缺失值
侦查缺失值
df.isnull() True为缺失值
df.notnull() false为缺失值
删除缺失值
df.dropna() 删除具有缺失值的行
df.dropna() 传入how='all' 删除全部缺失值的行
删除列指定轴方向即可:df.dropna(axis=1)
填充缺失值
df.fillna(0) 填充为0
fillna中传入字典型值 可以对不同列传入不同值可通过传入inplace就地修改 不会修改源数据:
df.fillna({1:6,3:0},inplace=True) 第一列传6,第三列传0
移除重复数据
df.duplicated() 查看行是否有重复数据
durop_duplicated() 删除重复的多余行 所有都重复才删除
durop_duplicated([' ',' ']) 可以指定部分列作为判断重复的依据 默认保留第一个出现的,传入keep='list' 可保留最后一个出现的