1. 缺失值情况查看
# 数据缺失值情况查看
columns_list = list(DF.columns)
for each_column in columns_list:
if DF[each_column].isnull().sum() != 0:
print(each_column, data3[each_column].isnull().sum())
# 对某个特征列具体缺失情况进行查看
DataFrame[DataFrame['column_name'].isnull()]
2. 对某个特征的缺失值进行平均值填充
DataFrame['column_name'].fillna(round(DataFrame['column_name'].mean()), inplace=True)
3. 利用B特征列包含的字符串信息,来对A特征列的缺失值进行填充
# 查看A特征列缺失具体情况
DataFrame[DataFrame['columnA'].isnull()]
# 查看A特征缺失处对应的包含A所需要的信息的B特征的具体情况
DataFrame.loc[DataFrame['columnA'].isnull(), 'columnB']
# 定位到A特征缺失信息的具体位置
DataFrame.loc[DataFrame['columnA'].isnull(), 'columnA']
# 结合前面两步,利用字符串提取来补充A的缺失信息
DataFrame.loc[DataFrame['columnA'].isnull(), 'columnA'] = [str(x)[m: n] for x in DataFrame.loc[DataFrame['columnA'].isnull(), 'columnB']]
4. 删除缺失值
# 删除缺失值
DF2 = DF1.dropna()