机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
数据预处理
缺失数据检查
我们定义一个函数check_missing_data
, 它的作用是检查训练集与检验集里是否有缺失值。
def check_missing_data(df):
flag=df.isna().sum().any()
if flag==True:
total = df.isnull().sum()
percent = (df.isnull().sum())/(df.isnull().count()*100)
output = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
data_type = []
# written by MJ Bahmani
for col in df.columns:
dtype = str(df[col].dtype)
data_type.append(dtype)
output['Types'] = data_type
return(np.transpose(output))
else:
return(False)
print(check_missing_data(train)), print(check_missing_data(test))