1.缺失值处理与观察
缺失值观察,确定特征缺失值个数
# 方法一
df.info()
# 方法二
df.isnull().sum()
处理缺失值时,可以将缺失值的地方设置为0
# 方法一
df[df['Age']==None]=0
# 方法二
df[df['Age'] == np.nan] = 0
# 方法三
df[df['Age'].isnull()] = 0
# 方法四
df.fillna(0)
也可以将有缺失值的行删除
df.dropna()
2.重复值的观察与处理
查看重复值
df[df.duplicated()]
将整行有重复值的清理
df = df.drop_duplicates()
特征观察与处理
一般文本分为数值型和文本型(含有文字的)。
数值型特征一般可以直接用于模型的训练,但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。
分箱(离散化)处理