PS: pad = ffill | backfill = bfill
train['Age']=train['Age'].fillna(np.mean(train['Age']))
test['Age']=test['Age'].fillna(np.mean(train['Age']))
train.replace(to_replace = np.nan, value = -99)
train.interpolate(method='linear')
dropna([how='all']) 删除 NaN 数据 (删除全部都是 NaN 的数据)
dropna(axis=0,how='any') 删除行(至少有一个NaN)
dropna(axis=1,how='ant') 删除列(至少有一个NaN)
新版 sklearn 中 Imputer 在 sklearn.imputer 中 SimpleImputer
imp = Imputer(missing_values='NaN',strategy='mean') # strategy 战略
imp.fit(train["Age"].values.reshape(-1, 1))将一维数组重置为 N(-1)行1列
imp.transform(train["Age"].values.reshape(-1, 1))
imp.transform(test["Age"].values.reshape(-1, 1)) # 测试集也需要
DataFrame.hist(bins=100) 数据直方图 ( bins X轴数据跨度 )
np.percentile(array,rate) => 求出Array中的rate百分位数
[np.percentile(train.Fare, 99) if d > np.percentile(train.Fare, 99) else d for d in train.Fare]