统计分布
- 通过 pandas['Age'].hist(bins=number) 观察数据直方图,比较训练集和测试集的分布情况 (直方图X轴的跨度)
- pandas['Sex'].value_counts() 观察数据分布情况(适合取值情况不多的情况)目的同上
PS:train[train["Survived"] == 1].Fare.hist([bins]) 查看生存为 1 的票价
统计量
- train.groupby(['Age']).Fare.mean().reset_index()
查看对应年龄下票价的 均值
- train.groupby(['Age']).Fare.median().reset_index()
查看对应年龄下票价的 中位数
- train.groupby(['Sex']).Fare.std().reset_index()
查看对应年龄下票价的 标准差
- 使用 np.log() 使特征接近某种数据分布,便于计算