1.Data Exploration
1.1. Visualization
- 对 Numerical Variable,可以用 Box Plot 来直观地查看它的分布
- 对于坐标类数据,可以用Scatter Plot来查看他们的分布趋势和是否有离群点的存在
- 对于分类问题,将数据根据Label的不同着不同的色,这对于特征的构造很有帮助
2.Data Preprocessing
- 处理Missing Data
- 处理Outlier
- 必要时转换某些Categorical Variable的表示方式
3.Feature Engineering
3.1 Feature Selection
总的来说,我们应该生成尽量多的 Feature,相信 Model 能够挑出最有用的 Feature。但有时先做一遍 Feature Selection 也能带来一些好处:
- Feature 越少,训练越快
- 有些Feature之间可能存在线性的关系,影响模型的性能
- 通过挑选出最重要的 Feature,可以将它们之间进行各种运算和操作的结果作为新的 Feature,可能带来意外的提高
Feature Selection 最实用的方法也就是看 Random Forest 训练完以后得到的 Feature Importance 了。