0、理解特征
一、观察数据类型
int/float/str/.........
二、Date类型特征的处理:
如果有一个字段是date类型的,例如'%y-%m-%d',则应该分别提取y,m,d信息,拆分为三个字段存入data['y'], data['m'], data['d'],并删除原来的data[date]字段。
三、缺失值的处理
3.1 缺失值填充:同类别数据的特征均值、中值;
3.2 每行数据中,缺失值缺失的数量,观测(缺失数量,label)的关系,如果有关系,把这个数当做一种新的特征;
3.3 API
统计列为空的个数:data.isnull().sum()
定位缺失值的位置: df[df.isnull().values==True]
四、 异常值的处理
五、连续型特征处理
5.1 区间离散化
a. 等值划分
b. 等量划分
bining & regularization
六、 类别型特征处理
a. one-hot编码
b. 哑变量编码
七、正态性检验
Anderson Test
八、类别不均衡
8.1 调节权重
8.2 under sampling
8.3 over sampling
8.4 增加惩罚项
九、 data shuffle
a. xgboost模型,先进行data shuffle,模型的MSE能够提升一倍?为什么呢?