1、学习目标
学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法
学习特征交互、编码、选择的相应方法
2、比赛数据相比真实场景的数据相对要“干净”一些,但是还是会有一定的“脏”数据存在,清洗一些异常值往往会获得意想不到的效果。
常用方法:
2.1缺失值填充:一般填为0,
2.2针对string特征,转化为数值特征或者时间特征。
2.3类别特征,可以labelencode
2.4异常值处理:当你发现异常值后,一定要先分清是什么原因导致的异常值,然后再考虑如何处理。要分析规律,如果实在分析不出规律可以删掉。
异常值检验方法:均方差、箱型图
2.5:数据分桶,分箱:征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。
连续值离散化,将多状态的离散变量合并成少状态
常用方法:固定宽度分箱、分位数分箱、卡方分箱及其他分箱方法
3、特征交叉:计算ctr、 mean 、 std、count等
4、特征编码:labelencode、归一化等
5、特征选择:
- 1 Filter
- 方差选择法
- 相关系数法(pearson 相关系数)
- 卡方检验
- 互信息法
- 2 Wrapper (RFE)
- 递归特征消除法
- 3 Embedded
- 基于惩罚项的特征选择法
- 基于树模型的特征选择