1、学习知识点概要:
(1)学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法
(2)学习特征交互、编码、选择的相应方法
2、学习内容:(1)数据预处理
(2)异常值处理
(3)数据分箱
(4)特征交互
(5)特征编码
(6)特征选择
3、学习笔记:(1)数据预处理部分一般我们要处理一些EDA阶段分析出来的问题(象特征和数值特征尤为重要)
(2)当你发现异常值后,一定要先分清是什么原因导致的异常值,然后再考虑如何处理(均分法,箱型法)
(3)分箱的基本原则:
- (1)最小分箱占比不低于5%
- (2)箱内不能全部是好客户
- (3)连续箱单调
(4)特征选择的方法:
- Filter
- 方差选择法
- 相关系数法(pearson 相关系数)
- 卡方检验
- 互信息法
- 2 Wrapper (RFE)
- 递归特征消除法
- 3 Embedded
- 基于惩罚项的特征选择法
- 基于树模型的特征选择
4、学习思考与总结:特征工程是我们学习机器工程的一大重要点,也是一难点,我们要花费更多时间去攻破这一难题。