为什么要做特征工程
特征工程的作用是辅助模型学习。在模型学习的不好的地方或者难以学习的地方,通过人为筛选或者人为构造特征的方式让模型原本很难学的地方更容易进行学习,进而拿到更好的效果。例如梯度提升树模型在高基数类别数据往往会表现的比较差,这时便可通过特征工程进行改变。
以上参照公众号:kaggle竞赛宝典
常见特征工程
1.异常处理:
通过箱线图(或 3-Sigma)分析删除异常值;
BOX-COX 转换(处理有偏分布);
长尾截断;
2.特征归一化/标准化:
标准化(转换为标准正态分布);
归一化(抓换到 [0,1] 区间);
针对幂律分布,可以采用公式: l o g ( 1 + x 1 + m e d i a n ) log(\frac{1+x}{1+median}) log(1+medi