特征工程
俗话说,“巧妇难为无米之炊”。在机器学习中,数据和特征就是“米”,模型和算法就是“巧妇”。没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。数据和特征往往决定了一个机器学习问题结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。
特征工程是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。它意在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解问题与预测模型之间的关系。
特征工程之特征归一化、类别型特征、高维组合特征的处理、组合特征
一、特征归一化
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。对数值类型数据的特征进行归一化可以将所有的特征都统一到一个大致相同的数值区间内,常用的方法有以下两种。
1、 线性函数归一化。它对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。归一化公式如下:
X n o r m = X − X m i n X m a x − X m i n X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}} Xnorm=Xmax−XminX−Xmin