机器学习系列手记(二):特征工程之特征归一化、类别型特征、高维组合特征的处理、组合特征

特征工程在机器学习中至关重要,包括特征归一化、类别型特征处理、高维组合特征的处理和组合特征的设计。归一化有助于模型收敛,类别型特征常通过序号编码、独热编码或二进制编码转化为数值型。高维组合特征可能导致参数过多,可借助矩阵分解降低维度。决策树能有效构建组合特征,通过梯度提升决策树优化模型。
摘要由CSDN通过智能技术生成

特征工程

      俗话说,“巧妇难为无米之炊”。在机器学习中,数据和特征就是“米”,模型和算法就是“巧妇”。没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。数据和特征往往决定了一个机器学习问题结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。
      特征工程是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。它意在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解问题与预测模型之间的关系。

特征工程之特征归一化、类别型特征、高维组合特征的处理、组合特征

一、特征归一化

为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。对数值类型数据的特征进行归一化可以将所有的特征都统一到一个大致相同的数值区间内,常用的方法有以下两种。
1、 线性函数归一化。它对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。归一化公式如下:
X n o r m = X − X m i n X m a x − X m i n X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}} Xnorm=XmaxXminXXmin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值