百面机器学习—1.特征工程

本文详细探讨了机器学习中的特征工程,包括特征归一化、类别型特征的处理、高维组合特征的策略,以及文本表示和图像数据不足的解决方案。重点讲解了归一化的意义和方法,如线性函数归一化和零均值归一化,以及类别型特征的二进制编码、独热编码等。同时,提到了如何有效地找到组合特征,以及词袋模型、N-gram、主题模型和词嵌入等文本表示模型的优缺点。针对图像数据不足的问题,提出了数据扩充和迁移学习等解决办法。
摘要由CSDN通过智能技术生成


插眼:


引言

  参考:百面机器学习pdf:链接:https://pan.baidu.com/s/1QHWWEXxrOIOQgTycz3YX6Q
提取码:y01g

一、特征归一化

描述
  为了消除数据特征之间的量纲影响,我们需要对特征进行归一化,使得不同指标之间具有可比性,使得各指标处于同一数值量级,以便于分析。
方法:

  1. 线性函数归一化(Min-Max),将原始数据映射到[0,1]范围内

    from sklearn.preprocessing import MinMaxScaler
    
  2. 零均值归一化(标准化),将原始数据映射到mean=0,std=1的分布上

    from sklearn.preprocessing import StandardScaler
    

为什么需要对数值特征做归一化?
  以随机梯度下降为例,在学习率相同的情况下,经过归一化后的数据容易更快的通过梯度下降找到最优解。
在这里插入图片描述
  在实际运用中,通过梯度下降的算法求解的模型都需要归一化,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对决策树模型并不适用,因为信息增益、信息增益比、基尼指数跟特征是否经过归一化是无关的。

二、类别型特征

描述
  类别特征指在有限选项内取值的特征,通常为字符串形式。除决策树等少数模型可以直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型都需要先将类别型特征直接转换成数值型特征。
在对数据进行预处

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值