百面机器学习—1.特征工程

最新推荐文章于 2022-03-03 13:43:44 发布

哎呦-_-不错

最新推荐文章于 2022-03-03 13:43:44 发布

阅读量1.9k

点赞数 3

分类专栏： # 《百面机器学习》文章标签：百面机器学习特征工程

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/114282003

版权

本文详细探讨了机器学习中的特征工程，包括特征归一化、类别型特征的处理、高维组合特征的策略，以及文本表示和图像数据不足的解决方案。重点讲解了归一化的意义和方法，如线性函数归一化和零均值归一化，以及类别型特征的二进制编码、独热编码等。同时，提到了如何有效地找到组合特征，以及词袋模型、N-gram、主题模型和词嵌入等文本表示模型的优缺点。针对图像数据不足的问题，提出了数据扩充和迁移学习等解决办法。

摘要由CSDN通过智能技术生成

文章目录

插眼：

引言

参考：百面机器学习pdf：链接：https://pan.baidu.com/s/1QHWWEXxrOIOQgTycz3YX6Q
提取码：y01g

一、特征归一化

描述
为了消除数据特征之间的量纲影响，我们需要对特征进行归一化，使得不同指标之间具有可比性，使得各指标处于同一数值量级，以便于分析。
方法：

线性函数归一化（Min-Max），将原始数据映射到[0,1]范围内
```
from sklearn.preprocessing import MinMaxScaler
```
零均值归一化（标准化），将原始数据映射到mean=0，std=1的分布上
```
from sklearn.preprocessing import StandardScaler
```

为什么需要对数值特征做归一化？
以随机梯度下降为例，在学习率相同的情况下，经过归一化后的数据容易更快的通过梯度下降找到最优解。
在这里插入图片描述
在实际运用中，通过梯度下降的算法求解的模型都需要归一化，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对决策树模型并不适用，因为信息增益、信息增益比、基尼指数跟特征是否经过归一化是无关的。

二、类别型特征

描述
类别特征指在有限选项内取值的特征，通常为字符串形式。除决策树等少数模型可以直接处理字符串形式的输入，对于逻辑回归、支持向量机等模型都需要先将类别型特征直接转换成数值型特征。
在对数据进行预处

最低0.47元/天解锁文章

哎呦-_-不错

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。