机器学习实战----特征工程

最新推荐文章于 2024-07-12 15:37:04 发布

只布布倩

最新推荐文章于 2024-07-12 15:37:04 发布

阅读量1.1k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangyingjie09/article/details/80363050

版权

特征工程在机器学习中至关重要，它包括预处理、特征提取、特征选择和特征降维。预处理涉及数据清洗、去重、标准化和归一化；特征提取通过转换生成有意义的特征；特征选择挑选出最具统计意义的特征；特征降维减少维度，如PCA和LLE。特征工程占数据科学家工作的大比例，是提升模型性能的关键步骤。

摘要由CSDN通过智能技术生成

一什么是特征工程

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。其本质是一项工程活动，目的是最大限度的从原始数据中提取特征以供算法和模型使用。什么是“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限”？就像我们学习一本书，书中的数据和从书中能够获得的所有知识是这本书的知识上限，而我们通过各种学习方法获得的知识是接近这个上限。数据和特征就像一本书中的知识的上限，而模型和算法就是逼近这个上限。

二为什么进行特征工程

当你想要你的预测模型性能达到最佳时，你要做的不仅是要选取最好的算法，还要尽可能的从原始数据中获取更多的信息。

三特征工程的过程

特征工程其实就是获取特征的一系列活动，当我们获取了原始数据，首先对原始数据进行了预处理之后，再进行提取特征，然后进行特征选择和特征降维，最后使用特征建立模型。如下图所示：

1 预处理

现实世界数据是“肮脏”的，好的数据能够带来好的结果，获得较好模型，进行较好的预测。对原始数据的清洗、过滤、缺失值处理、标准化、归一化等，使其更方便做后期的特征处理和机器学习。

常用预处理方法：

去重：去掉重复的数据；

过滤：把反常值(极高/极低)用平滑值代替；

标准化：把数据放缩到同样的范围。变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特征

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
机器学习实战----特征工程

一什么是特征工程数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。其本质是一项工程活动，目的是最大限度的从原始数据中提取特征以供算法和模型使用。什么是“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限”？就像我们学习一本书，书中的数据和从书中能够获得的所有知识是这本书的知识上限，而我们通过各种学习方法获得的知识是接近这个上限。数据和特征就像一本书中的知识的上...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。