特征工程（学习笔记总结）

最新推荐文章于 2023-06-29 10:14:57 发布

幻术浪

最新推荐文章于 2023-06-29 10:14:57 发布

阅读量167

点赞数

分类专栏：人工智能学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46402349/article/details/117962924

版权

人工智能学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

目录

1、需要哪些数据？

2、数据如何存储？

3、数据清洗（数据预处理）

3.1 文本数据转换为数值型数据

3.2 缺省值填充

3.3 哑编码（onehotencoder要求数据类型是数值）

3.6 多项式拓展

4、特征选择

4.1.1 方差选择法

4.1.2 相关系数法

4.1.3 卡方检验（要求特征属性非负）--只能用最大最小缩放（0，1）

4.2.1递归特征消除法

4.3.1 基于惩罚项的特征选择

5.2 LDA(线性判别)

1、需要哪些数据？

1）业务分析：基于对业务规则的理解，尽可能多的找出对因变量影响较大的自变量数据

2）数据可用性评估：数据获取之前，先考虑获取成本；获取到数据之后，使用数据之前，考虑下这个数据是否覆盖了所有情况及数据的可信度。

2、数据如何存储？

3、数据清洗（数据预处理）

样本不均衡：给样本赋予权重（参数： class_weight 分类）

采样

3.1 文本数据转换为数值型数据

3.2 缺省值填充

3.3 哑编码（onehotencoder要求数据类型是数值）

3.4 二值化

1、一般情况下，对每个特征使用不同的阈值进行二值化操作，所以一般我们会拆分几个DataFrame进行二值化操作后，再进行合并。

2、一般情况下，我们对数据进行划分时，不是进行二值化，而是进行多值化（分区化/分桶化）：即将一个连续的数据，按照不同的取值范围，分为不同的级别。比如：在一个模型中，根据人的收入判断工作年限，可能会得到因变量的因素其实是区间划分后的收入情况。那么这时候可以基于业务特征，将收入划分为收入等级，比如：1w: 0; 1w-2w: 1; 2w-3w: 2; 3w+ :3(不要对数据做哑码，因为这里的0 1 2 3有不同的等级）

3.5 标准化

标准化的目的：降低不同特征的不同范围的取值对于模型训练的影响

3.6 多项式拓展

4、特征选择

4.1 filter

4.1.1 方差选择法

4.1.2 相关系数法

4.1.3 卡方检验（要求特征属性非负）--只能用最大最小缩放（0，1）

4.2 wrapper

4.2.1递归特征消除法

1）极模型；2）选择几个特征；3）每一次删除几个特征

4.3 embeded

4.3.1 基于惩罚项的特征选择

4.3.2 基于树模型的特征选择

5、降维

5.1 PCA

数据0中心化后， (X * X转置) /n 等于协方差矩阵。

矩阵分解 (特征值/奇异值分解+SVD+解齐次/非齐次线性方程组)

5.2 LDA(线性判别)

使用sklearn做单机特征工程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征工程（学习笔记总结）

1、需要哪些数据？1）业务分析：基于对业务规则的理解，尽可能d2）2、数据如何存储？3、数据清洗4、数据工程
复制链接

扫一扫

专栏目录

幻术浪 CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

83万+: 周排名

18万+: 总排名

9428: 访问

: 等级

156: 积分

1: 粉丝

3: 获赞

6: 评论

54: 收藏

私信

关注

热门文章

分类专栏

人工智能学习 12篇
C++ 1篇

最新评论

0-1背包问题 (python 代码）墨尔本大学离散优化第二周作业
CSDN-Ada助手: 恭喜你完成了第19篇博客，看来你对离散优化问题有着深入的理解和研究。希望你能继续保持创作的热情，分享更多关于离散优化的知识和经验。或许可以考虑结合实际案例，分析不同算法在解决0-1背包问题中的表现，或者探讨该问题在实际生活中的应用等方面，这样可以让读者更好地理解和应用你分享的内容。期待你更多的精彩作品！
ARM基础
CSDN-Ada助手: 恭喜你撰写了第18篇博客《ARM基础》！不断坚持并持续创作是个了不起的成就。你对ARM的基础知识进行探索和分享，无疑为读者提供了宝贵的信息和学习资源。如果我能给你一个创作建议，那就是深入研究ARM的进阶应用领域。例如，你可以探索ARM与人工智能、物联网或者嵌入式系统的结合。继续保持谦逊的态度，相信你的下一篇博客一定会给我们带来更多的惊喜。期待你的进一步探索和分享！
python 求无重复的最长子串
CSDN-Ada助手: 恭喜您写了第17篇博客！标题中的《python 求无重复的最长子串》让我非常感兴趣。您的博客内容一定非常有深度和实用性。不过，如果您愿意的话，我想提出一些建议。下一步，您可以考虑分享一些关于如何优化算法或者使用其他编程语言实现相似功能的内容，这样读者们就能更全面地了解这个问题了。再次恭喜您的持续创作，期待您更多精彩的博客！
SVM 支持向量机
大家一起学编程（python）: 活到老，学到老
SVM 支持向量机
盼盼编程: 写的不错!

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。