[特征工程]数据预处理的方法和技巧

辰星M

于 2018-06-28 14:52:47 发布

阅读量2.9k

点赞数 2

分类专栏：数据挖掘文章标签：特征工程数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woniu201411/article/details/80843131

版权

目录

一、数据的抽取要正确反映业务需求

二、处理缺失值和异常值

2.1 缺失值处理

2.2 异常值处理

三、数据转换

3.1 改善变量分布的转换

3.2 数据标准化

四、筛选有效的输入变量

五、变量共线性问题

工业界有一个大家公认的看法，“数据和特征决定了数据挖掘项目的上限，而算法只是尽可能地逼近这个上限”。在实战中，特征工程几乎需要一半以上的时间，是很重要的一个部分，因而本文对数据处理的主要步骤和方法进行梳理和总结。

一、数据的抽取要正确反映业务需求

一个数据挖掘需求一旦确定后，工程师接下来要做的事情就是抽取分析用的数据，并熟悉数据。在数据挖掘实战中，因为抽取的数据不能正确反映业务需求而导致项目失败的例子并不少见，从错误的数据中，肯定是不能找到正确的分析挖掘结论的。如何保证抽取的数据尽可能正确反映业务需求，有以下两个原则：

1、真正熟悉业务背景，这是确保数据抽取能正确反映业务需求的王道。

2、确保抽取的数据所对应的当时业务背景，与即将应用的业务背景没有明显的重大改变。

例如，基于618公司大促所带来的消费数据，所做的新用户首次下单的特征分析，是不能用到后期（没有折扣）对新用户下单模型的预测。

二、处理缺失值和异常值

2.1 缺失值处理

在个别情况下，比如决策树算法允许含缺失值的变量直接进入分析挖掘，因为缺失值被看做是一个特定的属性类别；在大多数情况下，需要对缺失值进行处理。

1、首先应该知道数据缺失的原因，确定缺失值是否由计算错误或业务逻辑造成的，再采取相应的对策进行处理。

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
[特征工程]数据预处理的方法和技巧

目录一、数据的抽取要正确反映业务需求二、处理缺失值和异常值2.1 缺失值处理2.2 异常值处理三、数据转换3.1 改善变量分布的转换3.2 数据标准化四、筛选有效的输入变量五、变量共线性问题工业界有一个大家公认的看法，“数据和特征决定了数据挖掘项目的上限，而算法只是尽可能地逼近这个上限”。在实战中，特征工程几乎需要一半以上的时间，是很重要的一个部...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。