[特征工程]数据预处理的方法和技巧

目录

一、数据的抽取要正确反映业务需求

二、处理缺失值和异常值

2.1 缺失值处理

2.2 异常值处理

三、数据转换

3.1 改善变量分布的转换

3.2 数据标准化

四、筛选有效的输入变量

五、变量共线性问题


      工业界有一个大家公认的看法,“数据和特征决定了数据挖掘项目的上限,而算法只是尽可能地逼近这个上限”。在实战中,特征工程几乎需要一半以上的时间,是很重要的一个部分,因而本文对数据处理的主要步骤和方法进行梳理和总结。

一、数据的抽取要正确反映业务需求

       一个数据挖掘需求一旦确定后,工程师接下来要做的事情就是抽取分析用的数据,并熟悉数据。在数据挖掘实战中,因为抽取的数据不能正确反映业务需求而导致项目失败的例子并不少见,从错误的数据中,肯定是不能找到正确的分析挖掘结论的。如何保证抽取的数据尽可能正确反映业务需求,有以下两个原则:

      1、真正熟悉业务背景,这是确保数据抽取能正确反映业务需求的王道。

     2、确保抽取的数据所对应的当时业务背景,与即将应用的业务背景没有明显的重大改变。

     例如,基于618公司大促所带来的消费数据,所做的新用户首次下单的特征分析,是不能用到后期(没有折扣)对新用户下单模型的预测。

 

二、处理缺失值和异常值

2.1 缺失值处理

     在个别情况下,比如决策树算法允许含缺失值的变量直接进入分析挖掘,因为缺失值被看做是一个特定的属性类别;在大多数情况下,需要对缺失值进行处理。

   1、首先应该知道数据缺失的原因,确定缺失值是否由计算错误或业务逻辑造成的,再采取相应的对策进行处理。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值