[特征工程]数据预处理的方法和技巧

目录

一、数据的抽取要正确反映业务需求

二、处理缺失值和异常值

2.1 缺失值处理

2.2 异常值处理

三、数据转换

3.1 改善变量分布的转换

3.2 数据标准化

四、筛选有效的输入变量

五、变量共线性问题


      工业界有一个大家公认的看法,“数据和特征决定了数据挖掘项目的上限,而算法只是尽可能地逼近这个上限”。在实战中,特征工程几乎需要一半以上的时间,是很重要的一个部分,因而本文对数据处理的主要步骤和方法进行梳理和总结。

一、数据的抽取要正确反映业务需求

       一个数据挖掘需求一旦确定后,工程师接下来要做的事情就是抽取分析用的数据,并熟悉数据。在数据挖掘实战中,因为抽取的数据不能正确反映业务需求而导致项目失败的例子并不少见,从错误的数据中,肯定是不能找到正确的分析挖掘结论的。如何保证抽取的数据尽可能正确反映业务需求,有以下两个原则:

      1、真正熟悉业务背景,这是确保数据抽取能正确反映业务需求的王道。

     2、确保抽取的数据所对应的当时业务背景,与即将应用的业务背景没有明显的重大改变。

     例如,基于618公司大促所带来的消费数据,所做的新用户首次下单的特征分析,是不能用到后期(没有折扣)对新用户下单模型的预测。

 

二、处理缺失值和异常值

2.1 缺失值处理

     在个别情况下,比如决策树算法允许含缺失值的变量直接进入分析挖掘,因为缺失值被看做是一个特定的属性类别;在大多数情况下,需要对缺失值进行处理。

   1、首先应该知道数据缺失的原因,确定缺失值是否由计算错误或业务逻辑造成的,再采取相应的对策进行处理。

   2、删除

       删除带有缺失值的数据元组:在建模样本中,缺失值比例少,并且后期应用中,数据缺失值比例也很少。

       删除有大量缺失值的变量。

 3、赋值

      用众数、均值、人为定义的一个数据代替缺失值。

      通过回归模型、决策树模型预测缺失值。

2.2 异常值处理

   异常值对于数据分析结论或挖掘模型效果的负面影响是非常大的,很可能会干扰模型系数的计算和评估,从而严重降低模型的稳定性。对异常值的处理,通常是直接删除。异常值的判断方法:

     变量取值范围是否符合业务逻辑,很可能因为代码或者处理逻辑错误,导致无法解释的数据生成。

     类别型变量,某个类别值出现的概率只占0.1%或更少。

     区间型变量,最简单有效的方法是把所有观察对象按照变量的取值从小到大排序,然后从最大数值开始倒推0.1%甚至更多,这些最大的数值很可能属于异常值,再结合业务逻辑加以判断。

三、数据转换

3.1 改善变量分布的转换

       计算变量的偏度和峰度。偏度,通过均值和中位数的差异程度来判断数据的偏倚程度,当二者相差过大,说明数据有明显的右偏或左偏情况。峰度,用于衡量数据分布形态的陡缓程度,也可以说是集中与分散的程度。当其值为0时,说明集散程度与正态分布相同,当峰值大于0,说明数据分布与正态分布相比较为陡峭;当峰值小于0,说明其分布与正态分布相比较为平坦。

   改善变量分布,为了提升自变量的预测能力,强化自变量与因变量的线性关系,从而明显提升模型的拟合效果。通过数学变换,使得变量分布呈现正态分布:

    取对数(log)、开平方根、取倒数、开平方、取指数等。

3.2 数据标准化

       数据标准化转换的主要目的是将数据按照比例进行缩放,使之落入一个小区间范围内,从而不同变量经过标准化处理后可以有平等分析和比较的基础;对于梯度下降,标准化可以达到加速收敛的效果,且不改变原始数据的分布。

       Min-Max标准化,使得变量在[0,1]区间:

 

      Z-Score标准化,变量符合标准正态分布,即均值为0,标准差为1:

 

四、筛选有效的输入变量

   优质模型一定是遵循输入变量少而精的原则。过多的输入变量很可能会带来过拟合的问题,这会导致模型的稳定性下降,模型效果变差。同时,筛选有效的输入变量也是提高运算速度和运算效率的需要。

       结合业务经验先行筛选这是所有筛选自变量方法中最核心、最关键、最重要的方法!!锁定与项目需求关系最密切的核心变量;增加衍生变量,增添一些有价值的相对值字段(比率)。

      算法自身的筛选功能。决策树模型、回归模型,可选出有价值的自变量。

      降维方法。主成分分析(PCA)可以有效精简输入变量的数目。

五、变量共线性问题

      共线性是指变量之间存在较强的线性相关关系。当自变量之间高度相关时,数据的小小的变化,比如误差的发生都会引起模型参数严重震荡,明显降低模型的预测能力。同时共线性导致模型结果难以解释,因为难以分辨每个自变量对因变量的影响

      Pearson相关系数:

  若自变量属于中度以上线性相关的(r>0.6),只需保留一个就可以。

 

 参考资料:

 

1、《数据挖掘与数据化运营实战 思路、方法、技巧与应用》卢辉

 

发布了27 篇原创文章 · 获赞 34 · 访问量 2万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览