目录
工业界有一个大家公认的看法,“数据和特征决定了数据挖掘项目的上限,而算法只是尽可能地逼近这个上限”。在实战中,特征工程几乎需要一半以上的时间,是很重要的一个部分,因而本文对数据处理的主要步骤和方法进行梳理和总结。
一、数据的抽取要正确反映业务需求
一个数据挖掘需求一旦确定后,工程师接下来要做的事情就是抽取分析用的数据,并熟悉数据。在数据挖掘实战中,因为抽取的数据不能正确反映业务需求而导致项目失败的例子并不少见,从错误的数据中,肯定是不能找到正确的分析挖掘结论的。如何保证抽取的数据尽可能正确反映业务需求,有以下两个原则:
1、真正熟悉业务背景,这是确保数据抽取能正确反映业务需求的王道。
2、确保抽取的数据所对应的当时业务背景,与即将应用的业务背景没有明显的重大改变。
例如,基于618公司大促所带来的消费数据,所做的新用户首次下单的特征分析,是不能用到后期(没有折扣)对新用户下单模型的预测。
二、处理缺失值和异常值
2.1 缺失值处理
在个别情况下,比如决策树算法允许含缺失值的变量直接进入分析挖掘,因为缺失值被看做是一个特定的属性类别;在大多数情况下,需要对缺失值进行处理。
1、首先应该知道数据缺失的原因,确定缺失值是否由计算错误或业务逻辑造成的,再采取相应的对策进行处理。