数据分析的具体步骤 1)从数据仓库导数据进入宽表:宽表就是字段比较多的数据库表2)数据分层抽样:需要保证分层出来的样本比例同原始数据基本一致3)数据类型选择:连续型还是离散型4)缺失值处理5)异常值处理:第一个异常值为无效异常值,但是第二个异常值可能属于有效异常值6)自变量分类7)强相关变量:聪明变量 1)从数据仓库导数据进入宽表:宽表就是字段比较多的数据库表 2)数据分层抽样:需要保证分层出来的样本比例同原始数据基本一致 3)数据类型选择:连续型还是离散型 连续变量:用于业务收入趋势分析、销售额预测分析、RFM分析离散变量:信用评级、分类预测 4)缺失值处理 5)异常值处理:第一个异常值为无效异常值,但是第二个异常值可能属于有效异常值 6)自变量分类 7)强相关变量:聪明变量 有意义的变量不会超过10-15个信息差IV值大于0.3代表变量的预测力较强