根据卢辉老师的《数据挖掘与数据化运营实战》10.6的案例总结
-
数据摸底
1、 在一个大的项目中可以只选择一个类别进行分析,如找出某网站最有可能初次成交的卖家群体,就可以先找一个类目的商品进行分析,是模型的效果,考虑要不要推广到其他商品类目。
2、 通过数据透视等方式查看有没有哪一个指标对于初次成交是“致命的”,比如说,每天上线10次以上的卖家数占所有完成初次成交的卖家数量的90%以上,那就可以只取每天上线10次以上的卖家的数据进行分析。这样做会在损失比较少的数据信息的基础上大大降低样本数量,减少噪声数据,提高模型的有效性。
3、与业务方沟通确定潜在的分析字段和指标。(业务人员由于经验可能对数据指标有更高的灵敏度)
4、通过对挑选出来的字段分析,必要时可增添一些衍生变量(对原始字段进行组合),即将有联系的字段通过数值计算生成新的字段。 -
数据抽取和清洗
1、数据抽取:按照合理的抽样方法确定训练集、测试集。
2、熟悉数据的分布特征和基本统计指标。
3、发现缺失值、异常值和与业务逻辑相矛盾的数据并处理。将类型变量(中文输入)转变为数字格式的分类变量。缺失值和异常值较少可以直接删除该样本,较多就要考虑更改或补充,方法:补充均值、众数、最小方差法或随即森林。 -
相关性检验和共线性排查
1、检验解释变量间的相关性,将相关性强的字段只留一个。
2、分别检验解释变量与因变量的相关性,然后剔除相关性弱的变量,是变量筛选的思路之一。 -
潜在自变量的分布转换
数据离散化:分箱
数据严重偏态:取对数 -
筛