预测响应模型案例的分析步骤

最新推荐文章于 2024-01-07 02:08:47 发布

yangyuxianerer

最新推荐文章于 2024-01-07 02:08:47 发布

阅读量1.1k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/yangyuxianerer/article/details/107747418

版权

根据卢辉老师的《数据挖掘与数据化运营实战》10.6的案例总结数据摸底1、在一个大的项目中可以只选择一个类别进行分析，如找出某网站最有可能初次成交的卖家群体，就可以先找一个类目的商品进行分析，是模型的效果，考虑要不要推广到其他商品类目。2、通过数据透视等方式查看有没有哪一个指标对于初次成交是“致命的”，比如说，每天上线10次以上的卖家数占所有完成初次成交的卖家数量的90%以上，那就可以只取每天上线10次以上的卖家的数据进行分析。这样做会在损失比较少的数据信息的基础上大大降低样本数量，减少噪声数据

摘要由CSDN通过智能技术生成

根据卢辉老师的《数据挖掘与数据化运营实战》10.6的案例总结

数据摸底
1、在一个大的项目中可以只选择一个类别进行分析，如找出某网站最有可能初次成交的卖家群体，就可以先找一个类目的商品进行分析，是模型的效果，考虑要不要推广到其他商品类目。
2、通过数据透视等方式查看有没有哪一个指标对于初次成交是“致命的”，比如说，每天上线10次以上的卖家数占所有完成初次成交的卖家数量的90%以上，那就可以只取每天上线10次以上的卖家的数据进行分析。这样做会在损失比较少的数据信息的基础上大大降低样本数量，减少噪声数据，提高模型的有效性。
3、与业务方沟通确定潜在的分析字段和指标。（业务人员由于经验可能对数据指标有更高的灵敏度）
4、通过对挑选出来的字段分析，必要时可增添一些衍生变量（对原始字段进行组合），即将有联系的字段通过数值计算生成新的字段。
数据抽取和清洗
1、数据抽取：按照合理的抽样方法确定训练集、测试集。
2、熟悉数据的分布特征和基本统计指标。
3、发现缺失值、异常值和与业务逻辑相矛盾的数据并处理。将类型变量（中文输入）转变为数字格式的分类变量。缺失值和异常值较少可以直接删除该样本，较多就要考虑更改或补充，方法：补充均值、众数、最小方差法或随即森林。
相关性检验和共线性排查
1、检验解释变量间的相关性，将相关性强的字段只留一个。
2、分别检验解释变量与因变量的相关性，然后剔除相关性弱的变量，是变量筛选的思路之一。
潜在自变量的分布转换
数据离散化：分箱
数据严重偏态：取对数
筛

最低0.47元/天解锁文章

yangyuxianerer

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
预测响应模型案例的分析步骤

根据卢辉老师的《数据挖掘与数据化运营实战》10.6的案例总结数据摸底1、在一个大的项目中可以只选择一个类别进行分析，如找出某网站最有可能初次成交的卖家群体，就可以先找一个类目的商品进行分析，是模型的效果，考虑要不要推广到其他商品类目。2、通过数据透视等方式查看有没有哪一个指标对于初次成交是“致命的”，比如说，每天上线10次以上的卖家数占所有完成初次成交的卖家数量的90%以上，那就可以只取每天上线10次以上的卖家的数据进行分析。这样做会在损失比较少的数据信息的基础上大大降低样本数量，减少噪声数据
复制链接

扫一扫