预测响应模型案例的分析步骤

根据卢辉老师的《数据挖掘与数据化运营实战》10.6的案例总结数据摸底1、 在一个大的项目中可以只选择一个类别进行分析,如找出某网站最有可能初次成交的卖家群体,就可以先找一个类目的商品进行分析,是模型的效果,考虑要不要推广到其他商品类目。2、 通过数据透视等方式查看有没有哪一个指标对于初次成交是“致命的”,比如说,每天上线10次以上的卖家数占所有完成初次成交的卖家数量的90%以上,那就可以只取每天上线10次以上的卖家的数据进行分析。这样做会在损失比较少的数据信息的基础上大大降低样本数量,减少噪声数据
摘要由CSDN通过智能技术生成

根据卢辉老师的《数据挖掘与数据化运营实战》10.6的案例总结

  • 数据摸底
    1、 在一个大的项目中可以只选择一个类别进行分析,如找出某网站最有可能初次成交的卖家群体,就可以先找一个类目的商品进行分析,是模型的效果,考虑要不要推广到其他商品类目。
    2、 通过数据透视等方式查看有没有哪一个指标对于初次成交是“致命的”,比如说,每天上线10次以上的卖家数占所有完成初次成交的卖家数量的90%以上,那就可以只取每天上线10次以上的卖家的数据进行分析。这样做会在损失比较少的数据信息的基础上大大降低样本数量,减少噪声数据,提高模型的有效性。
    3、与业务方沟通确定潜在的分析字段和指标。(业务人员由于经验可能对数据指标有更高的灵敏度)
    4、通过对挑选出来的字段分析,必要时可增添一些衍生变量(对原始字段进行组合),即将有联系的字段通过数值计算生成新的字段。

  • 数据抽取和清洗
    1、数据抽取:按照合理的抽样方法确定训练集、测试集。
    2、熟悉数据的分布特征和基本统计指标。
    3、发现缺失值、异常值和与业务逻辑相矛盾的数据并处理。将类型变量(中文输入)转变为数字格式的分类变量。缺失值和异常值较少可以直接删除该样本,较多就要考虑更改或补充,方法:补充均值、众数、最小方差法或随即森林。

  • 相关性检验和共线性排查
    1、检验解释变量间的相关性,将相关性强的字段只留一个。
    2、分别检验解释变量与因变量的相关性,然后剔除相关性弱的变量,是变量筛选的思路之一。

  • 潜在自变量的分布转换
    数据离散化:分箱
    数据严重偏态:取对数

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值