这是datawhale的数据化运营项目的RFM模块的笔记。
先使用python进行数据处理,再使用excel进行数据透视表的制作,最后进行运营策略的思考。
对用户进行分组,并且把每个组的用户特征概括与总结;
在数据读写(关于excel数据的读取,读取不同的表格,有打印出excel数据的方法用于检查有无数据读取错误)、
预处理的部分(对异常值和缺失值的处理,有enumerate函数的使用;新增一列进行特征的添加;对数据进行汇总,使用concat函数把多张数据表和为一张数据表;通过日期新增字段有利于使用RFM模型;)、
包含了pandas库的使用,数据规整部分的操作;
对合并后的表格数据进行处理,使用时间方面的计算增添新的列,得到日期的间隔,在后续操作中使用匿名函数把时间间隔列转化为具体的天数;
后面在对RFM的原始值进行聚合运算,使用了groupby()方法和agg()套用多个运算方法得到了模型所用的值:最近一次的订单时间、订单的频率、订单的总金额;
简单使用.columns=一个包含列名的列表,即可对列名进行设置;
对RFM划分区间:
先查看数据分布,使用.describe(),通过产生的值可以对数据进行描述性分析,对于f列由于商品的性质再划分的用户特征上面无法比较好去表达,课件中讲到通过和业务方面沟通,使用2和5作为数据划分的边界;对于r和m边界值就比较容易确定使用25%和75%作为边界进行划分数据集;对于数据集的划分,要选择左右的开区间或者闭区间,在课件中提出:在定义最小值时,一定要将最小值的边界值定义得比数据框中的最小值要小。否则,当数据中出现与最小值边界值相同甚至更小的值时,数据就无法被划分在正常目标的区间内,这样的数据集划分方法。
计算RFM因子权重使用了随机森林的模型;再通过数据分箱和计算加权得分以及RFM组合得出了处理好的数据。
把数据导入到excel表格,通过数据透视表的功能对数据展示,为运营的策略提供了思路。
通过数据发现了两类用户:一类是占比超过10%的用户,一类是占比个位数的用户,可以应用不同的策略场景。还有一类用户就是虽然人数不多但是个人价值极高的用户,对这样的群体可以采用不同的策略。
第1类人群:占比超过10%的群体。
由于这类人群基数大,必须采取批量操作和运营的方式落地运营策略,一般需要通过系统或产品实现,而不能主要依赖于人工。
第2类人群:占比为1%~10%的群体,这部分人群数量适中,在落地时无论是产品还是人工都可接入。
第3类群体:占比非常少,但却是非常重要的群体。
后面还将到了案例的应用和部署,以及案例的注意点和案例的延伸思考。