数据化运营RFM模块

本文介绍了如何运用Python进行数据处理和Excel数据透视表制作,以实现RFM模型。首先,对用户进行分组并概括特征;接着,通过数据读写、预处理、使用pandas进行数据规整;然后,计算RFM指标,如最近购买时间、购买频率和总金额,并根据业务需求设置分界值;再通过随机森林计算RFM因子权重,进行数据分箱和加权得分计算;最后,将结果导出到Excel并利用数据透视表制定运营策略。文章揭示了不同用户群体特征,为运营决策提供依据。
摘要由CSDN通过智能技术生成

这是datawhale的数据化运营项目的RFM模块的笔记。

先使用python进行数据处理,再使用excel进行数据透视表的制作,最后进行运营策略的思考。

对用户进行分组,并且把每个组的用户特征概括与总结;

在数据读写(关于excel数据的读取,读取不同的表格,有打印出excel数据的方法用于检查有无数据读取错误)、

预处理的部分(对异常值和缺失值的处理,有enumerate函数的使用;新增一列进行特征的添加;对数据进行汇总,使用concat函数把多张数据表和为一张数据表;通过日期新增字段有利于使用RFM模型;)、

包含了pandas库的使用,数据规整部分的操作;

对合并后的表格数据进行处理,使用时间方面的计算增添新的列,得到日期的间隔,在后续操作中使用匿名函数把时间间隔列转化为具体的天数;

后面在对RFM的原始值进行聚合运算,使用了groupby()方法和agg()套用多个运算方法得到了模型所用的值:最近一次的订单时间、订单的频率、订单的总金额;

简单使用.columns=一个包含列名的列表,即可对列名进行设置;

对RFM划分区间:

先查看数据分布,使用.describe(),通过产生的值可以对数据进行描述性分析,对于f列由于商品的性质再划分的用户特征上面无法比较好去表达,课件中讲到通过和业务方面沟通,使用2和5作为数据划分的边界;对于r和m边界值就比较容易确定使用25%和75%作为边界进行划分数据集;对于数据集的划分,要选择左右的开区间或者闭区间,在课件中提出:在定义最小值时,一定要将最小值的边界值定义得比数据框中的最小值要小。否则,当数据中出现与最小值边界值相同甚至更小的值时,数据就无法被划分在正常目标的区间内,这样的数据集划分方法。

计算RFM因子权重使用了随机森林的模型;再通过数据分箱和计算加权得分以及RFM组合得出了处理好的数据。

把数据导入到excel表格,通过数据透视表的功能对数据展示,为运营的策略提供了思路。

通过数据发现了两类用户:一类是占比超过10%的用户,一类是占比个位数的用户,可以应用不同的策略场景。还有一类用户就是虽然人数不多但是个人价值极高的用户,对这样的群体可以采用不同的策略。

1类人群:占比超过10%的群体。
由于这类人群基数大,必须采取批量操作和运营的方式落地运营策略,一般需要通过系统或产品实现,而不能主要依赖于人工。

2类人群:占比为1%~10%的群体,这部分人群数量适中,在落地时无论是产品还是人工都可接入。

3类群体:占比非常少,但却是非常重要的群体。

后面还将到了案例的应用和部署,以及案例的注意点和案例的延伸思考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值