数据化运营RFM模块

最新推荐文章于 2024-10-13 19:04:04 发布

weixin_51570035

最新推荐文章于 2024-10-13 19:04:04 发布

阅读量122

点赞数

文章标签： python r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51570035/article/details/119977516

版权

本文介绍了如何运用Python进行数据处理和Excel数据透视表制作，以实现RFM模型。首先，对用户进行分组并概括特征；接着，通过数据读写、预处理、使用pandas进行数据规整；然后，计算RFM指标，如最近购买时间、购买频率和总金额，并根据业务需求设置分界值；再通过随机森林计算RFM因子权重，进行数据分箱和加权得分计算；最后，将结果导出到Excel并利用数据透视表制定运营策略。文章揭示了不同用户群体特征，为运营决策提供依据。

摘要由CSDN通过智能技术生成

这是datawhale的数据化运营项目的RFM模块的笔记。

先使用python进行数据处理，再使用excel进行数据透视表的制作，最后进行运营策略的思考。

对用户进行分组，并且把每个组的用户特征概括与总结；

在数据读写（关于excel数据的读取，读取不同的表格，有打印出excel数据的方法用于检查有无数据读取错误）、

预处理的部分（对异常值和缺失值的处理，有enumerate函数的使用；新增一列进行特征的添加；对数据进行汇总，使用concat函数把多张数据表和为一张数据表；通过日期新增字段有利于使用RFM模型；）、

包含了pandas库的使用，数据规整部分的操作；

对合并后的表格数据进行处理，使用时间方面的计算增添新的列，得到日期的间隔，在后续操作中使用匿名函数把时间间隔列转化为具体的天数；

后面在对RFM的原始值进行聚合运算，使用了groupby()方法和agg()套用多个运算方法得到了模型所用的值：最近一次的订单时间、订单的频率、订单的总金额；

简单使用.columns=一个包含列名的列表,即可对列名进行设置；

对RFM划分区间：

先查看数据分布，使用.describe(),通过产生的值可以对数据进行描述性分析，对于f列由于商品的性质再划分的用户特征上面无法比较好去表达，课件中讲到通过和业务方面沟通，使用2和5作为数据划分的边界；对于r和m边界值就比较容易确定使用25%和75%作为边界进行划分数据集；对于数据集的划分，要选择左右的开区间或者闭区间，在课件中提出：在定义最小值时，一定要将最小值的边界值定义得比数据框中的最小值要小。否则，当数据中出现与最小值边界值相同甚至更小的值时，数据就无法被划分在正常目标的区间内，这样的数据集划分方法。

计算RFM因子权重使用了随机森林的模型；再通过数据分箱和计算加权得分以及RFM组合得出了处理好的数据。

把数据导入到excel表格，通过数据透视表的功能对数据展示，为运营的策略提供了思路。

通过数据发现了两类用户：一类是占比超过10%的用户，一类是占比个位数的用户，可以应用不同的策略场景。还有一类用户就是虽然人数不多但是个人价值极高的用户，对这样的群体可以采用不同的策略。

第1类人群：占比超过10%的群体。
由于这类人群基数大，必须采取批量操作和运营的方式落地运营策略，一般需要通过系统或产品实现，而不能主要依赖于人工。

第2类人群：占比为1%~10%的群体，这部分人群数量适中，在落地时无论是产品还是人工都可接入。

第3类群体：占比非常少，但却是非常重要的群体。

后面还将到了案例的应用和部署，以及案例的注意点和案例的延伸思考。

weixin_51570035

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。