如何利用SQL创建RFM用户分析模型

   RFM用户分析模型究竟是什么?在之前的博客已经介绍了它的意义以及如何在现有的数据的情况下,利用Pandas创建分析模型,这里不再重复,详细可以参考我博客https://blog.csdn.net/weixin_48591974/article/details/116192534



   这一期将详细介绍如何利用SQL直接获取所需的数据去创建RFM用户分析模型。SQL ---- Structured Query Language(结构化查询语言 ),它是一种专门用来与数据库沟通的语言,提供了很多从数据库中高效地读写数据、查询数据的方法。常用的DBMS(数据库管理软件) 有 MySQL、Access、SQLite、SQL SERVER、Oracle 等等。



Recency:最近一次消费,即上一次交易距今多少天,反应了客户是否流失;


Frequency:消费频率,一段时间内客户的消费频率,反应了客户的消费活跃度;


Monetary:消费金额,一段时间内客户消费总金额,反应了客户价值


根据 RFM 这 3个 Dimension,可以分为8种客户类型,如下图:



在这里插入图片描述



   以下将简单介绍3个指标值的计算方法:



   F 值的计算:例如要计算 子表 orders 里 user_id 为 8002011的值。



在这里插入图片描述



   统计数据行数,我们可以使用 count() 函数完成,最后得出 F值为 3



SELECT  count(*)    AS F
FROM    orders
WHERE   user_id = 8002011;


   M 值的计算: 使用 sum() 函数将计算字段 price * amount 所有行加起来就得出 user_id 8002011 总消费金额为 13000



SELECT  sum(price * amount) AS M
FROM    orders
WHERE   user_id = 8002011;


   R 值的计算:在orders表中,可见时间是以 Integer 类型存在,也就是以格兰威治秒数(Unix时间戳)类型存在,指的是从1970年1月1日开始计算的秒数。关于时间戳和日期转换方法,可以运用 python的 datetime module 去实现转换。例如今天(2024-01-12)所对应的时间戳经过转换为 1704988800(秒),因此可以用这数值减去最近一次消费的日期,最后转换成天数,就知道 user_id 8002011最近一次消费距离今天为多少天。



SELECT (1704988800 - max(pay_time)) / (24 * 60 * 60) AS R,
FROM    orders
WHERE   user_id = 8002011;


   有了以上对3个指标的计算方法,以下就继续介绍各种方法进行分析。假设有如下总的数据表(更多数据行省略…)



在这里插入图片描述



   首先通过GROUP BY 子句,将原数据进行 分组,再通过聚合函数把字段组合相同的行划分为同一组。具体语法如下:



SELECT user_id  AS 用户ID,
       user_name AS 用户昵称,
       (1704988800 - max(pay_time)) / (24 * 60 * 60) AS R,
       count(user_id) AS F,  
       sum(price * amount) AS M
FROM   orders
GROUP BY user_id;


   这样就可以把每位用户的 RFM 值都计算出来了。



在这里插入图片描述



   刚才根据 R、F、M 维度表现的高与低,把用户分划分为 8 类,我们可以选择中位数作为区分高、低的依据。



   数据表 orders 共包含 21名用户数据。所以如果我们想获取中位数,查询语句需要写成 LIMIT 10, 1 由于21的中位数为 11, 因此 LIMIT 语句的第1个参数为 10,第2个参数为返回1行的结果,那就是中位数的值。



   获取 R 的中位数: 结果为32



SELECT (1704988800 - max(pay_time)) / (24 * 60 * 60) AS R
FROM   orders
GROUP BY user_id
ORDER BY R
LIMIT 10,1;


   获取 F 的中位数: 结果为3



SELECT count(user_id) AS F
FROM   orders
GROUP BY user_id
ORDER BY F
LIMIT 10,1;


   获取 M 的中位数: 结果为 36500



SELECT sum(price * amount) AS M
FROM   orders
GROUP BY user_id
ORDER BY M
LIMIT 10,1;


   接着,以如何获得 “新用户” 和 "流失用户"为例去继续编写语句分析。以上已经得出 R、F、M 的中位数。由于R(最近一次消费)的值越小,说明用户越活跃,因此低于 32 的被划分为 R 水平 高,反之为 R 水平 低。同理,我们可以得出 F 和 M 的划分方法, F:低于 3 为水平 低,反之为 高;M:低于 36500 为水平 低,反之为 高。



   HAVING 子句在用法上和 WHERE 子句非常相似,它们都能够根据指定条件筛选数据,也可以使用我们在 SELECT 子句中定义的字段别名。不同之处在于,WHERE 子句作用于原数据表,用来筛选 行;而 HAVING 子句作用于分组结果,用来筛选 分组。所以在编写语句时,必须区分好。



SELECT user_id  AS 用户ID,
       user_name AS 用户昵称,
       (1704988800 - max(pay_time)) / (24 * 60 * 60) AS R,
       count(user_id) AS F,  
       sum(price * amount) AS M
FROM   orders
GROUP BY user_id
HAVING R <=32
   AND F < 3
   AND M < 36500;


   得出"新用户" 数据表:



在这里插入图片描述



SELECT user_id  AS 用户ID,
       user_name AS 用户昵称,
       (1704988800 - max(pay_time)) / (24 * 60 * 60) AS R,
       count(user_id) AS F,  
       sum(price * amount) AS M
FROM   orders
GROUP BY user_id
HAVING R > 32
   AND F < 3
   AND M < 36500;


   得出"流失用户" 数据表:



在这里插入图片描述



   同理,其它6个维度的客户分析也是同样编写相对应的条件语句进行筛选。对于在众多的用户中如何可以快速、科学地分类,尤其前5个维度,对于每个商业行业有着重要的作用,也是掌握企业命运的风向标。

  • 25
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
RFM模型是一种常用的客户价值分析模型,可以基于客户的购买行为,将客户划分为高、中、低三类,以此来实现客户管理和营销策略的制定。下面介绍一下如何用Python进行RFM模型分析淘宝用户数据。 1. 数据预处理 首先需要对淘宝用户数据进行预处理,包括数据清洗、数据转换等。下面提供一份样例代码,以供参考: ```python import pandas as pd import numpy as np import datetime as dt # 读取数据 data = pd.read_excel('淘宝用户数据.xlsx') # 数据清洗 data.dropna(inplace=True) # 数据转换 data['购买日期'] = pd.to_datetime(data['购买日期']) data['订单金额'] = pd.to_numeric(data['订单金额']) ``` 2. 计算RFM指标 RFM指标包括最近一次购买时间(Recency)、购买频率(Frequency)和订单金额(Monetary)。下面给出一份样例代码,以供参考: ```python # 计算Recency snapshot_date = data['购买日期'].max() + dt.timedelta(days=1) data['Recency'] = (snapshot_date - data['购买日期']).dt.days # 计算Frequency frequency = data.groupby('用户ID')['订单ID'].nunique() frequency = frequency.reset_index() frequency.columns = ['用户ID', 'Frequency'] data = pd.merge(data, frequency, on='用户ID') # 计算Monetary monetary = data.groupby('用户ID')['订单金额'].sum() monetary = monetary.reset_index() monetary.columns = ['用户ID', 'Monetary'] data = pd.merge(data, monetary, on='用户ID') ``` 3. 划分RFM等级 根据Recency、Frequency和Monetary指标的值,对用户进行划分,分为高、中、低三类。下面给出一份样例代码,以供参考: ```python # 划分Recency等级 r_labels = range(4, 0, -1) r_quartiles = pd.qcut(data['Recency'], q=4, labels=r_labels) data['R'] = r_quartiles # 划分Frequency等级 f_labels = range(1, 5) f_quartiles = pd.qcut(data['Frequency'], q=4, labels=f_labels) data['F'] = f_quartiles # 划分Monetary等级 m_labels = range(1, 5) m_quartiles = pd.qcut(data['Monetary'], q=4, labels=m_labels) data['M'] = m_quartiles # 计算RFM总得分 data['RFM_Score'] = data[['R', 'F', 'M']].sum(axis=1) ``` 4. 可视化分析 最后,可以通过可视化工具对RFM模型分析结果进行分析和呈现,以便更好地理解和应用。下面给出一份样例代码,以供参考: ```python import matplotlib.pyplot as plt # 绘制RFM分布图 rfm_level_agg = data.groupby('RFM_Score').agg({ 'Recency': 'mean', 'Frequency': 'mean', 'Monetary': ['mean', 'count'] }).round(1) rfm_level_agg.columns = ['RecencyMean', 'FrequencyMean', 'MonetaryMean', 'Count'] rfm_level_agg.reset_index(inplace=True) plt.figure(figsize=(12, 8)) plt.scatter(rfm_level_agg['RecencyMean'], rfm_level_agg['FrequencyMean'], c=rfm_level_agg['RFM_Score'], cmap='coolwarm') plt.xlabel('Recency') plt.ylabel('Frequency') plt.title('RF分布图') plt.colorbar() plt.show() ``` 以上就是用Python进行RFM模型分析淘宝用户数据的简要介绍,希望能对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值