一、数据来源
本数据集来自Kaggle网站,上面有很多比赛和数据集,感兴趣的小伙伴可以注册个账号去看看,下面是数据集的链接。
https://www.kaggle.com/datasets/rohitsahoo/sales-forecasting
注:因为是国外网站,数据全英文
二、分析需求
1、商品分析、销售分析及预测
2、哪些城市值得重点投入
3、使用RFM模型分析消费者行为,区分不同类型消费者及等级
三、数据处理
(一)、数据维度介绍
订单ID:非唯一值,一个订单可以对应多个商品
购买日期:非唯一值,消费者下单付款日期
发货日期:下单后商品发出的时间
发货模式:有四种模式,分别是First Class、Same Day、Second Class、Standard Class
客户ID:一个客户一个ID
客户名称:客户姓名
消费者类型:有三种,分别是Consumer、Corporate、Home Office
国家:美国
城市:美国的各个城市
州:美国的各大洲
地区: Central、East、South、West四个地区
产品ID:每个ID对应不同产品名称
一级类目:Furniture、Office Supplies、Technology三个
二级类目:Accessories、Appliances、Art、Binders、Bookcases、Chairs、Copiers、Envelopes、Fasteners、Furnishings、Labels、Machines、Paper、Phones、Storage、Supplies、Tables
产品名称:商品名称
销售额:出售的金额
以下是数据截图:
(二)、数据处理
1、缺失值
首先先确定数据集的数据量,本数据集总共有9723条数据
邮政编码这里存在缺失值
因为城市对应不同邮政编码,正常情况可以根据“城市”维度进行填充,这11个缺失值所对应的城市是Burlington,所以这边使用其中一个编码进行填充(因为该维度不参与分析)
2、错误值
这里可以看到销售额和产品名称存在错误值,需要进行更正,如下:
截止到这处理完成
四、分析数据
` 这个模块主要是解决上边提出的四个分析需求,使用Excel完成,分析需求以现有的数据维度为准。
(一)、商品分析
需求分解:分析不同类别的商品销售额(注:表中没有销售数量,不做对应分析)。
不同类别商品销售额:
这里按照类目到产品名称进行逐级分析,在 图一 的“一级类目”中,Technology(科技类)37%,表明有近四层销售额是该类目贡献;再下分到“二级类目”,图二中:Phones(手机)、Chairs(椅子)、Storage(存储)三个子类分别在其大类下的销售额占比最高;图三:店铺销售额最高的产品是Canon imageCLASS 2200 Advanced Copier(应该是个打印机)。
Technology(科技类)类的产品销售额最多,但与其余的类目占比差别不大,且科技类的产品可能存在附加值较高,例如手机、打印机等。从“一级类目”销售额可以进行简单到推,Office Supplies(办公用品)的销售数量应该是最高的,因为办公用品客单价没有其余两个那么高。
可以得出结论:手机、椅子、存储三个子类产品贡献的销售额较多,可以开展针对性营销措施。
图一:
图二:
图三:
(二)、销售额分析
需求分解:每月/每年的总销售额、销售额趋势预测。
1、每月/每年的总销售额
(1)、每月销售额
销售额2015-2018四年销售额,这里放三年销售额,主要是为了防止销售额出现“偶然性”。
2016-2018三年全年销售额趋势,可以得出简单结论:该超市销售旺季集中在下半年,7月之后旺季开始,超市从5月开始可以为旺季备货。其中,Phones(手机)、Chairs(椅子)、Storage(存储)三类产品可以多备。旺季可以多举办促销活动,使销售利润最大化。
(2)、销售额趋势预测
这里使用2015-2018年销售额来预测2019年销售额,将各年度销售额通过绘制柱状图并添加趋势线(指数),可以看出销售额增长趋势符合指数增长模型。使用指数回归预测方法预测2019年销售额,可以使用GROWTH()公式来预测,公式得到结果为802862。
(三)、哪些城市值得投入推广
对2018年销售额数据按照城市进行排序筛选,Top5城市销售额占总比38%,说明这几个城市销量较好,对商店的销售额贡献最大。
接下来将城市对应的二级类目进行排序,可以看出销售额前三的城市对应二级类目存在一定相似性。结合前面的商品分析及销售额分析,超市从7月开始,在New York City、Seattle、Los Angeles、Philadelphia、San Francisco等城市中,加强 “Phones”、“Chairs”、“Copiers”、“Accessories”等类目下产品的促销力度,实现销售额最大化。
(四)、RFM分析模型
RFM分析模型主要用来对客户进行分类,并判断客户价值,针对性采取不同营销策略。
1、数据维度及范围: 根据R、F、M三个维度可以将客户分为类,需要的数据维度为客户ID、购买日期、销售金额。分析时间以2019年1月31日为当前时间点。
2、分析模型维度计算方法:
R:取近度最小值,Min(近度);近度=分析日期-购买日期。
F:对订单ID进行非重复计数。
M:平均消费金额(时间跨度较大这边取均值,不取累计值)。
最后在Power Pivot中再使用链接回表进行分组
注:将数据上传到Power Pivot中制作模型,这样会快很多。
3、开始计算:
首先将数据上传到Power Pivot
添加一列近度,计算按照上面的公式,并求出R、F、M三个度量值。
添加链接回表,可以使用SUMMARIZE()公式,具体公式为:SUMMARIZE(‘RFM模型’,‘RFM模型’[客户 ID],‘RFM模型’[客户名称],“R”,‘RFM模型’[R],“F”,‘RFM模型’[F],“M”,‘RFM模型’[M]),得到结果为793
再回到Excel中,在现有链接中插入表,再进行编辑得到最终的链接回表,这得到所要的维度了;然后将这个链接回表添加到模型中。
在Pivot中的链接回表中的R、F、M值进行重新分组,再添加辅助列,辅助列是为了表连接用的。
最后将表加载到数据透视表中,就得到客户类型和等级数量。
得出结论,超市需要重点维护重要客户,可以使用积分制、优惠劵等方式定期回馈客户,增加客户粘性。
最后,超市可以针对城市、价值客户、多产品组合模式等为切入点,提高超市利润。