Kaggle项目分析--超市销售额

一、数据来源

本数据集来自Kaggle网站,上面有很多比赛和数据集,感兴趣的小伙伴可以注册个账号去看看,下面是数据集的链接。

https://www.kaggle.com/datasets/rohitsahoo/sales-forecasting

注:因为是国外网站,数据全英文

二、分析需求

1、商品分析、销售分析及预测
2、哪些城市值得重点投入
3、使用RFM模型分析消费者行为,区分不同类型消费者及等级

三、数据处理

(一)、数据维度介绍

订单ID:非唯一值,一个订单可以对应多个商品
购买日期:非唯一值,消费者下单付款日期
发货日期:下单后商品发出的时间
发货模式:有四种模式,分别是First Class、Same Day、Second Class、Standard Class
客户ID:一个客户一个ID
客户名称:客户姓名
消费者类型:有三种,分别是Consumer、Corporate、Home Office
国家:美国
城市:美国的各个城市
州:美国的各大洲
地区: Central、East、South、West四个地区
产品ID:每个ID对应不同产品名称
一级类目:Furniture、Office Supplies、Technology三个
二级类目:Accessories、Appliances、Art、Binders、Bookcases、Chairs、Copiers、Envelopes、Fasteners、Furnishings、Labels、Machines、Paper、Phones、Storage、Supplies、Tables
产品名称:商品名称
销售额:出售的金额

以下是数据截图:
在这里插入图片描述

(二)、数据处理

1、缺失值
首先先确定数据集的数据量,本数据集总共有9723条数据
在这里插入图片描述
邮政编码这里存在缺失值
在这里插入图片描述
因为城市对应不同邮政编码,正常情况可以根据“城市”维度进行填充,这11个缺失值所对应的城市是Burlington,所以这边使用其中一个编码进行填充(因为该维度不参与分析)

2、错误值
在这里插入图片描述
这里可以看到销售额和产品名称存在错误值,需要进行更正,如下:
在这里插入图片描述
截止到这处理完成

四、分析数据

` 这个模块主要是解决上边提出的四个分析需求,使用Excel完成,分析需求以现有的数据维度为准。

(一)、商品分析

需求分解:分析不同类别的商品销售额(注:表中没有销售数量,不做对应分析)。

不同类别商品销售额:
这里按照类目到产品名称进行逐级分析,在 图一 的“一级类目”中,Technology(科技类)37%,表明有近四层销售额是该类目贡献;再下分到“二级类目”,图二中:Phones(手机)、Chairs(椅子)、Storage(存储)三个子类分别在其大类下的销售额占比最高;图三:店铺销售额最高的产品是Canon imageCLASS 2200 Advanced Copier(应该是个打印机)。

Technology(科技类)类的产品销售额最多,但与其余的类目占比差别不大,且科技类的产品可能存在附加值较高,例如手机、打印机等。从“一级类目”销售额可以进行简单到推,Office Supplies(办公用品)的销售数量应该是最高的,因为办公用品客单价没有其余两个那么高。
可以得出结论:手机、椅子、存储三个子类产品贡献的销售额较多,可以开展针对性营销措施。
图一:
在这里插入图片描述
图二:
在这里插入图片描述
图三:
在这里插入图片描述

(二)、销售额分析

需求分解:每月/每年的总销售额、销售额趋势预测。

1、每月/每年的总销售额
(1)、每月销售额
销售额2015-2018四年销售额,这里放三年销售额,主要是为了防止销售额出现“偶然性”。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2016-2018三年全年销售额趋势,可以得出简单结论:该超市销售旺季集中在下半年,7月之后旺季开始,超市从5月开始可以为旺季备货。其中,Phones(手机)、Chairs(椅子)、Storage(存储)三类产品可以多备。旺季可以多举办促销活动,使销售利润最大化。
(2)、销售额趋势预测
在这里插入图片描述
在这里插入图片描述
这里使用2015-2018年销售额来预测2019年销售额,将各年度销售额通过绘制柱状图并添加趋势线(指数),可以看出销售额增长趋势符合指数增长模型。使用指数回归预测方法预测2019年销售额,可以使用GROWTH()公式来预测,公式得到结果为802862

(三)、哪些城市值得投入推广

对2018年销售额数据按照城市进行排序筛选,Top5城市销售额占总比38%,说明这几个城市销量较好,对商店的销售额贡献最大。
在这里插入图片描述

接下来将城市对应的二级类目进行排序,可以看出销售额前三的城市对应二级类目存在一定相似性。结合前面的商品分析及销售额分析,超市从7月开始,在New York City、Seattle、Los Angeles、Philadelphia、San Francisco等城市中,加强 “Phones”、“Chairs”、“Copiers”、“Accessories”等类目下产品的促销力度,实现销售额最大化。
在这里插入图片描述

(四)、RFM分析模型

RFM分析模型主要用来对客户进行分类,并判断客户价值,针对性采取不同营销策略。
1、数据维度及范围: 根据R、F、M三个维度可以将客户分为类,需要的数据维度为客户ID、购买日期、销售金额。分析时间以2019年1月31日为当前时间点。
在这里插入图片描述

2、分析模型维度计算方法:
R:取近度最小值,Min(近度);近度=分析日期-购买日期。
F:对订单ID进行非重复计数。
M:平均消费金额(时间跨度较大这边取均值,不取累计值)。
最后在Power Pivot中再使用链接回表进行分组
注:将数据上传到Power Pivot中制作模型,这样会快很多。

3、开始计算:
首先将数据上传到Power Pivot

在这里插入图片描述

添加一列近度,计算按照上面的公式,并求出R、F、M三个度量值。

在这里插入图片描述

添加链接回表,可以使用SUMMARIZE()公式,具体公式为:SUMMARIZE(‘RFM模型’,‘RFM模型’[客户 ID],‘RFM模型’[客户名称],“R”,‘RFM模型’[R],“F”,‘RFM模型’[F],“M”,‘RFM模型’[M]),得到结果为793

再回到Excel中,在现有链接中插入表,再进行编辑得到最终的链接回表,这得到所要的维度了;然后将这个链接回表添加到模型中。

在这里插入图片描述

在Pivot中的链接回表中的R、F、M值进行重新分组,再添加辅助列,辅助列是为了表连接用的。
在这里插入图片描述
在这里插入图片描述

最后将表加载到数据透视表中,就得到客户类型和等级数量。

在这里插入图片描述

在这里插入图片描述
得出结论,超市需要重点维护重要客户,可以使用积分制、优惠劵等方式定期回馈客户,增加客户粘性。

最后,超市可以针对城市、价值客户、多产品组合模式等为切入点,提高超市利润。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值