数据挖掘实战—商品零售购物篮分析

最新推荐文章于 2024-06-03 10:06:24 发布

哎呦-_-不错

最新推荐文章于 2024-06-03 10:06:24 发布

阅读量2.7w

点赞数 160

分类专栏： # 数据挖掘项目实战文章标签：数据挖掘商品零售购物篮分析 Apriori算法

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/115471055

版权

文章目录

传送门：

引言

购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联，研究顾客的购买行为，从而辅助零售企业制定营销策略的一种数据分析方法。本文使用Apriori关联规则算法实现购物篮分析，发现超市不同商品之间的关联关系，并根据商品之间的关联规则制定销售策略。定义数据挖掘目标如下：

构建零售商品的Apriori关联规则模型，分析商品之间的关联性
根据模型结果给出销售策略

购物篮关联规则分析数据挖掘步骤如下：

对原始数据进行探索性分析，分析商品的热销情况与商品结构
对原始数据进行数据预处理，转换数据形式，使之符合Apriori关联规则算法要求
采用Apriori关联规则算法调整模型的输入参数，完成商品的关联性分析
结合实际业务，对模型结果进行分析，给出对应的销售策略

在这里插入图片描述

一、数据探索性分析

%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as mg

# 加载数据
order_data = pd.read_csv('data/GoodsOrder.csv',index_col=0,header=0,encoding='gbk')
type_data = pd.read_csv('data/GoodsTypes.csv',index_col=0,header=0,encoding='gbk')

1.数据质量分析

1.1 缺失值分析

order_data.isnull().sum()

在这里插入图片描述
数据中不含有缺失值

1.2 异常值分析

a = 0
b = 0
for i in order_data['Goods']:
    if i in list(type_data.index):
        a += 1
    else:
        b += 1
print(a,b)
# 43285 82

发现第一表中的部分商品名称没有在第二个表格中出现，可能存在异常值

1.3 重复数据分析

data = order_data.reset_index() #重置索引
data.duplicated().sum()

在这里插入图片描述
发现数据中没有重复值

2.数据特征分析

2.1 描述性统计分析

data.describe().T

在这里插入图片描述
发现共有43367个观测值（售出商品总数），不存在缺失值，共有9835条购物篮数据

2.2 分布分析

2.2.1 商品热销情况分布分析

通过对Goods列进行统计，可以进行商品热销情况分析，计算销量排行前10的商品销量。有以下两种方式：

group = data.groupby(['Goods']).count().reset_index() # 计数
sort = group.sort_values(by='id',ascending = False).reset_index(drop=True)

在这里插入图片描述

order_data.Goods.value_counts().reset_index()

在这里插入图片描述

print('销量排行前10的商品销量\n',sort[:10])

在这里插入图片描述

fig,ax = plt.subplots(figsize=(8,8))
# ax.barh(sort.iloc[:10,0],sort.iloc[:10,1])
sns.barplot(y=sort.iloc[:10,0],x=sort.iloc[:10,1])
ax.set_xlabel('商品销量',fontsize=15)
ax.set_ylabel('商品类别',fontsize=15)
ax.set_title('销量排名前10的商品销量情况',fontsize=20)
plt.savefig('Top10.png')

在这里插入图片描述

# 计算销量前10的商品占比
for index,row in sort[:10].iterrows():
    print(row['Goods'],row['id'],row['id']/len(data))

在这里插入图片描述
通过以上分析，我们得出商品销量前10的商品以及它们的销量占比

2.2.2 按类别划分商品销量分布分析

接下来，将商品归类，分析各类商品的销量及占比情况

links = pd.merge(sort,type_data,left_on='Goods',right_index=True,how='inner')  # 这里对两张表键的交集进行联合

这里对两个表中键的交集进行联合，消除了异常值。
在这里插入图片描述

求每个类别商品的销量

# 根据商品类别进行分组并求和
type_links = links.groupby(['Types']).sum().reset_index()
# 排序
type_links = type_links.sort_values('id',ascending=False).reset_index(drop=True)

在这里插入图片描述
求每个类别商品的销量占比

# axis = 0对每一列应用函数，axis=1对每行应用函数
type_links['count'] = type_links.apply(lambda x : x['id'] / len(order_data),axis=1)
# 重命名
type_links.rename(columns={
   'count':'percent'},inplace=True)
print('各类商品的销量及占比\n',type_links)
type_links.to_csv('percent.csv',index=False,header=True,encoding='gbk')

在这里插入图片描述
绘制各类别销量占比的饼状图

# 画饼图展示每类商品的销量占比
data = type_links['percent']
label = type_links['Types']
plt.figure(figsize=(8,8))
plt.pie(data,labels=label,autopct='%1.2f%%',labeldistance=1.05,shadow=True)
plt.axis('equal')  # 显示为圆（避免比例压缩为椭圆）
plt.title('每类商品销量占比',fontsize=20)
plt.savefig('percent.png')

在这里插入图片描述
从饼状图中可以看出：果蔬、西点、非酒精饮料这3类商品的销量差距不大，占总销量的50%左右。同时。按大类划分，食品类销量总和接近90%左右，说明顾客倾向于购买食品类商品，其他商品并非销售主力。

2.2.3 商品内部结构分布分析

通过饼状图，我们可以发现非酒精饮料销量第1，我们以非酒精饮料为例，展示非酒精饮料的商品结构。我们先在links筛选出非酒精饮料的商品名称，然后在统计每一个商品名称的销量及占比

selected = links.loc[links.Types == '非酒精饮料']

在这里插入图片描述
计算每一种非酒精饮料的占比

noalcohol = selected['id'].sum()
selected['count'] = selected.apply(lambda x : x['id']/noalcohol,axis=1)
selected.rename(columns={
   'count':'percent'},inplace=True)

在这里插入图片描述
饼状图展示非酒精饮料的商品结构

# 画饼状图
data =

最低0.47元/天解锁文章

哎呦-_-不错

关注

160
点赞
踩
515

收藏

觉得还不错? 一键收藏
28
评论
数据挖掘实战—商品零售购物篮分析

文章目录引言一、数据探索性分析1.数据质量分析1.1 缺失值分析1.2 异常值分析1.3 重复数据分析2.数据特征分析2.1 描述性统计分析2.2 分布分析引言购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联，研究顾客的购买行为，从而辅助零售企业制定营销策略的一种数据分析方法。本文使用Apriori关联规则算法实现购物篮分析，发现超市不同商品之间的关联关系，并根据商品之间的关联规则制定销售策略。定义数据挖掘目标如下：构建零售商品的Apriori关联规则模型，分析商品之间的关
复制链接

扫一扫

专栏目录