一、主要内容:
1、清洗数据。将列名统一修改、处理缺失数据和异常数据、转换日期等数据类型
2、查看总体销售情况
3、商品维度进行分析。主要分析内容有:商品价格分析,商品销售量、销售额情况分析,商品关
联分析
4、店铺维度进行分析。主要分析内容有:店铺销售量、销售额法分析,店铺促销情况分析,店铺
销售时间分析,周均消费次数分析,客单价分析等
5、相关性分析:用关联关系表和相关矩阵图初步对变量之间的关系进行分析。
6、用户维度进行分析。主要分析内容有:分析用户基本购买情况,按时间(周)对用户购买情况
进行分析,用户购买力分析,用户复购率分析,RFM区分用户。
二、使用工具
Python
三、数据来源
该数据集包含2018年6月1日-2018年7月5日的公司零售的交易信息。
四、字段含义
SDATE(订单日期)
STORE_CODE(商店编号)
POSID(POS机编号)
BASK_CODE(用户编号)
PROD_CODE(商品编号)
ITEM_QUANTITY(商品数量)
ITEM_SPEND(商品实际价格)
NORMAL_PRICE(商品单价)
DISCOUNT_TYPE(折扣类型)
DISCOUNT_AMOUNT(折扣金额)
五、数据清洗
1、查看总体数据特征
从图片中初步可以看出数据集可能存在的异常数据以及需要进行初步处理的地方有以下几点:
1)数据表中的SDATE字段需要将数据类型转换为日期型方便后续计算;
2)数据表中的ITEM_SPEND字段有负值,即商品实付金额为负,为异常数据;
3)数据表中的ITEM_QUANTITY字段有负值,即商品数量为负,为异常数据;
4)数据表中的DISCOUNT_AMOUTN字段数据有正值,即折扣后金额比折扣前金额高,为异常数据。
5)为方便阅读与查看,将列名统一改为符合驼峰命名法
2、修改列名
item.columns = ['shop_date','store_id','pos_id','user_id','prod_id','item_quantity','item_spend','normal_price','discount_type','discount_amount']
3、检验缺失数据
item.apply(lambda x: