1.数据概述与清洗
1.1数据概述
数据来源:kaggle https://link.zhihu.com/?target=https%3A//www.kaggle.com/datasets/sdolezel/black-friday
本报告数据由Kaggle提供,共有数据550068条,12个字段,分别包含用户编号、产品编号、性别、年龄、职业、城市分类、城市居住时间、婚姻情况、产品类别1、产品类别2、产品类别3、购买金额。由于数据量庞大,Excel很难快速处理数据,因此本报告采用SQL对相关数据进行处理。
1.2数据清洗
本报告在分析前对数据缺失值与异常值进行区分,数据中的应没有缺失值的字段为User_ID、Product_ID和Purchase三个字段,如果三个字段有缺失值则数据分析没有意义,应采取缺失值处理措施,此外Purchase金额字段也不该为零。结果如图1所示发现数据中没有缺失值及为0的值。
SELECT `User_ID`,`Product_ID`,`Purchase`
FROM `black_friday`
WHERE `User_ID` IS NULL
AND `Product_ID` IS NULL
AND `Purchase` IS NULL;
图 1 数据清洗结果
2. 现状分析
2.1业务背景与逻辑分析
本报告的研究背景为黑色星期五的促销活动,我们需要根据促销活动的销售数据来分析整体的销售情况,以及根据消费者的个人特征进行用户画像分析,可以针对不同的用户进行不同的促销活动,所以本报告主要对用户的特征进行简要分析。