【数据分析】黑色星期五（代码1）销售额分析1

最新推荐文章于 2024-04-29 13:09:27 发布

萝卜丝包治百病

最新推荐文章于 2024-04-29 13:09:27 发布

阅读量412

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/weixin_51502698/article/details/125781835

版权

数据集来源

黑色星期五数据集 - 飞桨AI Studio (baidu.com)

本人将数据集train.csv更名为BlackFriday.csv

准备工作

导入数据集与库

# 整体数据概览
"""
数据量、字段、缺失情况、数据取值情况等等
"""
import pandas as pd
# 导入数据
bf_df = pd.read_csv("data/BlackFriday.csv")

查看数据

1.查看行列数量

# 查看数据行列
print(bf_df.shape)  #(550068, 12)

2.查看字段

# 产查看字段
print(bf_df.columns)  # 列名
print(bf_df.head(2))  # 对应前两行

3.重新命名

# rename
bf_df.columns = ["顾客ID", "商品ID", "性别", "年龄", "职业", "城市类别", "居住时间", "婚姻状况", "商品类别1", "商品类别2", "商品类别3", "购买金额"]
print(bf_df.head())
print(len(bf_df.columns))

4.查看缺失值

# 查看缺失值
print(bf_df.info())

运行结果

可以看到样本总量为550068，count表示记录了未缺失的，然而在商品类别2、商品类别3中数据总量仅为376430与166821，有数据缺失，因此下面我用0对缺失数据进行填充

5.用0进行缺失值填充

# 用0进行缺失值填充
bf_df=bf_df.fillna(0)
print(bf_df.info())

可以看到填充过后商品数量是齐全的

6.每个字段取值情况

# 每个字段的取值情况
# 离散型['F' 'M']
gender = bf_df["性别"].unique()  # unqiue()去重。
print(gender)

age = bf_df["年龄"].unique()
occupation = bf_df["职业"].unique()
city = bf_df["城市类别"].unique()
stay_year = bf_df["居住时间"].unique()
marry_status = bf_df["婚姻状况"].unique()
cate_1 = bf_df["商品类别1"].unique()
print("年龄:", age)
print("职业:", occupation)
print("城市类别:", city)
print("居住时间:", stay_year)
print("婚姻状况:", marry_status)
print("商品类别1:", cate_1)

整体代码

# 整体数据概览
"""
数据量、字段、缺失情况、数据取值情况等等
"""
import pandas as pd
# 导入数据
bf_df = pd.read_csv("data/BlackFriday.csv")

# 查看数据行列
# print(bf_df.shape)  #(550068, 12)

# 产查看字段
# print(bf_df.columns)  # 列名
# print(bf_df.head(2))  # 对应前两行

# rename
bf_df.columns = ["顾客ID", "商品ID", "性别", "年龄", "职业", "城市类别", "居住时间", "婚姻状况", "商品类别1", "商品类别2", "商品类别3", "购买金额"]
# print(bf_df.head())
# print(len(bf_df.columns))

# 查看缺失值
# print(bf_df.info())

# 用0进行缺失值填充
# bf_df=bf_df.fillna(0)
# print(bf_df.info())

# 每个字段的取值情况
# 离散型['F' 'M']
gender = bf_df["性别"].unique()  # unqiue()去重。
# print(gender)
age = bf_df["年龄"].unique()
occupation = bf_df["职业"].unique()
city = bf_df["城市类别"].unique()
stay_year = bf_df["居住时间"].unique()
marry_status = bf_df["婚姻状况"].unique()
cate_1 = bf_df["商品类别1"].unique()
print("年龄:", age)
print("职业:", occupation)
print("城市类别:", city)
print("居住时间:", stay_year)
print("婚姻状况:", marry_status)
print("商品类别1:", cate_1)