【数据分析】黑色星期五(代码1)销售额分析1

目录

数据集来源

 准备工作

查看数据

1.查看行列数量

2.查看字段

3.重新命名

4.查看缺失值

运行结果

5.用0进行缺失值填充

6.每个字段取值情况

整体代码


数据集来源

黑色星期五数据集 - 飞桨AI Studio (baidu.com)

本人将数据集train.csv更名为BlackFriday.csv

 准备工作

导入数据集与库

# 整体数据概览
"""
数据量、字段、缺失情况、数据取值情况等等
"""
import pandas as pd
# 导入数据
bf_df = pd.read_csv("data/BlackFriday.csv")

查看数据

1.查看行列数量

# 查看数据行列
print(bf_df.shape)  #(550068, 12)

2.查看字段

# 产查看字段
print(bf_df.columns)  # 列名
print(bf_df.head(2))  # 对应前两行

3.重新命名

# rename
bf_df.columns = ["顾客ID", "商品ID", "性别", "年龄", "职业", "城市类别", "居住时间", "婚姻状况", "商品类别1", "商品类别2", "商品类别3", "购买金额"]
print(bf_df.head())
print(len(bf_df.columns))

4.查看缺失值

# 查看缺失值
print(bf_df.info())

运行结果

 可以看到样本总量为550068,count表示记录了未缺失的,然而在商品类别2、商品类别3中数据总量仅为376430与166821,有数据缺失,因此下面我用0对缺失数据进行填充

5.用0进行缺失值填充

# 用0进行缺失值填充
bf_df=bf_df.fillna(0)
print(bf_df.info())

可以看到填充过后商品数量是齐全的

6.每个字段取值情况

# 每个字段的取值情况
# 离散型['F' 'M']
gender = bf_df["性别"].unique()  # unqiue()去重。
print(gender)

age = bf_df["年龄"].unique()
occupation = bf_df["职业"].unique()
city = bf_df["城市类别"].unique()
stay_year = bf_df["居住时间"].unique()
marry_status = bf_df["婚姻状况"].unique()
cate_1 = bf_df["商品类别1"].unique()
print("年龄:", age)
print("职业:", occupation)
print("城市类别:", city)
print("居住时间:", stay_year)
print("婚姻状况:", marry_status)
print("商品类别1:", cate_1)

整体代码

# 整体数据概览
"""
数据量、字段、缺失情况、数据取值情况等等
"""
import pandas as pd
# 导入数据
bf_df = pd.read_csv("data/BlackFriday.csv")

# 查看数据行列
# print(bf_df.shape)  #(550068, 12)

# 产查看字段
# print(bf_df.columns)  # 列名
# print(bf_df.head(2))  # 对应前两行

# rename
bf_df.columns = ["顾客ID", "商品ID", "性别", "年龄", "职业", "城市类别", "居住时间", "婚姻状况", "商品类别1", "商品类别2", "商品类别3", "购买金额"]
# print(bf_df.head())
# print(len(bf_df.columns))

# 查看缺失值
# print(bf_df.info())

# 用0进行缺失值填充
# bf_df=bf_df.fillna(0)
# print(bf_df.info())

# 每个字段的取值情况
# 离散型['F' 'M']
gender = bf_df["性别"].unique()  # unqiue()去重。
# print(gender)
age = bf_df["年龄"].unique()
occupation = bf_df["职业"].unique()
city = bf_df["城市类别"].unique()
stay_year = bf_df["居住时间"].unique()
marry_status = bf_df["婚姻状况"].unique()
cate_1 = bf_df["商品类别1"].unique()
print("年龄:", age)
print("职业:", occupation)
print("城市类别:", city)
print("居住时间:", stay_year)
print("婚姻状况:", marry_status)
print("商品类别1:", cate_1)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值