前言
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章
什么是数据分析
明确目的–获得数据(爬虫,现有,公开的数据)–数据预处理——数据可视化——结论
准备
环境使用:
在开始写我们的代码之前,我们要准备好运行代码的程序
-
Anaconda (python3.9)
–> 识别我们写的代码
开发工具:
-
jupyter notebook
–> 代码编辑功能敲代码的工具
不会安装的可以文末名片+我获取哦 😎
数据准备:
本数据集共收集了发生在一个月内的28010条数据,包含以下:
7个字段说明
订单编号:订单编号
总金额:订单总金额
买家实际支付金额:总金额 - 退款金额(在已付款的情况下)。金额为0(在未付款的情况下)
收货地址:各个省份
订单创建时间:下单时间
订单付款时间:付款时间
退款金额:付款后申请退款的金额。如无付过款,退款金额为0
分析目的
订单每个环节的转化转化率
订单成交的时间(按天)趋势(按实际成交)
订单数在地图上的分布
订单读取及处理
读取数据
import pandas as pd
df = pd.read_csv('tmall_order_report.csv',encoding='gbk')
df.head()
处理数据
缺失值
df.isnull().sum()
# 订单付款时间 有2923个缺失值,属于正常现象,说明这些单位付过款,无需处理
订单转化率-漏斗图
计算每个环节的数据
-
将得到如下的数据:
[[‘总订单数’, ‘28010’],
[‘付款订单数’, ‘24087’],
[‘到款订单数’, ‘18955’],
[‘全额到款订单数’, ‘18441’]]
买家实际支付金额:总金额 - 退款金额(在已付款的情况下)。金额为0(在未付款的情况下)
退款金额:付款后申请退款的金额。如无付过款,退款金额为0
订单总笔数
付过款的订单数
key = '付款订单数'
# 付款时间不为空的,表示付过款
df_payed = df[df['订单付款时间'].notnull()]
dict_convs[key] =