一、项目介绍
本项目通过对天猫成交数据的探索,通过python对数据预处理,整个项目分为项目目的的确定、数据的预处理、对数据的分析和项目总结这五个部分。(本项目参考凹凸数据)
二、项目流程
项目目的
从结果指标出发确定目标,通过过程指标定位问题,提出合理建议
数据来源
本数据集来源于和鲸社区
一共收录了发生在一个月内的28010条数据
数据字段:'订单编号', '总金额', '买家实际支付金额', '收货地址 ', '订单创建时间', '订单付款时间 ', '退款金额'共7个字段
-
买家实际支付金额:最终成交金额,分为已付款和未付款两种情况
-
已付款情况下:买家实际支付金额 = 总金额 - 退款金额
-
未付款情况下:买家实际支付金额 = 0
-
-
收货地址:买家的收货地址,记录维度为省市,共记录了31个省市
-
订单创建时间:2020年2月1日 至 2020年2月29日
-
订单付款时间:2020年2月1日 至 2020年3月1日
-
退款金额:付款后申请退款的金额,如果没有退款,退款金额为0
指标维度梳理
通过上面的字段梳理可知,除了成交金额作为结果指标外,还有一系列的过程指标,那么就需要对指标间的关系做逻辑梳理。
这里我们引入电商的分析中最经典的公式:销售额 = UV * 转化率 * 客单价
-
指标梳理:
-
UV:一般指独立访客,在本数据集中,没有客户id作为UV数据,但我们可以把订单创建数量作为UV的数据
-
转化率:转化流程为订单创建 -> 订单付款 -> 订单成交 -> 订单全额成交
-
客单价:平均每单的售价,在本数据集当中,亦可以理解为各个产品的销量情况
-
-
维度梳理:
-
时间维度:(周/日)订单创建/付款时间
-
地域:各省市
-
产品:假设每一种金额对应唯一的产品时,总金额便可以作为产品品类的标识
-
数据预处理
主要是运用python预处理。
导入模块
读取数据
整体观察
重复值处理
缺失值处理
字段处理
日期格式提取
结果指标
#销售额图df_true_money=df.groupby('订单创建月日')['买家实际支付金额'].sum()x1=df_true_money.indexy1=df_true_money.valuesdf_true_money_sum=df['买家实际支付金额'].sum()picture_size=plt.figure(figsize=(20,8),dpi=80)#设置绘图大小plt.text(1, 200000, '二月份总销售额为{}'.forma