分析目的:
通过分析一份电商交易数据, 熟悉电商的常见的业务场景, 分析维度和指标, 为以后从事相关工作积累经验
- 加载数据, 使用 head 方法查看前5条数据, 初步浏览数据基本内容。
2. 加载数据后, 先使用 describe 和 info 方法看下数据的大概分布情况。可以得到数据的一些描述性统计值,如每一列的条数、均值、最大值、最小值等等,还发现一些列的数据问题,比如productId最小值为0、payMoney最小值是负数、channelId有缺失值、为了方便后续分析,createTime和payTime还需要进行数据类型转换。
3. 开始进行数据清洗
#order_id,因为订单号是唯一的,所以要看看有无重复值,并删除,再回头看一下。
df[df['orderId'].duplicated()]
df.drop(df[df['orderId'].duplicated()].index,inplace=True)
df[df['orderId'].duplicated()] # 查看一下
#userId,因为一个用户可能有多个订单,所以userId可能存在重复值是合理的。
#productId,同理一个商品出现在多个订单中也是合理的,所以有重复值是正常的,但是商品id一般不为0,所以需要查看一下相应记录。发现存在不少,删除处理。
df[df['productId']==0]
df.drop(df[df.productId==