消费品用户行为分析
根据CDNOW的一段用户订单数据进行消费行为分析
CDNow是一家在线音乐零售平台,后被德国波泰尔斯曼娱乐集团公司出资收购,其资产总价值在最辉煌时曾超过10亿美元。下面主要通过分析CDNow网站的用户购买明细来分析该网站的用户消费行为,使运营部门在营销时更加具有针对性,从而节省成本,提升效率。
数据包括cdnow1997年1月1日至1998年6月30日期间内购买CD交易明细。
https://links.jianshu.com/go?to=https%3A%2F%2Fpan.baidu.com%2Fs%2F1_co54-bX9Mz_e_NWV4xtOg
提取码va7h
一、分析框架
1.准备
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
2.读入数据并检查
columns = ['用户ID','订单日期','订购数','订单金额']
dataf = pd.read_table('CDNOW_master.txt',names = columns,sep = '\s+')
dataf.head()
dataf.describe()
dataf.info()
#查看一下数据情况,能读出一些简单的统计分析,如客单价35.89,平均订购数量2.41件
#能看出中位数和平均值差距比较大,可以判断出存在极大值干扰,存在一部分顾客消费金额和数量特别大
用户ID 订单日期 订购数 订单金额
0 1 19970101 1 11.77
1 2 19970112 1 12.00
2 2 19970112 5 77.00
3 3 19970102 2 20.76
4 3 19970330 2 20.76
用户ID 订单日期 订购数 订单金额
count 69659.000000 6.965900e+04 69659.000000 69659.000000
mean 11470.854592 1.997228e+07 2.410040 35.893648
std 6819.904848 3.837735e+03 2.333924 36.281942
min 1.000000 1.997010e+07 1.000000 0.000000
25% 5506.000000 1.997022e+07 1.000000 14.490000
50% 11410.000000 1.997042e+07 2.000000 25.980000
75% 17273.000000 1.997111e+07 3.000000 43.700000
max 23570.000000 1.998063e+07 99.000000 1286.010000
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 69659 entries, 0 to 69658
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 用户ID 69659 non-null int64
1 订单日期 69659 non-null int64
2 订购数 69659 non-null int64
3 订单金额 69659 non-null float64
dtypes: float64(1), int64(3)
memory usage: 2.1 MB
3.数据处理
dataf.drop_duplicates(inplace=True)#去重
dataf.dropna()#去空值行
dataf['order_date'] = pd.to_datetime(dataf['order_date'],format = '%Y%m%d')
dataf['month'] = dataf['order_date'].values.astype('datetime64[M]')
#添加月份列,修改订单日期列格式,方便统计
dataf.head()
用户ID 订单日期 订购数 订单金额 月份
0 1 1997-01-01 1 11.77 1997-01-01
1 2 1997-01-12 1 12.00 1997-01-01
2 2 1997-01-12 5 77.00 1997-01-01
3 3 1997