现有用户及用户订单的文件数据
一、将数据导入数据库
二、分析用户消费行为
- 统计不同月份的下单人数
- 统计三月份用户的回购率和复购率
- 统计男女的消费频次是否有差异
- 统计多次消费的用户,第一次和最后一次消费时间的间隔
- 统计不同年龄段的用户消费金额是否有差异
- 统计消费的top20%用户,贡献了多少额度
一、将数据导入数据库
1、建表
- 订单明细表
CREATE TABLE ORDERINFO (
ORDERID varchar(10) NOT NULL,--订单ID,主键
USERID varchar(10) NULL,--用户ID,可以和用户表进行关联
ISPAID varchar(10) NULL,--是否支付
PRINCE varchar(10) NULL,--订单价格
PAIDTIME varchar(16) NULL, --订单支付时间
PRIMARY KEY(ORDERID) -- 主键
)ENGINE = INNODB;
- 用户信息表
CREATE TABLE USERINFO (
USERID varchar(10) NOT NULL,--用户ID,主键
SEX varchar(10) NULL,--性别
BIRTH varchar(10) NULL, --出生日期
PRIMARY KEY(USERID)
)ENGINE = INNODB;
2、处理数据(空值、异常值)
- pandas读取数据
import pandas as pd
import os
os.chdir(r'D:\anaconda\workplace\Data_Analysis\Data')
userinfo = pd.read_csv('user_info_utf.csv') #用户信息数据
orderinfo = pd.read_csv('order_info_utf.csv') #订单数据
存在如下异常值
- 处理空值及异常数据
# 将读取的数据赋值给userdata
userdata = userinfo
# 去除空值
userdata.dropna(axis=0,inplace=True)
# 如果出生年份不是以'19'或者'20'开头,则去除
for i in userdata['BIRTH']