电商用户行为数据分析
一、数据说明
数据来源于天池数据集,阿里巴巴提供的淘宝用户的行为数据,包含2014-11-18至2014-12-18共130万条数据
二、明确需求
本次想通过对淘宝用户行为数据的分析,为以下问题提供解释和改进建议,以Mysql分析为主
1)基于AARRR漏斗模型,从获客、促活、增加收益三个环节,其中包括研究用户在不同时间尺度下的活跃情况,分析商品销售情况等,确定影响用户增长的因素,给出合理性建议
2)基于RFM模型对用户进行分群,针对不同特征的用户采用相应的营销策略
三、数据清洗
1.选择字段
导入数据时,选择本次分析需要的字段,即保留user_id、item_id、behavior_type、item_category和time列信息,
并将 time 字段拆分为 date 和 hour
alter table data add column date varchar(128)
alter table data add column hour varchar(128)
update data set date =left(time,10)
update data set hour =substring(time,11)
2.删除重复值
将user_id,item_id,behavior_type,item_category,time 设置成联合主键,去除数据重复值,保证数据唯一性
3.缺失值处理
通过计算表格总行数和各字段行数,均为130万行,无缺失值
select count(*),count(user_id),count(item_id),count(behavior_type),count(item_category),count(time) from data
4.异常值处理
查看time时间范围,behavior_type的类型,
select min(time),max(time) from data
select distinct behavior_type from data
5.数据一致化
将用户行为类型的‘1/2/3/4’ 更改为’pv’,‘col’,‘cart’,‘buy’,点击、收藏、加入购物车、购买
update data set behavior_type = ( case when behavior_type=1 then 'pv'
when behavior_type=2 then 'col'
when behavior_type=3 then 'cart' else 'buy' end)
整理过后的表格如下
四、数据分析
将excel数据导入到可视化工具tableau中,通过建立图表和仪表板来反映数据变量之间的关系。
1.AARRR模型
(1)拉新
日新增用户
select date 日期,count(user_id) 日新增用户数 from
(select user_id,date from data group by user_id order by date) dataa group by date
选取2014-11-18日为APP启用的首日,日新增用户的数量在11-18日至11-20日骤降,后趋近平缓,在12月初有上升的趋势,并在12-12日达到小高潮。
数据选取时间开始于11-18日,11-18日当天的新增用户很多是以前就已存在的活跃用户;由于双十二活动的举办,使得新增用户在月初就有上升的趋势,在活动的当天达到高潮。
(2) 活跃
PV、UV、PV/UV
将活跃用户定义为当天存在任意行为记录的用户,PV为1162421,UV为3971,人均访问量为292.73
#uv,pv,pv/uv
select count(distinct user_id) UV ,(select count