分析背景
中国电商行业逐渐转变到精细化运营的模式,随着数据基础平台以及数据库的完善,所收集到的数据更加完整,对于分析提供了强有力的支持,同时通过数据分析来为企业经营提供决策变得越来越重要,在此背景下,本次项目尝试基于淘宝天猫真实电商用户数据开展一定分析。
数据来源
本次项目数据集通过公开渠道获得,数据来源于阿里云天池竞赛平台,包含了淘宝天猫2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢),原始数据量级100万左右。
列名称 | 说明 |
---|---|
UserID | 用户ID |
ItemID | 商品ID |
categoryID | 商品所属类目ID |
BehaviorType | 包括(pv buy cart fav) |
TimesTamp | 行为发生的时间戳 |
其中BehaviorType(用户行为类型)共有四种,分别是
行为类型 | 说明 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
分析目的
本次项目从多个维度分析用户数据、行为数据、商品数据,发现能够提升销售量的建议。
分析思路
分析前提出如下疑问:
1、哪些商品是热搜商品?哪些是畅销商品?热搜商品是否是畅销商品?
2、用户各个行为类型的占比是多少?行为之间的转化率是怎样的?哪个环节流失比较严重?
3、工作日或周末,每天不同时间段对于用户行为的影响
4、使用RFM方法对用户进行分类
针对分析目的,采用多维度拆解分析方法对问题进行拆解,并在分析过程中使用漏斗模型、对比分析法、RFM模型分析法、假设检验分析方法对流程级业务指标中的问题进行分析。
分析思路见下图:
分析步骤
数据清洗:删除重复值
select UserID,ItemID,TimeStamp
from userbehavior
group by UserID,ItemID,TimeStamp
having count(1)>1;
结果:经验证,无重复值
数据清洗:缺失值处理
select count(UserID),count(ItemID),count(categoryID),count(TimeStamp)
from userbehavior;
结果:经验证,无缺失值
数据清洗:一致化处理
考虑到分析过程中需要用到日期数据,但原始数据中timestamp格式是时间戳,包含了日期和时间,因此要先对timestamp字段进行拆分,调整成日期和时间格式
新增日期和时间字段并更新字段内容
alter table userbehavior
add Date varchar(20) not null, add Time varchar(10) not null;
UPDATE userbehavior set Date = FROM_UNIXTIME(TimeStamp,'%Y-%m-%d'),
Time = FROM_UNIXTIME(TimeStamp,'%H:%i:%s');