前言
本文针对淘宝app的运营数据,以行业常见指标对用户行为进行分析,包括UV、PV、新增用户分析、漏斗流失分析、留存分析、用户价值分析、复购分析等内容;
本文使用的分析工具以MySQL为主,涉及分组汇总,引用变量,视图,关联查询等内容。
一、提出问题
1.本次分析的业务问题以及分析逻辑
本次想通过对淘宝用户行为数据的分析,为以下问题提供解释和改进建议:
1)基于AARRR漏斗模型,使用常见电商分析指标,从新增用户数量、各环节转化率、新用户留存率三个方面进行分析,确定影响新增用户数量的因素,找到需要改进的转化环节,发现留存现存问题
2)研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律
3)找出最具价值的核心付费用户群,对这部分用户的行为进行分析
4)找到用户对不同种类商品的偏好,制定针对不同商品的营销策略
以下为本次分析逻辑:
2.本次分析所使用的模型和体系
电商分析通常从四个方面展开,即流程效率分析、流量/用户分析、商品分析、产品分析,通过流程效率拆解追踪问题产生环节,通过用户粘性、价值、满意度分析来进行用户分层及流失预警,通过商品生命周期及关联分析来划分商品等级,通过产品分析提升用户浏览-购买过程体验;
本文通过常用的电商数据分析指标,采用AARRR漏斗模型拆解用户进入APP后的每一步行为;并使用RFM模型,对用户价值进行评价,找到最有价值的用户群,针对这部分用户进行差异化营销。
电商数据分析体系
电商数据分析指标
AARRR漏斗模型
二、理解数据
1.数据来源
阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
数据集包含了2017年11月25日至2017年12月3日之间,约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集大小情况为:用户数量约100万(987,994),商品数量约410万(4,162,024),商品类目数量9,439以及总的淘宝用户行为记录数量为1亿条(100,150,807)。
2.本次选取的数据样本
原数据集一共有1亿条数据记录,数据量庞大,本次分析选取了大约100万条记录进行分析,数据整体情况参考如下表格。
3.字段含义及数据量
三、数据清洗
1. 选择子集
数据集的每一个字段都有效,此处全部选择。
2. 列名重命名
原数据集没有表头,用sql语句创建表及6个字段,把淘宝用户行为数据导入Mysql数据库。
3. 删除重复值
数据导入时,将主键定义为:user_id,item_id,timestamps,保证没有重复数据。
4. 缺失值处理
在创建表格的时候,5个字段均定义为NOT NULL,数据导入保证没有缺失值。
5.一致化处理
转换时间数据类型,并添加datentime,dates,hours三个字段,将转换好的数据放进去
ALTER TABLE UserBehavior ADD COLUMN datentime TIMESTAMP(0) NULL;
UPDATE UserBehavior
SET datentime = FROM_UNIXTIME(timestamps);
ALTER TABLE UserBehavior ADD COLUMN dates CHAR(10) NULL;
UPDATE UserBehavior
SET dates = S