一、数据来源及说明
本文从数据集中选取包含了2014年11月18日至2014年12月18日之间,8477名随机用户共1048575条行为数据,数据集的每一行表示一条用户行为,共6列。
本文主要字段如下:
user_id:用户ID
item_id:商品ID
behavior_type:用户消费行为类型(包含点击、收藏、加购物车、购买四种行为,分别用数字1、2、3、4表示)
user_geohash:用户地理位置(有较多空值)
item_category:商品类别ID(商品所属的品类)
time:用户行为发生的时间
date:用户行为发生的日期
二、相关问题
1、整体用户的购物情况
pv(总访问量)、日均访问量、uv(用户总数)、有购买行为的用户数量、用户的购物情况、复购率分别是多少?
2、用户行为转化漏斗
点击— 加购物车— 收藏— 购买各环节转化率如何?购物车遗弃率是多少,如何提高?
3、购买率高和购买率为 0 的人群有什么特征
4、基于时间维度了解用户的行为习惯
5、基于RFM模型的用户分析
三、数据清洗
1、导数
由于数据量多达100多万,我在这里使用ETL工具kettle进行导数,能够提高导数效率,也方便后续实现报表自动化处理,数据库的表名为user。
2、缺失值处理
从如下图的数据表中,我们可以看到item_category字段有大量的缺失值,无法进行有效研究,因此后续就不对item_category进行分析。
3.数据类型处理
通过查询表结构,我们发现date列不是日期类型。
将date 列改成日期类型: