数据分析案例之淘宝用户行为分析完整报告

一、项目背景

UserBehavior为淘宝用户行为的数据集,数据集包括了2017年11月25日至2017年12月3日之间,有大约82万随机用户的用户行为(行为包括点击pv,购买buy,加购物车chart,收藏fav)数据。

二、项目目标

通过对用户行为的分析,主要实现下面两个目的:

1、为客户提供更精准的隐式反馈,帮助用户更快速找到商品;

2、为提高公司的交叉销售能力,提高转化率,销售额,提升公司业绩。

三、分析思路

主要从以下四个维度对用户行为进行分析和建议:

1、用户行为间的转化情况分析: 利用 漏斗模型
分析用户从商品浏览到购买整个过程中,常见的电商分析指标,确定各个环节流失率,提出改善转化率的建议。

2、用户的行为习惯分析: 利用pv、uv等指标,找出用户活跃的日期以及每天的活跃时间段。

3、用户类目偏好分析:
根据商品的点击、收藏、加购、购买频率,探索用户对商品的购买偏好,找到针对不同商品的营销策略(购买率较高的类目和产品,优化产品推荐)。

4、用户价值分析: 找出最具有价值的核心用户群,针对这个群体推送个性化推送,优惠券或者活动。

逻辑如下:

![](https://img-blog.csdnimg.cn/20200528122905102.jpeg?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)

四、数据处理

主要使用工具:Navicat for MySQL,MySQL, power BI。

(一)准备数据

1 、数据来源

阿里云天池:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

2 、将数据导入MySQL

使用Navicat导入功能,导入后结果如下图,这里会出错卡在导入步骤的5/8位置。

![](https://img-blog.csdnimg.cn/20200528124340141.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)

使用代码直接导入,结果如下图,未出现上述卡住现象。

![](https://img-blog.csdnimg.cn/20200528124538875.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/2020052812461945.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)

3 、数据理解

本数据主要包含了大概82万条数据,每一行分别表示一个用的行为,由用户ID(User_ID)、产品ID(Item_ID)、类目ID(Category_ID)、行为类型(Behavior_type)、时间戳(Timestamp),行为类型又分为点击(pv)、收藏(fav)、加购物车(chart)、购买(buy)。

(二)数据清洗

1 、Timestamp一致化处理

Timestamp列,无法直接分析,需要将其划分为三列,分别为时间,日期,小时。

–添加新列,根据Date_time返回日期时间

![](https://img-blog.csdnimg.cn/20200528123530230.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)

–添加新列,根据Date返回日期时间

![](https://img-blog.csdnimg.cn/20200528123530380.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)

–添加新列,根据Time返回小时

2 、挑出目标数据集

由于项目背景是需要对2017年11月25日至2017年12月3日之间用户行为数据集进行隐式反馈推荐问题的研究,所以需要对不在这个时间内的数据进行删除。

–先检查是否有在2017-11-01和2017-11-

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值