1、分析背景与目的
随着我国生育政策的开放以及电子商务的普及,婴儿相关的产品市场将迎来快速增长。为了能够获取更多的用户,提升商家的销售量,需要从产品和用户不同的角度进行分析,进而得到有价值的信息,指导商家进行获客和营销。
本文通过分析淘宝天猫婴儿用品在2012年7月—2015年2月期间的商品销售情况和用户信息,从而帮助婴儿用品电商优化产品、提高销量,以及发现潜在的高价值用户进行精准推荐。
数据来源:数据集-阿里云天池
2、理解数据
表1:
user_id:用户id;
auction_id:购买行为编号;
cat_id:商品种类ID;
cat1:商品属于哪个类别;
property:商品属性;
buy_mount:购买数量;
day:购买时间。
表2:
user_id:用户id;
birthday:出生日期;
gender:性别(0 男性;1 女性)。
3、提出问题
(1)成交量是多少,时间分布及趋势如何?有无可改进的措施?
(2)畅销、滞销商品是哪些?
(3)用户群体有什么特征,他们的消费偏好与哪些因素有关?
4、分析思路
5、数据清洗
5.1 字段重命名
新建副本,在副本中对数据进行处理,将字段转化为方便理解的名称,标识不清的重新命名。
5.2 选择子集
将不参与分析的字段隐藏,如商品属性等。
5.3 对数据进行去重
以ID和用户行为列作为筛选删除重复值。
5.4 缺失值处理
检查数据是否有缺失,此处无。
5.5 一致化处理
数据格式统一,主要是用IF函数对性别列进行转化,使用分列功能转化生日和购买日期列。
5.6 关联查询
新建年龄字段,使用vlookup和datediff函数计算和查询年龄并分组。
5.7 异常值处理
此处对年龄有异常的用户取平均值,剔除购买量大于1000的用户。
6、业务分析
6.1 产品分析
6.1.2 总体销量和趋势
原始数据中无金额,此处以购买数量作为分析对象。如图,2012-2014年成交量整体逐年上升,2012,2015年数据骤降是由于数据不全(仅有两个月数据)&#x