一、分析背景和目的
随着建国后第三次婴儿潮(1985-1997年)出生人口进入育龄,同时叠加二胎政策影响,我国正在迎来新的人口出生小高峰。同时,收入增长带来消费能力提升和消费观念转变,育儿模式更加精细化。新的母婴消费观念和消费方式正在扩展。在母婴用品需求大、消费转型的大背景下,电商是否能够顺应潮流、抓住发展机遇、在发展自身的同时为广大母婴产品消费者提供商品服务?
本文通过查看运营数据,对店铺运营进行数据分析,从而把握市场规律,为商品营销和商品结构调整提供数据支持,提升店铺运营业绩。
二、 分析思路
具体包括以下几个问题:
-
哪种商品的购买量最高?
-
性别对购买量有什么影响?
-
用户年龄对购买量有什么影响?
-
购买量随时间如何波动?
-
复购率是多少?用户最爱复购的商品是什么?
从业务运营指标以及用户群体两大方面分析。具体分析思路如下:
三、分析内容
1. 数据集字段含义
本文数据集来自阿里巴巴天池Baby Goods Info Data-数据集,主要收集在淘宝和天猫上购买婴儿的用户信息及购买商品信息,数据集包含两个Excel文档。数据字段如下:
表1包括淘宝用户的历史交易信息。字段信息如下(数据:7列29972行):
user_id:用户id, 为用户的唯一的标识。
auction_id:购买行为编号。
cat_id:商品种类id,每一个商品有一个id。
cat1:商品大类,用来区别用户购买的商品大类。
property:属性,是对商品特征的详细描述。
buy_mount:购买数量。用户购买的商品数量。
day:时间戳,代表用户购买商品当天的年月日信息。
表2记录的超过9百条儿童信息,包括他们的生日和性别。字段信息理解如下(数据:3列954行):
user_id:用户id。
birthday:生日。显示宝宝出生的日期,以年月日的形式呈现。 gender:性别。0代表女孩,1代表男孩,2代表性别信息不清楚。
2. 数据清洗
(1) 删除重复值
表1够买商品中查询user_id,发现重复值,删除重复值