目录
一、项目背景及目的
随着互联网和线上购物平台的发展,网购的选择更加多种多样,越来越多年轻一代的父母选择网上购买母婴用品,母婴电商市场的竞争日益激烈。该项目基于“淘宝母婴购物”的数据集进行分析,帮助商家进一步了解销量随时间维度的变化趋势,用户行为和商品需求,优化产品,实现精细化运营,提高市场竞争力。
二、获取数据
项目的数据来自阿里云天池:淘宝母婴购物数据可视化分析。
数据集包含两个表,分别为:
1.用户基本信息表:tianchi_mum_baby
用户基本信息表共3个字段,953条数据。
2.商品交易信息表:tianchi_mum_baby_trade_history
商品交易信息表共7个字段,29971条数据。
三、提出问题
流量分析:商品销量随时间维度年/季度/月/日的变化趋势,有什么规律?
商品分析:商品销量按照类目分类有什么规律?哪些类目的商品更有价值?
用户分析:不同性别、年龄婴幼儿的商品购买情况及偏好。
四、数据清洗
1.数据备份
两张数据表分别备份并隐藏。
2.选择子集
auction_id(交易编号)和property(商品属性)在分析中用不到,因此将这两个字段隐藏。
3.列名重命名
分别将英文列名更改为中文列名。
4.数据类型转换
依次查看每张表每个字段的数据类型是否与实际数据对应。
选择商品交易信息表中的“购物日期”,使用数据选项卡的分列功能同时选择日期格式,将该列数据类型修改为日期。对用户信息表中的“出生日期”进行同样的操作。
5.重复值处理
分别对两个表进行以下操作:选择数据选项卡中删除重复值功能,并未发现重复值,无需删除。
6.缺失值处理
查找与替换功能,在查找内容中分别不输入任何内容及输入一个空格进行查找。两表中都未出现缺失值,无需处理。
7.异常值处理
分别筛选每个表中的每个字段,查看数据是否出现异常。
用户信息表中某用户出生日期为1984/6/16,显然并非婴幼儿的年龄,该行删除。
用户信息表中性别id为2(未知)的记录有26条,对于分析用户行为及商品销量(不涉及性别)的近3万条数据来说,删除不会有太大影响。虽然对基于性别分析的900多条数据来说,26条数据并不能完全忽略,但该未知性别对于男女销量的分析无用。综上考虑,删除这26条数据。
通过数据选项卡中的数据分析功能,对购买数量进行描述统计。购买数量众数为1,而数据集中一些单笔订单的下单量最多达10000,少量极大数据影响数据整体分析结果,因而只保留与平均值相差3个标准差内的数据。购买数量中,均值为2.54,标准差64,保留数据范围在[0,195]。删除此范围之外的数据29条。
8.数据整理
(1)数据表关联
vlookup函数根据用户id匹配用户出生日期和性别。
(2)添加需要的数据字段
if函数将性别id 0改为男,性别id 1改为女。
添加年龄列,其中年龄为负值的标记为未出生。
经过数据清洗,保留数据29942条,其中存在具体用户信息的数据有929条。交易时间段为2012/7/2至2015/2/5。数据集中商品类别共6种,商品共661种。
五、数据分析及可视化
1.流量分析
年
2013、2014年为整年,14年较13年销量上涨49.08%。
季度/月
在2013年及2014年两年中,三、四季度的总销量高于一、二季度的销量。
第一季度1、2月份的销量最低,自2月份开始,销量一直上涨,直到5月份出现小高峰。10月份销量再次开始上涨,11月份出现高峰。
推测1、2月受春节快递停运的影响,销量骤然下降。而过完春节之后,快递及商家都开始恢复运营,并且天气逐渐回春变暖,到5月份进入夏季,婴幼儿家庭对一些轻薄透气衣物及用品的需求增多。而在淘宝每年的双十一,双十二促销中,各种优惠满减活动促使用户消费,因此第四季度销量出现高峰。
日
进一步分析11月、12月每日的销量,验证上述推测。
可以看到11/11、12/12当天,销量明显上涨,说明第四季度销量上涨确实与双十一双十二活动有关。同时14年双十一较13年销量上升152%,并且2014年11月到12月之间,销量经常出现小波峰,说明2014年双十一及双十二活动产品或者营销策略更能吸引用户。
2.商品类别分析
商品类别销量前3分别为:28、50008168、50014815,共占比82%;商品类别购买人数前3分别为:50008168、28、50014815,共占比81%。因此,28、50008168、50014815为热销类别,用户需求高。
38类商品虽然销量低且该类别下商品种类少,但人均购买量最高,说明用户对该商品的需求高;50008168类商品虽然种类少,仅排第4,但销量第2,购买人数第1。这两类商品都可以适当增加更多商品子类,推出更多款式,吸引新用户并且提升产品的质量,维护老用户忠实度及购物体验。
通过上图表可以查看商品销量前10,同时通过切片器筛选具体的商品类别,查看每类商品下的热销商品。
3.用户分析
商品交易信息表中的用户有用户信息的只有926位,数据集较小,基于婴幼儿年龄及性别的分析容易受购买数量较大值的影响,因此重点在于分析思路。
年龄
购买母婴用品的用户中,家中婴幼儿的年龄集中在0-3岁,其中1岁女婴幼儿的用品需求量最大。
在婴幼儿不同年龄的购买偏好中,可以观察出不同类别商品的集中消费年龄:
28类商品的销量大体上随婴幼儿年龄增长而降低,主要消费年龄段在0-2岁及未出生婴幼儿;
38类商品的销量80%来自1-2岁婴幼儿;
50008168类商品在0-3岁及未出生婴幼儿中销量良好;
50014815类商品在1岁女婴幼儿的销量占51%,1岁、2岁销量良好;
122650008类商品的销量集中在1-4岁婴幼儿。
50022520类商品的销量85%来自未出生及0岁婴幼儿。
性别
不同性别婴幼儿人数接近,但女婴幼儿的销量比男婴幼儿的销量高67%。
50014815类商品中女婴幼儿用品销量最高,5008168类商品中男婴幼儿用品销量最高。
六、总结及建议
1. 每年春季至夏季期间可以多做优惠活动,推出更多轻薄透气舒适类产品,并以此为卖点吸引更多用户。
2. 双十一、双十二这段时间为销量高峰,在该节点做好宣传运营,准备充足的货源,提升服务质量,给用户提供良好的购物体验。2014年双十一、双十二期间出现多次销量小高峰,可以深入分析这段时间的运营策略及热卖产品,总结经验,为之后提供良好的参考。
3. 28、50008168、50014815为热销商品。
4. 38类商品和50008168类商品的商品子类都比较少,但38类商品人均购买量最多,50008168类商品销量和购买人数都位居前列。针对这两类商品,适当增加更多商品种类和款式,吸引新用户,提升产品质量,维护老用户忠实度。
5. 针对不同类别商品的销量集中年龄,有针对性地对这些年龄的婴幼儿家长进行精细化运营,并设计研发更多符合相应年龄段的产品。
6. 女婴幼儿用品的销量远大于男婴幼儿用品销量。可以提供更多女婴幼儿用品的购物选择。