EXCEL数据分析项目—淘宝母婴购物数据可视化分析

目录

一、项目背景及目的

二、获取数据

三、提出问题

四、数据清洗

1.数据备份

2.选择子集

3.列名重命名

4.数据类型转换

5.重复值处理

6.缺失值处理

7.异常值处理

8.数据整理

五、数据分析及可视化

1.流量分析

季度/月

2.商品类别分析

3.用户分析

年龄

性别

六、总结及建议


一、项目背景及目的

随着互联网和线上购物平台的发展,网购的选择更加多种多样,越来越多年轻一代的父母选择网上购买母婴用品,母婴电商市场的竞争日益激烈。该项目基于“淘宝母婴购物”的数据集进行分析,帮助商家进一步了解销量随时间维度的变化趋势,用户行为和商品需求,优化产品,实现精细化运营,提高市场竞争力。

二、获取数据

项目的数据来自阿里云天池:淘宝母婴购物数据可视化分析。

数据集包含两个表,分别为:

1.用户基本信息表:tianchi_mum_baby

用户基本信息表共3个字段,953条数据。

2.商品交易信息表:tianchi_mum_baby_trade_history

商品交易信息表共7个字段,29971条数据。

三、提出问题

流量分析:商品销量随时间维度年/季度/月/日的变化趋势,有什么规律?

商品分析:商品销量按照类目分类有什么规律?哪些类目的商品更有价值?

用户分析:不同性别、年龄婴幼儿的商品购买情况及偏好。

四、数据清洗

1.数据备份

两张数据表分别备份并隐藏。

2.选择子集

auction_id(交易编号)和property(商品属性)在分析中用不到,因此将这两个字段隐藏。

3.列名重命名

分别将英文列名更改为中文列名。

4.数据类型转换

依次查看每张表每个字段的数据类型是否与实际数据对应。

选择商品交易信息表中的“购物日期”,使用数据选项卡的分列功能同时选择日期格式,将该列数据类型修改为日期。对用户信息表中的“出生日期”进行同样的操作。

5.重复值处理

分别对两个表进行以下操作:选择数据选项卡中删除重复值功能,并未发现重复值,无需删除。

6.缺失值处理

查找与替换功能,在查找内容中分别不输入任何内容及输入一个空格进行查找。两表中都未出现缺失值,无需处理。

7.异常值处理

分别筛选每个表中的每个字段,查看数据是否出现异常。

用户信息表中某用户出生日期为1984/6/16,显然并非婴幼儿的年龄,该行删除。

用户信息表中性别id为2(未知)的记录有26条,对于分析用户行为及商品销量(不涉及性别)的近3万条数据来说,删除不会有太大影响。虽然对基于性别分析的900多条数据来说,26条数据并不能完全忽略,但该未知性别对于男女销量的分析无用。综上考虑,删除这26条数据。

通过数据选项卡中的数据分析功能,对购买数量进行描述统计。购买数量众数为1,而数据集中一些单笔订单的下单量最多达10000,少量极大数据影响数据整体分析结果,因而只保留与平均值相差3个标准差内的数据。购买数量中,均值为2.54,标准差64,保留数据范围在[0,195]。删除此范围之外的数据29条。

8.数据整理

(1)数据表关联

vlookup函数根据用户id匹配用户出生日期和性别。

(2)添加需要的数据字段

if函数将性别id 0改为男,性别id 1改为女。

添加年龄列,其中年龄为负值的标记为未出生。

经过数据清洗,保留数据29942条,其中存在具体用户信息的数据有929条。交易时间段为2012/7/2至2015/2/5。数据集中商品类别共6种,商品共661种。

五、数据分析及可视化

1.流量分析

2013、2014年为整年,14年较13年销量上涨49.08%。

季度/月

在2013年及2014年两年中,三、四季度的总销量高于一、二季度的销量。

第一季度1、2月份的销量最低,自2月份开始,销量一直上涨,直到5月份出现小高峰。10月份销量再次开始上涨,11月份出现高峰。

推测1、2月受春节快递停运的影响,销量骤然下降。而过完春节之后,快递及商家都开始恢复运营,并且天气逐渐回春变暖,到5月份进入夏季,婴幼儿家庭对一些轻薄透气衣物及用品的需求增多。而在淘宝每年的双十一,双十二促销中,各种优惠满减活动促使用户消费,因此第四季度销量出现高峰。

进一步分析11月、12月每日的销量,验证上述推测。

可以看到11/11、12/12当天,销量明显上涨,说明第四季度销量上涨确实与双十一双十二活动有关。同时14年双十一较13年销量上升152%,并且2014年11月到12月之间,销量经常出现小波峰,说明2014年双十一及双十二活动产品或者营销策略更能吸引用户。

2.商品类别分析

         

商品类别销量前3分别为:28、50008168、50014815,共占比82%;商品类别购买人数前3分别为:50008168、28、50014815,共占比81%。因此,28、50008168、50014815为热销类别,用户需求高。

38类商品虽然销量低且该类别下商品种类少,但人均购买量最高,说明用户对该商品的需求高;50008168类商品虽然种类少,仅排第4,但销量第2,购买人数第1。这两类商品都可以适当增加更多商品子类,推出更多款式,吸引新用户并且提升产品的质量,维护老用户忠实度及购物体验。

通过上图表可以查看商品销量前10,同时通过切片器筛选具体的商品类别,查看每类商品下的热销商品。

3.用户分析

商品交易信息表中的用户有用户信息的只有926位,数据集较小,基于婴幼儿年龄及性别的分析容易受购买数量较大值的影响,因此重点在于分析思路。

年龄

购买母婴用品的用户中,家中婴幼儿的年龄集中在0-3岁,其中1岁女婴幼儿的用品需求量最大。

在婴幼儿不同年龄的购买偏好中,可以观察出不同类别商品的集中消费年龄:

28类商品的销量大体上随婴幼儿年龄增长而降低,主要消费年龄段在0-2岁及未出生婴幼儿;

38类商品的销量80%来自1-2岁婴幼儿;

50008168类商品在0-3岁及未出生婴幼儿中销量良好;

50014815类商品在1岁女婴幼儿的销量占51%,1岁、2岁销量良好;

122650008类商品的销量集中在1-4岁婴幼儿。

50022520类商品的销量85%来自未出生及0岁婴幼儿。

性别

不同性别婴幼儿人数接近,但女婴幼儿的销量比男婴幼儿的销量高67%。

50014815类商品中女婴幼儿用品销量最高,5008168类商品中男婴幼儿用品销量最高。

六、总结及建议

1. 每年春季至夏季期间可以多做优惠活动,推出更多轻薄透气舒适类产品,并以此为卖点吸引更多用户。

2. 双十一、双十二这段时间为销量高峰,在该节点做好宣传运营,准备充足的货源,提升服务质量,给用户提供良好的购物体验。2014年双十一、双十二期间出现多次销量小高峰,可以深入分析这段时间的运营策略及热卖产品,总结经验,为之后提供良好的参考。

3. 28、50008168、50014815为热销商品。

4. 38类商品和50008168类商品的商品子类都比较少,但38类商品人均购买量最多,50008168类商品销量和购买人数都位居前列。针对这两类商品,适当增加更多商品种类和款式,吸引新用户,提升产品质量,维护老用户忠实度。

5. 针对不同类别商品的销量集中年龄,有针对性地对这些年龄的婴幼儿家长进行精细化运营,并设计研发更多符合相应年龄段的产品。

6. 女婴幼儿用品的销量远大于男婴幼儿用品销量。可以提供更多女婴幼儿用品的购物选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值