一、数据源
数据来自于和鲸社区。本文已将源数据字段改为简单中文,并新增用户id一列便于分析。
1.数据说明
数据集包含29452条数据,部分数据字段说明
- 第三方购买的数量:用户过往在app中从第三方购买的数量,为0则代表只在自营商品中购买
- 性别 :0:女;1:男 ;未知则空缺
- 是否参加活动:最近30天在app上有参与重点活动(讨论,卖家秀),0:未参加;1:参加;未知则空缺
- 生命周期:分为A,B,C (分别对应注册6个月内,1年内,2年内)
- 最近一次下单距今的天数:小于1则代表当天有下单
2.部分数据展示如下
用户id | 性别 | 年龄 | 是否参与活动 | 生命周期 | 最近一次下单距今的天数 | 第三方购买的数量 | 购买金额 | 累计购买金额 |
1 | 1 | 59 | 0 | B | 4.26 | 0 | 72.98 | 2343.87 |
2 | 1 | 51 | 0 | A | 0.94 | 0 | 200.99 | 8539.872 |
3 | 1 | 79 | 0 | C | 4.29 | 1 | 69.98 | 1687.646 |
4 | C | 14.9 | 0 | 649.99 | 3498.846 | |||
5 | C | 21.13 | 4 | 83.59 | 3968.49 | |||
6 | 1 | 80 | 0 | C | 15.13 | 10 | 319.99 | 2811.491 |
二、数据处理
- 空值的检查与处理:多方考虑,不做删除处理
- 异常值的检查与处理
- 数据类型的检查与调整:已修改为合适的数据类型
对于缺失值:通过对数据的筛选等操作,可以看出性别、年龄、是否参加活动三列有许多空值数据,但其他列数据没有空值。那么缺失值对于其他列的某些研究影响不大,因此,我们不对缺失值进行删除处理。
三、数据分析
从以下几个方面进行研究:
1.研究性别对于用户购买金额的影响
结论:男性购买人数、累计购买金额和平均购买金额都比女性多(跟想象中的不一样),可以针对女性用户制定方案,提高女性用户消费人数。
注意:但由于性别列缺失值过多,总数据的1/3多都缺失,而且小红书上的性别可以随意填写,因此该分析结果存疑。
2.研究年龄对于用户购买金额的影响
将年龄进行分组,得到如下表格:
插入图表:
结论:15-19岁的用户购买人数最低,但平均购买金额最高,说明15-19岁的用户有很大的开发空间。40~79岁这部分中老年群体是小红书消费用户主力军。除了15-19岁群体平均购买最高,其他群体的平均购买金额相差不大。
注意:但由于年龄列缺失值过多,各年龄段严格不能均衡,尤其是15-19、20-24岁的用户样本过小,而且小红书上的年龄可以随意填写,因此该分析结果存疑。
3.是否参与活动对顾客购买金额的影响
结论:参加活动的用户以及累计购买金额较多,平均购买金额却是未参加活动用户的3/5。由此可看出,未参加活动的用户有很大的购买潜力,应该考虑如何才能吸引这部分人,提高购买次数
注意:是否参加活动列缺失值较多,样本不均衡,分析结果可能受影响比较大。
4.研究生命周期对于购买金额的影响
结论:注册2年内的用户数以及累计购买较多,但平均购买金额最低。注册6个月内的用户平均购买金额较高,说明生命周期在6个月的顾客购买力比较强。
5.是否在第三方购买的人数与金额比较
结论:第三方购买人数、平均购买金额都要比自营多。