数据分析的五个环节:
明确问题 收集数据 数据清洗 数据可视化 数据建模
python当文字内容中,已经有单引号的时候需要使用双引号包裹
- 举个栗子:print("Let's Go!")
SQL和我们常用的Excel相比,它的优势主要有两点:
- SQL处理大量数据时效率很高
-
SQL面对复杂问题时比Excel优势明显,比如合并多个不同文件中的数据
三个SQL中最常用的语句:
为拼多多解决:
what,哪些用户查看了优惠券、哪些用户领取了并使用了优惠券。
why,为什么有的用户不领取、不使用呢?跟哪些因素有关呢?
how,给出运营经理解决方案,应该给什么人、发什么券,更能提升成交额?
1.先整体看看数据长什么样子。因为数据量比较大,为了加载快一点,我们先只加载前1000行。
select * from pdd_data limit 1000;
-
第一个框里的字段有用户id,注册渠道,性别,婚姻状况,这些是用户的基本信息。
-
第二个框里的字段是我们要重点关注的,优惠券推送、查看、领取和最终使用的情况。
-
第三个框里的字段分别是过去一个月用户有没有使用过优惠券的信息,优惠券的额度,和最后的成交额。
2.将数据按照used排个序,让那些使用了优惠券、也就是used列中数据为1的用户排在前面。
看看会不会有什么新的发现。
SELECT * FROM pdd_data ORDER BY used DESC LIMIT 1000;
你会发现,在这些使用了优惠券的用户中,好像APP注册的用户占比特别高。
在python中具体分析
* python中表示单独一列需要用两对中括号
准备 读取 处理数据
发现
- 一共有9万多行数据
- 一共有11列
- 没有缺失值
- 有4个变量不是数字型变量
pdd=pd.get_dummies(pdd)
把非数字型变量变成数字型变量
发现
- 原来的非数字型变量拆成了多个变量
- 最后一列显示现在都是数字型变量了
数据可视化
先计算相关性
pdd.corr()[['gmv']]
* python中表示单独一列需要用两对中括号
绘制热力图
https://zhuanlan.zhihu.com/p/96040773
发现
- 上个月是否用过优惠券对成交额的影响最大
- 在APP注册的用户成交额更高
- 已婚比未婚的成交额高
- 优惠券的类型影响不明显
业务结论
why
- 婚姻状况、性别、注册渠道和过去优惠券的使用都和最终的成交额有一定的相关度
how
重点关注,针对性策划活动
- 已婚男性
- 关注通过APP渠道注册的用户
- 过去一个月使用过优惠券的用户
还可以尝试发放不同类型的优惠券