帕累托图介绍
x轴:分组
y轴:0-1的占比分布
帕累托图的典型场景
帕累托图主要是为了可视化我们常说的28分布现象,典型的业务使用场景如下:
1、观测分布情况
例1:A公司的销售每天需要电话维护客户,销售可以打电话的量是有限的,想知道这些销售资源是如何在客户之间分布的,例如维护20%的头部客户占据了80%的销售资源
X轴:客户占比
Y轴:电话量占比
例2:某直播平台有几百万的用户,想知道这些用户是如何贡献收入的,百分之多少的客户贡献了百分之多少的收入。以此判定平台应该把更多的资源倾斜给头部用户,还是公平的对待每一个用户。
X轴:用户占比
Y轴:收入占比
2、观测窗口期
例3:某房源交易网站,想知道转化交易的关键窗口期是多长,可以看客户是在多少天内完成交易的。想要得到类似这样的结论:全部交易量中,百分之80%的客户是在30天内完成交易的,30天之后交易的涨幅就非常缓慢了,那30天就会是一个关键转化窗口期
X轴:交易时间
Y轴:成交订单占比
3、观测问题影响面和优先级
例4:某教研机构想知道学生失分的关键知识点是什么,所有扣分中,60%的失分是来自知识点1、2、3...
X轴:失分知识点
Y轴:失分学生占比
数据准备
链接:
https://pan.baidu.com/s/1KlkOukIgXWIJHAzjm_wkrg?pwd=ptzn
提取码: ptzn
import pandas as pd
data=pd.read_excel('路径/帕累托案例.xlsx',sheet_name='Sheet1')
data
数据处理
数据框相关知识点回顾
七:python-数据集:数据框DataFrame_python输出数据框_格勒王的博客-CSDN博客
按照转化周期分组,统计每个分组中有多少客户
注意:如果参与分组计数的只有一个字段,产出的是一个序列series,需要将序列数据转换为数据框
#按转化周期分组计数
data=data.sort_values(by='转化周期',ascending=False)#按转化周期从低到高排序
group=data['user_id'].groupby(data["转化周期"]).count()
group
group.info()#因为参与分组计数的只有一个字段,所以结果产出的是一个序列series
#将序列数据转换为数据框
group2=pd.DataFrame(group.values,index=group.index,columns=['客户数'])
group2
计算累计值和累计占比 ,需要用到for循环语句
for循环知识点回顾
#计算累计值以及累计占比
group2['累计客户数']=0
group2['累计客户数占比']=0
for i in range(0,group2['客户数'].count()):
group2['累计客户数'].iloc[i]=group2['累计客户数'].iloc[i-1]+group2['客户数'].iloc[i]
group2['累计客户数占比'].iloc[i]=group2['累计客户数'].iloc[i]/group2['客户数'].sum()
print(group2)
输出结果如下:
绘图
折线图绘图知识点回顾:python数据绘图-折线图(matplotlib.pyplot)_格勒王的博客-CSDN博客
柱状图绘图知识点回顾;python数据绘图-柱状图(pandas)_格勒王的博客-CSDN博客
具体步骤是
1、先绘制柱状图
2、使用plt.twinx()创建新的次坐标轴
3、再绘制折线图
#pip install matplotlib
import matplotlib.pyplot as plt
#设置中文字体
plt.rcParams["font.sans-serif"]="Arial Unicode MS"
#创建画布
plt.figure()
#创建柱状图
plt.bar(group2.index,group2['客户数'],label='转化客户数')
plt.xlabel("转化周期")#X轴
plt.ylabel("转化客户数")#Y轴
plt.title('转化窗口期')#标题
#在原图基础上叠加图像,需要先创建一个新纵坐标轴
plt.twinx()
#折线图
plt.plot(group2.index,group2["累计客户数占比"],color="orange",marker="o",label="转化客户占比")
plt.grid(linestyle='-.',color='SkyBlue')#python颜色英文https://zhuanlan.zhihu.com/p/548152652https://zhuanlan.zhihu.com/p/548152652
plt.ylabel("累计转化客户占比")
#显示图像
plt.show()
图像结果如下: