泊松分布 Poisson Distribution
泊松分布简要实例
泊松分布 Poisson Probabilities用于描述一种分布:已知给定区间内事件的平均发生次数 𝜆 ,推断在给定区间内事件的发生次数,区间可以是时间也可以是空间。
泊松分布的期望与方差均为 𝜆。
比如统计数据表明一台机器平均1周故障 𝜆 次,那么接下来一周的故障次数满足以下规律:
P
(
x
=
k
)
=
e
−
λ
λ
k
!
k
\displaystyle P(x=k)= \frac {e^{-\lambda} \lambda}{k!} ^k
P(x=k)=k!e−λλk
比如 λ=3,则下周故障4次的概率为
P
(
k
=
4
)
=
e
−
3
⋅
3
4
/
4
!
=
0.1680
P(k=4)=e^{-3}\cdot 3^4/4! = 0.1680
P(k=4)=e−3⋅34/4!=0.1680
扩展:如果例子中是推测后3周故障次数为k的概率,则可认为3周的平均故障次数为 3𝜆 , 这时分布可以描述为:
P
(
x
=
k
)
=
e
−
3
λ
(
3
λ
)
k
k
!
\displaystyle P(x=k)= \frac{e^{-3\lambda} (3\lambda)^k}{k!}
P(x=k)=k!e−3λ(3λ)k
举例
scipy.stats 中有poisson模块,可以方便的计算各种参数:
po = stats.poisson(mu) #用于构造均值与μ的泊松分布;
po.pmf(k, mu, loc=0) # Probability mass function. 概率质量函数;
po.cdf(k, mu, loc=0) #Cumulative distribution function.累积分布函数;
po.ppf(q, mu, loc=0)# Percent point function 百分点函数(cdf的倒数-百分位数)。
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
mu = 3
x = np.arange(18)
po = stats.poisson(mu) # 构造平均次数mu的泊松分布
p = po.pmf(x) # 计算各次下的概率
# 作图
fig = plt.figure()
ax = fig.add_subplot(111)
ax.stem(x,p,basefmt='k',label='故障次数概率');
ax.set_xlabel('随机变量:机器故障k次');
ax.set_ylabel('发生概率');
ax.set_title(f'泊松分布:平均值$\mu$ ={mu}');
ax2=plt.twinx()
y=stats.poisson.cdf(x,mu) #计算各次下的累积概率
ax2.plot(x,y,'r',label='累积概率')
ax2.set_ylabel('累积概率',color='r')
ax.legend(loc=(0.7,0.8));
ax2.legend(loc=(0.7,0.7))
输出累积概率为95%的次数
po.ppf(0.95)
值为6。
泊松分布近似正态分布
在 𝜆 较大时,泊松分布近似正态分布,比如 𝜆=100 ,示意如下:
mu = 100
x = np.arange(500)
po = stats.poisson(mu)
p = po.pmf(x)
fig = plt.figure()
ax = fig.add_subplot(111)
line1 = ax.bar(x,p,label='故障次数概率');
ax.set_xlabel('随机变量:机器故障k次');
ax.set_ylabel('发生概率');
ax.set_title(f'泊松分布:平均值$\mu$ ={mu}');
ax2=plt.twinx()
y=stats.poisson.cdf(x,mu)
line2 = ax2.plot(x,y,'r',label='累积概率')
ax2.set_ylabel('累积概率',color='r')
ax.legend(loc=(0.7,0.8));
ax2.legend(loc=(0.7,0.7))
ax.set_xlim(1,200)