文章目录
- 常见的概率分布模型
- 离散概率分布函数
- 连续概率分布函数
- 联合分布函数
- 多项分布(Multinomial Distribution)
- 伯努利分布(Bernoulli Distribution)
- 正态(高斯)分布(Normal(Gaussian) Distribution)
- 泊松分布(Poisson Distribution)
- 二项分布(Binomial Distributio)
- 贝塔分布(Beta Distribution)
- 几何分布(负二项分布)(Geometric Distribution)
- 狄利克雷分布(多项分布的共轭分布)(Dirichlet distribution)
- 超几何分布(Hypergeometric Distribution)
- 指数分布(Exponential Distribution)
常见的概率分布模型
离散概率分布函数
离散概率分布也称为概率质量函数(probability mass function),离散概率分布的例子有
伯努利分布(Bernoulli distribution)
二项分布(binomial distribution)
泊松分布(Poisson distribution)
几何分布(geometric distribution)等
连续概率分布函数
连续概率分布也称为概率密度函数(probability density function),它们是具有连续取值(例如一条实线上的值)的函数,连续概率分布的例子有
正态分布(normal distribution)
指数分布(exponential distribution)
β分布(beta distribution)等
联合分布函数
给定一个随机变量
(
X
,
Y
)
(X,Y)
(X,Y),称定义域为整个平面的二元实值函数
F
(
x
,
y
)
=
P
(
X
≤
x
,
Y
≤
y
)
−
∞
≥
x
,
y
≤
∞
F(x,y) = P(X\leq{x},Y\leq{y}) \quad -\infty\geq{x,y}\leq\infty
F(x,y)=P(X≤x,Y≤y)−∞≥x,y≤∞
该二元实值函数为随机变量
(
X
,
Y
)
(X,Y)
(X,Y)的分布函数,也可以称为是
(
X
,
Y
)
(X,Y)
(X,Y)的联合分布函数。
按照联合分布函数的定义, F ( x , y ) = P ( ( X , Y ) ∈ D x y ) F(x,y)=P((X,Y)\in{D_{xy}}) F(x,y)=P((X,Y)∈Dxy),其中 D x y D_{xy} Dxy如下图所示
多项分布(Multinomial Distribution)
多项分布简介
多项分布是二项分布的推广,他们的区别是二项分布的结果只有 0 0 0和 1 1 1两种,多项式的结果可以有多个值。
多项分布的典型例子是掷骰子,6个点对应6个不同的数,每个点的概率都为 1 6 {\frac{1}{6}} 61
与二项分布类似,多项分布来自于 ( p 1 + p 2 + ⋯ + p k ) n 多 项 式 的 展 开 (p_1+p_2+\cdots+p_k)^n多项式的展开 (p1+p2+⋯+pk)n多项式的展开
多项分布公式解析
以掷骰子为例,掷骰子的时候掷
1
−
6
1-6
1−6的概率都为
1
6
{\frac{1}{6}}
61,记作
p
1
−
p
6
p_1-p_6
p1−p6,可以发现
p
1
+
p
2
+
p
3
+
p
4
+
p
5
+
p
6
=
1
p_1+p_2+p_3+p_4+p_5+p_6=1
p1+p2+p3+p4+p5+p6=1,现在把
p
1
+
p
2
+
p
3
+
p
4
+
p
5
+
p
6
p_1+p_2+p_3+p_4+p_5+p_6
p1+p2+p3+p4+p5+p6记作做一次抽样各种事件发生的概率和,即可得
(
p
1
+
p
2
+
p
3
+
p
4
+
p
5
+
p
6
)
n
=
1
n
(p_1+p_2+p_3+p_4+p_5+p_6)^n=1^n
(p1+p2+p3+p4+p5+p6)n=1n为
n
n
n次抽样所有事件相互组合对应的概率和,之后使用多项式展开(注:使用多项式定理展开,由于多项式定理不在本节提及范围内,不多赘述),如果它不是掷骰子,而是一个有
n
n
n种可能的问题,会得到一个多项式展开的公式
P
(
X
1
=
x
1
,
…
,
X
k
=
x
k
)
=
{
n
!
x
1
!
⋯
x
k
!
(
p
x
1
⋯
p
x
k
)
w
h
e
n
∑
i
=
1
k
x
i
=
n
0
o
t
h
e
r
w
i
s
e
P(X_1 = x_1,\ldots,X_k = x_k) = \begin{cases} {\frac{n!}{x_1!\cdots{x_k!}}}(p^{x_1}\cdots{p^{x_k})} \quad when\sum_{i=1}^kx_i=n\\ 0 \quad otherwise \\ \end{cases}
P(X1=x1,…,Xk=xk)={x1!⋯xk!n!(px1⋯pxk)when∑i=1kxi=n0otherwise
这个多项式表示
X
1
X_1
X1出现
x
1
x_1
x1次,
X
2
X_2
X2出现
x
2
x_2
x2次,
…
\ldots
…,
X
k
X_k
Xk出现
x
k
x_k
xk次的出现概率,这样就得到了上述所示的多项分布的多项展开式公式。
伯努利分布(Bernoulli Distribution)
伯努利分布简介
伯努利分布是一个二值离散分布,结果只有 0 0 0和 1 1 1两种。
随即变量
X
X
X为
1
1
1的概率为
p
p
p,则为
0
0
0的概率为
q
=
1
−
p
q=1-p
q=1−p,可以用公式表示为
f
(
x
)
=
p
x
(
1
−
p
)
1
−
x
=
{
p
,
x
=
1
1
−
p
,
x
=
0
f(x) = p^x(1-p)^{1-x} = \begin{cases} p, \quad\quad x=1 \\ 1-p, \quad x=0 \\ \end{cases}
f(x)=px(1−p)1−x={p,x=11−p,x=0
伯努利分布的期望值和方差
伯努利分布的期望值为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ E(X) & = \sum_…
伯努利分布的方差为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ D(x) & = \sum_…
正态(高斯)分布(Normal(Gaussian) Distribution)
正态分布的概率密度函数图像
其中红线表示的是标准正态分布图像。
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
mu1 = 0
sig1 = 1
mu2 = 0
sig2 = 2
x = np.arange(-5, 5, 0.1)
y1 = stats.norm.pdf(x, mu1, sig1)
y2 = stats.norm.pdf(x, mu2, sig2)
plt.plot(x, y1, 'r-', label='$\mu=0,\sigma^2=1$')
plt.plot(x, y2, 'b-', label='$\mu=0,\sigma^2=2$')
plt.legend()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yynJzXOB-1583492968037)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_21_0.png)]
正态分布简介
正态分布也称作高斯分布,是最常见的一种分布,其概率密度函数为
f
(
x
;
μ
,
σ
)
=
1
2
π
σ
2
e
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x;\mu,\sigma) = {\frac {1} {\sqrt{2\pi\sigma^2}} } e^{(-{\frac {(x - \mu)^2} {2\sigma^2}})}
f(x;μ,σ)=2πσ21e(−2σ2(x−μ)2)
如果一个随即变量
X
X
X服从该分布,可以写作
X
N
(
μ
,
σ
2
)
N
(
μ
,
σ
2
)
X ~ { N(\mu ,\sigma ^{2})} N(\mu, \sigma^2)
X N(μ,σ2)N(μ,σ2)。
当
μ
=
0
,
σ
=
1
\mu=0,\sigma=1
μ=0,σ=1时的正态分布称作标准正态分布,这个分布能简化为
f
(
x
)
=
1
2
π
exp
(
−
x
2
2
)
f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right)
f(x)=2π1exp(−2x2)
标准正态分布曲线区间面积计算
f
(
∣
x
−
μ
∣
<
σ
)
=
0.6826
f
(
∣
x
−
μ
∣
<
2
σ
)
=
0.9544
f
(
∣
x
−
μ
∣
<
3
σ
)
=
0.9974
f(|x-\mu|<\sigma) = 0.6826 \\ f(|x-\mu|<2\sigma) = 0.9544 \\ f(|x-\mu|<3\sigma) = 0.9974 \\
f(∣x−μ∣<σ)=0.6826f(∣x−μ∣<2σ)=0.9544f(∣x−μ∣<3σ)=0.9974
中心极限定理与正态分布
- 中心极限定理1:把许多未知的小作用加起来看作一个变量,这个变量服从正态分布
- 中心极限定理2:“大量统计独立的随即变量的和”的分布趋于正态分布
泊松分布(Poisson Distribution)
泊松分布的概率质量函数图像
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
lambd = 2.5
x = np.arange(0, 10)
y = stats.poisson.pmf(x, lambd)
plt.plot(x, y, label='$\lambda=2.5$')
plt.legend()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-btaEJP6o-1583492968038)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_28_0.png)]
二项分布(Binomial Distributio)
二项分布的概率质量函数图像
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
n = 8
p = 0.4
x = np.arange(0, 20)
y = stats.binom.pmf(x, n, p)
plt.plot(x, y, 'o-', label='$n=8,p=0.4$')
plt.legend()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XFLNryGl-1583492968038)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_31_0.png)]
二项分布简介
二项分布是 n n n次独立的二值实验(伯努利实验)中成功的次数的离散值概率分布( n n n次伯努利实验,一次伯努利实验得到一个伯努利分布)。
随机变量
X
X
X服从参数
n
n
n和
p
p
p的二项分布记作:
B
(
n
,
p
)
B(n,p)
B(n,p)。
n
n
n次实验中
k
k
k次成功的概率质量函数为
f
(
k
;
n
,
p
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
f(k;n,p) = C_n^kp^k(1-p)^{n-k}
f(k;n,p)=Cnkpk(1−p)n−k
其中
C
n
k
C_n^k
Cnk是二项式系数:
C
n
k
=
n
!
k
!
(
n
−
k
)
!
C_n^k = {\frac{n!}{k!(n-k)!}}
Cnk=k!(n−k)!n!
二项分布来源于牛顿二项式
(
a
+
b
)
n
=
∑
k
=
0
n
C
n
k
a
k
b
n
−
k
(a+b)^n = \sum_{k=0}^nC_n^ka^kb^{n-k}
(a+b)n=k=0∑nCnkakbn−k
二项分布与伯努利分布
- 二项分布的期望是伯努利分布期望的
n
n
n倍
E ( x ) = n p E(x) = np E(x)=np - 二项分布的方差是伯努利分布方差的
n
n
n倍
D ( x ) = n p ( 1 − p ) D(x) = np(1-p) D(x)=np(1−p)
贝塔分布(Beta Distribution)
贝塔分布的概率密度函数图像
from scipy import stats
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline
a = 0.4
b = 0.6
x = np.arange(0.01, 1, 0.01)
y = stats.beta.pdf(x, a, b)
plt.plot(x, y, label='a=0.4,b=0.6')
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ym90VrvS-1583492968039)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_38_0.png)]
几何分布(负二项分布)(Geometric Distribution)
几何分布概率质量函数图像
狄利克雷分布(多项分布的共轭分布)(Dirichlet distribution)
超几何分布(Hypergeometric Distribution)
指数分布(Exponential Distribution)
指数分布概率密度函数图像
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
lambd = 0.6
x = np.arange(0, 10, 0.1)
y = lambd * np.exp(-lambd*x)
plt.plot(x, y, label='$\lambda=0.6$')
plt.legend()
plt.show()
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wWZJGJ8T-1583492968039)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_45_0.png)]