常见概率分布
Bernoulli分布
Bernoulli分布是单个二值随机变量分布, 单参数
ϕ
\phi
ϕ∈[0,1]控制,
ϕ
\phi
ϕ给出随机变量等于1的概率. 基本形式为:
P
(
x
)
=
p
x
(
1
−
p
)
1
−
x
=
{
p
if
x
=
1
q
if
x
=
0
P(x)=p^{x}(1-p)^{1-x}=\left\{\begin{array}{ll}{p} & {\text { if } x=1} \\ {q} & {\text { if } x=0}\end{array}\right.
P(x)=px(1−p)1−x={pq if x=1 if x=0
其期望为:
E
(
x
)
=
∑
x
P
(
x
)
=
0
×
q
+
1
×
p
=
p
E(x)=\sum x P(x)=0 \times q+1 \times p=p
E(x)=∑xP(x)=0×q+1×p=p
其方差为:
Var
(
x
)
=
E
[
(
x
−
E
(
x
)
)
2
]
=
∑
(
x
−
p
)
2
P
(
x
)
=
p
q
\operatorname{Var}(x)=E\left[(x-E(x))^{2}\right]=\sum(x-p)^{2} P(x)=p q
Var(x)=E[(x−E(x))2]=∑(x−p)2P(x)=pq
Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中 k k k是有限值.Multinoulli分布由向量 p ⃗ ∈ [ 0 , 1 ] k − 1 \vec{p}\in[0,1]^{k-1} p∈[0,1]k−1参数化,每个分量 p i p_i pi表示第 i i i个状态的概率, 且 p k = 1 − 1 T p p_k=1-1^Tp pk=1−1Tp.
适用范围: 伯努利分布适合对离散型随机变量建模.
高斯分布
高斯也叫正态分布(Normal Distribution), 概率度函数如下:
N
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
2
e
x
p
(
−
1
2
σ
2
(
x
−
μ
)
2
)
N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )
N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
其中,
μ
\mu
μ和
σ
\sigma
σ分别是均值和方差, 中心峰值x坐标由
μ
\mu
μ给出, 峰的宽度受
σ
\sigma
σ控制, 最大点在
x
=
μ
x=\mu
x=μ处取得, 拐点为
x
=
μ
±
σ
x=\mu\pm\sigma
x=μ±σ
正态分布中,±1 σ \sigma σ、±2 σ \sigma σ、±3 σ \sigma σ下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。
此外, 令
μ
=
0
,
σ
=
1
\mu=0,\sigma=1
μ=0,σ=1高斯分布即简化为标准正态分布:
N
(
x
;
μ
,
σ
2
)
=
1
2
π
e
x
p
(
−
1
2
x
2
)
N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )
N(x;μ,σ2)=2π1exp(−21x2)
对概率密度函数高效求值:
N
(
x
;
μ
,
β
−
1
)
=
β
2
π
e
x
p
(
−
1
2
β
(
x
−
μ
)
2
)
N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)
N(x;μ,β−1)=2πβexp(−21β(x−μ)2)
其中, β = 1 σ 2 \beta=\frac{1}{\sigma^2} β=σ21通过参数 β ∈ ( 0 , ∞ ) \beta∈(0,\infty) β∈(0,∞)来控制分布精度。
何时采用正态分布
问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:
- 中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
- 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.
正态分布的推广:
正态分布可以推广到
R
n
R^n
Rn空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵
Σ
\Sigma
Σ:
N
(
x
;
μ
⃗
,
Σ
)
=
1
(
2
π
)
n
d
e
t
(
Σ
)
e
x
p
(
−
1
2
(
x
⃗
−
μ
⃗
)
T
Σ
−
1
(
x
⃗
−
μ
⃗
)
)
N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)
N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)TΣ−1(x−μ))
对多为正态分布概率密度高效求值:
N
(
x
;
μ
⃗
,
β
⃗
−
1
)
=
d
e
t
(
β
⃗
)
(
2
π
)
n
e
x
p
(
−
1
2
(
x
⃗
−
μ
⃗
)
T
β
(
x
⃗
−
μ
⃗
)
)
N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)
N(x;μ,β−1)=det(β)(2π)nexp(−21(x−μ)Tβ(x−μ))
此处,
β
⃗
\vec\beta
β是一个精度矩阵。
指数分布
深度学习中, 指数分布用来描述在
x
=
0
x=0
x=0点处取得边界点的分布, 指数分布定义如下:
p
(
x
;
λ
)
=
λ
I
x
≥
0
e
x
p
(
−
λ
x
)
p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})
p(x;λ)=λIx≥0exp(−λx)
指数分布用指示函数
I
x
≥
0
I_{x\geq 0}
Ix≥0来使
x
x
x取负值时的概率为零。
Laplace 分布
一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点
μ
\mu
μ处设置概率质量的峰值
L
a
p
l
a
c
e
(
x
;
μ
;
γ
)
=
1
2
γ
e
x
p
(
−
∣
x
−
μ
∣
γ
)
Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)
Laplace(x;μ;γ)=2γ1exp(−γ∣x−μ∣)
Dirac分布和经验分布
Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克
δ
\delta
δ函数(也称为单位脉冲函数)定义如下:
p
(
x
)
=
δ
(
x
−
μ
)
,
x
≠
μ
p(x)=\delta(x-\mu), x\neq \mu
p(x)=δ(x−μ),x=μ
∫ a b δ ( x − μ ) d x = 1 , a < μ < b \int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b ∫abδ(x−μ)dx=1,a<μ<b
Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现
p
^
(
x
⃗
)
=
1
m
∑
i
=
1
m
δ
(
x
⃗
−
x
⃗
(
i
)
)
\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})
p^(x)=m1i=1∑mδ(x−x(i))
, 其中, m个点
x
1
,
.
.
.
,
x
m
x^{1},...,x^{m}
x1,...,xm是给定的数据集, 经验分布将概率密度
1
m
\frac{1}{m}
m1赋给了这些点.
当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.
适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.
期望、方差、协方差、相关系数
期望
在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
- 线性运算: E ( a x + b y + c ) = a E ( x ) + b E ( y ) + c E(ax+by+c) = aE(x)+bE(y)+c E(ax+by+c)=aE(x)+bE(y)+c
- 推广形式: E ( ∑ k = 1 n a i x i + c ) = ∑ k = 1 n a i E ( x i ) + c E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c} E(∑k=1naixi+c)=∑k=1naiE(xi)+c
- 函数期望:设
f
(
x
)
f(x)
f(x)为
x
x
x的函数,则
f
(
x
)
f(x)
f(x)的期望为
- 离散函数: E ( f ( x ) ) = ∑ k = 1 n f ( x k ) P ( x k ) E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)} E(f(x))=∑k=1nf(xk)P(xk)
- 连续函数: E ( f ( x ) ) = ∫ − ∞ + ∞ f ( x ) p ( x ) d x E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx} E(f(x))=∫−∞+∞f(x)p(x)dx
注意:
- 函数的期望大于等于期望的函数(Jensen不等式),即 E ( f ( x ) ) ⩾ f ( E ( x ) ) E(f(x))\geqslant f(E(x)) E(f(x))⩾f(E(x))
- 一般情况下,乘积的期望不等于期望的乘积。
- 如果 X X X和 Y Y Y相互独立,则 E ( x y ) = E ( x ) E ( y ) E(xy)=E(x)E(y) E(xy)=E(x)E(y)。
方差
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:
V a r ( x ) = E ( ( x − E ( x ) ) 2 ) Var(x) = E((x-E(x))^2) Var(x)=E((x−E(x))2)
方差性质:
1) V a r ( x ) = E ( x 2 ) − E ( x ) 2 Var(x) = E(x^2) -E(x)^2 Var(x)=E(x2)−E(x)2
2)常数的方差为0;
3)方差不满足线性性质;
4)如果 X X X和 Y Y Y相互独立, V a r ( a x + b y ) = a 2 V a r ( x ) + b 2 V a r ( y ) Var(ax+by)=a^2Var(x)+b^2Var(y) Var(ax+by)=a2Var(x)+b2Var(y)
协方差
协方差是衡量两个变量线性相关性强度及变量尺度。 两个随机变量的协方差定义为:
C
o
v
(
x
,
y
)
=
E
(
(
x
−
E
(
x
)
)
(
y
−
E
(
y
)
)
)
Cov(x,y)=E((x-E(x))(y-E(y)))
Cov(x,y)=E((x−E(x))(y−E(y)))
方差是一种特殊的协方差。当 X = Y X=Y X=Y时, C o v ( x , y ) = V a r ( x ) = V a r ( y ) Cov(x,y)=Var(x)=Var(y) Cov(x,y)=Var(x)=Var(y)。
协方差性质:
1)独立变量的协方差为0。
2)协方差计算公式:
C o v ( ∑ i = 1 m a i x i , ∑ j = 1 m b j y j ) = ∑ i = 1 m ∑ j = 1 m a i b j C o v ( x i y i ) Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)} Cov(i=1∑maixi,j=1∑mbjyj)=i=1∑mj=1∑maibjCov(xiyi)
3)特殊情况:
C o v ( a + b x , c + d y ) = b d C o v ( x , y ) Cov(a+bx, c+dy) = bdCov(x, y) Cov(a+bx,c+dy)=bdCov(x,y)
相关系数
相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:
C
o
r
r
(
x
,
y
)
=
C
o
v
(
x
,
y
)
V
a
r
(
x
)
V
a
r
(
y
)
Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}
Corr(x,y)=Var(x)Var(y)Cov(x,y)
相关系数的性质:
1)有界性。相关系数的取值范围是 [-1,1],可以看成无量纲的协方差。
2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。