正态分布
参考资料:《深度学习》 3.9.3 高斯分布
- 正态分布(normal distribution)高斯分布(Gaussian distribution):最常用的概率分布。
- 概率密度函数:
N ( x ; μ , σ ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) N(x;\mu ,\sigma)=\sqrt{\frac{1}{2\pi \sigma ^2}}exp(-\frac{1}{2\sigma ^2}(x-\mu )^2) N(x;μ,σ)=2πσ21exp(−2σ21(x−μ)2)
其中,μ ∈ R,σ ∈(0,∞)。μ是中心峰值的坐标,σ是标准差。 - 性质:
E ( x ) = μ V a r ( x ) = σ 2 E(x)=\mu\\ Var (x)=\sigma ^2 E(x)=μVar(x)=σ2 - 当需要经常对不同参数下的概率密度函数求值时,一种更高效的参数化分布的方式是使用参数β ∈(0,∞)来控制分布的精度:
N ( x ; μ , β − 1 ) = β 2 π e x p ( − 1 2 β ( x − μ ) 2 ) N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp(-\frac{1}{2}\beta(x-\mu)^2) N(x;μ,β−1)=2πβexp(−21β(x−μ)2) - 标准正态分布的图像
- 当由于缺乏某个实数上分布的先验知识时,正态分布是比较好的选择。原因为:
(1). 中心极限定理说明很多独立随机变量的和近似服从正态分布,这意味着,很多分布的真实情况是比较接近正态分布的。
(2). 在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性,所以可以认为,正态分布是对模型加入的先验知识量最少。 - 多维正态分布(multivariate normal distribution):
N ( x ; μ , Σ ) = 1 ( 2 π ) n d e t ( Σ ) e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) N(x;\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)TΣ−1(x−μ))
其中,正定对称矩阵Σ是分布的协方差矩阵。