第五章 正态分布
5.1 正态分布 Normal Distribution
-
标准正态分布: X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1) 称为 X X X 服从标准正态分布
- 密度函数:
ϕ ( x ) = 1 2 π e − x 2 2 , − ∞ < x < + ∞ \color{red}\phi(x)=\dfrac{1}{\sqrt{2\pi}}e^{-{x^2\over2}},\quad -\infty<x<+\infty ϕ(x)=2π1e−2x2,−∞<x<+∞ - 分布函数:
Φ ( x ) = ∫ − ∞ x 1 2 π e − t 2 2 d t \color{red}\Phi(x)=\int_{-\infty}^x \dfrac{1}{\sqrt{2\pi}}e^{-{t^2\over2}}\;dt Φ(x)=∫−∞x2π1e−2t2dt
验证 \color{White}\colorbox{Fuchsia}{验证} 验证: Φ ( + ∞ ) = 1 \Phi(+\infty)=1 Φ(+∞)=1
证明:
∫ − ∞ + ∞ 1 2 π e − x 2 2 d x ⋅ ∫ − ∞ + ∞ 1 2 π e − y 2 2 d y = ∬ R 2 1 2 π e − 1 2 ( x 2 + y 2 ) d x d y = ∫ 0 2 π d θ ∫ 0 ∞ 1 2 π e − 1 2 r 2 r d r = 1 \begin{aligned} &\int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}}e^{-{x^2\over2}}\;dx\cdot \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}}e^{-{y^2\over2}}\;dy\\ =&\iint\limits_{R^2}\dfrac{1}{2\pi}e^{-{1\over2}(x^2+y^2)}\;dxdy\\ =&\int_0^{2\pi}d\theta\int_0^\infty \dfrac{1}{2\pi}e^{-{1\over 2}r^2}r\;dr\\ =&1 \end{aligned} ===∫−∞+∞2π1e−2x2dx⋅∫−∞+∞2π1e−2y2dyR2∬2π1e−21(x2+y2)dxdy∫02πdθ∫0∞2π1e−21r2rdr1 - 性质:偶函数
Φ
(
−
x
)
=
1
−
Φ
(
x
)
\Phi(-x)=1-\Phi(x)
Φ(−x)=1−Φ(x)
- Φ ( 0 ) = 1 2 , Φ ( 1.96 ) = 0.975 \Phi(0)=\dfrac{1}{2},\Phi(1.96)=0.975 Φ(0)=21,Φ(1.96)=0.975,故 Φ ( 1.96 ) − Φ ( − 1.96 ) = 0.95 \Phi(1.96)-\Phi(-1.96)=0.95 Φ(1.96)−Φ(−1.96)=0.95 为大概率事件
- 密度函数:
-
一般正态分布:若 X X X 满足 X − μ σ ∼ N ( 0 , 1 ) \dfrac{X-\mu}{\sigma}\sim N(0,1) σX−μ∼N(0,1),其中 μ , σ > 0 \mu,\sigma>0 μ,σ>0 是任意常数,则称 X X X 服从参数为 μ , σ 2 \mu,\sigma^2 μ,σ2 的正态分布, X ∼ N ( μ , σ 2 ) \color{red}X\sim N(\mu,\sigma^2) X∼N(μ,σ2)
- 密度函数: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ \color{red}f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-{(x-\mu)^2\over2\sigma^2}},\quad -\infty<x<+\infty f(x)=2πσ1e−2σ2(x−μ)2,−∞<x<+∞
- 分布函数: F ( x ) = Φ ( x − μ σ ) F(x)=\Phi(\dfrac{x-\mu}{\sigma}) F(x)=Φ(σx−μ)
- P ( a < x ≤ b ) = Φ ( b − μ σ ) − Φ ( a − μ σ ) P(a<x\le b)=\Phi(\dfrac{b-\mu}{\sigma})-\Phi(\dfrac{a-\mu}{\sigma}) P(a<x≤b)=Φ(σb−μ)−Φ(σa−μ)
- 图形性质:
- 位置参数 μ \mu μ:关于直线 x = μ x=\mu x=μ 对称, max { f ( x ) } = f ( μ ) = 1 2 π σ 2 \max\{f(x)\}=f(\mu)=\dfrac{1}{\sqrt{2\pi}\sigma^2} max{f(x)}=f(μ)=2πσ21
- 刻度参数 σ \sigma σ:当 σ \sigma σ 越小时, f ( x ) f(x) f(x) 图形越陡
5.2 正态分布的数字特征与线性性质
-
数字特征:
-
标准正态分布:若 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1),则 E ( X ) = 0 , D ( X ) = 1 \color{red}E(X)=0,D(X)=1 E(X)=0,D(X)=1
证明:由于 Γ ( 1 2 ) = π \Gamma(\dfrac{1}{2})=\sqrt{\pi} Γ(21)=π
E ( X ) = ∫ − ∞ + ∞ x 1 2 π e − x 2 2 d x = 0 D ( X ) = E ( Y 2 ) − 0 2 = ∫ − ∞ + ∞ x 2 1 2 π e − x 2 2 d x − 0 = 2 2 π ∫ 0 + ∞ x 2 e − x 2 2 d x 令 t = x 2 2 , 则 = 2 2 π ∫ 0 + ∞ 2 t e − t 2 2 t − 1 2 d t = 2 π Γ ( 3 2 ) = 1 \begin{aligned}E(X)&=\int_{-\infty}^{+\infty} x\dfrac{1}{\sqrt{2\pi}}e^{-{x^2\over2}}\;dx=0\\ D(X)&=E(Y^2)-0^2=\int_{-\infty}^{+\infty} x^2\dfrac{1}{\sqrt{2\pi}}e^{-{x^2\over2}}\;dx-0\\ &=\dfrac{2}{\sqrt{2\pi}}\int_0^{+\infty} x^2e^{-\dfrac{x^2}{2}}\;dx\\ 令 t=\dfrac{x^2}{2},则&=\dfrac{2}{\sqrt{2\pi}}\int_0^{+\infty}2te^{-t}\dfrac{\sqrt{2}}{2}t^{-{1\over 2}} \;dt\\ &=\dfrac{2}{\sqrt{\pi}}\Gamma(\dfrac{3}{2})\\ &=1 \end{aligned} E(X)D(X)令t=2x2,则=∫−∞+∞x2π1e−2x2dx=0=E(Y2)−02=∫−∞+∞x22π1e−2x2dx−0=2π2∫0+∞x2e−2x2dx=2π2∫0+∞2te−t22t−21dt=π2Γ(23)=1 -
一般正态分布:若 Y ∼ N ( μ , σ 2 ) Y\sim N(\mu,\sigma^2) Y∼N(μ,σ2),则 E ( Y ) = μ , D ( Y ) = σ 2 \color{red}E(Y)=\mu,D(Y)=\sigma^2 E(Y)=μ,D(Y)=σ2
证明:由于 Y = X − μ σ ⟹ X = σ Y + μ Y=\dfrac{X-\mu}{\sigma}\Longrightarrow X=\sigma Y+\mu Y=σX−μ⟹X=σY+μ,从而 { E ( X ) = σ E ( Y ) + μ = μ D ( X ) = σ 2 D ( Y ) = σ 2 \begin{cases}E(X)=\sigma E(Y)+\mu=\mu\\ D(X)=\sigma^2 D(Y)=\sigma^2\end{cases} {E(X)=σE(Y)+μ=μD(X)=σ2D(Y)=σ2
-
-
线性性质:
-
若 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2),当 b ≠ 0 b\ne 0 b=0 时,有 Y = a + b X ∼ N ( a + b μ , b 2 σ 2 ) Y=a+bX\sim N(a+b\mu,b^2\sigma^2) Y=a+bX∼N(a+bμ,b2σ2)
-
正态分布可加性:
-
两变量: X , Y X,Y X,Y 相互独立, X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2) X∼N(μ1,σ12),Y∼N(μ2,σ22),则 Z = X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) \color{red}Z=X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2) Z=X+Y∼N(μ1+μ2,σ12+σ22)
-
一般形式: X i X_i Xi 之间相互独立, X i ∼ N ( μ i , σ i 2 ) , C i X_i\sim N(\mu_i,\sigma_i^2),C_i Xi∼N(μi,σi2),Ci 为常数, i = 1 , 2 , . . . , n i=1,2,...,n i=1,2,...,n,则 Z = ∑ i = 1 n C i X i ∼ N ( ∑ i = 1 n C i μ i , ∑ i = 1 n C i 2 σ i 2 ) \color{red}Z=\sum\limits_{i=1}^n C_iX_i\sim N\left(\sum\limits_{i=1}^n C_i\mu_i,\sum\limits_{i=1}^n C_i^2\sigma_i^2 \right) Z=i=1∑nCiXi∼N(i=1∑nCiμi,i=1∑nCi2σi2)。
特殊地, Z = 1 n ∑ i = 1 n X i ∼ N ( μ i , σ i 2 n ) \color{red}Z=\dfrac{1}{n} \sum\limits_{i=1}^n X_i\sim N\left(\mu_i,\dfrac{\sigma_i^2}{n} \right) Z=n1i=1∑nXi∼N(μi,nσi2),当 n → ∞ n\rightarrow \infty n→∞, D ( Z ) = σ 2 n → 0 D(Z)=\dfrac{\sigma^2}{n}\rightarrow 0 D(Z)=nσ2→0,表明样本量增加,样本趋于稳定(信息熵)。
-
-
3 σ 3\sigma 3σ 原则: F ( 3 ) − F ( − 3 ) = 99.73 % , F ( 2 ) − F ( − 2 ) = 95.46 % F(3)-F(-3)=99.73\%,F(2)-F(-2)=95.46\% F(3)−F(−3)=99.73%,F(2)−F(−2)=95.46%
-
5.3 二维正态分布
研究高维数据,其实是研究协方差矩阵(实对称矩阵)高维正态分布&矩阵向量
- 二维正态分布:当
f
(
x
,
y
)
=
exp
{
−
t
1
2
−
2
r
t
1
t
2
+
t
2
2
2
(
1
−
r
2
)
}
2
π
σ
1
σ
2
1
−
r
2
,
(
x
,
y
)
∈
R
2
f(x,y)=\dfrac{\exp \left\{-\dfrac{t_1^2-2rt_1t_2+t_2^2}{2(1-r^2)}\right\}}{2\pi\sigma_1\sigma_2\sqrt{1-r^2}},(x,y)\in R^2
f(x,y)=2πσ1σ21−r2exp{−2(1−r2)t12−2rt1t2+t22},(x,y)∈R2,其中
t
1
=
x
−
μ
1
σ
1
,
t
2
=
y
−
μ
2
σ
2
t_1=\dfrac{x-\mu_1}{\sigma_1},t_2=\dfrac{y-\mu_2}{\sigma_2}
t1=σ1x−μ1,t2=σ2y−μ2 时,记为
(
X
,
Y
)
∼
N
(
μ
1
,
μ
2
;
σ
1
2
,
σ
2
2
;
r
)
\color{red}(X,Y)\sim N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;r)
(X,Y)∼N(μ1,μ2;σ12,σ22;r),其中
r
r
r 表示相关系数。
- 性质:
- 边缘分布是正态: X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2) X∼N(μ1,σ12),Y∼N(μ2,σ22)
- 条件分布是正态: Y ∣ X = x ∼ N ( μ 2 + r σ 2 σ 1 ( x − μ 1 ) , σ 2 2 ( 1 − r 2 ) ) Y|X=x\sim N(\mu_2+r\dfrac{\sigma_2}{\sigma_1}(x-\mu_1),\sigma_2^2(1-r^2)) Y∣X=x∼N(μ2+rσ1σ2(x−μ1),σ22(1−r2))
- 若 ( X , Y ) ∼ N ( μ 1 , μ 2 ; σ 1 2 , σ 2 2 ; r ) (X,Y)\sim N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;r) (X,Y)∼N(μ1,μ2;σ12,σ22;r),则 X , Y X,Y X,Y 相互独立 ⟺ r = 0 \iff r=0 ⟺r=0 (不相关——没有交叉项,二次型可拆开)
- 性质: