多元正态分布(Multivariate normal distribution)

多元正态分布(Multivariate normal distribution)

前言

我们通常讨论正态分布都是在一元(univariate)的情况下,相信下面的定义大家都很熟悉了:假设随机变量 X X X服从正态分布,则 X X X具有概率密度函数:
f ( x ) = ( 2 π σ ) − 1 exp ( − ( x − μ ) 2 2 σ 2 ) f(x)=(\sqrt{2\pi}\sigma)^{-1}\text{exp}(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=(2π σ)1exp(2σ2(xμ)2)
其中 μ \mu μ表示 X X X的均值, σ 2 \sigma^2 σ2表示其方差。

有不少读者应该也看到过下面这个公式:
f ( x 1 , x 2 ) = ( 2 π σ 1 σ 2 1 − ρ 2 ) − 1 exp [ − 1 2 ( 1 − ρ 2 ) ( ( x 1 − μ 1 ) 2 σ 1 2 − 2 ρ ( x 1 − μ 1 ) ( x 2 − μ 2 ) σ 1 σ 2 + ( x 2 − μ 2 ) 2 σ 2 2 ) ] \begin{aligned} f(x_1,x_2)=&(2\pi\sigma_1\sigma_2\sqrt{1-\rho^2} )^{-1}\text{exp}[-\frac{1}{2(1-\rho^2)}(\frac{(x_1-\mu_1)^2}{\sigma_1^2}\\ &-\frac{2\rho(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2})] \end{aligned} f(x1,x2)=(2πσ1σ21ρ2 )1exp[2(1ρ2)1(σ12(x1μ1)2σ1σ22ρ(x1μ1)(x2μ2)+σ22(x2μ2)2)]
没错,这正是将正态分布拓展到二维的情况,即:
X = [ X 1 , X 2 ] T X=[X_1,X_2]^T X=[X1,X2]T
其中 X 1 X_1 X1, X 2 X_2 X2分别服从正态分布。

有不少读者应该和我一样,看到这个二维的公式就头痛了,这他娘的一堆是啥玩意儿啊?老实说把上面的公式准确的打出来还花费了我不少功夫,可见公式之复杂,如果再往三元以上,简直不敢想象了。

由于许多本文许多内容我是从wikipedia看的,现学现卖,自己也是似懂非懂,不敢误人子弟,只能把自己确定的一些心得写一写,以作备忘,如果可以,也能给一些同有此问的后来者一些帮助。

多元正态分布

假设 X = ( X 1 , X 2 , ⋯   , X k ) T X=(X_1,X_2,\cdots,X_k)^T X=(X1,X2,,Xk)T是一个 k k k维的列向量,服从多元正态分布,我们可以把它记做:
X ∼ N ( μ , Σ ) X\sim N(\mu,\Sigma) XN(μ,Σ)
其中,
μ = E ( X ) = ( μ 1 , μ 2 , ⋯   , μ k ) Σ i , j = C o v ( X i , X j ) \begin{aligned} &\mu=E(X)=(\mu_1,\mu_2,\cdots,\mu_k)\\ &\Sigma_{i,j}=Cov(X_i,X_j) \end{aligned} μ=E(X)=(μ1,μ2,,μk)Σi,j=Cov(Xi,Xj)
对于多元随机变量,我们最关心的是它的概率函数,当上述协方差矩阵是正定的(positive definite),分布才有概率密度函数,这种情况被称为“非退化的”(non-degenerate)。这里笔者亦不甚解,猜测大概和协方差矩阵 Σ \Sigma Σ是否可逆有关。

如果多元正态分布的概率密度函数存在,它被定义如下:
f ( x 1 , x 2 , ⋯   , x k ) = exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) ( 2 π ) k ∣ Σ ∣ f(x_1,x_2,\cdots,x_k)=\frac{\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}{\sqrt{(2\pi)^k|\Sigma|}} f(x1,x2,,xk)=(2π)kΣ exp(21(xμ)TΣ1(xμ))
其中 ∣ Σ ∣ |\Sigma| Σ表示协方差矩阵的行列式(determinant)。

二元情况的推导

我们根据上面多元正态分布概率密度函数的定义,来求一求二元(bivariate)的情况,即令 k k k=2。

此时 x = ( x 1 , x 2 ) T , μ = ( μ 1 , μ 2 ) T x=(x_1,x_2)^T,\mu=(\mu_1,\mu_2)^T x=(x1,x2)T,μ=(μ1,μ2)T
Σ = ( σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ) \Sigma= \begin{pmatrix} \sigma_1^2&\rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2&\sigma_2^2 \end{pmatrix} Σ=(σ12ρσ1σ2ρσ1σ2σ22)
其中 ρ \rho ρ为相关系数,定义为:
ρ = C o v ( X 1 , X 2 ) σ 2 σ 2 \rho=\frac{Cov(X_1,X_2)}{\sigma_2\sigma_2} ρ=σ2σ2Cov(X1,X2)
对于 2 × 2 2\times2 2×2的矩阵A,如果:
A = ( a b c d ) A= \begin{pmatrix} a&b\\ c&d \end{pmatrix} A=(acbd)
通常有:
A − 1 = 1 a d − b c ( d − b − c a ) A^{-1}=\frac{1}{ad-bc} \begin{pmatrix} d&-b\\ -c&a \end{pmatrix} A1=adbc1(dcba)
根据上公式求得;
Σ − 1 = 1 ( 1 − ρ 2 ) σ 1 2 σ 2 2 ( σ 2 2 − ρ σ 1 σ 2 − ρ σ 1 σ 2 σ 1 2 ) \Sigma^{-1} =\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2} \begin{pmatrix} \sigma_2^2&-\rho\sigma_1\sigma_2\\ -\rho\sigma_1\sigma_2&\sigma_1^2 \end{pmatrix} Σ1=(1ρ2)σ12σ221(σ22ρσ1σ2ρσ1σ2σ12)
又:
∣ Σ ∣ = ( 1 − ρ 2 ) σ 1 2 σ 2 2 |\Sigma|=(1-\rho^2)\sigma_1^2\sigma_2^2 Σ=(1ρ2)σ12σ22
代入上式得:
f ( x 1 , x 2 ) = exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) ( 2 π ) 2 ∣ Σ ∣ = 1 ( 2 π 2 ) ( 1 − ρ 2 ) σ 1 2 σ 2 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) = 1 2 π σ 1 σ 2 1 − ρ 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) \begin{aligned} f(x_1,x_2)&=\frac{\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}{\sqrt{(2\pi)^2|\Sigma|}}\\ &=\frac{1}{\sqrt{(2\pi^2)(1-\rho^2)\sigma_1^2\sigma_2^2}}\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\\ &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\\ \end{aligned} f(x1,x2)=(2π)2Σ exp(21(xμ)TΣ1(xμ))=(2π2)(1ρ2)σ12σ22 1exp(21(xμ)TΣ1(xμ))=2πσ1σ21ρ2 1exp(21(xμ)TΣ1(xμ))
其中:
( x − μ ) T Σ − 1 ( x − μ ) = ( x 1 − μ 1 , x 2 − μ 2 ) 1 ( 1 − ρ 2 ) σ 1 2 σ 2 2 ( σ 2 2 − ρ σ 1 σ 2 − ρ σ 1 σ 2 σ 1 2 ) ( x 1 − μ 1 , x 2 − μ 2 ) T = 1 ( 1 − ρ 2 ) σ 1 2 σ 2 2 ( σ 2 2 ( x 1 − μ 1 ) − ρ σ 1 σ 2 ( x 2 − μ 2 ) , σ 1 2 ( x 2 − μ 2 ) − ρ σ 1 σ 2 ( x 2 − μ 2 ) ) ( x 1 − μ 1 , x 2 − μ 2 ) T = 1 ( 1 − ρ 2 ) σ 1 2 σ 2 2 [ σ 2 2 ( x 1 − μ 1 ) 2 − 2 ρ σ 1 σ 2 ( x 1 − μ 1 ) ( x 2 − μ 2 ) + σ 1 2 ( x 2 − μ 2 ) 2 ] = 1 ( 1 − ρ 2 ) [ ( x 1 − μ 1 2 ) σ 1 2 − 2 ρ ( x 1 − μ 1 ) ( x 2 − μ 2 ) σ 1 σ 2 + ( x 2 − μ 2 2 ) σ 2 2 ] \begin{aligned} &(x-\mu)^T\Sigma^{-1}(x-\mu)\\ &=(x_1-\mu_1,x_2-\mu_2) \frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2} \begin{pmatrix} \sigma_2^2&-\rho\sigma_1\sigma_2\\ -\rho\sigma_1\sigma_2&\sigma_1^2 \end{pmatrix} (x_1-\mu_1,x_2-\mu_2)^T\\ &=\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2}(\sigma_2^2(x_1-\mu_1)-\rho\sigma_1\sigma_2(x_2-\mu_2),\sigma_1^2(x_2-\mu_2)-\rho\sigma_1\sigma_2(x_2-\mu_2))(x_1-\mu_1,x_2-\mu_2)^T\\ &=\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2}[\sigma_2^2(x_1-\mu_1)^2-2\rho\sigma_1\sigma_2(x_1-\mu_1)(x_2-\mu_2)+\sigma_1^2(x_2-\mu_2)^2]\\ &=\frac{1}{(1-\rho^2)}[\frac{(x_1-\mu_1^2)}{\sigma_1^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2^2)}{\sigma_2^2}] \end{aligned} (xμ)TΣ1(xμ)=(x1μ1,x2μ2)(1ρ2)σ12σ221(σ22ρσ1σ2ρσ1σ2σ12)(x1μ1,x2μ2)T=(1ρ2)σ12σ221(σ22(x1μ1)ρσ1σ2(x2μ2),σ12(x2μ2)ρσ1σ2(x2μ2))(x1μ1,x2μ2)T=(1ρ2)σ12σ221[σ22(x1μ1)22ρσ1σ2(x1μ1)(x2μ2)+σ12(x2μ2)2]=(1ρ2)1[σ12(x1μ12)2ρσ1σ2(x1μ1)(x2μ2)+σ22(x2μ22)]
和上面的式子整合一下即可的到二元变量的概率密度。

参考资料

[1] Multivariate normal distribution

[2] 概率论与数理统计,陈希孺,中国科学技术大学出版社

  • 16
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
多元正态分布Multivariate Normal Distribution)是在多元统计分析中常用的一种概率分布模型。它是一种由多个正态分布组成的联合分布。 多元正态分布包含了多个随机变量,每个变量都服从正态分布。与单变量正态分布类似,多元正态分布也由均值向量和协方差矩阵所确定。 在多元正态分布中,均值向量代表各个随机变量的平均值。协方差矩阵则表示各个变量之间的关联性和变异性。 多元正态分布有许多重要的特性。首先,它是一个典型的钟形曲线,集中于均值处。其次,协方差矩阵描述了不同变量之间的相关性。如果两个变量具有正相关,则它们的取值趋于同时增加或减少;如果两个变量具有负相关,则一个变量增加时,另一个变量会减小。最后,多元正态分布还具备线性组合的性质,即对于该分布中的多个随机变量,其线性组合也是正态分布。 多元正态分布在许多领域有着广泛的应用,特别是在统计学、金融学、经济学、生物学和工程学等学科中。通过多元正态分布,我们可以对多个变量的分布进行建模和分析,理解它们之间的关系,并进行概率推断和假设检验。 总而言之,多元正态分布是多元统计分析领域中常用的概率分布模型,通过均值向量和协方差矩阵的参数化来描述多个随机变量之间的关系。它的应用广泛,在许多领域中起着重要的作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值