高斯判别分析（Gaussian Discriminative Analysis）

最新推荐文章于 2022-05-10 22:54:45 发布

z_hfut

最新推荐文章于 2022-05-10 22:54:45 发布

阅读量2.2k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/z_hfut/article/details/101470074

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文深入探讨了高斯判别分析(GDA)，一种经典的生成学习模型和监督分类算法。通过对联合概率分布P(x,y)建模，文章详细介绍了GDA的数学原理，包括其对y、x|y=0和x|y=1的概率分布假设，以及如何通过最大似然估计求解参数ϕ、μ0、μ1和Σ。通过推导似然函数及其偏导数，得出了参数的最优估计公式。

摘要由CSDN通过智能技术生成

高斯判别分析(GDA)是经典的生成学习模型，也是一种监督分类学习算法。
假设有样本集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ ，其中 $x_i \in R^d,y_i \in \{0,1\}$ 。高斯判别分析作为生成学习算法，同样也是对联合概率 $P (x, y)$ 建模，在GDA模型中首先假设：
$\sim Bernoulli(\phi) \\ x|y=0 \sim N(\mu_0,\Sigma) \\ x|y=1 \sim N(\mu_1,\Sigma)$
其概率分布：
$\phi^y(1- \phi)^{1-y} \\ p(x|y=0) = \frac{1}{(2\pi)^{\frac d2} |\Sigma|^{\frac12}} exp \left(-\frac 12 (x - \mu_0)^T \Sigma^{-1} (x - \mu_0) \right) \\ p(x|y=1) = \frac{1}{(2\pi)^{\frac d2} |\Sigma|^{\frac12}} exp \left(-\frac 12 (x - \mu_1)^T \Sigma^{-1} (x - \mu_1) \right)$
在样本集D上的对数似然函数：
$\begin{aligned} l(\phi, \mu_0 ,\mu_1 ,\Sigma) &= log \prod_{i=1}^m P(x_i,y_i;\phi, \mu_0 ,\mu_1 ,\Sigma) \\ & = log \prod_{i=1}^m P(x_i|y_i;\mu_0 ,\mu_1 ,\Sigma)P(y_i;\phi) \\ & = \sum_{i=1}^m logP(x_i|y_i;\mu_0 ,\mu_1 ,\Sigma) + log P(y_i;\phi) \\ & = \sum_{i=1}^m logP(x_i|y_i=0;\mu_0 ,\Sigma)^{1-y_i} P(x_i|y_i=1;\mu_1 ,\Sigma)^{y_i} + log P(y_i;\phi) \\ & = \sum_{i=1}^m (1-y_i)logP(x_i|y_i=0;\mu_0 ,\Sigma) + y_i log P(x_i|y_i=1;\mu_1 ,\Sigma) + log P(y_i;\phi) \\ & = \sum_{i=1}^m (1-y_i)[-\frac d2log 2\pi - \frac12 log|\Sigma| - \frac 12 (x - \mu_0)^T \Sigma^{-1} (x - \mu_0)] \\ & \qquad + y_i[-\frac d2log 2\pi - \frac12 log|\Sigma| - \frac 12 (x - \mu_1)^T \Sigma^{-1} (x - \mu_1)] + log \phi^y(1- \phi)^{1-y} \end{aligned}$
在计算似然函数的最大值我们先了解几个公式：

$\\ \frac{\partial trAX}{ \partial X}=\frac{\partial trXA}{ \partial X} =A^T \\ \frac{\partial u^Tv}{\partial x} = \frac{\partial uv}{\partial x} = \frac{\partial u}{\partial x}v+\frac{\partial v}{\partial x}u \\ \frac{\partial log|X|}{\partial X} =\frac{1}{|X|}|X|(X^{-1})^T \\ \frac{\partial |X|}{\partial X} = (X^{-1})^T \\ \frac{\partial trX^{-1}A}{\partial X} = -(X^{-1})^TA^T(X^{-1})^T$

我们通过最大似然函数估计参数：
$\begin{aligned} \frac{\partial l(\phi, \mu_0 ,\mu_1 ,\Sigma) }{ \partial \phi} & = \frac{ \partial \sum_{i=1}^m log \phi^{y_i}(1- \phi)^{1-y_i}}{\partial \phi} \\ & = \frac{ \partial \sum_{i=1}^m y_i log \phi + (1-y_i)log(1- \phi) }{ \partial \phi } \\ & = \sum_{i=1}^m \frac {y_i}{\phi} - \frac{ 1-y_i }{ 1- \phi } = \sum_{i=1}^m \frac{y_i - \phi}{\phi (1- \phi)} = 0 \\ & \Rightarrow \sum_{i=1}^m y_i - \phi = 0 \Rightarrow \sum_{i=1}^m y_i = \sum_{i=1}^m \phi = m \phi \\ \phi & = \frac{ \sum_{i=1}^m I(y_i=1) }{m} \end{aligned}$
$\begin{aligned} \frac{\partial l(\phi, \mu_0 ,\mu_1 ,\Sigma) }{ \partial \mu_0} & = \frac{ \partial \sum_{i=1}^m (1-y_i)[ - \frac 12 (x_i - \mu_0)^T \Sigma^{-1} (x_i - \mu_0) ]}{\partial \mu_0} \\ & = \sum_{i=1}^m - \frac 12 (1-y_i) [ \frac{\partial (x_i - \mu_0)}{\partial \mu_0} \Sigma^{-1} (x_i - \mu_0) + \frac{\partial \Sigma^{-1} (x_i - \mu_0) }{\partial \mu_0} (x_i - \mu_0)] \\ & = \sum_{i=1}^m - \frac 12 (1-y_i) [- \Sigma^{-1} (x_i - \mu_0) - (\Sigma_{-1})^T (x_i - \mu_0)] \\ & = \sum_{i=1}^m (1-y_i) \Sigma^{-1} (x_i - \mu_0) = 0 \\ & \Rightarrow \sum_{i=1}^m (1-y_i) \Sigma \Sigma^{-1} (x_i - \mu_0) = 0 \Sigma \Rightarrow \sum_{i=1}^m (1-y_i) (x_i - \mu_0) =0 \\ \mu_0 & = \frac{ \sum_{i=1}^m I(y_i=0) x_i}{m} \end{aligned}$
$\begin{aligned} \frac{\partial l(\phi, \mu_0 ,\mu_1 ,\Sigma) }{ \partial \mu_1} & = \frac{ \partial \sum_{i=1}^m y_i[ - \frac 12 (x_i - \mu_1)^T \Sigma^{-1} (x_i - \mu_1) ] }{\partial \mu_1} \\ & = \sum_{i=1}^m - \frac 12 y_i [ \frac{\partial (x_i - \mu_1)}{\partial \mu_1} \Sigma^{-1} (x_i - \mu_1) + \frac{\partial \Sigma^{-1} (x_i - \mu_1) }{\partial \mu_1} (x_i - \mu_1)] \\ & = \sum_{i=1}^m - \frac 12 y_i [- \Sigma^{-1} (x_i - \mu_1) - (\Sigma^{-1})^T (x_i - \mu_1)] \\ & = \sum_{i=1}^m y_i \Sigma^{-1} (x_i - \mu_1) = 0 \\ & \Rightarrow \sum_{i=1}^m y_i \Sigma \Sigma^{-1} (x_i - \mu_1) = 0 \Sigma \Rightarrow \sum_{i=1}^m y_i (x_i - \mu_1) =0 \\ \mu_1 & = \frac{ \sum_{i=1}^m I(y_i=1) x_i}{m} \end{aligned}$

$\begin{aligned} \frac{\partial l(\phi, \mu_0 ,\mu_1 ,\Sigma) }{ \partial \Sigma} & = \frac{ \partial \sum_{i=1}^m y_i[ - \frac 12 (x_i - \mu_1)^T \Sigma^{-1} (x_i - \mu_1) ]}{\partial \Sigma} + \frac{ \partial \sum_{i=1}^m (1-y_i) [ - \frac 12 (x_i - \mu_0)^T \Sigma^{-1} (x_i - \mu_0) ]}{\partial \Sigma} + \frac{ \partial \sum_{i=1}^m - \frac 12 log| \Sigma| }{ \partial \Sigma } \\ & = \sum_{i=1}^m y_i \frac{ \partial tr[ - \frac 12 (x_i - \mu_1)^T \Sigma^{-1} (x_i - \mu_1) ]}{\partial \Sigma} + (1-y_i) \frac{ \partial tr[ - \frac 12 (x_i - \mu_0)^T \Sigma^{-1} (x_i - \mu_0) ]}{\partial \Sigma} + \sum_{i=1}^m \frac{ \partial (- \frac 12 log| \Sigma| ) }{ \partial \Sigma } \\ & = \sum_{i=1}^m - \frac 12 y_i \frac{ \partial tr[ \Sigma^{-1} (x_i - \mu_1)(x_i - \mu_1)^T ]}{\partial \Sigma} - \frac 12 (1-y_i) \frac{ \partial tr[ \Sigma^{-1} (x_i - \mu_0)(x_i - \mu_0)^T ]}{\partial \Sigma} + \sum_{i=1}^m - \frac 12 \frac{1}{|\Sigma|} |\Sigma| (\Sigma^{-1})^T \\ & = \sum_{i=1}^m - \frac 12 y_i [- (\Sigma^{-1})^T( (x_i - \mu_1)(x_i - \mu_1)^T)^T (\Sigma^{-1})^T] - \frac 12 (1-y_i) [- (\Sigma^{-1})^T( (x_i - \mu_0)(x_i - \mu_0)^T)^T (\Sigma^{-1})^T] - \frac 12 m (\Sigma^{-1})^T\\ & = \sum_{i=1}^m - \frac 12 y_i [- \Sigma^{-1} (x_i - \mu_1)(x_i - \mu_1)^T \Sigma^{-1}] - \frac 12 (1-y_i) [- \Sigma^{-1} (x_i - \mu_0)(x_i - \mu_0)^T \Sigma^{-1}] - \frac 12 m \Sigma^{-1} =0\\ & \Rightarrow \sum_{i=1}^m - \frac 12 y_i [- \Sigma \Sigma^{-1} (x_i - \mu_1)(x_i - \mu_1)^T \Sigma \Sigma^{-1}] - \frac 12 (1-y_i) [- \Sigma \Sigma^{-1} (x_i - \mu_0)(x_i - \mu_0)^T \Sigma \Sigma^{-1}] - \frac 12 m \Sigma \Sigma^{-1}\Sigma =\Sigma0\Sigma \\ & \Rightarrow \sum_{i=1}^m - \frac 12 y_i [- (x_i - \mu_1)(x_i - \mu_1)^T] - \frac 12 (1-y_i) [-(x_i - \mu_0)(x_i - \mu_0)^T] - \frac 12 m \Sigma =0 \\ & \Rightarrow \sum_{i=1}^m y_i [ (x_i - \mu_1)(x_i - \mu_1)^T] + (1-y_i) [(x_i - \mu_0)(x_i - \mu_0)^T] -m \Sigma =0 \\ \Sigma & = \frac{ \sum_{i=1}^m y_i [ (x_i - \mu_1)(x_i - \mu_1)^T] + (1-y_i) [(x_i - \mu_0)(x_i - \mu_0)^T] }{m} \end{aligned}$
综上，我们有：
$\phi = \frac{ \sum_{i=1}^m I(y_i=1) }{m} \\ \mu_0 = \frac{ \sum_{i=1}^m I(y_i=0) x_i}{m} \\ \mu_1 = \frac{ \sum_{i=1}^m I(y_i=1) x_i}{m} \\ \Sigma = \frac{ \sum_{i=1}^m y_i [ (x_i - \mu_1)(x_i - \mu_1)^T] + (1-y_i) [(x_i - \mu_0)(x_i - \mu_0)^T] }{m}$