线性分类（四）-- 高斯判别分析 GDA

最新推荐文章于 2022-05-10 22:54:45 发布

长路漫漫2021

最新推荐文章于 2022-05-10 22:54:45 发布

阅读量2.6k

点赞数 5

分类专栏： # Machine Learning 文章标签：高斯判别分析生成模型 GDA Python 机器学习

本文链接：https://blog.csdn.net/xq151750111/article/details/121341167

版权

Machine Learning 专栏收录该内容

26 篇文章 59 订阅

订阅专栏

本文详细介绍了高斯判别分析（GDA）的基本概念、模型假设、损失函数及其求解过程。GDA是一种生成学习算法，假设数据服从高斯分布，通过极大似然估计求解参数。在数据量足够大且分布接近高斯时，GDA能提供较高的分类准确性。同时，文章对比了GDA与逻辑回归，指出逻辑回归在模型假设上更为宽松，因此在实际应用中更为广泛。

摘要由CSDN通过智能技术生成

高斯判别分析（Gaussian Discriminant analysis，GDA），与之前的线性回归和Logistic回归从方法上讲有很大的不同，GDA是一种生成学习算法（Generative Learning Algorithms），而之前的属于判别学习算法（Discriminative Learning Algorithms）。（不能简单以名字做判断，毕竟逻辑回归是分类模型，高斯判别模型属于生成学习模型）了解更多：判别模型和生成模型

机器学习模型从概率的角度来看就是最大化 $P (Y ∣ X)$ 的条件概率，判别模型的思想是直接最大化这个概率（Fisher线性判别，线性感知机），生成模型则是通过贝叶斯模型最大后验概率 $maxP{(Y|X)}=\frac{P(X|Y)P(Y)}{P(X)}\sim maxP(X|Y)P(Y)$ ，其中 $P (X ∣ Y)$ 可以看作是从标签生成数据， $P (Y)$ 则是标签的先验概率。通俗的讲，判别模型是通过训练样本训练出一个模型，再用测试点 $x$ 带入这个模型，最后算出 $x$ 的可能类别；而生成学习模型是通过训练样本训练出各个类别的多个模型，再将预测点 $x$ 分别代入不同类别的模型中，进而判断 $x$ 到底属于哪个类别（一般就看代入后哪个模型的概率大就认为 $x$ 是哪一类，当然也有例外）。

在Andrew Ng大神的CS229 Lecture notes中有一个例子：假设我们要对大象和狗分类，回归模型和感知机模型是在两类数据之间找到一个decision boundary，通过这个decision boundary来区分大象和狗。高斯判别分析提供了另外一种思路：首先我们观察大象，对大象建立一个模型来描述他的特点；在观察狗，并建立相应的模型来描述狗。当一个新的狗或者象过来时，我们首先带入象模型和狗模型，最后决定新来的的动物的类别。

这是一种软分类的思路，所谓软分类就是我们对一个样本决定它的类别时有一个可信度的概念，比方说当数据位于decision boundary附近的时候，我们将数据硬分为0或者1类（在这里是象和狗类）有时是不合理的，因为这是类别的不确定性更大。

这一部分涉及的数学知识，请先阅读：高斯分布的极大似然估计、多维高斯分布和矩阵求导（三）-- 一阶微分法

1 高斯判别分析模型的假设函数

高斯判别分析的基本假设是我们得到的数据是独立同分布的(IID)，虽然在实际中这种假设很难达到，但有时候拥有了好的假设可以得到较好的结果。
$Data：\{(\pmb{x}_i,y_i)\}^N_{i=1} \quad \pmb{x}_i \in \mathbb R^p \quad y_i \in \{0, 1\} \tag{1-1}$

可以按 $y$ 的取值分为两类数据，并按照以下两个集合来表示
$C_{1}=\left \{\boldsymbol{x}_{i}|y_{i}=1,i=1,2,\cdots ,N\right \}\\ C_{2}=\left \{\boldsymbol{x}_{i}|y_{i}=0,i=1,2,\cdots ,N\right \}\\ |C_{1}|=N_{1},|C_{2}|=N_{2},N_{1}+N_{2}=N \tag{1-2}$

由于 $y_i\in\{0, 1\}$ ，因此可认为 $y\sim Bernoulli(\phi)$
$\Rightarrow \begin{array}{c|cc} {y} &{1} &{0}\\ \hline {P}&{\phi}&{1-\phi} \end{array} \tag{1-3}$
因此 $P(y)=\phi^y(1-\phi)^{1-y}$

接下来假设 $P(\pmb{x}|y)$ 服从高斯分布：
$\pmb{x}|(y=1)\sim{N}(\pmb{\mu}_1,\pmb{\Sigma})\\ \pmb{x}|(y=0)\sim{N}(\pmb{\mu}_0,\pmb{\Sigma}) \tag{1-4}$
更为直观的描述为：
$\begin{aligned}P(\pmb{x}|y=0) &=\dfrac{1}{(2\pi)^{\frac{p}{2}}\vert \boldsymbol{\Sigma} \vert ^{\frac{1}{2}}}e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_0)^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_0)}\\ P(\pmb{x}|y=1)&=\dfrac{1}{(2\pi)^{\frac{p}{2}}\vert \boldsymbol{\Sigma} \vert ^{\frac{1}{2}}}e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_1)^T \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_1)}\end{aligned} \tag{1-5}$

上述模型中的未知参数为 $\phi、\pmb{\Sigma}、\pmb{\mu}_0和\pmb{\mu}_1$ ，假设函数为 $P(y|\pmb{x})=\dfrac{P(\pmb{x}|y)P(y)}{P(\pmb{x})}$ 分别计算 $P(\pmb{x}|y=0)P(y=0)和P(\pmb{x}|y=1)P(y=1)$ 的概率，概率大者为样本数据所属类别。

2 高斯判别分析模型的损失函数

已知样本数据含有参数的概率分布，由最大似然估计法可以推导高斯判别分析模型的损失函数为
$\begin{aligned} L(\phi,\boldsymbol{\mu}_0,\boldsymbol{\mu}_1,\boldsymbol{\Sigma}) &= ln\prod\limits_{i=1}^{N}P(\boldsymbol{x}_{i},y_{i};\phi,\boldsymbol{\mu}_0,\boldsymbol{\mu}_1,\boldsymbol{\Sigma})\\ &=ln\prod\limits_{i=1}^{N}P(\boldsymbol{x}_{i}|y_{i};\boldsymbol{\mu}_0,\boldsymbol{\mu}_1,\boldsymbol{\Sigma})P(y_{i};\phi)\\ &=\sum\limits_{i=1}^{N}ln P(\boldsymbol{x}_{i}|y_{i};\boldsymbol{\mu}_0,\boldsymbol{\mu}_1,\boldsymbol{\Sigma}) + \sum\limits_{i=1}^{N}ln P(y_{i};\phi)\\ &=\sum\limits_{i=1}^{N}ln \left(P(\boldsymbol{x}_{i}|y_{i}=1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma})^{y_{i}} \cdot P(\boldsymbol{x}_{i}|y_{i}=0;\boldsymbol{\mu}_0,\boldsymbol{\Sigma})^{1-y_{i}}\right)+ \sum\limits_{i=1}^{N}ln P(y_{i};\phi)\\ &=\underset{①}{\underbrace{\sum\limits_{i=1}^{N}y_{i}ln P(\boldsymbol{x}_{i}|y_{i}=1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma})}}+\underset{②}{\underbrace{\sum\limits_{i=1}^{N}(1-y_{i})ln P(\boldsymbol{x}_{i}|y_{i}=0;\boldsymbol{\mu}_0,\boldsymbol{\Sigma})}} + \underset{③}{\underbrace{\sum\limits_{i=1}^{N}ln P(y_{i};\phi)}}\\ \end{aligned} \tag{2-1}$

求解 $\phi$
$\phi$ 只存在于③式中，因此求解 $\phi$ 只需要看③式即可，即：
$\sum\limits_{i=1}^{N}ln P(y_{i};\phi) = \sum\limits_{i=1}^{N}ln \phi^{y_i}(1-\phi)^{1-y_i} \\ =\sum\limits_{i=1}^{N}[y_i ln \phi + (1-y_i) ln(1-\phi)]\tag{2-2}$

对 $\phi$ 求偏导，并令其等于0，可得：
$\frac{ \partial L(\phi,\boldsymbol{\mu}_0,\boldsymbol{\mu}_1,\boldsymbol{\Sigma})}{\partial \phi} =\sum _{i=1}^{N}[y_{i}\frac{1}{\phi}-(1-y_{i})\frac{1}{1-\phi }]=0\\ \Rightarrow \sum _{i=1}^{N}[y_{i}(1-\phi)-(1-y_{i})\phi ]=0\\ \Rightarrow \sum _{i=1}^{N}(y_{i}-\phi)=0\\ \Rightarrow \sum _{i=1}^{N}y_{i}-N\phi=0\\ \hat{\phi}=\frac{1}{N}\sum _{i=1}^{N}y_{i}=\frac{N_{1}}{N} \tag{2-3}$

求解 $\pmb{\mu}_1、\pmb{\mu}_0$
$\pmb{\mu}_1$ 只存在于①式中，因此求解 $\pmb{\mu}_1$ 只需要看①式即可：
$\sum\limits_{i=1}^{N}y_{i}ln P(\boldsymbol{x}_{i}|y_{i}=1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma})$
$\begin{aligned} \Delta&=\sum\limits_{i=1}^{N}y_{i}ln P(\boldsymbol{x}_{i}|y_{i}=1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma})\\ &=\sum_{i=1}^N y_i ln ({1\over(2\pi)^{p\over2}{\vert \boldsymbol{\Sigma}\vert}^{1\over2}} \exp(-{1\over 2}(\boldsymbol{x}_i-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu}_1))) \end{aligned}$
$\begin{aligned} \hat {\boldsymbol{\mu}_1}&=arg \underset {\boldsymbol{\mu}_1}{max}\ \Delta\\ &=arg \underset {\boldsymbol{\mu}_1}{max}\ \sum_{i=1}^N y_i ln ({1\over(2\pi)^{p\over2}{\vert \boldsymbol{\Sigma}\vert}^{1\over2}} \exp(-{1\over 2}(\boldsymbol{x}_i-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu}_1)))\\ & \Rightarrow arg \underset {\boldsymbol{\mu}_1}{max}\ \sum_{i=1}^N y_i(-{1\over 2}(\boldsymbol{x}_i-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu}_1)) \\&= arg \underset {\boldsymbol{\mu}_1}{max}\ -{1\over 2}\sum_{i=1}^N y_i(\boldsymbol{x}_i^T\boldsymbol{\Sigma}^{-1}-\boldsymbol{\mu}_1^T\boldsymbol{\Sigma}^{-1})(\boldsymbol{x}_i-\boldsymbol{\mu}_1) \\ &= arg \underset {\boldsymbol{\mu}_1}{max}\ -{1\over 2}\sum\limits_{i=1}^N(y_i\boldsymbol{x}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{x}_i-2y_i\boldsymbol{\mu}_1^T\boldsymbol{\Sigma}^{-1}\boldsymbol{x}_i+y_i\boldsymbol{\mu}_1^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_1)\end{aligned} \tag{2-4}$

$\begin{aligned} {\partial \Delta \over \partial \boldsymbol{\mu}_1}&=0\\ -{1\over2}\sum_{i=1}^N [-2y_i \boldsymbol{\Sigma}^{-1}\boldsymbol{x}_i+ 2y_i \boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_1)&=0\\ \Rightarrow \sum_{i=1}^N y_i \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu}_1)&=0\\ \Rightarrow\sum_{i=1}^N y_i (\boldsymbol{x}_i-\boldsymbol{\mu}_1)&=0\\ \Rightarrow \hat{\boldsymbol{\mu}}_1&={\displaystyle\sum_{i=1}^N y_i\boldsymbol{x}_i\over \displaystyle\sum_{i=1}^N y_i}\\ \hat{\boldsymbol{\mu}}_1&={1\over N_1}\sum_{i=1}^{N_1}\boldsymbol{x}_i \end{aligned} \tag{2-5}$
由于 $y_i\in\{0,1\}$ 因此只有时 $y_i=1$ 才被相加，所以 $\pmb{x}_i$ 和 $\sum_{i=1}^N y_i\pmb{x}_i=\sum_{i=1}^{N_1}\pmb{x}_i$ 为 $\pmb{\mu}_1$ 中的 $y = 1$ 的 $\pmb{x}$ 期望，正是 $C_1$ 集合中 $\pmb{x}$ 的均值(无偏估计)
同理，
$\pmb{\mu}_0={1\over N_2}\sum_{i=1}^{N_2}\pmb{x}_i \tag{2-6}$

求解 $\pmb{\Sigma}$
$\begin{aligned}\Upsilon&=\sum\limits_{i=1}^{N}y_{i}ln P(\boldsymbol{x}_{i}|y_{i}=1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma}) + \sum\limits_{i=1}^{N}(1-y_{i})ln P(\boldsymbol{x}_{i}|y_{i}=0;\boldsymbol{\mu}_0,\boldsymbol{\Sigma}) \end{aligned} \tag{2-7}$

由于 $y_i$ 非1即0，因此 $\sum\limits_{i=1}^{N}y_{i}ln P(\boldsymbol{x}_{i}|y_{i}=1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma})= \sum\limits_{i=1}^{N_1}ln P(\boldsymbol{x}_{i}|y_{i}=1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma})$ ，同理， $\sum\limits_{i=1}^{N}(1-y_{i})ln P(\boldsymbol{x}_{i}|y_{i}=0;\boldsymbol{\mu}_0,\boldsymbol{\Sigma})= \sum\limits_{i=1}^{N_2}ln P(\boldsymbol{x}_{i}|y_{i}=0;\boldsymbol{\mu}_0,\boldsymbol{\Sigma})$ ，则

$\Upsilon== \sum\limits_{i=1}^{N_1}ln P(\boldsymbol{x}_{i}|y_{i}=1;\boldsymbol{\mu}_1,\boldsymbol{\Sigma})+\sum\limits_{i=1}^{N_2}ln P(\boldsymbol{x}_{i}|y_{i}=0;\boldsymbol{\mu}_0,\boldsymbol{\Sigma})\tag{2-8}$

先来计算 $\sum\limits_{i=1}^{N}ln P(\boldsymbol{x}_{i}|y_{i};\boldsymbol{\mu},\boldsymbol{\Sigma})$

$\begin{aligned}\sum\limits_{i=1}^{N}ln P(\boldsymbol{x}_{i}|y_{i};\boldsymbol{\mu},\boldsymbol{\Sigma}) &=\sum\limits_{i=1}^{N}ln [\dfrac{1}{(2\pi)^{\frac{p}{2}}\vert \boldsymbol{\Sigma} \vert ^{\frac{1}{2}}}e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_0)^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_0)}]\\ &= \sum_{i=1}^{N} [ln ({1\over (2\pi)^{p\over 2}})+ln \vert\boldsymbol{\Sigma} \vert^{-{1\over 2}}-{1\over 2}(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})] \end{aligned} \tag{2-9}$
令常数项 $\sum_{i=1}^{N} ln ({1\over (2\pi)^{p\over 2}}) = C$

$\begin{aligned} \sum\limits_{i=1}^{N}ln P(\boldsymbol{x}_{i}|y_{i};\boldsymbol{\mu},\boldsymbol{\Sigma}) &=C +\sum^N_{i=1}[-{1\over 2}ln {\vert \boldsymbol{\Sigma} \vert}-{1\over 2}(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})]\\ &=-{1\over 2}N ln {\vert \boldsymbol{\Sigma} \vert}-{1\over 2}\sum^N_{i=1}(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})+C \end{aligned}\tag{2-10}$

         $(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})$ 是 $1\times p \ \ \ \ p\times p\ \ \ \ p\times 1$ ，因此结果为一实数，由矩阵迹的性质可得： $(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})=tr[(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})]$ ，接下来使用迹的交换性质可得：
$tr[(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})] = tr[(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}]\\ tr[\sum^N_{i=1}(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu})] = tr[\sum^N_{i=1}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}] \tag{2-11}$
        由于协方差矩阵 $\pmb{S}=\dfrac{\sum^N_{i=1}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^T}{N}$ ，因此
$\sum^N_{i=1}(\boldsymbol{x}_i-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i-\boldsymbol{\mu}) = tr(N\boldsymbol{S\Sigma}^{-1})=Ntr(\boldsymbol{S\Sigma}^{-1})\tag{2-12}$
        代入式子（2-10）可得
$\begin{aligned} \sum\limits_{i=1}^{N}ln P(\boldsymbol{x}_{i}|y_{i};\boldsymbol{\mu},\boldsymbol{\Sigma}) =-{1\over 2}N ln {\vert \boldsymbol{\Sigma} \vert} -{1\over 2}Ntr(\boldsymbol{S\Sigma}^{-1}) +C \end{aligned}\tag{2-13}$

        将此式带入 $\Upsilon$ 可得：
$\begin{aligned}\Upsilon &= -{1\over 2}N_1 ln {\vert \boldsymbol{\Sigma} \vert} -{1\over 2}N_1tr(\boldsymbol{S_1\Sigma}^{-1}) -{1\over 2}N_2 ln {\vert \boldsymbol{\Sigma} \vert} -{1\over 2}N_2tr(\boldsymbol{S_2\Sigma}^{-1}) +\hat{C}\\ &=-{1\over 2}[N ln {\vert \boldsymbol{\Sigma} \vert}+N_1tr(\boldsymbol{S_1\Sigma}^{-1})+N_2tr(\boldsymbol{S_2\Sigma}^{-1})]+\hat{C}\end{aligned}\tag{2-14}$
        对 $\Upsilon$ 求偏导可得：
$\begin{aligned} \dfrac{\partial \Upsilon}{\partial \boldsymbol{\Sigma}} &=-\dfrac{1}{2}[N\dfrac{1}{|\boldsymbol{\Sigma} |}|\boldsymbol{\Sigma} |\boldsymbol{\Sigma}^{-1}+N_{1}\dfrac{\partial tr(\boldsymbol{\Sigma} ^{-1}\boldsymbol{S}_{1})}{\partial \boldsymbol{\Sigma}}+N_{2}\dfrac{\partial tr(\boldsymbol{\Sigma} ^{-1}\boldsymbol{S}_{2})}{\partial \boldsymbol{\Sigma}}]\\ &=-\dfrac{1}{2}[N\boldsymbol{\Sigma}^{-1}+N_{1}\boldsymbol{S}_{1}^{T}(-1)\boldsymbol{\Sigma} ^{-2}+N_{2}\boldsymbol{S}_{2}^{T}(-1)\boldsymbol{\Sigma} ^{-2}]\\ &=-\dfrac{1}{2}(N\boldsymbol{\Sigma}^{-1}-N_{1}\boldsymbol{S}_{1}^{T}\boldsymbol{\Sigma} ^{-2}-N_{2}\boldsymbol{S}_{2}^{T}\boldsymbol{\Sigma} ^{-2}) \end{aligned} \tag{2-15}$
        令 $\dfrac{\partial \Upsilon}{\partial \boldsymbol{\Sigma}}=0$ ，可得
$N\boldsymbol{\Sigma}^{-1}-N_{1}\boldsymbol{S}_{1}^{T}\boldsymbol{\Sigma} ^{-2}-N_{2}\boldsymbol{S}_{2}^{T}\boldsymbol{\Sigma} ^{-2}=0 \\ \hat{\boldsymbol{\Sigma}} = \dfrac{N_{1}\boldsymbol{S}_{1}+N_{2}\boldsymbol{S}_{2}}{N} \tag{2-16}$

通过上述公式，所有的未知参数都已经估计出来了，当需要判断一个新样本 $\boldsymbol{x}_i$ 时，可分别求出 $P(\pmb{x}|y=0)P(y=0)和P(\pmb{x}|y=1)P(y=1)$ 的概率，概率大者为样本数据所属类别。

3 代码实现

这里以Breast-Cancer数据集为例，来实现高斯判别分析，对此数据集的详细介绍，请参考：机器学习实践-针对Breast-Cancer数据集，下面代码部分主要参考：daipuweiai ——高斯判别分析（GDA）Python代码

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
import matplotlib as mpl
import matplotlib.pyplot as plt

class GDA:
    def __init__(self,train_data,train_label):
        """
        这是GDA算法构造函数
        :param train_data: 训练数据
        :param train_label: 训练数据标签
        """
        self.Train_Data = train_data
        self.Train_Label = train_label
        self.postive_num = 0                                                    # 正样本个数
        self.negetive_num = 0                                                   # 负样本个数
        postive_data = []                                                       # 正样本数组
        negetive_data = []                                                      # 负样本数组
        for (data,label) in zip(self.Train_Data,self.Train_Label):
            if label == 1:          # 正样本
                self.postive_num += 1
                postive_data.append(list(data))
            else:                   # 负样本
                self.negetive_num += 1
                negetive_data.append(list(data))
        # 计算正负样本的二项分布的概率
        row,col = np.shape(train_data)
        self.postive = self.postive_num*1.0/row                                 # 正样本的二项分布概率
        self.negetive = 1-self.postive                                          # 负样本的二项分布概率
        # 计算正负样本的高斯分布的均值向量
        postive_data = np.array(postive_data)
        negetive_data = np.array(negetive_data)
        postive_data_sum = np.sum(postive_data, 0)
        negetive_data_sum = np.sum(negetive_data, 0)
        self.mu_positive = postive_data_sum*1.0/self.postive_num                # 正样本的高斯分布的均值向量
        self.mu_negetive = negetive_data_sum*1.0/self.negetive_num              # 负样本的高斯分布的均值向量
        # 计算高斯分布的协方差矩阵
        positive_deta = postive_data-self.mu_positive
        negetive_deta = negetive_data-self.mu_negetive
        self.sigma = []
        for deta in positive_deta:
            deta = deta.reshape(1,col)
            ans = deta.T.dot(deta)
            self.sigma.append(ans)
        for deta in negetive_deta:
            deta = deta.reshape(1,col)
            ans = deta.T.dot(deta)
            self.sigma.append(ans)
        self.sigma = np.array(self.sigma)
        #print(np.shape(self.sigma))
        self.sigma = np.sum(self.sigma,0)
        self.sigma = self.sigma/row
        self.mu_positive = self.mu_positive.reshape(1,col)
        self.mu_negetive = self.mu_negetive.reshape(1,col)

    def Gaussian(self, x, mean, cov):
        """
        这是自定义的高斯分布概率密度函数
        :param x: 输入数据
        :param mean: 均值向量
        :param cov: 协方差矩阵
        :return: x的概率
        """
        dim = np.shape(cov)[0]
        # cov的行列式为零时的措施
        covdet = np.linalg.det(cov + np.eye(dim) * 0.001)
        covinv = np.linalg.inv(cov + np.eye(dim) * 0.001)
        xdiff = (x - mean).reshape((1, dim))
        # 概率密度
        prob = 1.0 / (np.power(np.power(2 * np.pi, dim) * np.abs(covdet), 0.5)) * \
               np.exp(-0.5 * xdiff.dot(covinv).dot(xdiff.T))[0][0]
        return prob

    def predict(self,test_data):
        predict_label = []
        for data in test_data:
            positive_pro = self.Gaussian(data,self.mu_positive,self.sigma)
            negetive_pro = self.Gaussian(data,self.mu_negetive,self.sigma)
            if positive_pro >= negetive_pro:
                predict_label.append(1)
            else:
                predict_label.append(0)
        return predict_label

def run_main():
    """
       这是主函数
    """
    # 导入乳腺癌数据
    breast_cancer = load_breast_cancer()
    data = np.array(breast_cancer.data)
    label = np.array(breast_cancer.target)
    data = MinMaxScaler().fit_transform(data)

    # 解决画图是的中文乱码问题
    mpl.rcParams['font.sans-serif'] = [u'simHei']
    mpl.rcParams['axes.unicode_minus'] = False

    # 分割训练集与测试集
    train_data,test_data,train_label,test_label = train_test_split(data,label,test_size=1/4)

    # 数据可视化
    plt.scatter(test_data[:,0],test_data[:,1],c = test_label)
    plt.title("乳腺癌数据集显示")
    plt.show()

    # GDA结果
    gda = GDA(train_data,train_label)
    test_predict = gda.predict(test_data)
    print("GDA的正确率为：",accuracy_score(test_label,test_predict))

    # 数据可视化
    plt.scatter(test_data[:,0],test_data[:,1],c = test_predict)
    plt.title("GDA分类结果显示")
    plt.show()

    # Logistic回归结果
    lr = LogisticRegression()
    lr.fit(train_data,train_label)
    test_predict = lr.predict(test_data)
    print("Logistic回归的正确率为：",accuracy_score(test_label,test_predict))

    # 数据可视化
    plt.scatter(test_data[:,0],test_data[:,1],c = test_predict)
    plt.title("Logistic回归分类结果显示")
    plt.show()

if __name__ == '__main__':
    run_main()

输出结果为：
	GDA的正确率为： 0.972027972027972
	Logistic回归的正确率为： 0.958041958041958

4 总结

4.1 高斯判别模型与逻辑回归比较

高斯判别模型的假设是 $P (X ∣ Y)$ 服从高斯分布， $P (Y)$ 服从伯努利分布；逻辑回归的概率解释中可以看出它的假设是 $\theta)$ 服从伯努利分布。

假如我们将 $p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)$ 视作关于 $x$ 的函数，该函数可以表示成logistic回归形式：
$P(y=1|\pmb{x};\phi,\pmb{\mu}_{0},\pmb{\mu}_{1},\pmb{\Sigma})=\dfrac{1}{1+exp(-\pmb{\theta}^{T}\pmb{x})}$
其中， $\pmb{\theta}$ 可以用以 $\phi,\pmb{\mu}_{0},\pmb{\mu}_{1},\pmb{\Sigma}$ 为变量的函数表示。

如果 $P (X ∣ Y)$ 服从高斯分布，那么， $P (Y ∣ X)$ 就可以表示成逻辑回归函数形式；相反，如果 $P (Y ∣ X)$ 可表示成逻辑回归函数形式，并不代表 $P (X ∣ Y)$ 服从高斯分布。这意味着高斯判别模型比逻辑回归需要更加严格的模型假设，当然，如果高斯模型的假设是正确的，那么，高斯判别模型具有更高的拟合度。基于以上原因，在实践中使用逻辑回归比使用高斯判别模型更普遍。