分类-3-生成学习-2-高斯判别分析、协方差

参考 http://www.cnblogs.com/jerrylead

多元高斯分布

多变量高斯分布描述的是 n维随机变量的分布情况,这里的 μ 变成了向量, σ 也变成了矩阵 Σ 。写作 N(μ,Σ) 。其中 Σ (协方差矩阵)是一个半正定的矩阵, μ 是高斯分布的均值,下面给出它的概率密度函数:

这里写图片描述

begin-补充-协方差和协方差矩阵:
协方差

在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
这里写图片描述
显然,当X=Y时就是方差啦。
从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y],因此协方差为0的两个随机变量称为是不相关的。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
关于协方差还有以下定义:
1XYE(Xk)k=12...Xkk
2E[XE(X)]kk=12...Xk
3E{(XkYp)}kp=12...XYk+p
4E{[XE(X)]k[YE(Y)]l}kl=12...XYk+l
XE(X)XD(X)XCov(XY)XY

协方差矩阵:

分别为 m n个标量元素的列向量随机变量 X Y,这两个变量之间的协方差定义为 m×n 矩阵.其中 X 包含变量X1,X2......Xm;Y包含变量 Y1,Y2......Yn, 假设 X1 的期望值为 μ1Y2 的期望值为 μ2 ,那么在协方差矩阵中位置 1,2 处的元素就是 X1 Y2 的协方差。
两个向量变量的协方差 Cov(X,Y) Cov(Y,X) 互为转置矩阵。

下面给出一些二元高斯分布的概率密度图:
这里写图片描述
左图以 0 为均值,即μ是一个 2×1 0 向量,Σ是一个单位矩阵 I ,此时的分布也称为多元正太分布。中间的图是以均值0 Σ=0.6I 时的分布图。右边的是以均值 0 Σ=2I时的分布图。可见 Σ 越大,分布图越扁。
这里写图片描述
上图是以均值0,协方差矩阵的取值从左到右依次为:这里写图片描述
下面是上图的轮廓图:
这里写图片描述
Σ=Iμ
这里写图片描述从左到右 μ 依次为:这里写图片描述

end-补充-协方差和协方差矩阵矩阵

高斯辨别模型

如果输入特征 x 连续型随机变量,那么可以使用高斯判别分析模型来确定 p(x|y) ,建立模型如下:
这里写图片描述
现在可以写出下面的概率密度函数:
这里写图片描述
yBernoulli(ϕ) 可得 p(y)=ϕy(1ϕ)1y ;而下面两个式子是由一维高斯分布推广得到。注意这里的参数有两个 μ ,表示在不同的结果模型下,特征均值不同,但我们假设协方差相同。 反映在图上就是不同模型中心位置不同,但形状相同。 这样就可以用直线来进行分隔判别。

从上式可知,模型中的参数是 ϕ,Σ,μ0,μ1 ,因此可得log-likehood:
这里写图片描述
注:由上面可看出,最大似然值的大小与每次预测结果的乘积相关。假如有3个样本,第一个预测结果为类别y=1,且概率为0.1;第二个预测结果为类别y=1,且概率为0.1;第三个预测结果为类别y=0,且概率为0.1;这样似然值就是0.1X0.1X0.1=0.001,log-likehood就是log(0.001)。而假如:第一个预测结果为类别y=1,且概率为0.9;第二个预测结果为类别y=1,且概率为0.9;第三个预测结果为类别y=0,且概率为0.9;这样似然值就是0.9X0.9X0.9=0.729,log-likehood就是log(0.729);显然预测结果越精准,似然值越大。因此我们要求最大似然值。

为了能获得最大似然值,我们对 ϕ,Σ,μ0,μ1 分别求偏导数可以得到:
这里写图片描述
这里 ϕ 代表 y=1 的概率,而 y=0 的概率是 1ϕ ,因此 ϕ=mi=1y(i)m=mi=1I{y(i)=1}m.

ϕy=1
μ0y=0
μ1y=1
Σ
用图来表示我们训练的模型如下:
这里写图片描述
协方差矩阵相同,因此形状相同。 μ不同,因此位置不同。
在测试时,输出结果在图中直线上时,我们认为 p(y=1|x)p(y=0|x)0.5线便

高斯判别分析( GDA)与 logistic 回归的关系

将 GDA 用条件概率方式来表述的话,如下:
p(y=1|x;ϕ,µ0,µ1,Σ) ,和之前的线性回归比较 p(y|x;θ) ,我们可以将前者改写成后者的形式,进而:
这里写图片描述
其中 θϕ,μ0,μ1Σ线 这说明,可以用高斯辨别模型解决的问题也可以通过线性回归来解决。 p(x|y)p(y|x)logistic 但是反过来却不一定成立,因为 GDA(高斯判别分析) 有着更强的假设条件和约束。
如果认定训练数据满足多元高斯分布,那么 GDA 能够在训练集上是最好的模型。然而,我们往往事先不知道训练数据满足什么样的分布, 不能做很强的假设。 Logistic回归的条件假设要弱于GDA,因此更多的时候采用 logistic 回归的方法。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值