关于GMM中的数学基础

小白一枚,接触到GMM(Gaussian mixture model,高斯混合模型),遇到很多概率论和数理统计的知识,在此记录,如有错误,欢迎指正,希望大家多多交流,共同进步。

  1. 随机变量
    定义:设随机试验的样本空间为S={e}, X=X(e)是定义在样本空间S上的实值单值函数。称X=X(e)为随机变量。
    理解:样本空间中的每一个样本都对应着一个数。

  2. 离散型变量(或取值个数有限的变量):取值可一一列举,且总数是确定的,如投骰子出现的点数(1点、2点、3点、4点、5点、6点)。
    (亦有老师说,离散型变量是有限个变量或无限可列个变量(例如几何级数))

  3. 连续型变量(或取值个数无限的变量):取值无法一一列举,且总数是不确定的,如所有的自然数(0、1、2、3……)。
    亦有定义是一个或多个区间

  4. 离散型变量和连续型变量比较
    离散型变量取某个值xi的概率P(xi)是个确定的值(虽然很多时候我们不知道这个值是多少),即P(xi)≠0:例如,投一次骰子出现2点的概率是P(2)=1/6。

    连续型变量取某个值xi的概率P(xi)=0:对于连续型变量而言,“取某个具体值的概率”的说法是无意义的,因为取任何单个值的概率都等于0,只能说“取值落在某个区间内的概率”,或“取值落在某个值邻域内的概率”,即只能说P(a<xi≤b),而不能说P(xi)。 为什么是这样?且看下例:
      例如,从所有自然数中任取一个数,问这个数等于5的概率是多少?从所有的自然数中取一个,当然是有可能取到5的,但是自然数有无穷多个,因此取到5的概率是1/∞,也就是0。
      又如在一个区间[0,1],我往区间[0,1]上扔石子的概率一定是1。利用反证法:假设P(0.5)=0.01,那么在这个区间上是有无数个点的,无数点的概率加起来一定是大于1的,与事实想矛盾,证明在区间上一点的概率是0。

    根据前面的例子可知:在连续型变量中:概率为0的事件是有可能发生的,概率为1的事件不一定必然发生。

  5. 概率分布:给出了所有取值及其对应的概率(少一个也不行),只对离散型变量有意义。例如:
    概率分布

  6. 概率函数:用函数形式给出每个取值发生的概率,P(x)(x=x1,x2,x3,……),只对离散型变量有意义,实际上是对概率分布的数学描述。

概率分布和概率函数只对离散型变量有意义,那如何描述连续型变量呢?
答案就是“概率分布函数F(x)”和“概率密度函数f(x)”,当然这两者也是可以描述离散型变量的。

  1. 概率分布函数F(x)给出取值小于某个值的概率,是概率的累加形式,即:
    F(xi)=P(x<xi)=sum(P(x1),P(x2),……,P(xi))(对于离散型变量)或求积分(对于连续型变量,见后图)。
    概率分布函数F(x)的性质

  2. 概率密度函数:给出了变量落在某值xi邻域内(或者某个区间内)的概率变化快慢,概率密度函数的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    这里注意,连续型随机变量X的概率跟端点没有关系。

    **连续型变量的概率、概率分布函数、概率密度函数之间的关系(以正态分布为例)**如下图:
      对于正态分布而言,x落在u附近的概率最大,而F(x)是概率的累加和,因此在u附近F(x)的递增变化最快,即F(x)曲线在(u,F(u))这一点的切线的斜率最大,这个斜率就等于f(u)。x落在a和b之间的概率为F(b)-F(a)(图中的红色小线段),而在概率密度曲线中则是f(x)与ab围成的面积S。如下图所示:

在这里插入图片描述

  1. 协方差
    在这里插入图片描述
    均值描述的是样本集合的中间点
    标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均
    方差(variance)是衡量随机变量或一组数据时离散程度的度量。

    我们应该注意到,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集。协方差就是一种用来度量两个随机变量关系的统计量。
    在这里插入图片描述
    当 cov(X, Y)>0时,表明 X与Y 正相关;(X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。)

    当 cov(X, Y)<0时,表明X与Y负相关;(X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。)

    当 cov(X, Y)=0时,表明X与Y不相关。(既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。)

    协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,就要用到协方差矩阵
    下面以三维为例子:
    在这里插入图片描述
    可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差

  2. 极大似然估计
    这里不对极大似然估计做过多的定理解释和推导,只举两个例子来理解极大似然估计。

    例一,有两个完全一样的箱子,箱子甲中有99个黑球,1个白球,箱子乙中有99个白球,1个黑球。随意取一个球,结果为黑球,问黑球是从哪个箱子中取出的?
    关于这个例子,人们猜测是从甲箱子中取出的。因为同样是100个球,但是甲箱子中有99个黑球,而乙箱子中有1个黑球。所以猜测更有可能是从甲箱子中取的。这种 想法就是“最大似然原理”
    例二,一个猎人和一个从未打过猎的普通人一起去森林打猎,两人看到一只兔子,一声枪响,兔子死了。问是谁打死的兔子?
    关于这个例子,人们的猜测是猎人打死的兔子。因为猎人经常打猎,而普通人没有打过猎。这种猜测就是“最大似然原理”

    总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

    原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

    求最大似然估计量的一般步骤

    (1)写出似然函数;

    (2)对似然函数取对数,并整理;

    (3)求导数;

    (4)解似然方程。

参考文献:

基本概念
https://www.jianshu.com/p/0cfc3204af77
极大似然估计
https://blog.csdn.net/qq_39355550/article/details/81809467
协方差
https://blog.csdn.net/Russell_W/article/details/85118486
https://blog.csdn.net/GoodShot/article/details/79940438

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值