机器学习的基石——概率论和贝叶斯定理

最新推荐文章于 2024-12-16 00:00:00 发布

原创最新推荐文章于 2024-12-16 00:00:00 发布 · 1.7k 阅读

6 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文介绍了联合、边缘及条件概率分布的概念，并探讨了独立性和条件独立性的区别。此外，还详细解释了贝叶斯定理及其在朴素贝叶斯分类算法中的应用。

1、联合概率分布

联合概率分布简称联合分布，是两个及以上随机变量组成的随机变量的概率分布。

对于二维离散随机向量，设X和Y都是离散型随机变量，

和

分别是X和Y的一切可能的几何，则X和Y的联合概率分布可以表示为如下图的列联表，也可以表示为如下的函数形式

其中

2、边缘概率分布

边缘分布（Marginal Distribution）指在概率论和统计学的多维随机变量中，只包含其中部分变量的概率分布。

假设有一个和两个变量相关的概率分布：

关于其中一个特定变量的边缘分布则为给定其他变量的条件概率分布：

在这个边缘分布中，我们得到只关于一个变量的概率分布，而不再考虑另一变量的影响，实际上进行了降维操作。在实际应用中，例如人工神经网络的神经元互相关联，在计算它们各自的参数的时候，就会使用边缘分布计算得到某一特定神经元（变量）的值。 [1]

条件概率分布

对于二维随机变量(X，Y)，可以考虑在其中一个随机变量取得(可能的)固定值的条件下，另一随机变量的概率分布，这样得到的X或Y的概率分布叫做条件概率分布，简称条件分布。

二维随机向量

中，

与

的相互关系除了独立以外，还有相依关系，即随机变量的取值往往彼此是有影响的，这种关系用条件分布能更好地表达出来。

对于二维随机向量

，所谓随机变量X的条件分布，就是在

的条件下X的分布函数。比如，记X为人的体重，Y为人的身高，则X与Y一般有相依关系，现在如果限定Y=172(cm)，在这个条件下体重X的分布显然与X的无条件分布有很大不同。

设给定二维随机向量

，对任意

，若

,则

是一维分布函数，自然称它为条件

下，

的条件分布函数。 [2]

3、条件分布函数

有了条件分布列，我们就可以定义离散随机向量的条件分布。

。 [2]

定义2 在给定

条件下X的条件分布函数为

在给定

条件下Y的条件分布函数为

重点：边缘分布和条件分布的不同在于边缘分布是某一维取全值得条件概率之和。即边缘概率p=p（Y,X=all）条件概率p=p（Y,X=x）

4、独立性与条件独立

独立性：设A，B为随机事件，若同时发生的概率等于各自发生的概率的乘积，则A，B相互独立。

定义1

若

两事件满足等式

则称事件A与B 相互独立。 [1]

给定第三个事件

，如果

，则称X和Y是条件独立事件，符号表示为

。 [1]

若X，Y关于事件Z条件独立，则有以下一些理解：

（1）事件 Z 的发生，使本来可能不独立的事件A和事件B变得独立起来；

（2）事件Z 的出现或发生，解开了X 和 Y 的依赖关系。

5、贝叶斯与朴素贝叶斯

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 [1] 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。

和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

那么既然是朴素贝叶斯分类算法，它的核心算法又是什么呢？

是下面这个贝叶斯公式：

换个表达形式就会明朗很多，如下：

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

朴素贝叶斯分类的正式定义如下：

1、设 $x=\{a_1,a_2,...,a_m\}$ 为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合 $C=\{y_1,y_2,...,y_n\}$ 。

3、计算 $P(y_1|x),P(y_2|x),...,P(y_n|x)$ 。

4、如果 $P(y_k|x)=max\{P(y_1|x),P(y_2|x),...,P(y_n|x)\}$ ，则 $x \in y_k$ 。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即

$P(a_1|y_1),P(a_2|y_1),...,P(a_m|y_1);P(a_1|y_2),P(a_2|y_2),...,P(a_m|y_2);...;P(a_1|y_n),P(a_2|y_n),...,P(a_m|y_n)$ 。

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

$P(x|y_i)P(y_i)=P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)P(y_i)=P(y_i)\prod^m_{j=1}P(a_j|y_i)$

贝叶斯与朴素贝叶斯最大的不同是朴素贝叶斯假设特征之间是独立，互不影响。
拿分类问题举例，对于样本 x(假设是一个n维的向量)，我们要求 $p(y|\bm{x})$ ，来估计所属的类别y。
根据贝叶斯公式，可以得到：
$p(y|\bm{x}) = p(\bm{x}|y)p(y)/p(\bm{x})$ ……
右边的这个 $p(\bm{x}|y)$ 是我们希望通过训练样本求得的。
如果是普通的贝叶斯，那么这个 $p(\bm{x}|y)$ 的空间会很大，与n的大小乘指数级增长(因为有 2^n

种可能嘛)；
如果是朴素贝叶斯，既然条件独立，那么就可以把我们要求解的这个式子写成下面的样子：
$p(\bm{x}|y) = p(x_{1} ,x_{2},...|y) = p(x_{1}|y)*p(x_{2}|y)*....$
这样一来，就可以把hypothesis的空间减少到与n的大小是线性关系了。