1、联合概率分布
联合概率分布简称联合分布,是两个及以上随机变量组成的随机变量的概率分布。
边缘分布(Marginal Distribution)指在概率论和统计学的多维随机变量中,只包含其中部分变量的概率分布。
假设有一个和两个变量相关的概率分布:
条件概率分布
对于二维随机变量(X,Y),可以考虑在其中一个随机变量取得(可能的)固定值的条件下,另一随机变量的概率分布,这样得到的X或Y的概率分布叫做条件概率分布,简称条件分布。
3、条件分布函数
重点:边缘分布和条件分布的不同在于边缘分布是某一维取全值得条件概率之和。即边缘概率p=p(Y,X=all)条件概率p=p(Y,X=x)
4、独立性与条件独立
独立性:设A,B为随机事件,若同时发生的概率等于各自发生的概率的乘积,则A,B相互独立。
定义1
条件独立性:如果P(X,Y|Z)=P(X|Z)P(Y|Z),或等价地P(X|Y,Z)=P(X|Z),则称事件X,Y对于给定事件Z是条件独立的,也就是说,当Z发生时,X发生与否与Y发生与否是无关的。
5、贝叶斯与朴素贝叶斯
贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 [1] 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。
那么既然是朴素贝叶斯分类算法,它的核心算法又是什么呢?
是下面这个贝叶斯公式:
换个表达形式就会明朗很多,如下:
朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯分类的正式定义如下:
1、设为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合。
3、计算。
4、如果,则。
那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:
1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计。即
。
3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:
拿分类问题举例,对于样本 x(假设是一个n维的向量),我们要求 ,来估计所属的类别y。
根据贝叶斯公式,可以得到:
……
右边的这个 是我们希望通过训练样本求得的。
如果是普通的贝叶斯,那么这个 的空间会很大,与n的大小乘指数级增长(因为有 种可能嘛);
如果是朴素贝叶斯,既然条件独立,那么就可以把我们要求解的这个式子写成下面的样子:
这样一来,就可以把hypothesis的空间减少到与n的大小是线性关系了。