贝叶斯定理
引言
传送门,讲解到位:https://www.matongxue.com/madocs/279
考虑这样一种情况
事件A和事件B发生有交集(这里可以用集合概念)
那必然有一个条件概率的公式,在A事件发生下,B事件发生的概率:P(B|A) = P(AnB) / P(A),这其实很好理解,用面积的知识,发生A事件的概率面积作为分母,A和B相交的事件概率作为分子,这就求出了A事件发生情况下,B事件发生的概率
下面这个公式很好推导,也就是P(B|A) = P(AnB) / P(A)
和 P(A|B) = P(BnA) / P(B)
,就可算得
朴素贝叶斯分类算法核心就是上述理论公式转换如下,注意这个式子是需要假设各个特征之间相互独立
,特征之间不会产生影响
重新理解最大似然估计
传送门,讲解到位:https://www.matongxue.com/madocs/447
首先要去理解似然和概率的关系?
当我们知道某一具体事件发生的可能性,这就是概率
,比如我们知道在客观情况下,硬币正反面的参数是各占0.5,所以我们在扔10次硬币的时候出现5次朝上的概率下图计算,满足二项分布:
组合数计算公式:
那当我们不了解这个具体参数,要通过实践才能去推测这个参数,这就是似然
,相当于多次实践归纳推理,那么得到最有可能的参数也就是最大似然估计
单次实验(抛10次,出现6次花面),我们不知道参数,那可以假设参数为0.5、0.6…,拿0.5和0.6计算,两次做比较发现0.6参数的可能性是0.5参数的1.2倍,那肯定是要选取最有可能的参数,自然就是0.6
那接下来,用多次实验进行最大似然估计,我们每一次实验抛10次硬币,总共进行6次实验,假设结果为{4,5,5,2,7,4},分别是每一次实验出现花面的个数,当然每次实验是独立的,不受其他实验的干扰,再进行通式,用x1,x2…xn表示每次结果,则在同一参数下,所求的独立事件的联合概率为下图,(注意:这个参数我们并不知道),
表示在同一个参数下的实验结果,也可以认为是条件概率
我们想求的必然是L(theta)最大值,也就是L(theta)=argmax
朴素贝叶斯
假设样本各属性条件独立,互不影响,这就是朴素贝叶斯的思想,公式就是套用了贝叶斯定理,如下图所示,P©表示样本分类的概率(西瓜举例,好瓜还是坏瓜的概率对于样本而言),P(X|C)表示每个属性分类的概率连乘(西瓜举例,就是每个属性的好坏概率)
那显然,P(X)都是一样的是常量,就比较关系而言可以省略,并且要求最大值,所以公式变换如下:
这里还要阐述下对于离散和连续值属性的处理,离散值很好解决,直接统计个数/总样本数即可,连续值要求出该属性取值的均值和方差做正态分布,具体就是西瓜书上下图所言
示例
,比如现在来一条数据,判断好瓜还是坏瓜?
数据计算过程如下
但是我们设想这样一种,如果某个属性的分类后的概率为0(也就是该分类情况下没有该属性值的出现)?应该如何处理?
这里我们要使其平滑,常用的方法就是拉普拉斯修正
,分子加1,分母为N,N表示该分类情况下该属性的次数,也就是下图公式
半朴素贝叶斯分类器
假设每个属性在类别之外最多依赖一个其他属性,这就是ODE(独依赖估计),其实就是把依赖的属性作为类别一起考虑,pai就是依赖属性
假设所有的属性都依赖于同一个”超夫“属性,这就是SPODE(超父独依赖估计),xi就是依赖的超父属性
EM算法
暂时省略
类同于K-Means聚类算法的思想
传送门:https://www.bilibili.com/video/BV1i4411G7Xv?p=9&share_source=copy_web