A 说明
按照西瓜书的顺序,接下来的两章是神经网络跟SVM,但是因为同时在学习另一本书的原因,先复习了贝叶斯相关的原理
20200113,写博客太费时间,如果明天进度合理,再继续写
B 朴素贝叶斯
B.1贝叶斯公式
昨晚复习E-M算法的时候,遇到了一些麻烦,跟全概率公式有关,这里先列出全概率公式,暂时不会La Tex,粗略看了一下,一时半会应该学不会,下篇博客之前再学吧
Pa = Eb Pb * Pa|b
这个公式很好理解,由于Eb Pb = 1,所以上述公式用自然语言来解释,即b一定会发生时,那么a的发生与否与b无关,此时等式右边等同于a发生的概率。接下来,再看联合概率公式
PbPa|b = Pa,b = Pa * Pb|a
从右边往左边看,这个公式同样用自然语言来解释,即已知a发生了,与上述一样,b的发生与否与a无关了,此时等式右边等同于a,b同时发生的概率
对上式做一个变形,得到
Pb|a = (PbPa|b)/Pa
Pb-i|a = (Pb-iPa|b-i)/Pa
首先,由全概率公式可知,上述的公式肯定是个概率,假设其中分子 PbPa|b 为Q,则分母便包含了b的值域范围内的所有的Q,即E Q。从个人的角度来看,可以认为b为a的一个分量,或者说一个属性
其次,用自然语言来解释,左边的式子是假设a发生的条件下,求b发生的概率。右边的式子是求a的一个分量的概率,即b-i分量出现的概率。需要注意的事,a的分布已知,同时,这里认为Pb也是已知的,并且后者被称为先验分布,顾名思义,就是根据先前的经验为Pb伪造的一个分布。
对应于先验分布,Pb-i|a被称之为后验分布。后验的由来是这样的,先如今,有了一系列关于a的真实世界的样本,以这些样本发生为条件,来计算Pb-i,相当于加入了真实信息之后的分布。
再回到上述的右式,此时Pb-i已知,Pa已知,且b-i为样本中a的一个分量,故也可以用计数等方式求解出来,因此,先验概率+真实样本 -> 后验概率 的式子便说清楚了,这个式子即是贝叶斯公式
B.2 朴素贝叶斯算法
对于现实世界的样本而言,一般会有比较多的属性,假设有n个属性,一个属性有m个取值,则求解(Pb-i*Pa1,a2…an|b-i)时,因为各个属性的联合空间太大,普通的计数方式求概率方式不太可行。因此朴素贝叶斯算法提出一个假设,a1,a2…an之间相互独立,将一个联合空间转换为各个属性的独立空间的乘积,即
Pb-i * Pa1|b-i…Pan|b-i
出现了连乘的形式,求解方式已经呼之欲出了,想要得到最大化后验概率,只需要用极大似然估计求解上述的值即可
那么为什么要最大化后验概率呢?因为后验概率主要是由真实样本引入的,故此概率越大,即意味着在先验概率的限制之下&#x