7-朴素贝叶斯法-分类-监督方法

   参考:《统计学习方法》李航
     本文想用一个例子理清朴素贝叶斯的原理。发现,它只是概率统计中的条件概率+全概率应用而已,再加上个特征之间相互独立的假设。
    在已有的人群中,颜值高的人中,性格傲娇的比例最大,性格温顺的比例次之。那么如果新来一个人,颜值高,就将它判断为性格傲娇。这稍微说明了朴素贝叶斯的原理。
    但是目前,我对里面的拉普拉斯平滑并不理解。在计算过程中,如果某个作为分母的概率值很小,甚至接近0,就会对计算结果产生较大影响。为了避免这种问题,就要将该概率值变大点,这里涉及到拉普拉斯平滑(Laplace smoothing)。但我的疑问是,人为地将该概率值变大,有什么依据?难道不会影响结果的合理性?请高手回答。

背景是 假设我们手上有n个实例,每个实例均有m个特征,共属k个类别【可看成第n+1个特征有k个取值】。比如,我们总共收集了100片叶子,每个叶子均有2个特征X=(颜色,尺寸),共属2个类别-嫩叶,老叶。
先验概率就是每个类别的在总体中的比例。比如,一共有30片叶子是嫩叶,嫩叶的先验概率是30%(30/100);剩下70片叶子是老叶,老叶的先验概率是70%(70/100)。
条件概率就是在某个类别下,某个特征组合在总体中的比例。比如,在30片嫩叶中,颜色是“绿色”,尺寸是“小”,拥有这样的特征的嫩叶是15片,条件概率是50%(15/30)。
朴素贝叶斯的假设特征之间并无联系,也就是特征之间是相互独立的。而在本例中,则需要假设,颜色、尺寸相互之间都没有相互关系。这无疑是简化了问题的复杂性。所以,称之为“朴素”,就是简单的意思。
    在实际的某些场景中,这是不合理的。比如,从人中抽取特征X=(身高,体重),一般来说,身高越高明显体重也会较重,身高和体重这两个特征明显有依赖关系。因此,在这种情况下,朴素贝叶斯的分类效果并不好。
 
现在任务是, 当我们手上有(颜色=绿色,尺寸=小)的叶子时,我们想知道,具备这样特征的叶子中,有多少片是嫩叶的,写成数学符号,就是求 P(叶子 = 嫩叶 | 颜色=绿色,尺寸=小)

S1 根据条件概率公式P(AB)=P(A|B)*P(B),我们有
式1:P(叶子=嫩叶 | 颜色=绿色,尺寸=小) * P (颜色=绿色,尺寸=小)= P(叶子=嫩叶 ,颜色=绿色,尺寸=小) 
式2:P(颜色=绿色,尺寸=小 | 叶子=嫩叶) * P (叶子=嫩叶)=  P(叶子=嫩叶 ,颜色=绿色,尺寸=小) 

两个等式的右边是相同的,因此有    式1左边 = 式2左边
P(叶子=嫩叶 | 颜色=绿色,尺寸=小) * P (颜色=绿色,尺寸=小) = P(颜色=绿色,尺寸=小 | 叶子=嫩叶) * P (叶子=嫩叶)

S2 将等式的左边部分调到右边
式3:P(叶子=嫩叶 | 颜色=绿色,尺寸=小) = P(颜色=绿色,尺寸=小 | 叶子=嫩叶* P (叶子=嫩叶)/  P (颜色=绿色,尺寸=小)

S3 而在朴素贝叶斯的假设下,我们有
P(颜色=绿色,尺寸=小 | 叶子=嫩叶) = P(颜色=绿色 |叶子 = 嫩叶)* P(尺寸=小 |叶子 = 嫩叶)
P (颜色=绿色,尺寸=小) = P(颜色=绿色)* P(尺寸=小)

S4 把式3的右边替换掉,我们有
式4P(叶子=嫩叶 | 颜色=绿色,尺寸=小) = P(颜色=绿色 |叶子 = 嫩叶)* P(尺寸=小 |叶子 = 嫩叶) * P (叶子=嫩叶) / 【 P(颜色=绿色)* P(尺寸=小)】

S5 根据条件概率,我们有
P(颜色=绿色 |叶子 = 嫩叶)* P(叶子=嫩叶) = P(颜色=绿色,叶子=嫩叶)
P(尺寸=小 |叶子 = 嫩叶) * P(叶子=嫩叶) = P(尺寸=小,叶子=嫩叶)
转变下形式
P(颜色=绿色 |叶子 = 嫩叶)= P(颜色=绿色,叶子=嫩叶) / P(叶子=嫩叶) 
P(尺寸=小 |叶子 = 嫩叶) = P(尺寸=小,叶子=嫩叶) / P(叶子=嫩叶) 

S6 最后可以得到
式5P(叶子=嫩叶 | 颜色=绿色,尺寸=小) = P(颜色=绿色,叶子=嫩叶) * P(尺寸=小,叶子=嫩叶) / 【 P(叶子=嫩叶)  *  P(颜色=绿色)* P(尺寸=小)】

S7 只要将右式的每部分都计算出来,就可以得到目标概率 P(叶子=嫩叶 | 颜色=绿色,尺寸=小)。

S8 同理,也可以求出 P(叶子=老叶 | 颜色=绿色,尺寸=小)。也就是可以求出所有类别的条件概率,然后再选概率大的类别,就当成是该输入的类别。
    比如本例中,如果算出P(叶子=嫩叶 | 颜色=绿色,尺寸=小) = 0.6,P(叶子=老叶 | 颜色=绿色,尺寸=小) = 0.3,那么根据朴素贝叶斯的思想,我们会将这枚( 颜色=绿色,尺寸=小)的叶子判断为 嫩叶


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值