半朴素贝叶斯分类器(周志华《机器学习》)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wh357589873/article/details/51384162

基于朴素贝叶斯分类的原理如下:


其中c是label中的分类,x是样本。p(c|x)的意思就是,拿到一个样本,这个样本的属性为x1,x2....,在这种情况下,我要求得样本分类为c的概率。

半朴素贝叶斯的分类。

在朴素的分类中,我们假定了各个属性之间的独立,这是为了计算方便,防止过多的属性之间的依赖导致的大量计算。这正是朴素的含义,虽然朴素贝叶斯的分类效果不错,但是属性之间毕竟是有关联的,某个属性依赖于另外的属性,于是就有了半朴素贝叶斯分类器。

为了计算量不至于太大,假定每个属性只依赖另外的一个。这样,更能准确描述真实情况。

公式就变成:

在正式进行计算的时候,将另外一个依赖的属性加进去,计算量不会复杂太多,由于是基于“计数”,所以基本和朴素的计算方式类似。

确定如何依赖

1.SOPDE方法。这种方法是假定所有的属性都依赖于共同的一个父属性。

2.TAN方法。每个属性依赖的另外的属性由最大带权生成树来确定。

(1)先求每个属性之间的互信息来作为他们之间的权值。

(2)构件完全图。权重是刚才求得的互信息。然后用最大带权生成树算法求得此图的最大带权的生成树。

(3)找一个根变量,然后依次将图变为有向图。

(4)添加类别y到每个属性的的有向边。


上图是三种方法的属性依赖关系。




阅读更多
换一批

没有更多推荐了,返回首页