贝叶斯分类器(bayes)

条件概率

P(A|B) = P(B|A)* P(A) / P(B)

全概率公式

P(B) = P(A1B) + P(A2B) + ··· + P(AnB)
= ∑P(AiB)
= ∑P(B|Ai)* P(Ai)    (i=12,····,n)

贝叶斯公式

是将全概率公式带入到条件概率公式当中,对于事件Ak和事件B有:
P(Ak|B) = (P(Ak)* P(B|Ak)) / ∑P(B|Ai)* P(Ai)      (i=12,····,n)

先验*似然=后验

对于P(Ak|B)来说,分母 ∑P(B|Ai)*P(Ai) 为一个固定值,因为我们只需要比较P(Ak|B)的大小,所以可以将分母固定值去掉,并不会影响结果。
因此,可以得到下面公式:

P(Ak|B) = P(Ak)* P(B|Ak)

其中P(Ak)表示先验概率,P(Ak|B)表示后验概率,P(B|Ak)表示似然函数。

特征条件独立假设

在分类问题中,常常需要把一个事物分到多个类别当中。
事物又有许多属性,即x=(x1,x2,···,xn)。
事物中的类别常常也是多个,即y=(y1,y2,···,yk)。
P(y1|x),P(y2|x),…,P(yk|x),表示x属于某个分类的概率,那么,我们需要找出其中最大的那个概率P(yk|x),根据上一步得到的公式可得:

P(yk|x) =P(yk)* P(x|yk) 

样本x有n个属性:x=(x1,x2,···,xn),则P(yk|X) =P(yk)* P(x1,x2,···,xn|yk) 如果假设x的n个属性条件彼此独立,就是各条件之间互不影响。上述结果变为:P(x1,x2,···,xn|yk) = ∏P(xi|yk)

最终公式演变为:P(yk|x) =P(yk)* ∏P(xi|yk),根据该公式就可以解决分类问题了。

拉普拉斯平滑

定义:为了解决零概率的问题,法国数学家拉普拉斯最早提出用加 1 的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。

公式P(yk|x) = P(yk)* ∏P(xi|yk),是一个多项乘法公式,其中有一项数值为0,则整个公式就为0,显然不合理,避免每一项为零的做法就是,在分子、分母上各加一个数值。

P(y) = (|Dy| + 1) / (|D| + N),其中|Dy|表示分类为y的样本数,|D|表示样本总数。
P(xi|Dy) = (|Dy,xi| + 1) / (|Dy| + Ni),其中|Dy,xi|表示分类为y属性为i的样本数,|Dy|表示分类为y的样本数,Ni表示i属性的可能的取值数。

意义:假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。
案例分析-1:
假设在文本分类中,有3个类,C1、C2、C3,在指定的训练样本中,某个词语K1,在各个类中观测计数分别为099010,K1的概率为00.990.01,对这三个量使用拉普拉斯平滑的计算方法如下:1/1003 = 0.001991/1003=0.98811/1003=0.011

朴素贝叶斯分类流程

计算过程:
这里写图片描述
如何计算第3步中的各个条件概率?
1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计。
即:
这里写图片描述
如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
这里写图片描述
因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:
这里写图片描述
朴素贝叶斯实现分类的三个阶段:
实现方式如下图所示:
这里写图片描述
第一阶段:准备阶段
根据具体情况确定特征属性,对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。
第二阶段:分类器训练阶段
这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。
第三个阶段:应用阶段
这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。
案例分析-2:
实现社区所有账号中真实账号与非真实账号的分类。
1、确定特征属性及划分
选择三个特征属性:
a1:日志数量/注册天数,
a2:好友数量/注册天数,
a3:是否使用真实头像。
对选定的三个属性进行划分:
这里写图片描述
2、获取训练样本
这里使用运维人员曾经人工检测过的 1万 个账号作为训练样本。
3、计算训练样本中每个类别的频率
用训练样本中真实账号和不真实账号数量分别除以一万,得到:
这里写图片描述
4、计算每个类别条件下各个特征属性划分的频率:
这里写图片描述
5、使用分类器进行鉴别测试
这个账号使用非真实头像,日志数量与注册天数的比率为0.1,好友数与注册天数的比率为0.2。
这里写图片描述
虽然这个用户没有使用真实头像,但是通过分类器的鉴别,更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个别属性的抗干扰性。
小结:
最终求得概率:
这里写图片描述

bayes算法的优缺点:
优点:

1、算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化即可)。
2、分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储)。

缺点:
1、朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。

在朴素的分类中,我们假定了各个属性之间的独立,这是为了计算方便,防止过多的属性之间的依赖导致的大量计算。这正是朴素的含义,虽然朴素贝叶斯的分类效果不错,但是属性之间毕竟是有关联的,某个属性依赖于另外的属性,于是就有了半朴素贝叶斯分类器:
这里写图片描述
在正式进行计算的时候,将另外一个依赖的属性加进去,计算量不会复杂太多,由于是基于“计数”,所以基本和朴素的计算方式类似。
因此,对某个样本x 的预测朴素贝叶斯公式就由如下:
这里写图片描述
修正为如下的半朴素贝叶斯分类器公式:
这里写图片描述
从上式中,可以看到类条件概率 P(xi | c) 修改为了 xi 依赖于分类c 和 一个依赖属性pai。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值