朴素贝叶斯分类器

最新推荐文章于 2024-06-12 17:25:18 发布

Duckie-duckie

最新推荐文章于 2024-06-12 17:25:18 发布

阅读量349

点赞数

分类专栏：机器学习文章标签：数据机器学习算法数据分析数据挖掘

本文链接：https://blog.csdn.net/zb123455445/article/details/78385994

版权

机器学习专栏收录该内容

63 篇文章 4 订阅

订阅专栏

模型概述

朴素贝叶斯方法，是指

朴素：特征条件独立

贝叶斯：基于贝叶斯定理

根据贝叶斯定理，对一个分类问题，给定样本特征x，样本属于类别y的概率是

p (y | x) = p ( x | y ) p ( y ) p ( x ) 。 。 。 。 。 。 （ 1 ）

在这里，x是一个特征向量，将设x维度为M。因为朴素的假设，即特征条件独立，根据全概率公式展开，公式（1）可以表达为

p (y = c k | x) = \prod M i = 1 p ( x i | y = c k ) p ( y = c k ) \sum k p ( y = c k ) \prod M i = 1 P ( x i | y = c k ) 。 。 。 。 （ 2 ）

这里，只要分别估计出，特征

xi 在每一类的条件概率就可以了。类别y的先验概率可以通过训练集算出，同样通过训练集上的统计，可以得出对应每一类上的，条件独立的特征对应的条件概率向量。
如何统计，就是下一部分——学习——所关心的内容。

学习（参数估计）

下面介绍如何从数据中，学习得到朴素贝叶斯分类模型。概述分类方法，并提出一个值得注意的问题。

学习

训练集TrainingSet=

{(x1,y1),(x2,y2),...,(xN,yN)} 包含N条训练数据，其中

xi=(x(1)i,x(2)i,...,x(M)i)T 是M维向量，

yi∈{c1,c2,...cK} 属于K类中的一类。

学习 1.首先，我们来计算公式（2）中的 p(y=ck)

$p (y = c k) = \sum N i = 1 I （ y i = c k ） N 。。。。（ 3 ）$
其中 I(x) 为指示函数，若括号内成立，则计1，否则为0。

学习 2.接下来计算分子中的条件概率，设 M 维特征的第 j 维有 L 个取值，则某维特征的某个取值 ajl ，在给定某分类 ck 下的条件概率为：

$p (x j = a j l | y = c k) = \sum N i = 1 I ( x j i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) 。。。（ 4 ）$

经过上述步骤，我们就得到了模型的基本概率，也就完成了学习的任务。

分类

通过学到的概率，给定未分类新实例

X ，就可以通过上述概率进行计算，得到该实例属于各类的后验概率

p(y=ck|X) ，因为对所有的类来说，公式（2）中分母的值都相同，所以只计算分子部分即可，具体步骤如下：

分类 1.计算该实例属于 y=ck 类的概率
$p (y = c k | X) = p (y = c k) \prod j = 1 n p (X (j) = x (j) | y = c k) 。。。（ 5 ）$
分类 2.确定该实例所属的分类 y
$y = a r g max c k p (y = c k | X) 。。。。（ 6 ）$
于是我们得到了新实例的分类结果

拉普拉斯平滑

到这里好像方法已经介绍完了，实则有一个小问题需要注意，在公式（3）（4）中，如果从样本中算出的概率值为0该怎么办呢？下面介绍一种简单方法，给学习步骤中的两个概率计算公式，分子和分母都分别加上一个常数，就可以避免这个问题。更新过后的公式如下：

$p (y = c k) = \sum N i = 1 I （ y i = c k ） + λ N + K λ 。。。。（ 7 ）$
K 是类的个数
$p (x j = a j l | y = c k) = \sum N i = 1 I ( x j i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + L j λ 。。。（ 8 ）$
Lj 是第 j 维特征的最大取值