朴素贝叶斯分类法（非常朴素的解释）

最新推荐文章于 2024-08-14 22:32:50 发布

wuyijian_ml

最新推荐文章于 2024-08-14 22:32:50 发布

阅读量8.4k

点赞数 8

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/wyq_wyj/article/details/79485618

版权

本文介绍了朴素贝叶斯分类法的基本概念，包括概率论、似然估计和后验概率最大化。通过一个文本文档分类的简单例子，展示了算法在实际中的运用，并讨论了如何进行增量学习。朴素贝叶斯法是一种基于贝叶斯定理和特征独立假设的简单高效分类算法。

摘要由CSDN通过智能技术生成

最近在做一个短文本分类系统，尝试用朴素贝叶斯算法做了baseline的模型（最终没有采用这种算法），朴素贝叶斯法是个非常简单高效的分类算法，这个算法断断续续看了好几遍，今天做一个总结，内容参考了李航的《统计学习方法》以及Goodfellow的《深度学习》。

简要解释下概率
简要解释下似然以及极大似然的含义
算法介绍
后验概率最大化的含义(算法为什么有效)
实际运用以及如何增量学习

概率和概率论

我们经常会听说到，对于概率的解释，五花八门，那么，什么是概率呢，在知乎上看到这样的解释

物理世界本身存在的随机性（客观概率）
是我们由于信息不足而对事件发生可能性的度量（主观概率）。

关于概率论，在《深度学习》中，作者提供了这样的解释

概率论是用于表示不确定性陈述(statement) 的数学框架。它不仅提供了量化不确定性的方法，也提供了用于导出新的不确定性陈述的公理。在人工智能领域，我们主要以两种方式来使用概率论。首先，概率法则告诉我们AI系统应该如何推理，所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的AI系统的行为。概率论是众多科学和工程学科的基本工具。概率论使我们能够作出不确定的陈述以及在不确定性存在的情况下推理。摘自《深度学习》

对于以上解释，我并没有足够的能力来解读，大家可以自己去体会。

简要解释下似然以及极大似然估计的含义

似然(likehood), 表示可能性，对于似然的解释也是有各种版本, 这里我会写一个比较易于理解的版本。
似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。
我们用概率表示在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性，则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计，似然也一般用于求解概率模型的参数估计。拿一个别人的栗子：
考虑投掷一枚硬币的实验。通常来说，已知投出的硬币正面朝上和反面朝上的概率各自是 $pH$ =0.5，便可以知道投掷若干次后出现各种结果的可能性。比如说，投两次都是正面朝上的概率是0.25。用条件概率表示，就是：

P (HH ∣ p H = 0.5) = 0.5 2 = 0.25

$P(\mbox{HH} \mid p_H = 0.5) = 0.5^2 = 0.25$
其中H表示正面朝上。

在统计学中，我们关心的是在已知一系列投掷的结果时，关于硬币投掷时正面朝上的可能性的信息。我们可以建立一个统计模型：假设硬币投出时会有 $pH$ 的概率正面朝上，而有1 − $pH$ 的概率反面朝上。这时，条件概率可以改写成似然函数：

L (p H = 0.5 ∣ HH) = P (HH ∣ p H = 0.5) = 0.25

$L(p_H = 0.5 \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = 0.5) =0.25$
也就是说，对于取定的似然函数，在观测到两次投掷都是正面朝上时，

pH=0.5 p H = 0.5 $pH = 0.5$ 的似然性是0.25（ 这并不表示当观测到两次正面朝上时pH = 0.5 的概率是0.25）。

如果考虑 $pH$ = 0.6，那么似然函数的值也会改变。

L (p H = 0.6 ∣ HH) = P (HH ∣ p H = 0.6) = 0.36

$L(p_H = 0.6 \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = 0.6) =0.36$
注意到似然函数的值变大了。这说明，如果参数

pH p H $pH$ 的取值变成0.6的话，结果观测到连续两次正面朝上的概率要比假设

pH p H $pH$ = 0.5时更大。也就是说，参数

pH p H $pH$ 取成0.6 要比取成0.5 更有说服力，更为“合理”。总之，似然函数的重要性不是它的具体取值，而是当参数变化时函数到底变小还是变大。对同一个似然函数，如果存在一个参数值，使得它的函数值达到最大的话，那么这个值就是最为“合理”的参数值。

在这个例子中，似然函数实际上等于：

L (p H = θ ∣ HH) = P (HH ∣ p H = θ) = θ 2 ， 其 中 0 \leq p H \leq 1

$L(p_H = \theta \mid \mbox{HH}) = P(\mbox{HH}\mid p_H = \theta) =\theta^2，其中0 \le p_H \le 1$
如果取

pH p H $pH$ = 1，那么似然函数达到最大值1。也就是说，当连续观测到两次正面朝上时，假设硬币投掷时正面朝上的概率为1是最合理的。

类似地，如果观测到的是三次投掷硬币，头两次正面朝上，第三次反面朝上，那么似然函数将会是：

L (p H = θ ∣ HHT) = P (HHT ∣ p H = θ) = θ 2 (1 - θ) ， 其 中 T 表 示 反 面 朝 上 ， 0 \leq p H \leq 1

$L(p_H = \theta \mid \mbox{HHT}) = P(\mbox{HHT}\mid p_H = \theta) =\theta^2(1 - \theta)，其中T表示反面朝上，0 \le p_H \le 1$
这时候，似然函数的最大值将会在

pH=23 p H = 2 3 $p_H = \frac{2}{3}$ 的时候取到。也就是说，当观测到三次投掷中前两次正面朝上而后一次反面朝上时，估计硬币投掷时正面朝上的概率

pH=23 p H = 2 3 $p_H = \frac{2}{3}$ 是最合理的。

所以，通过极大化似然函数，我们可以得到概率模型的最优参数。极大似然估计的常用策略是先假定某个分布具有某种确定的概率分布形式，再基于样本对概率分布的参数进行估计，同时，极大似然估计源自频率主义学派，是根据数据采样来估计概率分布参数的经典方法。

算法介绍

朴素贝叶斯法基于贝叶斯定理和特征条件独立假设，首先抛出我们伟大的贝叶斯定理：

P (A | B) = P ( B | A ) P ( A ) P ( B )

$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
本文并不会对贝叶斯定理做展开，只是介绍其在朴素贝叶斯法中的应用

假设输入空间 $\mathcal{X}\subseteq R^n$ 为 $n$ 维向量的集合，输出空间为类标记的集合 $\mathcal{Y}\subseteq\{c_1, c_2, \cdots,c_k\}$ .输入特征向量 $x\in \mathcal{X}$ , 输出类标记 $y\in \mathcal{Y}$ . $X$ 是定义在输出空间 $X$