【机器学习自学笔记4】朴素贝叶斯分类器

最新推荐文章于 2024-07-23 20:25:48 发布

Koorye

最新推荐文章于 2024-07-23 20:25:48 发布

阅读量239

点赞数 1

分类专栏：机器学习文章标签：朴素贝叶斯分类算法贝叶斯定理概率论特征独立

本文链接：https://blog.csdn.net/weixin_45901207/article/details/109366910

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

title: 【机器学习自学笔记4】朴素贝叶斯分类器
date: 2020-10-29 18:34:29
categories: 机器学习
tags:

机器学习
概率论

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。

贝叶斯公式

$\frac{P(AB)}{P(A)} = \frac{P(A|B)P(B)}{P(A)}$

根据贝叶斯公式，如果已知一个实例的特征，要求该实例属于哪个类别的概率最大，只需要知道该特征在每个类别种的概率即可！

即根据先验概率求解后验概率。
$P(类别|特征)=\frac{P(特征|类型)P(类别)}{P(特征)}$
这就是贝叶斯分类的核心思想

朴素贝叶斯分类

已知数据集

颜色	响声	甜度	好瓜
青绿	浑浊	不甜	不是
青绿	浑浊	不甜	不是
青绿	清脆	甜	是
青绿	浑浊	不甜	不是
深绿	清脆	甜	是
深绿	浑浊	甜	是
深绿	浑浊	不甜	是
深绿	清脆	甜	是
深绿	清脆	甜	是

给出问题，如果已知有一个瓜的特征 = {深绿，清脆，不甜}，这个瓜是不是好瓜？

这是典型的后验概率问题，可以通过贝叶斯公式转换为对先验概率的求解问题：
$\frac{P(颜色=深绿，响声=清脆，甜度=不甜|好瓜)P(好瓜)}{P(颜色=深绿，响声=清脆，甜度=不甜)}$
如果数据集的几个特征相互独立，则上述公式可以变换为：
$P (好瓜 ∣ 颜色 = 深绿，响声 = 清脆，甜度 = 不甜)$

$\frac{P(颜色=深绿|好瓜)P(响声=清脆|好瓜)P(甜度=不甜|好瓜)P(好瓜)}{P(颜色=深绿)P(响声=清脆)P(甜度=不甜)}$

这样一来，问题就变得非常容易求解。

根据数据集求出各个概率：
$\frac{5}{6} = 0.8333$

$P(响声=清脆|好瓜)=\frac{4}{6}=0.6667$

$\frac{1}{6} = 0.1667$

$\frac{6}{9} = 0.6667$

$\frac{5}{9} = 0.5556$

$\frac{4}{9} = 0.4444$

故
$P (好瓜 ∣ 颜色 = 深绿，响声 = 清脆，甜度 = 不甜)$

$\frac{0.8333\cdot0.6667\cdot0.1667\cdot0.6667}{0.5556\cdot0.4444\cdot0.4444} = 0.5627$

同理
$P (不是好瓜 ∣ 颜色 = 深绿，响声 = 清脆，甜度 = 不甜) = 0.4373$
因此，深绿、清脆、不甜的瓜是好瓜的概率更大。

朴素贝叶斯分类为什么朴素

那么，何为朴素贝叶斯分类中的朴素？

注意到，我们上面的计算基于各特征间相互独立的假设，这是一个较强的假设。

朴素一词对应英文中的 naive，即天真，意思是这种想当然的假设是非常天真的，在现实生活中，这种特征相互独立的情况几乎不存在。

之所以要假设特征间相互独立，有两个原因：

减少计算量
同时满足各个特征的样本难以寻找甚至不存在，无法保证充足的样本

拉普拉斯修正

朴素贝叶斯分类有一个问题：如果计算中有一个概率出现 0，会导致什么？

答：结果为 0 或无法计算。

这显然不是我们想要的结果！

为了解决这个问题，可以引入拉普拉斯修正对概率进行平滑化处理：

|D|表示数据集的样本个数
N 表示数据集结果拥有的类别数
$N_i$ 表示该特征拥有的类别数

$\hat{P}(c) = \frac{|D_c|+1}{|D|+N}$

$\hat{P}(x_i|c) = \frac{|D_{c,x_i}|+1}{|D_c|+N_i}$

已知数据集

颜色	响声	甜度	好瓜
青绿	浑浊	不甜	不是
青绿	浑浊	不甜	不是
青绿	清脆	甜	是
青绿	浑浊	不甜	不是
深绿	清脆	甜	是
深绿	浑浊	甜	是
深绿	浑浊	不甜	是
深绿	清脆	甜	是
深绿	清脆	甜	是

此时
$\frac{0}{3} = 0$
这将导致分类计算结果为 0. 进行拉普拉斯修正
$\hat{P}(颜色=深绿|不是好瓜) = \frac{0 + 1}{3+3} = \frac{1}{6}$
这种平滑化处理就避免了分类结果为 0 的情况。

Koorye

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
【机器学习自学笔记4】朴素贝叶斯分类器

title: 【机器学习自学笔记4】朴素贝叶斯分类器date: 2020-10-29 18:34:29categories: 机器学习tags:机器学习概率论贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。贝叶斯公式P(B∣A)=P(AB)P(A)=P(A∣B)P(B)P(A)P(B|A) = \frac{P(AB)}{P(A)} = \frac{P(A|B)P(B)}{P(A)}.
复制链接

扫一扫

专栏目录