朴素贝叶斯-课堂笔记

最新推荐文章于 2022-09-29 20:13:27 发布

有猫腻妖

最新推荐文章于 2022-09-29 20:13:27 发布

阅读量1.3w

点赞数

分类专栏：数据分析之算法篇文章标签： python 机器学习人工智能 java 数据分析

本文链接：https://blog.csdn.net/zyh960/article/details/119316938

版权

15 篇文章 0 订阅

订阅专栏

贝叶斯的原理

贝叶斯的原理就是基于一个逆向概率展开的

在这个原理中，涉及了4个概念

先验概率就是通过以往的经验来判断事情发生的概率

后验概率就是发生结果之后，推测原因的概率

条件概率就是事件A在另外一个事件B已经发生条件下的发生概率，表示为P（A|B），读作“在B发生的条件下A发生的概率”

似然函数就是把概率模型的训练过程理解为参数估计的过程，举个例子，如果一个硬币在10次抛落中正面均朝上。那么你肯定在想，这个硬币是均匀的可能性是多少？这里硬币均匀就是个参数，似然函数就是用来衡量这个模型的参数。似然在这里就是可能性的意思，它是关于统计参数的函数。

如果你的女朋友，在你的手机发现了和别的女人的暧昧短信，于是她开始思考3个概率问题：

针对上面发生的情况

首先第一种情况是先验概率，也就是根据以往的经验，发现你手机有暧昧短信，所以下意识判断你出轨了

第二种情况是条件概率，也就是如果你出轨了，那么你手机可能就会有暧昧短信

第三种是后验概率，在你手机里面，因为看到有暧昧短信，这是条件，所以判断你出轨了，这是结果

朴素贝叶斯模型由两种类型概率组成

关于朴素贝叶斯分类算法，一共有三种

高斯朴素贝叶斯：特征变量是连续变量，符合高斯分布，比如说人的身高，物体的长度
多项式朴素贝叶斯：特征变量是离散变量，符合多项分布，在文档分类中特征变量体现在一个单词出现的次数，或者是单词的TF-IDF值等
- TF指的是词频，计算一个单词在文档中出现的次数，它认为一个单词的重要性和它在文档中出现的次数呈正比
- 逆向文档频率IDF，指的是一个单词在文档汇总的区分度，它认为一个单词出现在的文档数越少，就越能通过这个单词把该文档和其他文档区分开。IDF越大就代表该单词的区分度越大
- 所以TF-IDF实际上是词频TF和逆向文档频率IDF的乘积，这样我们倾向于找到TF和IDF取值都高的单词作为区分，即这个单词在一个文档中出现的次数多，同时又很少出现在其他文档中，这样的单词适合用于分类
伯努利朴素贝叶斯：特征变量是布尔变量，符合0/1分布，在文档分类中特征是单词是否出现

在其他文档中，这样的单词适合用于分类
3. 伯努利朴素贝叶斯：特征变量是布尔变量，符合0/1分布，在文档分类中特征是单词是否出现

关注