朴素贝叶斯-课堂笔记

贝叶斯的原理

贝叶斯的原理就是基于一个逆向概率展开的

在这个原理中,涉及了4个概念

先验概率

先验概率就是通过以往的经验来判断事情发生的概率

后验概率

后验概率就是发生结果之后,推测原因的概率

条件概率

条件概率就是事件A在另外一个事件B已经发生条件下的发生概率,表示为P(A|B),读作“在B发生的条件下A发生的概率”

似然函数

似然函数就是把概率模型的训练过程理解为参数估计的过程,举个例子,如果一个硬币在10次抛落中正面均朝上。那么你肯定在想,这个硬币是均匀的可能性是多少?这里硬币均匀就是个参数,似然函数就是用来衡量这个模型的参数。似然在这里就是可能性的意思,它是关于统计参数的函数。

一个小小的案例

如果你的女朋友,在你的手机发现了和别的女人的暧昧短信,于是她开始思考3个概率问题:

  1. 你在没有任何情况下,出轨的概率
  2. 如果你出轨了,那么你的手机里有暧昧短信的概率
  3. 在你的手机里发现了暧昧短信,认为你出轨的概率

针对上面发生的情况

首先第一种情况是先验概率,也就是根据以往的经验,发现你手机有暧昧短信,所以下意识判断你出轨了

第二种情况是条件概率,也就是如果你出轨了,那么你手机可能就会有暧昧短信

第三种是后验概率,在你手机里面,因为看到有暧昧短信,这是条件,所以判断你出轨了,这是结果

贝叶斯的通用公式

image-20210729150302767

基于贝叶斯展开了一个重要的算法,那就是朴素贝叶斯,这是一种简单但极为强大的预测建模算法

朴素贝叶斯模型由两种类型概率组成

  1. 每个类别的概率P(Cj);
  2. 每个属性的条件概率P(Ai|Cj)

image-20210729151108527

关于朴素贝叶斯分类算法,一共有三种

  1. 高斯朴素贝叶斯:特征变量是连续变量,符合高斯分布,比如说人的身高,物体的长度
  2. 多项式朴素贝叶斯:特征变量是离散变量,符合多项分布,在文档分类中特征变量体现在一个单词出现的次数,或者是单词的TF-IDF值等
    • TF指的是词频,计算一个单词在文档中出现的次数,它认为一个单词的重要性和它在文档中出现的次数呈正比
    • 逆向文档频率IDF,指的是一个单词在文档汇总的区分度,它认为一个单词出现在的文档数越少,就越能通过这个单词把该文档和其他文档区分开。IDF越大就代表该单词的区分度越大
    • 所以TF-IDF实际上是词频TF和逆向文档频率IDF的乘积,这样我们倾向于找到TF和IDF取值都高的单词作为区分,即这个单词在一个文档中出现的次数多,同时又很少出现在其他文档中,这样的单词适合用于分类
  3. 伯努利朴素贝叶斯:特征变量是布尔变量,符合0/1分布,在文档分类中特征是单词是否出现

在其他文档中,这样的单词适合用于分类
3. 伯努利朴素贝叶斯:特征变量是布尔变量,符合0/1分布,在文档分类中特征是单词是否出现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

有猫腻妖

你的鼓励是我更新的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值