【机器学习】分类算法sklearn-朴素贝叶斯算法

1. 概率基础

概率定义为一件事情发生的可能性:扔出一个硬币,结果头像朝上;某天是晴天
联合概率和条件概率“”:
联合概率:包含多个条件,且所有条件同时成立的概率
记作:𝑃(𝐴,𝐵)
条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率
记作:𝑃(𝐴|𝐵)
特性:P(A1,A2|B) = P(A1|B)P(A2|B)
注意:此条件概率的成立,是由于A1,A2相互独立的结果

2. 朴素贝叶斯介绍

朴素就是特征独立
在这里插入图片描述
注:w为给定文档的特征值(频数统计,预测文档提供),c为文档类别
公式可以理解为:
在这里插入图片描述
其中c可以是不同类别
公式分为三个部分:
𝑃(𝐶):每个文档类别的概率(某文档类别词数/总文档词数)
𝑃(𝑊│𝐶):给定类别下特征(被预测文档中出现的词)的概率

计算方法:𝑃(𝐹1│𝐶)=𝑁𝑖/𝑁 (训练文档中去计算)
𝑁𝑖为该𝐹1词在C类别所有文档中出现的次数
N为所属类别C下的文档所有词出现的次数和
𝑃(𝐹1,𝐹2,…) 预测文档中每个词的概率
在这里插入图片描述
问题:从上面的例子我们得到娱乐概率为0,这是不合理的,如果词频列表里面
有很多出现次数都为0,很可能计算结果都为零
解决方法:拉普拉斯平滑系数

𝑃(𝐹1│𝐶)=(𝑁𝑖+𝛼)/(𝑁+𝛼𝑚)

𝛼为指定的系数一般为1,m为训练文档中统计出的特征词个数

3. sklearn朴素贝叶斯实现API

sklearn.naive_bayes.MultinomialNB
MultinomialNB
sklearn.naive_bayes.MultinomialNB
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值