朴素贝叶斯

最新推荐文章于 2022-01-19 13:38:24 发布

Jason Mraz

最新推荐文章于 2022-01-19 13:38:24 发布

阅读量279

点赞数

分类专栏：数据分析文章标签： python 数据分析朴素贝叶斯文本分类贝叶斯公式

本文链接：https://blog.csdn.net/weixin_43937114/article/details/85055819

版权

数据分析专栏收录该内容

6 篇文章 0 订阅

订阅专栏

朴素贝叶斯

在这里插入图片描述
【关键词】

朴素：独立性假设
贝叶斯公式

优点：

朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率；
对小规模的数据表现很好；
能处理多分类任务，适合增量式训练；
对缺失数据不太敏感，算法也比较简单，常用于文本分类

缺点：

只能用于分类问题
需要计算先验概率；
分类决策存在错误率；
对输入数据的表达形式很敏感

一、朴素贝叶斯原理

朴素贝叶斯算法是一个典型的统计学习方法，主要理论基础就是一个贝叶斯公式，贝叶斯公式的基本定义如下：
在这里插入图片描述
这个公式虽然看上去简单，但它却能总结历史，预知未来：

公式的右边是总结历史
公式的左边是预知未来

如果把Y看成类别，X看成特征，P(Yk|X)就是在已知特征X的情况下求Yk类别的概率，而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。

举个例子，大学的时候，某男生经常去图书室晚自习，发现他喜欢的那个女生也常去那个自习室，心中窃喜，于是每天买点好吃点在那个自习室蹲点等她来，可是人家女生不一定每天都来，眼看天气渐渐炎热，图书馆又不开空调，如果那个女生没有去自修室，该男生也就不去，每次男生鼓足勇气说：“嘿，你明天还来不？”,“啊，不知道，看情况”。

然后该男生每天就把她去自习室与否以及一些其他情况做一下记录，用Y表示该女生是否去自习室，即Y={去，不去}，X是跟去自修室有关联的一系列条件，比如当天上了哪门主课，蹲点统计了一段时间后，该男生打算今天不再蹲点，而是先预测一下她会不会去，现在已经知道了今天上了常微分方法这么主课，于是计算P(Y=去|常微分方程)与P(Y=不去|常微分方程)，看哪个概率大，如果P(Y=去|常微分方程) >P(Y=不去|常微分方程)，那这个男生不管多热都屁颠屁颠去自习室了，否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下，那天主课是常微分的概率P(常微分方程|Y=去)，注意公式右边的分母对每个类别（去/不去）都是一样的，所以计算的时候忽略掉分母，这样虽然得到的概率值已经不再是0~1之间，但是通过比较大小还是能选择类别。

后来他发现还有一些其他条件可以挖，比如当天星期几、当天的天气，以及上一次与她在自修室的气氛，统计了一段时间后，该男子一计算，发现不好算了，因为总结历史的公式：
在这里插入图片描述
这里n=3，x(1)表示主课，x(2)表示天气，x(3)表示星期几，x(4)表示气氛，Y仍然是{去，不去}，现在主课有8门，天气有晴、雨、阴三种、气氛有A+,A,B+,B，C五种，那么总共需要估计的参数有8×3×7×5×2=1680个，每天只能收集到一条数据，那么等凑齐1680条数据，大学都毕业了，男生大呼不妙，于是做了一个独立性假设，假设这些影响她去自习室的原因是独立互不相关的，于是：
在这里插入图片描述
有了这个独立假设后，需要估计的参数就变为，(8+3+7+5)×2 = 46个了，而且每天收集的一条数据，可以提供4个参数，这样该男生就预测越来越准了。
朴素的概念：独立性假设，假设各个特征之间是独立不相关的。

朴素贝叶斯分类器

讲了上面的小故事，我们来朴素贝叶斯分类器的表示形式：
在这里插入图片描述
当特征为为x时，计算所有类别的条件概率，选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的，因此计算时可以不考虑分母，即

朴素贝叶斯的朴素体现在其对各个条件的独立性假设上，加上独立假设后，大大减少了参数假设空间。

在文本分类上的应用

文本分类的应用很多，比如垃圾邮件和垃圾短信的过滤就是一个2分类问题，新闻分类、文本情感分析等都可以看成是文本分类问题，分类问题由两步组成：训练和预测，要建立一个分类模型，至少需要有一个训练数据集。贝叶斯模型可以很自然地应用到文本分类上：现在有一篇文档d（Document），判断它属于哪个类别ck，只需要计算文档d属于哪一个类别的概率最大：
在这里插入图片描述
在分类问题中，我们并不是把所有的特征都用上，对一篇文档d，我们只用其中的部分特征词项t1,t2,…,tnd（nd表示d中的总词条数目），因为很多词项对分类是没有价值的，比如一些停用词“的,是,在”在每个类别中都会出现，这个词项还会模糊分类的决策面，关于特征词的选取，我的这篇文章有介绍。用特征词项表示文档后，计算文档d的类别转化为：
在这里插入图片描述
注意P(Ck|d)只是正比于后面那部分公式，完整的计算还有一个分母，但我们前面讨论了，对每个类别而已分母都是一样的，于是在我们只需要计算分子就能够进行分类了。实际的计算过程中，多个概率值P(tj|ck)的连乘很容易下溢出为0，因此转化为对数计算，连乘就变成了累加：
在这里插入图片描述
我们只需要从训练数据集中，计算每一个类别的出现概率P(ck)和每一个类别中各个特征词项的概率P(tj|ck)，而这些概率值的计算都采用最大似然估计，说到底就是统计每个词在各个类别中出现的次数和各个类别的文档的数目：
在这里插入图片描述

二、3种贝叶斯模型

1、高斯分布朴素贝叶斯

高斯分布就是正态分布
【用途】用于一般分类问题

2、多项式分布朴素贝叶斯

多项式分布：
在这里插入图片描述
【用途】适用于文本数据（特征表示的是次数，例如某个词语的出现次数）

3、伯努利分布朴素贝叶斯

伯努利分布：
在这里插入图片描述
【用途】适用于伯努利分布，也适用于文本数据（此时特征表示的是是否出现，例如某个词语的出现为1，不出现为0）

绝大多数情况下表现不如多项式分布，但有的时候伯努利分布表现得要比多项式分布要好，尤其是对于小数量级的文本数据

三、文本分类实战

对短信进行二分类，数据为SMSSpamCollection
下载地址：网盘链接

from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import BernoulliNB
import pandas as pd
sms = pd.read_csv("../data/SMSSpamCollection", sep = "\t", header = None)
sms

在这里插入图片描述

target = sms[[0]]
data = sms[[1]]
data.head()

在这里插入图片描述

#特征词项的提取
from sklearn.feature_extraction.text import TfidfVectorizer
#TfidfVectorizer向量化

data.shape

在这里插入图片描述

tf = TfidfVectorizer()

tf.fit_transform()

参数必须是字符串的一维数组（比如列表或者Series）
返回的是一个稀疏矩阵类型的对象，行数为样本数，列数为所有出现的单词统计个数。
这里输入data[1]是Series类型，返回的是一个5572x8713 sparse matrix 其中5572是data[1]

data[1]

在这里插入图片描述

tf.fit(data[1])

#开始进行转换
X_train = tf.transform(data[1])
X_train
#5572条数据
#8713：在这么多的数据中总共提取出来了8713个字符

训练数据

伯努利分布朴素贝叶斯

b_NB = BernoulliNB()
b_NB.fit(X_train, target)

x_test

#找一条数据
message = ["Oops, I'll let you know when my roommate's done",
          "are you ok? Thank you very much",
          "07732584351 - Rodger Burns - MSG = We tried to call you re your reply to our sms for a free nokia mobile + free camcorder. Please call now 08000930705 for delivery tomorrow"]
x_test = tf.transform(message)
b_NB.predict(x_test)

在这里插入图片描述

高斯分布朴素贝叶斯

g_NB = GaussianNB()
g_NB.fit(X_train.toarray(),target)

在这里插入图片描述

#找一条数据
message = ["Oops, I'll let you know when my roommate's done",
          "are you ok? Thank you very much",
          "07732584351 - Rodger Burns - MSG = We tried to call you re your reply to our sms for a free nokia mobile + free camcorder. Please call now 08000930705 for delivery tomorrow"]
x_test = tf.transform(message)
g_NB.predict(x_test.toarray())

在这里插入图片描述

多项式分布朴素贝叶斯

m_NB = MultinomialNB()
m_NB.fit(X_train,target)

在这里插入图片描述

#找一条数据
message = ["Oops, I'll let you know when my roommate's done",
          "are you ok? Thank you very much",
          "07732584351 - Rodger Burns - MSG = We tried to call you re your reply to our sms for a free nokia mobile + free camcorder. Please call now 08000930705 for delivery tomorrow"]
x_test = tf.transform(message)
m_NB.predict(x_test)

在这里插入图片描述

各个模型的得分

1.先进行特征词项的提取，还是再切分(可取的)
2.先进行切分，再进行特征词项的提取（不可取的）

from sklearn.model_selection import train_test_split
X_train1,X_test1,y_train1,y_test1 = train_test_split(X_train, target, test_size = 0.01)

伯努利分布朴素贝叶斯（其他两种类似）

b_NB = BernoulliNB()
b_NB.fit(X_train1,y_train1)

在这里插入图片描述

b_NB.score(X_test1,y_test1)

在这里插入图片描述

Jason Mraz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录