贝叶斯理论

最新推荐文章于 2024-06-12 15:24:14 发布

浪漫的诗人

最新推荐文章于 2024-06-12 15:24:14 发布

阅读量96

点赞数

分类专栏：机器学习文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/you_well/article/details/130779771

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

贝叶斯理论
贝叶斯分类
朴素贝叶斯
朴素贝叶斯分类的scikit-learn实现
- 朴素贝叶斯分类的三种形式
TF-IDF算法（单词文本处理时使用）

贝叶斯理论

贝叶斯首先提出了贝叶斯定理，主要是为了解决一个逆概率的问题，但是在之前人们已经能够解决正向概率问题，那什么是正向概率？
举个例子：
比如一个抽奖桶例有10个球，里面有2个白球，8个黑球，抽到白球，就算中奖，伸手进去随便模出一颗球，摸出是中奖球的概率有多大。
已知信息——>未知信息（中奖概率）
中奖概率=中奖球数（2个白球）/球总数（2个白球+8个黑球）=2/10
————————————
但是，贝叶斯解决的是一个逆概率的问题，在上面的例子，假如我们并不知道抽奖桶里有什么，而是摸出一个球，通过观察这个球的颜色，来预测这个桶里面白球与黑球的比例
未知信息——>已知信息

这个预测其实就可以用贝叶斯定理来做.为什么贝叶斯定理在现实生活中这么有用呢?
这是因为现实生活中的问题,大部分都是像上面的"逆概率"问题.因为生活中绝大多数决策面临的信息都是不全的﹐我们手中只有有限的信息.既然无法得到全面的信息﹐我们就只能在信息有限的情况下,尽可能做出一个好的预测.

公式：

在这里插入图片描述

举个例子：

小明很喜欢吃蛋糕，它偶然听到有人推荐星巴克的蛋糕很好吃，那么小明现在就想知道星巴克的蛋糕是否真的好吃？

首先分析给的已知信息和未知信息：

求解的问题：星巴克的蛋糕很好吃，记为A事件
已知条件：有人推荐星巴克的蛋糕，记为B事件
所以，P（A|B）表示有人推荐星巴克蛋糕事件B发生后，星巴克蛋糕很好吃A事件发生的概率。

事件A：好吃
事件B：有人推荐
根据贝叶斯公式，写出以下公式：P(A|B)=P(A)P(B|A)/P(B)

P（A|B）表示有人推荐星巴克蛋糕事件B发生后，星巴克蛋糕很好吃A事件发生的概率，称为后验概率
P（A）好吃的概率，称为先验概率
P(B|A) / P(B)为可能性函数

从以上公式，需要知道4个内容：

（1）先验概率：把P(A)称为先验概率，也就是在不知道B事件发生的前提下，我们对A 事件的一个主观判断；
（2）可能性函数：P(B|A) / P(B)称为可能性函数，也就是一个调整因子，也就是新信息B带来的调整。作用就是将先验概率（之前的主观判断）调整到更接近真实概率。
可能性函数可以理解为新信息过来后，对先验概率的一个调整。
如果可能性函数"P(B|A) / P(B)">1,意味着 “先验概率”增强了，事件A发生的可能性变大；可能性函数=1，则无助于判断事件A的可能性；小于1，意味着事件A发生的可能性变小；
（3）后验概率：P(A|B)称为后验概率，即在B事件发生后，我们对A事件概率的重新评估。
（4）类条件概率：P(B|A)

类条件概率的计算：

利用极大似然估计进行计算
离散情况：计算出的结果为相应样本出现的频率
连续情况：服从正态分布，计算出的结果为样本均值和方差，代入到概率密度函数中

关键思想

先根据以往经验预估一个先验概率“P(A)”,然后加入新信息（实验结果B），这样就有了新的信息，我们对事件A的预测更加准确。
要求解的问题
已知信息

因此，贝叶斯定理可以理解为下面的式子：
后验概率（新信息出现后的A概率）=先验概率（A概率）X 可能性函数（新信息带来的调整）

底层思想

贝叶斯的底层思想就是:
如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率（古典概率).可是生活中绝大多数决策面临的信息都是不全的﹐我们手中只有有限的信息.既然无法得到全面的信息﹐我们就在信息有限的情况下,尽可能做出一个好的预测.也就是﹐在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)
如果用图形表示就是这样的:
在这里插入图片描述

贝叶斯分类

在这里插入图片描述

朴素贝叶斯

举个例子：
假如A有个题不会写，去网站寻求帮助。网站上有20个人回复了A，但是A能分辨出这20份中有13份是答案，暂且叫X
6份是问题，暂且叫Y
但是有1份回复没有看懂，暂且叫为Z

于是打算按照回复中出现的关键词来给Z进行分类，是属于X还是属于Y？

关键词：计算机4、人工智能3、贝叶斯2 共9
B: P(X)=13/19
不同关键词在X中出现的概率如下：
P（计算机|X）=4/9 p(人工智能|X)=3/9 p(贝叶斯|x)=2/9

关键词：计算机0、人工智能3、贝叶斯4 共7
C:P(Y)=6/19
不同关键词在Y中出现的概率如下：
P（计算机|Y）=0/7 p(人工智能|Y)=3/7 p(贝叶斯|Y)=4/7

Z中出现的关键词：贝叶斯人工智能
猜测这是X的概率：P(X)P(贝叶斯|X)p(人工智能|X)=m

猜测这是Y的概率：P(Y)P(贝叶斯|Y)p(人工智能|Y)=n
若m>n,则判为Z属于X

以上就是朴素贝叶斯法。
在朴素贝叶斯算法中，假如两个特征之间是相互独立的，在以上的例子中，认为关键词相互独立，则他们的顺序和上下文关系并不影响结果，哪怕他们表达的意思天差地别，维度之间的相互独立的假设，实在太过于简单粗暴，因此被称为朴素的贝叶斯法。
来举另一个例子：
假如有一段话，
这是贝叶斯法，这是计算机
这是贝叶斯，这也是贝叶斯
根据第一个例子可以知道，Y中没有计算机这一关键词，
P(X)P(贝叶斯|X)P(计算机|X)=u
p(Y)P(贝叶斯|Y)P(计算机|Y)=0
可以看到，在Y中，计算机这个关键词没有出现过，所以计算结果为0，因此可以判断为X。

为了解决等0元素的出现，则需要拉普拉斯平滑化处理，即对每一个关键词上面人为增加一个出现的次数，保证每一项都不为0，然后重新计算每个关键词出现的概率。
使用平滑后的结果，再计算就可以得到正确结果。

朴素贝叶斯分类的scikit-learn实现

朴素贝叶斯分类的三种形式

高斯分布（正态分布）

Scikit-learn实现：
class sklearn.naive_bayes.GaussianNB()
方法
fit(X_train, y_train): 在训练集上训练模型
predict(X_test): 用训练好的模型来预测测试集X_test ，返回测试集对应的标签 y
score(X_test, y_test): 在测试集上的预测的准确率

伯努利分布（0-1分布）

Scikit-learn实现：
class sklearn.naive_bayes. BernoulliNB(alpha=0.01, binarize=0.0, fit_prior=True)
方法
fit(X_train, y_train): 在训练集上训练模型
predict(X_test): 用训练好的模型来预测测试集X_test ，返回测试集对应的标签 y
score(X_test, y_test): 在测试集上的预测的准确率

伯努利分布的朴素贝叶斯分类只适用于处理特征离散（0、1）情况

多项分布

Scikit-learn实现：
class sklearn.naive_bayes. MultinomialNB(alpha=0.01, fit_prior=True)
方法
fit(X_train, y_train): 在训练集上训练模型
predict(X_test): 用训练好的模型来预测测试集X_test ，返回测试集对应的标签 y
score(X_test, y_test): 在测试集上的预测的准确率

多项式分布的朴素贝叶斯分类只适用于处理特征离散情况

TF-IDF算法（单词文本处理时使用）

TF-IDF的主要思想
如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现（IDF高），则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TF-IDF计算
实际上是：TF * IDF
TF词频（Term Frequency）：词在文档中出现的频率
逆向文件频率（inverse document frequency，IDF）：某一特定词语的IDF，由总文件数目除以包含该词语之文件的数目，再将得到的商取对数即可

注意：
为了便于不同文章的比较，进行"词频"标准化
TF=某词在文档中出现的次数/该文档的总次数
在这里插入图片描述

举个例子：
TF-IDF计算例子：

beijing的在第1篇文本中的频次为1.0：TF(beijing,d1)=1.0
beijing只在第1篇文本中出现过：DF(d,beijing)=1, nd=4

代入平滑后的IDF计算TF-IDF：
1.0*(1+log((4+1)/(1+1))) = 1.9162907318

chinese的在第1篇文本中的频次为2.0，TF(chinese,d1)=2.0
chinese只在4篇文本中都出现过：DF(d,beijing)=4,nd=4

代入平滑后的IDF计算TF-IDF ：
2.0*(1+log((4+1)/(4+1)))=2.0

在这里插入图片描述

浪漫的诗人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯理论

在朴素贝叶斯算法中，假如两个特征之间是相互独立的，在以上的例子中，认为关键词相互独立，则他们的顺序和上下文关系并不影响结果，哪怕他们表达的意思天差地别，维度之间的相互独立的假设，实在太过于简单粗暴，因此被称为。但是，贝叶斯解决的是一个逆概率的问题，在上面的例子，假如我们并不知道抽奖桶里有什么，而是摸出一个球，通过观察这个球的颜色，来预测这个桶里面白球与黑球的比例。比如一个抽奖桶例有10个球，里面有2个白球，8个黑球，抽到白球，就算中奖，伸手进去随便模出一颗球，摸出是中奖球的概率有多大。
复制链接

扫一扫