初学贝叶斯论

1.先验概率

以抛硬币为例,假如有人告诉我们所抛硬币正面朝上的概率p1=0.7,反面朝上的概率p2=0.3。在这种情况下,我们会倾向预测结果是正面,因为0.7>0.3,此时错误率就是1-0.7=0.3,也就是反面朝上的概率。

对于这种在观测前我们就知道的概率p1和p2就是先验概率(指的是在观测前我们就已知的结果概率分布 p(y))。此时我们不需要考虑其他因素,例如硬币的大小、质量等等。

2.后验概率

但在实际情况中,往往有很多因素会对我们的预测结果造成不同程度的影响,而并不是像前面一样不考虑其他因素的影响,所以就有了当……因素时,硬币……的概率是多少,当硬币正面朝上时用数学表达式就是p(y=1|x),当硬币反面朝上时用数学表达式就是p(y=0|x)。这里的x指的是影响预测结果的因素

3.引入贝叶斯公式求解后验概率

后验概率这种表达叫做条件概率(conditional probability),一般写作 p(A|B) ,即仅当B事件发生时A发生的的概率,假设p(A)和p(B)都大于0,则有:
请添加图片描述
于是我们的后验概率就有:
请添加图片描述

举个例子

假设做了100次硬币实验,有大中小三种硬币(x)。其中30次结果是反面(y=0),在反面时小硬币出现6次。在70次正面向上的情况中(y=1) 小硬币出现了7次。我们此时假设x指的是小硬币,观察公式:

1、分母p(x)代表观测x为小硬币出现的概率,那么p(x)=(6+7)/100=0.13
2、分子上的p(x|y=0)代表当结果是反面时,小硬币的概率。有实验结果可知:p(x|y=0)=6/30=0.2。而分子上的p(y=0)=30/100=0.34

于是我们就可以因此计算当观测到小硬币时反面的后验概率:
p(y=0|x)=(0.2*0.3)/0.13=0.46

同理也可计算观测到小硬币时正面的后验概率:
p(y=1|x)=(0.1*0.7)/0.13=0.54

**贝叶斯决策的预测值是选取后验概率最大的结果。**在二分类问题中,也就是对比p(y=0|x) 和p(y=1|x)的结果。因为0.54>0.46,因此我们认为观测到小硬币时的结果是正面的概率更大。

贝叶斯决策论的不足之处

贝叶斯决策中假设比较强,实际操作起来并不容易:请添加图片描述
很喜欢原作者的这一段话:
抛开统计学习不谈,贝叶斯思想是对生活也很有指导意义,毕竟我们总是不断利用先验(过往的经验)和观测到现象(x)做出决策(试图得到后验概率)。那为什么懂了那么多道理(规则),却依然过不好这一生呢(误差太大)?根本原因在于别人的先验和我们的可能差别太大了,最终导致了过高的方差以至于过拟合(笑)。

4.朴素贝叶斯分类算法

1.核心算法

请添加图片描述
请添加图片描述

2.朴素贝叶斯的特点:

1. 简化计算和降低模型复杂度 :假设特征之间相互独立,意味着每个特征对于类别的影响是独立的,不受其他特征的影响。这样,联合概率分布可以分解为各个特征的单独概率的乘积。在这里插入图片描述
这种独立性假设大大简化了计算,因为对于每个特征的概率估计可以单独进行,不需要考虑特征之间的组合情况。这样就大大降低了模型的复杂度和计算成本。

2. 解决高维特征空间下的稀疏性问题

在现实生活中,数据往往具有高维特征空间的特点(特征数多纬度高),即特征的取值非常多,导致样本在整个特征空间中的分布非常稀疏。如果不做特征独立的假设,需要统计每种特征组合下的样本数量,这对于数据量有限的情况下可能会导致很多组合的样本数量为零,从而无法准确估计概率。

通过假设特征之间相互独立,我们可以将整个特征空间拆解为单个特征的概率估计,每个特征的取值数量相对较少,这样可以避免统计上的稀疏性问题,使得概率估计更加可靠和准确。

3.缺点:
朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。

3.例子

在这里插入图片描述
在这里插入图片描述
https://zhuanlan.zhihu.com/p/26262151

5.贝叶斯网络的构造学习

https://www.zhihu.com/question/28006799/answer/533797100

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fairy要carry

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值