统计学习 - 贝叶斯估计及应用

最新推荐文章于 2024-06-29 18:54:38 发布

小松萘

最新推荐文章于 2024-06-29 18:54:38 发布

阅读量4.4k

点赞数 12

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44116061/article/details/109116159

版权

机器学习专栏收录该内容

7 篇文章 3 订阅

订阅专栏

我现在觉得贝叶斯是哲学+数学
贝叶斯估计用来决策：贝叶斯决策
贝叶斯估计用来分类：贝叶斯分类器
…

概念与原理

统计推断

统计推断，是指统计学中研究如何根据样本数据去推断总体数量特征的方法。
在这里插入图片描述

统计推断可能使用如下三种信息：

一总体信息，即总体分布或所属分布族的信息。譬如“总体视察指数分布”或“总体是正态分布”。

二样本信息，即从总体抽取的样本的信息。

三先验信息，即在抽样之前有关统计问题的一些信息，主要来源于经验和历史资料。
只用前两种信息的统计学称为经典统计学，三种信息都用的统计学称为贝叶斯统计学。

频率学派与贝叶斯派

频率学派认为“概率”是一种事件本身所带规律，并试图从样本信息中提取出来“概率”。但是贝叶斯派认为“概率”是人们对于一件事的相信度，根据样本信息，不断地调整之前的相信度。

频率学派认为世界是确定的，有一个本体，这个本体的真值是不变的，我们的目标就是要找到这个真值或真值所在的范围；而贝叶斯学派认为世界是不确定的，人们对世界先有一个预判，而后通过观测数据对这个预判做调整，我们的目标是要找到最优的描述这个世界的概率分布。

 《概率论沉思录》
简单地说，频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。
频率学派从「自然」角度出发，试图直接为「事件」本身建模，即事件A在独立重复试验中发生的频率趋于极限p，那么这个极限就是该事件的概率。举例而言，想要计算抛掷一枚硬币时正面朝上的概率，我们需要不断地抛掷硬币，当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。
然而，贝叶斯学派并不从试图刻画「事件」本身，而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」，或者「世界的本体带有某种随机性」，这套理论根本不言说关于「世界本体」的东西，而只是从「观察者知识不完备」这一出发点开始，构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来，并不是「事件本身具有某种客观的随机性」，而是「观察者不知道事件的结果」而已，只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下，观察者又试图通过已经观察到的「证据」来推断这一事件的结果，因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此，在贝叶斯框架下，同一件事情对于知情者而言就是「确定事件」，对于不知情者而言就是「随机事件」，随机性并不源于事件本身是否发生，而只是描述观察者对该事件的知识状态。
总的来说，贝叶斯概率论为人的知识（knowledge）建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」，而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程，贝叶斯概率论假设观察者对某事件处于某个知识状态中（例如：小明先验地相信一枚硬币是均匀的，可能是出于认为均匀硬币最常见这种信念），之后观察者开始新的观测或实验（小明开始不断地抛硬币，发现抛了100次后，居然只有20次是正面朝上）。经过中间的独立重复试验，观察者获得了一些新的观测结果，这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念（小明开始怀疑这枚硬币究竟是不是均匀的，甚至开始断定硬币并不均匀）。在这一过程中，观察者无法用简单的逻辑来推断，因为观察者并没有完全的信息作为证据，因此只能采用似真推断（plausible reasoning），对于各种各样可能的结果赋予一个「合理性」（plausibility）。
例子中，小明原先认为硬币的分布是均匀的，于是根据小明原有的信念，这个论断合理性非常高；在观察到100次抛掷中只有20次正面朝上后，小明开始怀疑硬币的均匀性，此时小明很可能认为「硬币不均匀」这一推断的合理性很高，支持的证据就是他刚刚实验的观测结果。上面的例子用贝叶斯概率论的语言来描述，就是观察者持有某个前置信念（prior belief），通过观测获得统计证据（evidence），通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」，从而得出后置信念（posterior belief）来最好的表征观测后的知识状态（state of knowledge）。这里，贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量（measure of plausibility），从而可以允许观测者在不完全信息的状态下进行推断。这里，观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」，也就是说，观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。从这个意义上来讲，贝叶斯概率论试图构建的是知识状态的表征，而不是客观世界的表征。因此，在机器学习、统计推断中，许多情况下贝叶斯概率推断更能解决观察者推断的问题，而绕开了关于事件本体的讨论，因为没有讨论本体的必要性。

贝叶斯公式

贝叶斯是机器学习的核心方法之一，贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章，而这篇文章是在他死后才由他的一位朋友发表出来的。

在贝叶斯写这篇文章之前，人们已经能够计算“正向概率”，如“假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大”。

而一个自然而然的问题是反过来：“如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这就是所谓的逆概问题。

贝叶斯派认为现实世界本身就是不确定的，人类的观察能力是有局限性的，我们日常所观察到的只是事物表面上的结果，比如从袋子中取球，我们往往只能知道从里面取出来的球是什么颜色，而并不能直接看到袋子里面实际的情况。这个时候，就需要提供一个猜测。

朴素贝叶斯是贝叶斯决策理论的一部分。

贝叶斯公式给出了对于先验概率的调整方法
在这里插入图片描述
在贝叶斯法则中，每个名词都有约定俗成的名称：

P(A)是A的先验概率或边缘概率。之所以称"先验"是因为它不考虑任何B方面的因素，即在B事件发生之前，我们对A事件概率的一个判断。
P(A|B)是已知B发生后A的条件概率，在B事件发生之后，我们对A事件概率的重新评估，也被称作A的后验概率。
P(B|A)是已知A发生后B的条件概率，也被称作B的后验概率。
P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）
P(B|A)/ P(B)称为"可能性函数"（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。
后验概率=先验概率*调整因子

贝叶斯公式结合全概率公式有：
在这里插入图片描述

从最大似然估计（MLE）到最大后验概率估计（MAP）

似然函数

概率是已知模型和参数，推数据。
似然是已知数据，推模型和参数。
考虑P(x|θ)
输入有两个：x表示某一个具体的数据；θ表示模型的参数。

如果θ是已知确定的，x是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点x，其出现概率是多少。

如果x是已知确定的，θ是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现x这个样本点的概率是多少。

极大似然估计（MLE）

假设有一个造币厂生产某种硬币，现在我们拿到了一枚这种硬币，想试试这硬币是不是均匀的。即想知道抛这枚硬币，正反面出现的概率（记为θ）各是多少？

这是一个统计问题，回想一下，解决统计问题需要什么？数据！

于是我们拿这枚硬币抛了10次，得到的数据（x0）是：反正正正正反正正正反。我们想求的正面概率θ是模型参数，而抛硬币模型我们可以假设是二项分布。

那么，出现实验结果x₀（即反正正正正反正正正反）的似然函数是多少呢？

f(x₀,θ)=(1−θ)×θ×θ×θ×θ×(1−θ)×θ×θ×θ×(1−θ)=θ⁷(1−θ)³=f(θ)
注意，这是个只关于θ的函数。而最大似然估计，顾名思义，就是要最大化这个函数。我们可以画出f(θ)的图像：

在这里插入图片描述

可以看出，在θ=0.7时，似然函数取得最大值。

这样，我们已经完成了对θ的最大似然估计。即，抛10次硬币，发现7次硬币正面向上，最大似然估计认为正面向上的概率是0.7。（ummm…这非常直观合理，对吧？）

且慢，一些人可能会说，硬币一般都是均匀的啊！就算你做实验发现结果是“反正正正正反正正正反”，我也不信θ=0.7。

这里就包含了贝叶斯学派的思想了——要考虑先验概率。为此，引入了最大后验概率估计。

最大后验概率估计（MAP）

最大似然估计是求参数θ, 使似然函数P(x₀|θ)最大。最大后验概率估计则是想求θ使P(x₀|θ)P(θ)最大。求得的θ不单单让似然函数大，θ自己出现的先验概率也得大。（这有点像正则化里加惩罚项的思想，不过正则化里是利用加法，而MAP里是利用乘法）

对于投硬币的例子来看，我们认为（”先验地知道“）θ取0.5的概率很大，取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识，例如假设P(θ)为均值0.5，方差0.1的高斯函数，如下图：
在这里插入图片描述
则P(x₀|θ)P(θ)的函数图像为：

注意，此时函数取最大值时，θ取值已向左偏移，不再是0.7。实际上，在θ=0.558时函数取得了最大值。即，用最大后验概率估计，得到θ=0.558
最后，那要怎样才能说服一个贝叶斯派相信θ=0.7呢？你得多做点实验。。

如果做了1000次实验，其中700次都是正面向上，这时似然函数为:
在这里插入图片描述
如果仍然假设P(θ)为均值0.5，方差0.1的高斯函数，P(x₀|θ)P(θ)的函数图像为：

在θ=0.696处，P(x₀|θ)P(θ)取得最大值。

这样，就算一个考虑了先验概率的贝叶斯派，也不得不承认得把θ估计在0.7附近了。

最大似然估计和最大后验概率估计的区别

相信读完上文，MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者，也可以反过来，认为MLE是把先验概率P(θ)认为等于1，即认为θ是均匀分布。

最大后验概率的意义

推导：
在这里插入图片描述

朴素贝叶斯

假设某个体有n项特征，分别为F1、F2、…、Fn。现有m个类别，分别为C1、C2、…、Cm。贝叶斯分类器就是计算出概率最大的那个分类，也就是求下面这个算式的最大值：
P(C|F1F2…Fn) = P(F1F2…Fn|C)P© / P(F1F2…Fn)

条件独立性假设

在这里插入图片描述
最大后验概率估计法（用最大化下面这个的ck值作为真值）

例

水果糖（贝叶斯推断，先验后验）

在这里插入图片描述
第一个例子。两个一模一样的碗，一号碗有30颗水果糖和10颗巧克力糖，二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗，从中摸出一颗糖，发现是水果糖。请问这颗水果糖来自一号碗的概率有多大？

我们假定，H₁表示一号碗，H₂表示二号碗。由于这两个碗是一样的，所以P(H₁)=P(H₂)，也就是说，在取出水果糖之前，这两个碗被选中的概率相同。因此，P(H₁)=0.5，我们把这个概率就叫做"先验概率"，即没有做实验之前，来自一号碗的概率是0.5。

再假定，E表示水果糖，所以问题就变成了在已知E的情况下，来自一号碗的概率有多大，即求P(H₁|E)。我们把这个概率叫做"后验概率"，即在E事件发生之后，对P(H₁)的修正。

根据条件概率公式
在这里插入图片描述

假阳性问题（贝叶斯推断，先验后验）

已知某种疾病的发病率是0.001，即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病，它的准确率是0.99，即在患者确实得病的情况下，它有99%的可能呈现阳性。它的误报率是5%，即在患者没有得病的情况下，它有5%的可能呈现阳性。现有一个病人的检验结果为阳性，请问他确实得病的可能性有多大？

假定A事件表示得病，那么P(A)为0.001。这就是"先验概率"，即没有做试验之前，我们预计的发病率。再假定B事件表示阳性，那么要计算的就是P(A|B)。这就是"后验概率"，即做了试验以后，对发病率的估计。

根据条件概率公式，
在这里插入图片描述
P(A|B)约等于0.019。也就是说，即使检验呈现阳性，病人得病的概率，也只是从0.1%增加到了2%左右。这就是所谓的"假阳性"，即阳性结果完全不足以说明病人得病。

为什么会这样？为什么这种检验的准确率高达99%，但是可信度却不到2%？答案是与它的误报率太高有关。（【习题】如果误报率从5%降为1%，请问病人得病的概率会变成多少？（0.09））
参考：
https://blog.csdn.net/u011508640/article/details/72815981
https://blog.csdn.net/REA_UTOPIA/article/details/78881415
https://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html