概率：频率和信度

KerryMo

已于 2024-07-23 16:54:38 修改

阅读量575

点赞数 4

分类专栏：统计学习 Python 机器学习中的数学知识文章标签：算法机器学习概率论人工智能

于 2024-07-23 16:38:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yaoxy/article/details/140637046

版权

Python 同时被 3 个专栏收录

19 篇文章

订阅专栏

7 篇文章

订阅专栏

机器学习中的数学知识

2 篇文章

订阅专栏

频率学派：基于频率的解释，P（A）被认为是无限次重复试验事件A发生的频率，例如：当我们说随机抛硬币出现的头像概率为1/2，是指当重复抛硬币足够多次时，出现头像的频率接近于1/2。

对于一些重复性试验困难的问题中，这种解释就存在一定的挑战。比如：

如果要刻画明天下雨的概率或判断火星上曾经存在生命的可能性，频率的解释就无能为力了，主要是因为，明天的天气或者火星的历史都是不可重复的。

也就是说，当面对一些不可重复性的试验，基于频率的解释就行不通了。

贝叶斯学派：此时，基于信度的解释认为P（A）是观察者认为事件A发生的可信程度。

统计推断：在机器学习、数据挖掘等实际应用中，对于只能观测到有限数据样本的情况下，就需要“逆向工程”，推断数据背后的规律，也就是推断数据产生的过程，这个过程就是统计推断。

统计推断：给定观测数据 $x_{1},x_{2},...,x_{N}\sim F$ ，推断/估计/学习概率分布F或其数字特征（如均值、方差等）

在统计推断中，主要有频率推断和贝叶斯推断两种方法。

频率推断将参数 $\theta$ 看成未知但固定的，通过优化目标函数找到最优逼近 $\hat{\theta }$ ，这种估计方法也叫点估计。

贝叶斯推断将未知参数看作随机变量，推断其后验概率分布 $p(\theta\mid D )$ 。

概率：数据产生过程→观测数据

统计/学习：观测数据→数据产生过程

在进行统计推断时，需构建一个统计模型，一般分为参数化模型和非参数化模型。

统计模型：一组分布的集合M。

参数化模型：集合M中的分布可用有限哥参数表示：

$M=\left \{ p(x;\theta ):\theta \in \Theta \right \}$

其中， $\theta$ 为未知参数， $\Theta$ 是可行参数空间。

非参数化模型：集合M不能用有限个参数进行描述的模型或参数个数为无限多个。

对于参数化模型，统计推断的目标是估计位置参数 $\theta \in \Theta$ ；对于非参数化模型，统计推断的目标是直接估计F。由于约束更少，所以后者一般更困难。

理解贝叶斯推断：贝叶斯方法将概率看做对事件（如明天会下雨）发生的信度。因此，可以对很多事情进行概率描述，包括模型的未知参数 $\theta$ 。此外，当观察到新的数据时，对未知变量的信度也会相应发生变化，例如：当听到明天天气预报后，对明天是否会下雨会有更加确信的判断，并选择适当的行程安排。这个过程就可以用贝叶斯推断。

贝叶斯推断的基本流程：贝叶斯推断将未知参数 $\theta$ 看作随机变量

（1）用p( $\theta$ )描述在看到数据之前对参数可能取值的信度，成为参数 $\theta$ 的先验分布；

（2）给定数据集 $D=\left \{ x_{_{i}} \right \}_{i=1}^{N}$ ，假设统计模型 $p(x\mid\theta )$ 描述在给定参数 $\theta$ 的情况下，生成数据 $x_{i}$ 的信度，则 $p(D\mid \theta )$ 称为参数 $\theta$ 的似然函数；

（3）利用贝叶斯公式，得到给定数据后参数的概率分布 $p(\theta\mid D )$ ，成为参数 $\theta$ 的后验分布：

$p(\theta\mid D )=\frac{p(D\mid \theta ))}{p(D)}$

其中， $p(D)$ 称为证据。对上式两边积分，得到 $p(D )=\int p\left ( D\mid \theta \right )p(\theta )d\theta$

与先验p( $\theta$ )相比，后验分布 $p(\theta\mid D )$ 蕴含了从数据D中观测到的信息，刻画了关于参数 $\theta$ 更新后的概率分布。

与频率方法相比，统计推断把 $\theta$ 看成未知参数，其值通过某个估计如MLE确定；但这个估计本身的不确定性是通过考虑数据集D的分布刻画（如估计的方差）。在贝叶斯推断中，模型的不确定性是通过参数 $\theta$ 的分布刻画，数据集D是给定的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。