概率:频率和信度

频率学派:基于频率的解释,P(A)被认为是无限次重复试验事件A发生的频率,例如:当我们说随机抛硬币出现的头像概率为1/2,是指当重复抛硬币足够多次时,出现头像的频率接近于1/2。

对于一些重复性试验困难的问题中,这种解释就存在一定的挑战。比如:

如果要刻画明天下雨的概率或判断火星上曾经存在生命的可能性,频率的解释就无能为力了,主要是因为,明天的天气或者火星的历史都是不可重复的。

也就是说,当面对一些不可重复性的试验,基于频率的解释就行不通了。

贝叶斯学派:此时,基于信度的解释认为P(A)是观察者认为事件A发生的可信程度。

统计推断:在机器学习、数据挖掘等实际应用中,对于只能观测到有限数据样本的情况下,就需要“逆向工程”,推断数据背后的规律,也就是推断数据产生的过程,这个过程就是统计推断。

统计推断:给定观测数据x_{1},x_{2},...,x_{N}\sim F,推断/估计/学习概率分布F或其数字特征(如均值、方差等)

在统计推断中,主要有频率推断和贝叶斯推断两种方法。

频率推断将参数\theta看成未知但固定的,通过优化目标函数找到最优逼近\hat{\theta },这种估计方法也叫点估计。

贝叶斯推断将未知参数看作随机变量,推断其后验概率分布p(\theta\mid D )

概率:数据产生过程→观测数据

统计/学习:观测数据→数据产生过程

在进行统计推断时,需构建一个统计模型,一般分为参数化模型和非参数化模型。

统计模型:一组分布的集合M。

参数化模型:集合M中的分布可用有限哥参数表示:

M=\left \{ p(x;\theta ):\theta \in \Theta \right \}

其中,\theta为未知参数,\Theta是可行参数空间。

非参数化模型:集合M不能用有限个参数进行描述的模型或参数个数为无限多个。

对于参数化模型,统计推断的目标是估计位置参数\theta \in \Theta;对于非参数化模型,统计推断的目标是直接估计F。由于约束更少,所以后者一般更困难。

理解贝叶斯推断:贝叶斯方法将概率看做对事件(如明天会下雨)发生的信度。因此,可以对很多事情进行概率描述,包括模型的未知参数\theta。此外,当观察到新的数据时,对未知变量的信度也会相应发生变化,例如:当听到明天天气预报后,对明天是否会下雨会有更加确信的判断,并选择适当的行程安排。这个过程就可以用贝叶斯推断。

贝叶斯推断的基本流程:贝叶斯推断将未知参数\theta看作随机变量

(1)用p(\theta)描述在看到数据之前对参数可能取值的信度,成为参数\theta的先验分布;

(2)给定数据集D=\left \{ x_{_{i}} \right \}_{i=1}^{N},假设统计模型p(x\mid\theta )描述在给定参数\theta的情况下,生成数据x_{i}的信度,则p(D\mid \theta )称为参数\theta的似然函数;

(3)利用贝叶斯公式,得到给定数据后参数的概率分布p(\theta\mid D ),成为参数\theta的后验分布:

p(\theta\mid D )=\frac{p(D\mid \theta ))}{p(D)}

其中,p(D)称为证据。对上式两边积分,得到p(D )=\int p\left ( D\mid \theta \right )p(\theta )d\theta

与先验p(\theta)相比,后验分布p(\theta\mid D )蕴含了从数据D中观测到的信息,刻画了关于参数\theta更新后的概率分布。

与频率方法相比,统计推断把\theta看成未知参数,其值通过某个估计如MLE确定;但这个估计本身的不确定性是通过考虑数据集D的分布刻画(如估计的方差)。在贝叶斯推断中,模型的不确定性是通过参数\theta的分布刻画,数据集D是给定的。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值