频率学派:基于频率的解释,P(A)被认为是无限次重复试验事件A发生的频率,例如:当我们说随机抛硬币出现的头像概率为1/2,是指当重复抛硬币足够多次时,出现头像的频率接近于1/2。
对于一些重复性试验困难的问题中,这种解释就存在一定的挑战。比如:
如果要刻画明天下雨的概率或判断火星上曾经存在生命的可能性,频率的解释就无能为力了,主要是因为,明天的天气或者火星的历史都是不可重复的。
也就是说,当面对一些不可重复性的试验,基于频率的解释就行不通了。
贝叶斯学派:此时,基于信度的解释认为P(A)是观察者认为事件A发生的可信程度。
统计推断:在机器学习、数据挖掘等实际应用中,对于只能观测到有限数据样本的情况下,就需要“逆向工程”,推断数据背后的规律,也就是推断数据产生的过程,这个过程就是统计推断。
统计推断:给定观测数据,推断/估计/学习概率分布F或其数字特征(如均值、方差等)
在统计推断中,主要有频率推断和贝叶斯推断两种方法。
频率推断将参数看成未知但固定的,通过优化目标函数找到最优逼近
,这种估计方法也叫点估计。
贝叶斯推断将未知参数看作随机变量,推断其后验概率分布。
概率:数据产生过程→观测数据
统计/学习:观测数据→数据产生过程
在进行统计推断时,需构建一个统计模型,一般分为参数化模型和非参数化模型。
统计模型:一组分布的集合M。
参数化模型:集合M中的分布可用有限哥参数表示:
其中,为未知参数,
是可行参数空间。
非参数化模型:集合M不能用有限个参数进行描述的模型或参数个数为无限多个。
对于参数化模型,统计推断的目标是估计位置参数;对于非参数化模型,统计推断的目标是直接估计F。由于约束更少,所以后者一般更困难。
理解贝叶斯推断:贝叶斯方法将概率看做对事件(如明天会下雨)发生的信度。因此,可以对很多事情进行概率描述,包括模型的未知参数。此外,当观察到新的数据时,对未知变量的信度也会相应发生变化,例如:当听到明天天气预报后,对明天是否会下雨会有更加确信的判断,并选择适当的行程安排。这个过程就可以用贝叶斯推断。
贝叶斯推断的基本流程:贝叶斯推断将未知参数看作随机变量
(1)用p()描述在看到数据之前对参数可能取值的信度,成为参数
的先验分布;
(2)给定数据集,假设统计模型
描述在给定参数
的情况下,生成数据
的信度,则
称为参数
的似然函数;
(3)利用贝叶斯公式,得到给定数据后参数的概率分布,成为参数
的后验分布:
其中,称为证据。对上式两边积分,得到
与先验p()相比,后验分布
蕴含了从数据D中观测到的信息,刻画了关于参数
更新后的概率分布。
与频率方法相比,统计推断把看成未知参数,其值通过某个估计如MLE确定;但这个估计本身的不确定性是通过考虑数据集D的分布刻画(如估计的方差)。在贝叶斯推断中,模型的不确定性是通过参数
的分布刻画,数据集D是给定的。