统计学习方法中讲到统计学习三要素:模型策略和算法,其中策略包括经验风险最小化和结构风险最小化。
极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
最大后验概率估计就是结构风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数,模型的复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
下面复习一下最大似然估计和最大后验概率。
先概括:
最大似然估计就是模型已定,求能够使得产出观测数据的概率最大的参数(这个概率是该参数下产出观测数据的概率,这个条件概率就叫似然函数,求导计算似然函数的最大值)
最大后验估计加了先验知识,求观测数据条件下概率最大的参数,与此同时参数具有先验分布(这个概率是观测值条件下的参数的概率,这个条件概率是后验概率,通过贝叶斯公式展开后将参数的先验概率也带入,最后求导计算后验概率的最大值)
(1)条件概率公式
设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为:
P(A|B)=P(AB)/P(B)
(2)乘法公式
1.由条件概率公式得:
P(AB)=P(A|B)P(B)=P(B|A)P(A)
上式即为乘法公式;
2.乘法公式的推广:对于任何正整数n≥2,当P(A1A2...An-1) > 0 时,有:
P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1)
(3)全概率公式
1. 如果事件组B1,B2,.... 满足
1.B1,B2....两两互斥,即 Bi ∩ Bj = ∅ ,i≠j , i,j=1,2,....,且P(Bi)>0,i=1,2,....;
2.B1∪B2∪....=Ω ,则称事件组 B1,B2,...是样本空间Ω的一个划分
设 B1,B2,...是样本空间Ω的一个划分,A为任一事件,则:
上式即为全概率公式(formula of total probability)
2.全概率公式的意义在于,当直接计算P(A)较为困难,而P(Bi),P(A|Bi) (i=1,2,...)的计算较为简单时,可以利用全概率公式计算P(A)。思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进