早晨上机,花了点时间学习了下最大后验估计MAP/最大似然估计MLE,主要参考维基百科,真的是个好东东~~
看来要做科研,随机过程和概率论真真的很重要啊~
- 后验概率 = (相似度*先验概率)/标准化常量; 后验概率 = 标准相似度*先验概率; (P(B|A)是相似度;比例P(B|A)/P(B)也有时被称作标准相似度)
- 在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑"观测数据"前,能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度,而不是这个不确定量的随机性。在使用贝叶斯定理时,我们通过将先验概率P(A)与似然函数(P(B|A))相乘,随后标准化P(B),来得到后验概率分布,也就是给出某数据,该不确定量的条件分布.
- 公式:
- 在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据(PH=0.5朝上概率)或数据后(HH两次朝上)所得到的条件概率。
- 在使用贝叶斯定理时,我们通过将先验概率与似然函数相乘,随后标准化,来得到后验概率分布,也就是给出某数据,该不确定量的条件分布.
- 1,似然函数解释:L(pH=0.5∣HH)=P(HH∣pH=0.5)=0.25
也就是说,对于取定的似然函数,在观测到两次投掷都是正面朝上时, pH=0.5 的似然性是0.25;
L(pH=0.6∣HH)=P(HH∣pH=0.6)=0.36
当上式子PH=0.6时,算出的L(ph.6|HH)的概率会是0.36,说明PH=0.6的似然性是0.36,即似然性变大了(或者可以理解成相似性、契合 性,合理性),这说明,如果参数pH 的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设pH=0.5时更大;
似然函数与概率区别:概率用于在已知一些参数的情况下,预测接下来的事件所得到的结果;而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。
似然函数的最大值不一定唯一,也不一定存在。
二:最大似然估计(MLE)
根据观察数据 x 估计没有观察到的总体参数 θ,让 f 作为 x 的采样分布,这样 f(x|θ) 就是总体参数为 θ 时 x 的概率。函数θ↦f(x|θ) 即为似然函数,其估计
-
θ^ML(x)=argmaxf(x|θ)=L(θ|x) ---θ|x就是根据观察x估计参数θ
就是 θ的最大似然估计。
二:最大后验估计(MAP)
1,假设 θ存在一个先验分布 g,这就允许我们将 θ作为 贝叶斯统计(en:Bayesian statistics)中的随机变量,这样 θ的后验分布就是:
其中 Θ 是 g 的domain,这是贝叶斯定理的直接应用。
注:贝叶斯定理对于连续概率函数有
最大后验估计方法于是估计 θ为这个随机变量的后验分布
上式子中分母的θ 无关,所以在优化过程中不起作用;所以式子变成了求f(x|θ)*g(θ)关于θ的最大值;g(θ)是参数θ的先验分布函数,f(x|θ)是在θ为已知分布的情形下x的分布情况。
2,最大后验估计的融入了要估计量的先验分布在其中,故最大后验估计可以看做规则化的最大似然估计。
eg: 假设有五个袋子,各袋中都有无限量的饼干(樱桃口味或柠檬口味),已知五个袋子中两种口味的比例分别是...那问从同一个袋子中连续拿到2个柠檬饼干,那么这个袋子最有可能是上述五个的哪一个?--->是极大似然估计问题。
假设拿到袋子1或5的机率都是0.1,拿到2或4的机率都是0.2,拿到3的机率是0.4,那同样上述问题的答案呢?--->这个时候就变MAP了(即融入了要估计量的先验分布)。我们根据公式:
写出我们的MAP函数。
根据题意的描述可知,p的取值分别为0,25%,50%,75%,1,g的取值分别为0.1,0.2,0.4,0.2,0.1.分别计算出MAP函数的结果为:0,0.0125,0.125,0.28125,0.1.由上可知,通过MAP估计可得结果是从第四个袋子中取得的最高。
3,上述都是离散的变量,那么连续的变量呢?假设为独立同分布的,μ有一个先验的概率分布为。那么我们想根据来找到μ的最大后验概率。根据前面的描述,写出MAP函数为:
此时我们在两边取对数可知。所求上式的最大值可以等同于求
的最小值。求导可得所求的μ为
三:注意
在MAP中我们应注意的是:
MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说。MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。
注意当前验 g 是常数函数(概率均匀)时最大后验估计与最大似然估计重合。
尽管最大后验估计与 Bayesian 统计共享前验分布的使用,通常并不认为它是一种 Bayesian 方法,这是因为最大后验估计是点估计。