概率导论-贝叶斯统计推断
基本问题
- 统计推断是什么?
统计推断是从观测数据推断未知变量或未知模型的有关信息的过程。 - 统计推断的用途是什么?
统计推断可用于“参数估计”,“假设检验”,“显著性检验” - 统计推断的研究思路是什么?
主要有两种思路:“贝叶斯统计推断” 和“经典统计推断”。(大局方法) - 统计推断具体使用的"算法"有哪些?
最大后验概率准则,最小均方估计,最大似然估计,回归,似然比检验等。(小方法)
统计学与概率论
“统计学”与“概率论”在认识论上有明显的区别。
概率论是建立在概率公理上的系统自我完善的数学课题。我们会假设一个完整的特定的概率模型满足概率公理,然后用数学方法研究模型的一些性质。概率模型无需与现实世界相一致,它值对概率公理负责。
统计学是针对一个具体的问题,寻求合理的研究方法,希望得到合理的结论。这就存在很大的自由度,采取不同的研究方法,结论可能不同。通常我们会附加一些限制条件,以便得到“理想结论”。
正是由于统计学的这种特征,现实社会存在许多人为制造的"理想结论",这些结论可能来源于真实的数据,但研究方法是人为选定的。
贝叶斯统计与经典统计
贝叶斯统计与经典统计(频率学派)是两种突出但对立的思想学派。
最重要的区别就是如何看待未知模型或变量。贝叶斯学派将其看成已知分布的随机变量。而经典统计将其看成未知的待估计的量。
贝叶斯方法将统计拉回“概率论”的研究领域,使得每个问题只有一个答案。经典统计将未知量看作一种参数,它是一个常数,未知需要估计。
从现实角度来看,贝叶斯统计主张将假设的先验分布公开,即研究过程公开了。贝叶斯统计推断涉及到多维度积分,计算困难,所以贝叶斯学派的最新成功可能集中于如何计算上。
推断模型与推断变量
这两种问题有细微的区别。推断模型是为了研究某种现象或过程的一般规律,以期能够预测未来现象的结果。推断变量是从已知的量,推测未知的量,例如从gps信息推断所处于的位置。
术语解释
- 参数估计:对参数进行估计,使得在某种概率意义下估计接近真实值。
- 假设检验:未知参数根据对立的假设可能取有限个值,选择一个假设,目标是使犯错误的概率最小。
- 显著性检验:
- 最大后验概率(MAP)准则:给待估计的量假设一个分布,在观测条件下,最大化后验概率的值。
- 最小均方(LMS):选择数据的一个估计量或函数,使得参数与估计之间的均方误差达到最小。
- 线性最小均方(LLMS)误差:为了计算简单,简化版的LMS。
贝叶斯统计推断
流程
- 起点是未知随机变量 Θ \Theta Θ的先验分布 p Θ p_{\Theta} pΘ或 f Θ f_{\Theta} fΘ
- 得到观测向量X的 p X ∣ Θ p_{X|\Theta} pX∣Θ或 f X ∣ Θ f_{X|\Theta} fX∣Θ
- 一旦观测到X的一个特定值x后,运用贝叶斯法则计算 Θ \Theta Θ的后验分布 p Θ ∣ X p_{\Theta|X} pΘ∣X或 f Θ ∣ X f_{\Theta|X} fΘ∣X
四种贝叶斯法则计算后验分布:
(省略了括号及括号内的参数,四种情形本质上是一样的,都是贝叶斯公式的运用。连续和离散的区别就是用积分号代替求和,用f代替p.分母其实都是常数,不用直接计算。)
- Θ , X \Theta,X Θ,X均离散。
p Θ ∣ X = p Θ p X ∣ Θ ∑ θ p Θ p X ∣ Θ p_{\Theta|X}=\frac{p_{\Theta}p_{X|\Theta}}{\sum _{\theta}{p_{\Theta}p_{X|\Theta}}} pΘ∣X=∑θpΘpX∣ΘpΘpX∣Θ - Θ \Theta Θ离散, X X X连续
p Θ ∣ X = p Θ f X d x ∑ θ p Θ f X ∣ Θ d x = p Θ f X ∣ Θ ∑ θ p Θ f X ∣ Θ p_{\Theta|X}=\frac{p_{\Theta}f_{X}dx}{\sum _{\theta}p_{\Theta}f_{X|\Theta}dx}=\frac{p_{\Theta}f_{X|\Theta}}{\sum _{\theta}p_{\Theta}f_{X|\Theta}} pΘ∣X=∑θpΘfX∣ΘdxpΘfXdx=∑θpΘfX∣ΘpΘfX∣Θ - Θ \Theta Θ连续, X X X离散
f Θ ∣ X = f Θ ∗ p X ∣ Θ ∫ − ∞ + ∞ ( f Θ p X ∣ Θ ) d θ f_{\Theta|X}=\frac{f_{\Theta}*p_{X|\Theta}}{\int _{-\infty}^{+\infty}({f_{\Theta} p_{X|\Theta})d\theta}} fΘ∣X=∫−∞+∞(fΘpX∣Θ)dθfΘ∗pX∣Θ - Θ \Theta Θ连续, X X X连续
f Θ ∣ X = f Θ ∗ f X ∣ Θ ∫ − ∞ + ∞ ( f Θ f X ∣ Θ ) d θ f_{\Theta|X}=\frac{f_{\Theta}*f_{X|\Theta}}{\int _{-\infty}^{+\infty}({f_{\Theta} f_{X|\Theta})d\theta}} fΘ∣X=∫−∞+∞