Bayes or Bayesian,which one to choose?
Bayes:名词. 常用的表达法有 Bayes' rule;Naive Bayes classifier;
Bayesian:形容词. 常用的表达法有 Bayesian network ;Bayesian model;
Bayesian model其更精确的名字是 hierarchical Bayes model(层级贝叶斯模型)。不是所有的 Bayesian network 都能表示的模型都被称为 Bayesian model;只有使用 random variables 的参数 被作为 random variable 来看待,并且用另一层的参数来描述这些random variables 的模型,才被称为 Bayesian model。一个例子是:
假设你手头有N枚硬币,它们由同一铸币厂铸造。现把每一个硬币掷出一个结果,然后基于这N个结果对这N枚硬币出现正面的比例 THETA 进行推理。根据MAXIMUM LIKELIHOOD ESTIMATOR,它们出现的结果不是 1就是0.对于选择哪枚硬币进行抛掷,站在贝叶斯的角度,我们知道它是有一个参数分布的,假设P(theta)服从Beta分布。总结整个过程就是:每个硬币实际投掷结果X服从以Theta为中心的正态分布,而Theta又服从以phi为中心的beta分布。这样,层级关系就很明显了。phi也有可能依赖于因果链上更上层的因素,以此类推。
另一个例子是 PLSA 不是 Bayesian model,但是它的下一代 LDA 是。
Bayes‘ theorem(Bayes' rule) 经由一个概率公式描述:p(A I B)=P(B I A)P(A)/P(B)
具体的说:要想知道 B -> A 这个是否有意义,可以通过 A -> B 的条件关系成立的概率和 A 出现的概率来推演。这种推演 演化成 Bayesian inference。
Bayes' rule 主要用到的概率密度表达式:条件概率密度P( A I B );P(B)边缘概率密度;P(A,B)联合概率分布 ;此外,Pr(.)某一事件发生概率;
贝叶斯统计学模型中一个很重要的random variable-----参数theta(也可以是某个函数服从某种分布或latent variables),y表示已知观察量(这里不再使用A 、B是为了和大多数统计模型保持一致)。
ok,我们来看意义更为清晰表达式形式:
联合概率(joint distribution): p(theta,y)=P(theta)P(y I theta );
后验概率(posterior distribution):p(theta I y)=p(theta,y)/p(y) =P(theta)P(y I theta )/p(y)=P(theta)P(y I theta )/sum(P(theta)P(y I theta )).自己用笔写出来就更清晰了;
边缘概率(marginal distribution):P(y)=integral(p(theta,y))d(theta)=integral(P(theta)P(y I theta ))d(theta);
有了以上三种已知概率,就方便我们prediction,因为贝叶斯统计模型认为参数的一切信息都包含在后验分布中,于是我们只需要研究后验密度函数即可。
P(y' I y)=integral P(y',theta I y)d(theta) %引入 theta
=integral P(y' I theta,y)P(theta I y) d(theta) %与后验分布建立联系
=integral P(y' I theta) P(theta I y)d (theta) %y'与y 没有直接联系,通过theta 建立联系
做预测时,这个变形很重要,与其说是变形,其实更直白的意思应该是引入 latent variables。Markov chain 的构造过程也长采用这种方法。这也是再一次验证贝叶斯统计学关注的焦点为什么是theta。
当theta采用某一标准分布是,我们直接利用标准分布的参数表达形式,例如, 若 theta服从 均值为 mu,方差为sigma^2的正态分布,则表达式可以写成如下形式:
theta ~ N(mu,sigma^2) 或者 P(theta)=N(theta I mu,sigma^2 ).
N(mu,sigma^2) 代表随机变量,
N(theta I mu,sigma^2 ) 代表密度函数;
此外,联合概率和条件概率也在因式分解中上座上宾。
P(U,V ,W)=P(U IV,W)P(V I W)P(W).
所以,若遇到更复杂的概率分布问题,有效的方法就是进行因式分解,然后对因式分解的每一部分进行simulate。比如,在文中开篇提到的贝叶斯层级模型中,我们先获取最大似然的theta的边缘概率分布---P(theta),而后基于这个P(theta)来inference phi。如果同时对 theta 和phi 进行估值,即使用Gibbs sampling ,也需要先求的一个参数的 marginal posterior distribution 。
我们关注的终极目标是为了求取整个模型参数的概率分布。有了P(theta),当这个最关键的参数清晰之后,基于这个参数的随机变量的后验分布或边缘分布求解也就相对容易了。