频率派VS贝叶斯派

Introduction

对概率的诠释有两大学派,一种是贝叶斯派,一种是概率派。对于观测到的样本,我们以后均采用下面的标记:
X = ( x 1 , x 2 , . . . x n ) T = ( x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p . . . x N 1 x N 2 . . . x N p s ) N ∗ p X = (x_1,x_2, ...x_n)^{T}=\begin{pmatrix} x_{11} &x_{12} &... &x_{1p} \\ x_{21}&x_{22} & ... &x_{2p} \\ ...& & & \\ x_{N1}&x_{N2} &... &x_{Np}s \end{pmatrix}_{N*p} X=(x1,x2,...xn)T=x11x21...xN1x12x22xN2.........x1px2pxNpsNp
其中,每一个样本 x i x_{i} xi都是p维的向量,一共有N个样本。每个样本都由p ( x ∣ θ ) (x|\theta) (xθ)产生, θ \theta θ是隐含的参数。

频率派的观点

频率派认为,在样本产生的过程中,参数 θ \theta θ是一个常量。对N个样本来说, p ( X ∣ θ ) = iid ∏ i = 1 N p ( x i ∣ θ ) p(X|\theta) \underset{\text{iid}}{=}\prod_{i=1}^{N}p(x_i|\theta) p(Xθ)iid=i=1Np(xiθ)。参数 θ \theta θ可以用最大对数似然MLE来产生:
KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ \theta_{MLE}&=…

贝叶斯派的观点

贝叶斯派认为参数 θ \theta θ服从预设的先验分布x~ p ( θ ) p(\theta) p(θ)。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) p ( X ) = p ( X ∣ θ ) p ( θ ) ∫ p ( X ∣ θ ) p ( θ ) d θ p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta} p(θX)=p(X)p(Xθ)p(θ)=p(Xθ)p(θ)dθp(Xθ)p(θ)
后验概率 p ( θ ∣ X ) p(\theta|X) p(θX)最大的可能是后验 θ \theta θ中的众数,也就是 p ( θ ∣ X ) p(\theta|X) p(θX)最大值时的 θ \theta θ的值,即: a r g m a x θ p ( θ ∣ X ) \mathop{argmax}_{\theta} p(\theta|X) argmaxθp(θX)
所以,参数 θ \theta θ的后验为:
θ M A P = a r g m a x θ p ( θ ∣ X ) = a r g m a x θ p ( X ∣ θ ) p ( θ ) \theta_{MAP}=\mathop{argmax}_{\theta}p(\theta|X)=\mathop{argmax}_{\theta}p(X|\theta)p(\theta) θMAP=argmaxθp(θX)=argmaxθp(Xθ)p(θ)
其中, ∫ p ( θ ∣ X ) p ( θ ) d θ \int p(\theta|X)p(\theta)d\theta p(θX)p(θ)dθ是一个固定的值,在 a r g m a x \mathop{argmax}_{} argmax运算中可以省略。 p ( X ∣ θ ) p(X|\theta) p(Xθ)为似然, p ( θ ) p(\theta) p(θ)为先验分布。

求出后验概率 p ( θ ) p(\theta) p(θ)以后,可以求出贝叶斯估计的确定的值:
p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) ∫ p ( X ∣ θ ) p ( θ ) d θ p(\theta|X)=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta} p(θX)=p(Xθ)p(θ)dθp(Xθ)p(θ)
贝叶斯估计可用于求贝叶斯预测:已知原数据X,求出新的样本 x ~ \widetilde{x} x 的概率 p ( x ~ ∣ X ) p(\widetilde{x}|X) p(x X)
KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ p(\widetilde{x…
其中,(在参数 θ \theta θ已知的情况下) x ~ \widetilde{x} x X X X相互独立; p ( x ~ ∣ θ ) p(\widetilde{x}|\theta) p(x θ)是模型, p ( θ ∣ X ) p(\theta|X) p(θX)是后验分布。

小结

频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC、蒙特卡罗有很多应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值