频率派与贝叶斯派


  对概率的诠释有两大学派,一种是频率派,另一种是贝叶斯派。

  其中数据集的数学符号如下所示:

X = ( x 1 x 2 ⋯ x N ) N × P T = [ x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋮ ⋮ ⋮ x N 1 x N 2 ⋯ x N P ] X = \left( \begin{array} { l l } { x _ { 1 } } & { x _ { 2 } \cdots x _ { N } } \end{array} \right) ^ { T }_ { N \times P }= \left[ \begin{array} { c c c c } { x _ { 11 } } & { x _ { 12 } } & { \cdots } & { x _ { 1 p } } \\ { x _ { 21 } } & { x _ { 22 } } & { \cdots } & { x _ { 2 p } } \\ { \vdots } & { \vdots } & { \vdots } & { \vdots } \\ { x _ { N 1 } } & { x _ { N 2 } } & { \cdots} & { x _ { N P } } \end{array} \right] X=(x1x2xN)N×PT=x11x21xN1x12x22xN2x1px2pxNP

  并且数据集服从于以下分布:
X ∼ P ( X ∣ θ ) X\sim P(X|\theta) XP(Xθ)

1. 频率派

  频率派认为模型参数 θ \theta θ未知的常量,而 X X X是随机变量。那么则可以使用极大似然估计(MLE)来求参数 θ \theta θ

M L E = θ M L E = arg max ⁡ θ   l o g [ P ( X ∣ θ ) ] = arg max ⁡ θ   l o g [ ∏ i = 1 n P ( x i ∣ θ ) ] = arg max ⁡ θ   ∑ i = 1 n l o g [ P ( x i ∣ θ ) ] MLE=\theta_{MLE}=\argmax_{\theta}\ log[P(X|\theta)]=\argmax_{\theta}\ log[\prod_{i=1}^n P(x_i|\theta)]=\argmax_{\theta}\ \sum_{i=1}^n log[ P(x_i|\theta)] MLE=θMLE=θargmax log[P(Xθ)]=θargmax log[i=1nP(xiθ)]=θargmax i=1nlog[P(xiθ)]

L ( θ ) = l o g [ P ( X ∣ θ ) ] L(\theta)=log[P(X|\theta)] L(θ)=log[P(Xθ)]

  Q:除了MLE以外,什么时候会使用 log ⁡ \log log变换呢?

2. 贝叶斯派

  贝叶斯派认为参数 θ \theta θ也是随机变量,它服从于一定的概率分布( θ ∼ P ( θ ) \theta \sim P(\theta) θP(θ)),即先验分布。

  根据贝叶斯定理,可以求得后验分布:
P ( θ ∣ X ) = P ( θ ) ⋅ P ( X ∣ θ ) P ( X ) P(\theta|X)=\frac{P(\theta) \cdot P(X|\theta)}{P(X)} P(θX)=P(X)P(θ)P(Xθ)

  其中 P ( X ) = ∫ P ( θ ) ⋅ P ( X ∣ θ )   d θ P(X)=\int P(\theta) \cdot P(X|\theta)\ d\theta P(X)=P(θ)P(Xθ) dθ,贝叶斯派则使用最大后验估计来得到参数 θ \theta θ(之所以分母被省去是由于分母与 θ \theta θ无关):
θ = arg max ⁡ θ P ( θ ∣ X ) = arg max ⁡ [ P ( θ ) ⋅ P ( X ∣ θ ) ] \theta=\argmax_{\theta} P(\theta|X)=\argmax[P(\theta) \cdot P(X|\theta)] θ=θargmaxP(θX)=argmax[P(θ)P(Xθ)]

  标准的贝叶斯估计就是要求出 P ( θ ∣ X ) P(\theta|X) P(θX),那么怎么对新数据进行预测( P ( x ~ ∣ X ) P(\tilde x|X) P(x~X))呢?

P ( x ~ ∣ X ) = ∫ P ( x ~ , θ ∣ X ) d θ = ∫ P ( x ~ ∣ θ ) ⋅ P ( θ ) P ( X ) d θ P(\tilde x|X)=\int P(\tilde x,\theta|X) d\theta=\int \frac{P(\tilde{x}|\theta)\cdot P(\theta)}{P(X)} d\theta P(x~X)=P(x~,θX)dθ=P(X)P(x~θ)P(θ)dθ

= ∫ P ( x ~ ∣ θ ) ⋅ P ( θ ∣ X )   d θ =\int P(\tilde{x}|\theta) \cdot P(\theta|X) \ d\theta =P(x~θ)P(θX) dθ
  所以由上式可得,贝叶斯最终需要计算后验概率 P ( θ ∣ X ) P(\theta|X) P(θX),而后验概率的求解本质上是求积分问题,比如使用MCMC方法求解。贝叶斯学习对应的是概率图模型。

  频率派对应的是统计机器学习,本质上是优化问题,它的三要素为:

  1. 假设空间
  2. 损失函数
  3. 优化算法(梯度下降、牛顿法)
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值