对概率的诠释有两大学派,一种是频率派,另一种是贝叶斯派。
其中数据集的数学符号如下所示:
X = ( x 1 x 2 ⋯ x N ) N × P T = [ x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋮ ⋮ ⋮ x N 1 x N 2 ⋯ x N P ] X = \left( \begin{array} { l l } { x _ { 1 } } & { x _ { 2 } \cdots x _ { N } } \end{array} \right) ^ { T }_ { N \times P }= \left[ \begin{array} { c c c c } { x _ { 11 } } & { x _ { 12 } } & { \cdots } & { x _ { 1 p } } \\ { x _ { 21 } } & { x _ { 22 } } & { \cdots } & { x _ { 2 p } } \\ { \vdots } & { \vdots } & { \vdots } & { \vdots } \\ { x _ { N 1 } } & { x _ { N 2 } } & { \cdots} & { x _ { N P } } \end{array} \right] X=(x1x2⋯xN)N×PT=⎣⎢⎢⎢⎡x11x21⋮xN1x12x22⋮xN2⋯⋯⋮⋯x1px2p⋮xNP⎦⎥⎥⎥⎤
并且数据集服从于以下分布:
X
∼
P
(
X
∣
θ
)
X\sim P(X|\theta)
X∼P(X∣θ)
1. 频率派
频率派认为模型参数
θ
\theta
θ是未知的常量,而
X
X
X是随机变量。那么则可以使用极大似然估计
(MLE)来求参数
θ
\theta
θ。
M L E = θ M L E = arg max θ l o g [ P ( X ∣ θ ) ] = arg max θ l o g [ ∏ i = 1 n P ( x i ∣ θ ) ] = arg max θ ∑ i = 1 n l o g [ P ( x i ∣ θ ) ] MLE=\theta_{MLE}=\argmax_{\theta}\ log[P(X|\theta)]=\argmax_{\theta}\ log[\prod_{i=1}^n P(x_i|\theta)]=\argmax_{\theta}\ \sum_{i=1}^n log[ P(x_i|\theta)] MLE=θMLE=θargmax log[P(X∣θ)]=θargmax log[i=1∏nP(xi∣θ)]=θargmax i=1∑nlog[P(xi∣θ)]
L ( θ ) = l o g [ P ( X ∣ θ ) ] L(\theta)=log[P(X|\theta)] L(θ)=log[P(X∣θ)]
Q:除了MLE以外,什么时候会使用 log \log log变换呢?
2. 贝叶斯派
贝叶斯派认为参数 θ \theta θ也是随机变量,它服从于一定的概率分布( θ ∼ P ( θ ) \theta \sim P(\theta) θ∼P(θ)),即先验分布。
根据贝叶斯定理,可以求得后验分布:
P
(
θ
∣
X
)
=
P
(
θ
)
⋅
P
(
X
∣
θ
)
P
(
X
)
P(\theta|X)=\frac{P(\theta) \cdot P(X|\theta)}{P(X)}
P(θ∣X)=P(X)P(θ)⋅P(X∣θ)
其中
P
(
X
)
=
∫
P
(
θ
)
⋅
P
(
X
∣
θ
)
d
θ
P(X)=\int P(\theta) \cdot P(X|\theta)\ d\theta
P(X)=∫P(θ)⋅P(X∣θ) dθ,贝叶斯派则使用最大后验估计
来得到参数
θ
\theta
θ(之所以分母被省去是由于分母与
θ
\theta
θ无关):
θ
=
arg max
θ
P
(
θ
∣
X
)
=
arg max
[
P
(
θ
)
⋅
P
(
X
∣
θ
)
]
\theta=\argmax_{\theta} P(\theta|X)=\argmax[P(\theta) \cdot P(X|\theta)]
θ=θargmaxP(θ∣X)=argmax[P(θ)⋅P(X∣θ)]
标准的贝叶斯估计就是要求出 P ( θ ∣ X ) P(\theta|X) P(θ∣X),那么怎么对新数据进行预测( P ( x ~ ∣ X ) P(\tilde x|X) P(x~∣X))呢?
P ( x ~ ∣ X ) = ∫ P ( x ~ , θ ∣ X ) d θ = ∫ P ( x ~ ∣ θ ) ⋅ P ( θ ) P ( X ) d θ P(\tilde x|X)=\int P(\tilde x,\theta|X) d\theta=\int \frac{P(\tilde{x}|\theta)\cdot P(\theta)}{P(X)} d\theta P(x~∣X)=∫P(x~,θ∣X)dθ=∫P(X)P(x~∣θ)⋅P(θ)dθ
=
∫
P
(
x
~
∣
θ
)
⋅
P
(
θ
∣
X
)
d
θ
=\int P(\tilde{x}|\theta) \cdot P(\theta|X) \ d\theta
=∫P(x~∣θ)⋅P(θ∣X) dθ
所以由上式可得,贝叶斯最终需要计算后验概率
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X),而后验概率的求解本质上是求积分问题
,比如使用MCMC方法求解。贝叶斯学习对应的是概率图模型。
频率派对应的是统计机器学习,本质上是优化问题
,它的三要素为:
- 假设空间
- 损失函数
- 优化算法(梯度下降、牛顿法)