最大似然估计
最大似然估计是机器学习中比较重要的概率统计问题,这里将介绍比较重要几个和易混淆的问题:
1.首先确定采样是独立同分布的(i.i.d.)。
2. 在这里先假设,样本分布符合高斯分布。
独立性:
P ( A B ) = P ( A ) ⋅ P ( B ) \mathbb P (AB)=\mathbb P (A) \cdot \mathbb P (B) P(AB)=P(A)⋅P(B)
同分布:
保证了所有的样本点符合同一分布,这里假设为高斯分布,连续性分布,即 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)。 注: 非连续性分布,过程类似。
样本
假设抽样了 X 1 , X 2 , X 3 . . . . , X 1 = { x 1 , x 2 , . . . x n } X_1,X_2,X_3....,X_1=\{x_1,x_2,...x_n\} X1,X2,X3....,X1={x1,x2,...xn},所以 f ( x 1 ; μ , σ ) = 1 2 π σ 2 e − 1 2 σ 2 ( x 1 − μ ) 2 , P ( x 1 ; μ , σ ) = 1 2 π σ 2 e − 1 2 σ 2 ( x 1 − μ ) 2 d x 1 P ( X ; μ , σ ) = ∏ i = 1 n P ( x i ; μ , σ ) = ∏ i = 1 n f ( x 1 ; μ , σ ) d x i = ∏ i = 1 n 1 2 π σ 2 e − 1 2 σ 2 ( x i − μ ) 2 ⋅ ∏ i = 1 n d x i \Large f(x_1;\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x_1-\mu)^2},\\P(x_1;\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x_1-\mu)^2} dx_1 \\ \Large P(X;\mu,\sigma)= \prod_{i=1}^{n}P(x_i;\mu,\sigma) =\prod_{i=1}^{n}f(x_1;\mu,\sigma) dx_i\\ =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2} (x_i-\mu)^2} \cdot \prod_{i=1}^{n}dx_i f(x1;μ,σ)=2πσ21e−2σ21(x1−μ)2,P(x1;μ,σ)=2πσ21e−2σ21(x1−μ)2dx1P(X;μ,σ)=∏i=1nP(xi;μ,σ)=∏i=1nf(x1;μ,σ)dxi=∏i=1n2πσ21e−2σ21(xi−μ)2⋅∏i=1ndxi
\
\
似然函数(Likelihood function,似乎是这样的函数
)
\
由独立性和同分布性可得,这里我们用
L
m
L_m
Lm表示联合概率密度分布,因为
∏
i
=
1
n
d
x
i
\prod_{i=1}^{n}dx_i
∏i=1ndxi为定值与
μ
,
σ
\mu,\sigma
μ,σ无关这里说明了在最大似然估计中为啥不是概率分布,而是概率密度函数
:
L m ( μ , σ ; X 1 ) = ∏ i = 1 n f ( x 1 ; μ , σ ) = ∏ i = 1 n 1 2 π σ 2 e − 1 2 σ 2 ( x i − μ ) 2 \Large L_m(\mu,\sigma;X_1) = \prod_{i=1}^{n}f(x_1;\mu,\sigma) =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2} (x_i-\mu)^2} Lm(μ,σ;X1)=∏i=1nf(x1;μ,σ)=∏i=1n2πσ21e−2σ21(xi−μ)2
由于连乘形式不好运算,所以我们两边同时取对数得,用$ l_m$ 取对数后的概率密度分布:
l m ( μ , σ ; X 1 ) = ∑ i = 1 n l n f ( x 1 ; μ , σ ) = − n 2 l n ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \Large l_m(\mu,\sigma;X_1) = \sum_{i=1}^{n}lnf(x_1;\mu,\sigma) = -\frac{n}{2}ln(2\pi\sigma^2)-\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2 lm(μ,σ;X1)=∑i=1nlnf(x1;μ,σ)=−2nln(2πσ2)−2σ21∑i=1n(xi−μ)2
最大似然估计(MLE)
这里我们取
θ
=
(
μ
,
σ
)
\theta = (\mu,\sigma)
θ=(μ,σ),我们要得到使得似然函数
L
m
L_m
Lm取得最大值的 、
θ
\theta
θ 的参数估计,即:
θ
^
\widehat \theta
θ
,称为参数
θ
\theta
θ的最大似然估计。
所以对上述似然方程求偏导得,尖帽
表示估计值:
∂
l
∂
σ
=
∂
l
∂
μ
=
0
μ
^
=
1
n
∑
i
=
1
n
x
i
σ
^
=
1
n
∑
i
=
1
n
(
x
i
−
μ
^
)
2
\Large \frac{\partial{l}}{\partial\sigma}=\frac{\partial{l}}{\partial\mu} =0\\ \Large \widehat\mu =\frac{1}{n}\sum_{i=1}^{n}x_i\\ \Large \widehat\sigma = \frac{1}{n}\sum_{i=1}^{n}(x_i-\widehat\mu)^2\\
∂σ∂l=∂μ∂l=0μ
=n1i=1∑nxiσ
=n1i=1∑n(xi−μ
)2
所以可得参数
θ
\theta
θ的最大似然估计值为
(
μ
^
,
σ
^
)
(\widehat\mu,\widehat\sigma)
(μ
,σ
)
参数的
θ
\theta
θ最大估计量:
μ ^ = X ˉ σ ^ = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 \Large \widehat\mu =\bar X\\ \Large \widehat\sigma = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar X)^2\\ μ =Xˉσ =n1i=1∑n(xi−Xˉ)2