参数估计
参数估计(parameter estimation): 根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计
点估计: 借助于总体中抽取的一个样本来估计总体的未知参数的值的问题称为参数的点估计问题
构建点估计常用方法:
1.矩估计法: 用样本矩估计总体矩,从而得到总体分布中参数的一种估计。它的思想实质是用样本的经验分布和样本矩去替换总体的分布和总体矩。矩估计法的优点是简单易行, 并不需要事先知道总体是什么分布。缺点是,当总体类型已知时,没有充分利用分布提供的信息。一般场合下,矩估计量不具有唯一性。
设X是一维随机变量,若
E
(
X
k
)
E(X^k)
E(Xk)存在,则称他为X的k阶原点矩,简称k阶矩,
我们称
A
k
=
1
n
∑
i
=
1
n
x
i
k
A_k = \frac{1}{n}\sum_{i=1}^{n}x_i^k
Ak=n1∑i=1nxik为样本k阶矩,样本k阶矩
μ
k
=
A
k
\mu_k = A_k
μk=Ak是总体k阶矩
E
(
X
k
)
E(X^k)
E(Xk)的无偏估计
然后我们就利用这个思路进行矩估计
1.假设我们有k个要估计的参数,我们可以求样本的1阶矩、2阶矩、3阶矩……、k阶矩
2.再写入总体1阶矩、2阶矩、3阶矩……、k阶矩的公式,因为他们是无偏估计,我们就可以得到k个方程,利用这k个方程求这k个要估计的参数
例题:
2.极大似然估计(MLE)
极大似然估计是频率派思想,对于一个已知的概率密度函数,根据样本数据,会有一组参数,使得这个参数带入概率密度函数后,这批样本出现概率最大,这个参数就是我们要估计的参数
先设密度函数为 f ( x ∣ θ ) , θ 就 是 我 们 要 求 的 参 数 f(x|\theta),\theta就是我们要求的参数 f(x∣θ),θ就是我们要求的参数,对于一组相互独立样本数据X1,X2,X3……,Xn,我们可以得到这批独立样本出现的概率: L ( θ ) = f ( X 1 , X 2 , X 3 … … , X n ∣ θ ) = ∏ i = 1 n f ( X i ∣ θ ) L(\theta) = f(X1,X2,X3……,Xn|\theta)=\prod_{i=1}^{n} f(Xi|\theta) L(θ)=f(X1,X2,X3……,Xn∣θ)=i=1∏nf(Xi∣θ)
我们要求的就是
a
r
g
m
a
x
θ
L
(
θ
)
\underset{\theta}{argmax}L(\theta)
θargmaxL(θ)
这个方程的解法为:
首先把
L
(
θ
)
L(\theta)
L(θ)转化为
l
n
(
L
(
θ
)
)
ln(L(\theta))
ln(L(θ)),因为他们两个在同一点取得最大值
转换之后公式就变为求
a
r
g
m
a
x
θ
l
n
(
L
(
θ
)
)
=
∑
i
=
1
n
f
(
X
i
∣
θ
)
\underset{\theta}{argmax}ln(L(\theta)) = \sum_{i=1}^nf(X_i|\theta)
θargmaxln(L(θ))=i=1∑nf(Xi∣θ)
然后我们对每个参数 θ j \theta_j θj求导,并令导数为0 ∂ l n ( L ( θ ) ) ∂ θ j = 0 , j = 0 , 1 , 2 , … … \frac{\partial ln(L(\theta))}{\partial \theta_j} = 0,j=0,1,2,…… ∂θj∂ln(L(θ))=0,j=0,1,2,……,求得参数 θ \theta θ
θ = ( θ 1 , θ 2 , θ 3 , … … ) \theta = (\theta_1,\theta_2,\theta_3,……) θ=(θ1,θ2,θ3,……)
3.最大后验概率分布(MAP)
最大似然估计认为使似然函数
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ)最大的
θ
\theta
θ就是最好的参数,最大似然估计把参数看为一个固定值。而MAP则是认为
θ
\theta
θ是一个随机变量,也就是说
θ
\theta
θ是一种概率分布,并且给定一个初始的概率分布,这个初始的概率分布称为先验分布
我们根据贝叶斯公式,由给定的样本X(X1,X2,X3,……,Xn),确定
θ
\theta
θ,
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
p
(
θ
)
p
(
X
)
p(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}
p(θ∣X)=p(X)p(X∣θ)p(θ)
其中
p
(
θ
)
p(\theta)
p(θ)为先验概率,
p
(
X
∣
θ
)
p(X|\theta)
p(X∣θ)为似然函数,这里的X其实就是一个定值,和
θ
\theta
θ没关系,这里我们要最大化的函数是
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X),他是
θ
\theta
θ的后验概率
p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) p ( X ) ∝ p ( X ∣ θ ) p ( θ ) p(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)} \propto p(X|\theta)p(\theta) p(θ∣X)=p(X)p(X∣θ)p(θ)∝p(X∣θ)p(θ)
我们要求的就是 a r g m a x θ l n ( p ( θ ∣ X ) ) = a r g m a x θ l n ( p ( X ∣ θ ) p ( θ ) ) = a r g m a x θ ( l n ( p ( X ∣ θ ) ) + l n ( p ( θ ) ) ) \underset{\theta}{argmax}ln(p(\theta|X)) = \underset{\theta}{argmax}ln(p(X|\theta)p(\theta)) = \underset{\theta}{argmax}(ln(p(X|\theta)) + ln(p(\theta))) θargmaxln(p(θ∣X))=θargmaxln(p(X∣θ)p(θ))=θargmax(ln(p(X∣θ))+ln(p(θ)))
如果将机器学习结构风险中的正则化项对应为上式的 l n ( p ( θ ) ) ln(p(\theta)) ln(p(θ)),那么带有正则化项的最大似然学习就可以被解释为MAP。当然,这并不是总是正确的,例如,有些正则化项可能不是一个概率分布的对数,还有些正则化项依赖于数据,当然也不会是一个先验概率分布。不过,MAP提供了一个直观的方法来设计复杂但可解释的正则化项,例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。