参数估计问题
- 已知一个随机变量的分布函数 X , f θ ( x ) X, f_\theta(x) X,fθ(x), 其中 θ = ( θ 1 , … , θ k ) \theta=(\theta_1,\ldots,\theta_k) θ=(θ1,…,θk)为未知参数
- 独立样本 X 1 , … , X n X_1,\ldots,X_n X1,…,Xn
- 利用独立样本对参数
θ
\theta
θ做出估计, 或者估计
θ
\theta
θ的某个函数
g
(
θ
)
g(\theta)
g(θ)
- 点估计: 用样本的一个函数 T ( X 1 , … , X n ) T(X_1,\ldots,X_n) T(X1,…,Xn)去估计 g ( θ ) g(\theta) g(θ)
- 区间估计: 用一个区间去估计 g ( θ ) g(\theta) g(θ)
点估计
矩估计
- 矩估计法的基本思想是根据大数定律, 利用样本矩对总体分布矩进行估计
- 然后利用总体矩与参数的关系来对参数进行估计
- 记号:
- 样本 k k k阶矩: a k ( X ) = 1 n ∑ i = 1 n X i k a_k(X)=\frac{1}{n}\sum\limits^n_{i=1}X^k_i ak(X)=n1i=1∑nXik m k ( X ) = 1 n ∑ i = 1 n ( X i − X ˉ ) k m_k(X)=\frac{1}{n}\sum\limits^n_{i=1}(X_i-\bar{X})^k mk(X)=n1i=1∑n(Xi−Xˉ)k
- 总体 k k k阶矩: a k ( X ) = E ( X k ) a_k(X)=E(X^k) ak(X)=E(Xk) μ k ( X ) = E ( ( X − E ( X ) ) k ) \mu_k(X)=E((X-E(X))^k) μk(X)=E((X−E(X))k)
矩估计原理
根据大数定律我们知道, 对于任何随机变量
X
X
X, 当样本数
n
→
∞
n\rightarrow\infty
n→∞时,
1
n
∑
i
=
1
n
X
i
\frac{1}{n}\sum\limits^n_{i=1}X_i
n1i=1∑nXi收敛于
E
(
X
)
E(X)
E(X), 所以
a
1
(
X
)
→
α
1
(
X
)
a_1(X)\rightarrow\alpha_1(X)
a1(X)→α1(X)
对于任意的
k
k
k阶矩, 令
Y
=
X
k
Y=X^k
Y=Xk, 那么
Y
Y
Y也是一个随机变量, 所以同样满足大数定律, 于是
a
k
(
X
)
=
a
1
(
Y
)
→
α
1
(
Y
)
=
α
k
(
X
)
a_k(X)=a_1(Y)\rightarrow\alpha_1(Y)=\alpha_k(X)
ak(X)=a1(Y)→α1(Y)=αk(X)
而中心矩都可以表示成原点矩的多项式, 所以我们同样有
m
k
(
X
)
→
μ
k
(
X
)
m_k(X)\rightarrow\mu_k(X)
mk(X)→μk(X)
极大似然估计
- 给定随机变量的分布与未知参数, 利用观测到的样本计算似然函数
- 选择最大化似然函数的参数作为参数估计量
极大似然估计基本原理: 最大化似然函数
假设独立样本
{
X
1
,
…
,
X
n
}
\{X_1,\ldots,X_n\}
{X1,…,Xn}服从概率密度函数
f
θ
(
x
)
f_\theta(x)
fθ(x). 其中
θ
=
(
θ
1
,
…
,
θ
k
)
\theta=(\theta_1,\ldots,\theta_k)
θ=(θ1,…,θk)是未知参数
当固定
x
x
x的时候,
f
θ
(
x
)
f_\theta(x)
fθ(x)就是
θ
\theta
θ的函数, 我们把这个函数称为似然函数, 记为
L
x
(
θ
)
L_x(\theta)
Lx(θ)或
L
(
θ
)
L(\theta)
L(θ)
似然函数不是概率, 但是很类似于概率, 当 θ \theta θ给定的时候, 它是概率密度. 当 x x x给定, θ \theta θ变化的时候, 他就类似于在表示在这个观测量 x x x的条件下, 参数等于 θ \theta θ的可能性(不是概率), 起个名字叫做似然函数
假设
x
=
(
x
1
,
…
,
x
n
)
x=(x_1,\ldots,x_n)
x=(x1,…,xn)是样本的预测值, 那么整个样本的似然函数就是
L
x
(
θ
)
=
∏
i
=
1
n
L
x
i
(
θ
)
L_x(\theta)=\prod\limits^n_{i=1}L_{x_i}(\theta)
Lx(θ)=i=1∏nLxi(θ)
这是一个关于
θ
\theta
θ的函数, 选取使得
L
x
(
θ
)
L_x(\theta)
Lx(θ)最大化的
(
θ
^
)
(\hat{\theta})
(θ^)作为
θ
\theta
θ的估计量
最大似然函数
θ
\theta
θ, 相当于最大似然函数的对数
l
x
(
θ
)
=
ln
(
L
x
(
θ
)
)
l_x(\theta)=\ln(L_x(\theta))
lx(θ)=ln(Lx(θ)), 一般我们求解似然函数或者对数似然函数的驻点方程
d
l
(
θ
)
d
θ
=
0
,
(
或
者
d
L
(
θ
)
d
θ
=
0
)
\frac{dl(\theta)}{d\theta}=0, (或者\frac{dL(\theta)}{d\theta}=0)
dθdl(θ)=0,(或者dθdL(θ)=0)
然后判断整个驻点是否最大点(求驻点可以用牛顿法, 或者梯度法等等)
点估计的评判准则
- 相合性(consistency): 当样本数量趋于无穷时, 估计量收敛于参数真实值
- 无偏性(bias): 对于有限的样本, 估计量所符合的分布之期望等于参数真实值
- 有效性(efficiency): 估计值所满足的分布反差越小越好
- 渐进正态性(asymptotic normality): 当样本趋于无穷时, 去中心化去量纲化的估计量符合标准正态分布
相和性
相和性是最基本的要求, 矩估计的相和性是有大数定律来保证的, 极大似然估计的相和性也是隐含的由大数定律来保证的
假设一个随机变量
X
X
X服从
f
θ
o
(
x
)
f_{\theta_o}(x)
fθo(x), 最大化
l
x
(
θ
)
l_x(\theta)
lx(θ)跟最大化
1
n
l
x
(
θ
)
\frac{1}{n}l_x(\theta)
n1lx(θ)是一样的
1
n
l
x
(
θ
)
=
1
n
∑
i
=
1
n
l
x
i
(
θ
)
=
1
n
∑
i
=
1
n
ln
(
f
θ
(
x
i
)
)
\frac{1}{n}l_x(\theta)=\frac{1}{n}\sum\limits^n_{i=1}l_{x_i}(\theta)=\frac{1}{n}\sum\limits^n_{i=1}\ln(f_\theta(x_i))
n1lx(θ)=n1i=1∑nlxi(θ)=n1i=1∑nln(fθ(xi))
这个无穷求和就收敛于(大数定律)
E
(
ln
(
f
θ
(
X
)
)
)
=
∫
x
ln
(
f
θ
(
x
)
)
f
θ
o
(
x
)
d
x
E(\ln(f_\theta(X)))=\int\limits_x\ln(f_\theta(x))f_{\theta_o}(x)dx
E(ln(fθ(X)))=x∫ln(fθ(x))fθo(x)dx
而
θ
^
\hat{\theta}
θ^是
1
n
l
x
(
θ
)
\frac{1}{n}l_x(\theta)
n1lx(θ)的极大值点, 所有
lim
θ
^
\lim\hat{\theta}
limθ^收敛与
E
(
ln
(
f
θ
(
X
)
)
)
E(\ln(f_\theta(X)))
E(ln(fθ(X)))的极大值点
也就是说
E
(
l
n
(
f
θ
(
X
)
)
)
−
E
(
ln
(
f
θ
o
(
X
)
)
)
≤
0
E(ln(f_\theta(X)))-E(\ln(f_{\theta_o}(X)))\leq0
E(ln(fθ(X)))−E(ln(fθo(X)))≤0
于是
θ
o
\theta_o
θo就是关于
θ
\theta
θ的函数
E
(
ln
(
f
θ
(
X
)
)
)
E(\ln(f_\theta(X)))
E(ln(fθ(X)))的极大值点
无偏性
任何一个满足相合性的参数估计, 当独立样本趋于无穷的时候都会收敛于参数的真实值, 但是对于有限样本的情况下, 这个估计值的期望不见得总等于参数的真实值
有效性
如果两个参数估计量
θ
^
\hat{\theta}
θ^和
θ
~
\tilde{\theta}
θ~, 既是相合的又是无偏的, 那么他们两个中方差较小的哪一个比较好, 如果
V
a
r
(
θ
^
)
≥
V
a
r
(
θ
~
)
Var(\hat{\theta})\geq Var(\tilde{\theta})
Var(θ^)≥Var(θ~)
那么我们就认为
θ
~
\tilde{\theta}
θ~比较有效
区间估计
置信区间
置信区间可以认为是点估计的一个扩展. 分为如下步骤
- 找到一个点估计 T T T
- 找出一个 T T T与 θ \theta θ的函数满足某一个已知的分布 F F F
- 利用这个已知的分布 F F F的 α / 2 \alpha/2 α/2分位数, 来求出参数的置信区间
如果这个分布 F F F很难找到, 那么还有一种近似的方法
- 找到一个点估计 T T T
- 利用渐进正态的性质, 发现 T T T在 n n n很大的时候满足某种正态分布
- 利用这个已知的正态分布的 α / 2 \alpha/2 α/2分位数, 来求出参数的置信区间