统计推断-经典统计推断
基本问题
- 统计推断是什么?
统计推断是从观测数据推断未知变量或未知模型的有关信息的过程。 - 统计推断的用途是什么?
统计推断可用于“参数估计”,“假设检验”,“显著性检验” - 统计推断的研究思路是什么?
主要有两种思路:“贝叶斯统计推断” 和“经典统计推断”。(大局方法) - 统计推断具体使用的"算法"有哪些?
最大后验概率准则,最小均方估计,最大似然估计,回归,似然比检验等。(小方法)
统计学与概率论
“统计学”与“概率论”在认识论上有明显的区别。
概率论是建立在概率公理上的系统自我完善的数学课题。我们会假设一个完整的特定的概率模型满足概率公理,然后用数学方法研究模型的一些性质。概率模型无需与现实世界相一致,它值对概率公理负责。
统计学是针对一个具体的问题,寻求合理的研究方法,希望得到合理的结论。这就存在很大的自由度,采取不同的研究方法,结论可能不同。通常我们会附加一些限制条件,以便得到“理想结论”。
正是由于统计学的这种特征,现实社会存在许多人为制造的"理想结论",这些结论可能来源于真实的数据,但研究方法是人为选定的。
贝叶斯统计与经典统计
贝叶斯统计与经典统计(频率学派)是两种突出但对立的思想学派。
最重要的区别就是如何看待未知模型或变量。贝叶斯学派将其看成已知分布的随机变量。而经典统计将其看成未知的待估计的量。
贝叶斯方法将统计拉回“概率论”的研究领域,使得每个问题只有一个答案。经典统计将未知量看作一种参数,它是一个常数,未知需要估计。
从现实角度来看,贝叶斯统计主张将假设的先验分布公开,即研究过程公开了。贝叶斯统计推断涉及到多维度积分,计算困难,所以贝叶斯学派的最新成功可能集中于如何计算上。
推断模型与推断变量
这两种问题有细微的区别。推断模型是为了研究某种现象或过程的一般规律,以期能够预测未来现象的结果。推断变量是从已知的量,推测未知的量,例如从gps信息推断所处于的位置。
术语解释
- 参数估计:对参数进行估计,使得在某种概率意义下估计接近真实值。
- 假设检验:未知参数根据对立的假设可能取有限个值,选择一个假设,目标是使犯错误的概率最小。
- 显著性检验:对于一个给定的假设,希望发生错误(“接受错误”与“拒绝正确”)的概率适当地小.
- 最大似然估计:在选择参数 θ \theta θ时,使得观测数据最有可能出现,即观测到当前数据的概率达到最大。
- 线性回归:对于给定的一组观测数据,采用线性拟合的方式建立模型。约束条件是使观测数据与模型值的差的平方和最小。(最小二乘法)
- 似然比检验:对于给定的两个假设,根据他们发生的可能性的比值选择其中一个,使得犯错的概率适当小。
经典参数估计
虽然把 θ \theta θ当作常数,而不是随机变量,但仍然把 θ \theta θ估计量当作随机变量 Θ ^ \hat\Theta Θ^,因为 θ ^ \hat\theta θ^一般而言是 x x x的函数, θ ^ = g ( x ) \hat\theta=g(x) θ^=g(x),所以也有: Θ ^ = g ( X ) \hat\Theta=g(X) Θ^=g(X)。也可以写成 Θ ^ = g ( X ; θ ) \hat\Theta=g(X;\theta) Θ^=g(X;θ),这个式子的意思是 Θ ^ \hat\Theta Θ^是 θ \theta θ的数值函数。
术语
Θ ^ n \hat\Theta_n Θ^n是未知参数 θ \theta θ的估计量,也即 n n n个观测 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn( X X X的分布依赖于 θ \theta θ)的函数:
- 估计误差: Θ ~ n = Θ ^ n − θ \tilde \Theta_n=\hat\Theta_n-\theta Θ~n=Θ^n−θ
- 估计量偏差: b θ ( Θ ^ n ) = E ( Θ ^ ) − θ b_\theta(\hat\Theta_n)=E(\hat\Theta)-\theta bθ(Θ^n)=E(Θ^)−θ
- 估计量的偏差,方差,期望是\theta的函数,而估计误差是 ( X 1 , X 2 , . . . . , X n , θ ) (X_1,X_2,....,X_n,\theta) (X1,X2,....,Xn,θ)的函数
- 无偏估计的定义:如果 E ( Θ ^ ) = θ E(\hat\Theta)=\theta E(Θ^)=θ对 θ \theta θ所有可能的取值都成立
- 渐进无偏的定义:如果 lim n → ∞ E ( Θ ^ n ) = θ \lim _{n\rightarrow \infty}{E(\hat\Theta_n)}=\theta limn→∞E(Θ^n)=θ.
- 称 Θ ^ \hat\Theta Θ^是 θ \theta θ的相合估计序列,如果对于所有的 θ \theta θ可能的取值, Θ ^ \hat\Theta Θ^依概率收敛到参数 θ \theta θ的真值: ∀ ϵ > 0 , lim n → ∞ P ( ∣ Θ ^ − θ ∣ > ϵ ) = 0. \forall \epsilon >0,\lim _{n\rightarrow \infty}{P(|\hat\Theta - \theta|>\epsilon)=0.} ∀ϵ>0,limn→∞P(∣Θ^−θ∣>ϵ)=0.
- E ( Θ ~ 2 ) = E [ ( Θ ^ n − θ ) 2 ] = v a r ( Θ ^ n − θ ) + E 2 ( Θ ^ n − θ ) = v a r ( Θ ^ n ) + b θ 2 ( Θ ^ ) E(\tilde\Theta ^2)=E[(\hat\Theta_n-\theta)^2]=var(\hat\Theta_n-\theta)+E^2(\hat\Theta_n-\theta)=var(\hat\Theta_n)+b^2 _\theta(\hat\Theta) E(Θ~2)=E[(Θ^n−θ)2]=var(Θ^n−θ)+E2(Θ^n−θ)=var(Θ^n)+bθ2(Θ^),这个式子建立了估计均方误差、估计量方差、估计偏差的关系。可以看出均方误差也是 θ \theta θ的函数。如果均方误差不变,则减小方差会增大偏差,减小偏差会增大方差。
最大似然估计
定义:设观测向量 X = ( X 1 , X 2 , . . . , X n ) X=(X_1,X_2,...,X_n) X=(X1,X2,...,Xn)的联合分布列为 p X 1 , X 2 , . . , X n ( x 1 , x 2 , . . . , x n ; θ ) = p X ( x 1 , x 2 , . . . , x n ; θ ) p_{X_1,X_2,..,X_n}(x_1,x_2,...,x_n;\theta)=p_{X}(x_1,x_2,...,x_n;\theta) pX1,X2,..,Xn(x1,x2,...,xn;θ)=pX(x1,x2,...,xn;θ),最大似然估计就是寻求参数 θ = θ ^ \theta=\hat\theta θ=θ^使得关于 θ \theta θ的函数 p X ( x 1 , x 2 , . . . , x n ; θ ) p_{X}(x_1,x_2,...,x_n;\theta) pX(x1,x2,...,xn;θ)达到最大,即寻求参数 θ = θ ^ \theta=\hat\theta θ=θ^使得观测值 X X X最有可能出现。
当 X X X为连续随机变量时, p X p_X pX用概率密度函数 f X ( x 1 , x 2 , . . . , x n ; θ ) f_X(x_1,x_2,...,x_n;\theta) fX(x1,x2,...,xn;θ)代替。
如果 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是相互独立的,那么 p X = p X 1 p X 2 . . . p X n , p_X=p_{X_1}p_{X_2}...p_{X_n}, pX=pX1pX2...pXn,此时可用对数似然函数来简化计算: l n ( p X ) = l n p X 1 + . . . + l n p X n ln(p_X)=lnp_{X_1}+...+lnp_{X_n} ln(pX)=lnpX1+...+lnpXn
与贝叶斯最大后验概率准则对比:
最大后验概率准则:求 θ = θ ^ \theta=\hat\theta θ=θ^使得 p Θ ( θ ) p X ∣ Θ ( x ∣ θ ) p_\Theta( \theta)p_{X|\Theta}(x|\theta) pΘ(θ)pX∣Θ(x∣θ)取最大值。
最大似然估计:求 θ = θ ^ \theta=\hat\theta θ=θ^使得 p X ( X ; θ ) p_{X}(X;\theta) pX(X;θ)取最大值。
可以看出当 Θ \Theta Θ是均匀分布时,最大后验准则等价于最大似然估计。均匀分布即 Θ \Theta Θ取任何值的概率都相等,这就是经典统计推断与贝叶斯统计推断的不同之处。
如果 θ \theta θ的最大似然估计是 θ ^ \hat\theta θ^,那么 g ( θ ) g(\theta) g(θ)的最大似然估计是 g ( θ ^ ) g(\hat\theta) g(θ^).这里要求 g ( x ) g(x) g(x)是一一映射函数。
举例:某人上班迟到时间是一个随机变量X,服从参数为 [ 0 , θ ] [0,\theta] [0,θ]上的均匀分布, θ \theta θ未知,是随机变量 Θ \Theta Θ的一个值, Θ \Theta Θ服从 [ 0 , 1 ] [0,1] [0,1]上的均匀分布。假设某次迟到时间为x。用最大似然估计来估计 θ \theta θ。
流程:
f X ( x ; θ ) = 1 θ f_X(x;\theta)=\frac{1} {\theta} fX(x;θ)=θ1
画出 θ − x \theta-x θ−x的取值范围图:
θ \theta θ的取值范围图中阴影部分。对于观测值 x = x 0 , θ x=x_0,\theta x=x0,θ的取值范围为图中红线部分。显然当 θ = x \theta =x θ=x时能使 f X f_X fX达到最大。所以 θ \theta θ的最大似然估计 Θ ^ = X \hat\Theta=X Θ^=X.
均值和方差的估计
利用经典统计推断一个概率分布的均值和方差(不一定是“最大似然估计”)。
这里的目标是通过样本推断总体的无偏估计均值和方差。
假设条件:
- 观测向量 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)是独立同分布
- 均值为未知参数 θ \theta θ.方差为未知参数 v = σ 2 v=\sigma^2 v=σ2
对于均值最自然的估计量是样本均值:
Θ ^ = M n = X 1 + X 2 + . . . + X n n \hat\Theta=M_n=\frac{X_1+X_2+...+X_n}{n} Θ^=Mn=nX1+X2+...+Xn
样本均值当作均值估计量时有:
- E ( M n ) = θ E(M_n)=\theta E(Mn)=θ,所以 M n M_n Mn是 θ \theta θ的无偏估计量。
- E ( X i M n ) = θ 2 = E ( X i ) E ( M n ) E(X_iM_n)=\theta^2=E(X_i)E(M_n) E(XiMn)=θ2=E(Xi)E(Mn),所以 M n M_n Mn和 X i X_i Xi不相关。
- v a r ( M n ) = v a r ( X 1 + X 2 + . . . + X n ) / n 2 = v / n var(M_n)=var(X_1+X_2+...+X_n)/n^2=v/n var(Mn)=var(X1+X2+...+Xn)/n2=v/n.可见方差和均方不依赖
- 均方误差 E [ ( Θ ^ − θ ) 2 ] = E [ ( M n − θ ) 2 ] = E [ ( M n − E ( M n ) ) 2 ] = v a r ( M n ) E[(\hat\Theta-\theta)^2]=E[(M_n-\theta)^2]=E[(M_n-E(M_n))^2]=var(M_n) E[(Θ^−θ)2]=E[(Mn−θ)2]=E[(Mn−E(M