统计推断-经典统计推断

统计推断-经典统计推断基本问题统计学与概率论贝叶斯统计与经典统计推断模型与推断变量术语解释经典参数估计术语最大似然估计均值和方差的估计置信区间求近似的置信区间基于方差近似估计量的置信区间线性回归最小二乘法合理性贝叶斯线性回归多元线性回归非线性回归线性规划注意事项简单假设检验内曼-皮尔逊引理显著性检验广义似然比和拟合优度检验基本问题统计推断是什么?统计推断是从观测数据推断未知变量或未知模型的...
摘要由CSDN通过智能技术生成

基本问题

  • 统计推断是什么?
    统计推断是从观测数据推断未知变量或未知模型的有关信息的过程。
  • 统计推断的用途是什么?
    统计推断可用于“参数估计”,“假设检验”,“显著性检验”
  • 统计推断的研究思路是什么?
    主要有两种思路:“贝叶斯统计推断” 和“经典统计推断”。(大局方法)
  • 统计推断具体使用的"算法"有哪些?
    最大后验概率准则,最小均方估计,最大似然估计,回归,似然比检验等。(小方法)

统计学与概率论

“统计学”与“概率论”在认识论上有明显的区别。
概率论是建立在概率公理上的系统自我完善的数学课题。我们会假设一个完整的特定的概率模型满足概率公理,然后用数学方法研究模型的一些性质。概率模型无需与现实世界相一致,它值对概率公理负责。
统计学是针对一个具体的问题,寻求合理的研究方法,希望得到合理的结论。这就存在很大的自由度,采取不同的研究方法,结论可能不同。通常我们会附加一些限制条件,以便得到“理想结论”。

正是由于统计学的这种特征,现实社会存在许多人为制造的"理想结论",这些结论可能来源于真实的数据,但研究方法是人为选定的。

贝叶斯统计与经典统计

贝叶斯统计与经典统计(频率学派)是两种突出但对立的思想学派。
最重要的区别就是如何看待未知模型或变量。贝叶斯学派将其看成已知分布的随机变量。而经典统计将其看成未知的待估计的量。
贝叶斯方法将统计拉回“概率论”的研究领域,使得每个问题只有一个答案。经典统计将未知量看作一种参数,它是一个常数,未知需要估计。
从现实角度来看,贝叶斯统计主张将假设的先验分布公开,即研究过程公开了。贝叶斯统计推断涉及到多维度积分,计算困难,所以贝叶斯学派的最新成功可能集中于如何计算上。

推断模型与推断变量

这两种问题有细微的区别。推断模型是为了研究某种现象或过程的一般规律,以期能够预测未来现象的结果。推断变量是从已知的量,推测未知的量,例如从gps信息推断所处于的位置。

术语解释

  • 参数估计:对参数进行估计,使得在某种概率意义下估计接近真实值。
  • 假设检验:未知参数根据对立的假设可能取有限个值,选择一个假设,目标是使犯错误的概率最小。
  • 显著性检验:对于一个给定的假设,希望发生错误(“接受错误”与“拒绝正确”)的概率适当地小.
  • 最大似然估计:在选择参数 θ \theta θ时,使得观测数据最有可能出现,即观测到当前数据的概率达到最大。
  • 线性回归:对于给定的一组观测数据,采用线性拟合的方式建立模型。约束条件是使观测数据与模型值的差的平方和最小。(最小二乘法)
  • 似然比检验:对于给定的两个假设,根据他们发生的可能性的比值选择其中一个,使得犯错的概率适当小。

经典参数估计

虽然把 θ \theta θ当作常数,而不是随机变量,但仍然把 θ \theta θ估计量当作随机变量 Θ ^ \hat\Theta Θ^,因为 θ ^ \hat\theta θ^一般而言是 x x x的函数, θ ^ = g ( x ) \hat\theta=g(x) θ^=g(x),所以也有: Θ ^ = g ( X ) \hat\Theta=g(X) Θ^=g(X)。也可以写成 Θ ^ = g ( X ; θ ) \hat\Theta=g(X;\theta) Θ^=g(X;θ),这个式子的意思是 Θ ^ \hat\Theta Θ^ θ \theta θ的数值函数。

术语

Θ ^ n \hat\Theta_n Θ^n是未知参数 θ \theta θ的估计量,也即 n n n个观测 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn( X X X的分布依赖于 θ \theta θ)的函数:

  • 估计误差: Θ ~ n = Θ ^ n − θ \tilde \Theta_n=\hat\Theta_n-\theta Θ~n=Θ^nθ
  • 估计量偏差: b θ ( Θ ^ n ) = E ( Θ ^ ) − θ b_\theta(\hat\Theta_n)=E(\hat\Theta)-\theta bθ(Θ^n)=E(Θ^)θ
  • 估计量的偏差,方差,期望是\theta的函数,而估计误差是 ( X 1 , X 2 , . . . . , X n , θ ) (X_1,X_2,....,X_n,\theta) (X1,X2,....,Xn,θ)的函数
  • 无偏估计的定义:如果 E ( Θ ^ ) = θ E(\hat\Theta)=\theta E(Θ^)=θ θ \theta θ所有可能的取值都成立
  • 渐进无偏的定义:如果 lim ⁡ n → ∞ E ( Θ ^ n ) = θ \lim _{n\rightarrow \infty}{E(\hat\Theta_n)}=\theta limnE(Θ^n)=θ.
  • Θ ^ \hat\Theta Θ^ θ \theta θ的相合估计序列,如果对于所有的 θ \theta θ可能的取值, Θ ^ \hat\Theta Θ^依概率收敛到参数 θ \theta θ的真值: ∀ ϵ > 0 , lim ⁡ n → ∞ P ( ∣ Θ ^ − θ ∣ > ϵ ) = 0. \forall \epsilon >0,\lim _{n\rightarrow \infty}{P(|\hat\Theta - \theta|>\epsilon)=0.} ϵ>0,limnP(Θ^θ>ϵ)=0.
  • E ( Θ ~ 2 ) = E [ ( Θ ^ n − θ ) 2 ] = v a r ( Θ ^ n − θ ) + E 2 ( Θ ^ n − θ ) = v a r ( Θ ^ n ) + b θ 2 ( Θ ^ ) E(\tilde\Theta ^2)=E[(\hat\Theta_n-\theta)^2]=var(\hat\Theta_n-\theta)+E^2(\hat\Theta_n-\theta)=var(\hat\Theta_n)+b^2 _\theta(\hat\Theta) E(Θ~2)=E[(Θ^nθ)2]=var(Θ^nθ)+E2(Θ^nθ)=var(Θ^n)+bθ2(Θ^),这个式子建立了估计均方误差、估计量方差、估计偏差的关系。可以看出均方误差也是 θ \theta θ的函数。如果均方误差不变,则减小方差会增大偏差,减小偏差会增大方差。

最大似然估计

定义:设观测向量 X = ( X 1 , X 2 , . . . , X n ) X=(X_1,X_2,...,X_n) X=(X1,X2,...,Xn)的联合分布列为 p X 1 , X 2 , . . , X n ( x 1 , x 2 , . . . , x n ; θ ) = p X ( x 1 , x 2 , . . . , x n ; θ ) p_{X_1,X_2,..,X_n}(x_1,x_2,...,x_n;\theta)=p_{X}(x_1,x_2,...,x_n;\theta) pX1,X2,..,Xn(x1,x2,...,xn;θ)=pX(x1,x2,...,xn;θ),最大似然估计就是寻求参数 θ = θ ^ \theta=\hat\theta θ=θ^使得关于 θ \theta θ的函数 p X ( x 1 , x 2 , . . . , x n ; θ ) p_{X}(x_1,x_2,...,x_n;\theta) pX(x1,x2,...,xn;θ)达到最大,即寻求参数 θ = θ ^ \theta=\hat\theta θ=θ^使得观测值 X X X最有可能出现。
X X X为连续随机变量时, p X p_X pX用概率密度函数 f X ( x 1 , x 2 , . . . , x n ; θ ) f_X(x_1,x_2,...,x_n;\theta) fX(x1,x2,...,xn;θ)代替。
如果 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是相互独立的,那么 p X = p X 1 p X 2 . . . p X n , p_X=p_{X_1}p_{X_2}...p_{X_n}, pX=pX1pX2...pXn,此时可用对数似然函数来简化计算: l n ( p X ) = l n p X 1 + . . . + l n p X n ln(p_X)=lnp_{X_1}+...+lnp_{X_n} ln(pX)=lnpX1+...+lnpXn

与贝叶斯最大后验概率准则对比:
最大后验概率准则:求 θ = θ ^ \theta=\hat\theta θ=θ^使得 p Θ ( θ ) p X ∣ Θ ( x ∣ θ ) p_\Theta( \theta)p_{X|\Theta}(x|\theta) pΘ(θ)pXΘ(xθ)取最大值。
最大似然估计:求 θ = θ ^ \theta=\hat\theta θ=θ^使得 p X ( X ; θ ) p_{X}(X;\theta) pX(X;θ)取最大值。
可以看出当 Θ \Theta Θ是均匀分布时,最大后验准则等价于最大似然估计。均匀分布即 Θ \Theta Θ取任何值的概率都相等,这就是经典统计推断与贝叶斯统计推断的不同之处。

如果 θ \theta θ的最大似然估计是 θ ^ \hat\theta θ^,那么 g ( θ ) g(\theta) g(θ)的最大似然估计是 g ( θ ^ ) g(\hat\theta) g(θ^).这里要求 g ( x ) g(x) g(x)是一一映射函数。


举例:某人上班迟到时间是一个随机变量X,服从参数为 [ 0 , θ ] [0,\theta] [0,θ]上的均匀分布, θ \theta θ未知,是随机变量 Θ \Theta Θ的一个值, Θ \Theta Θ服从 [ 0 , 1 ] [0,1] [0,1]上的均匀分布。假设某次迟到时间为x。用最大似然估计来估计 θ \theta θ
流程:
f X ( x ; θ ) = 1 θ f_X(x;\theta)=\frac{1} {\theta} fX(x;θ)=θ1
画出 θ − x \theta-x θx的取值范围图:
在这里插入图片描述
θ \theta θ的取值范围图中阴影部分。对于观测值 x = x 0 , θ x=x_0,\theta x=x0,θ的取值范围为图中红线部分。显然当 θ = x \theta =x θ=x时能使 f X f_X fX达到最大。所以 θ \theta θ的最大似然估计 Θ ^ = X \hat\Theta=X Θ^=X.


均值和方差的估计

利用经典统计推断一个概率分布的均值和方差(不一定是“最大似然估计”)。
这里的目标是通过样本推断总体的无偏估计均值和方差。

假设条件:

  1. 观测向量 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)是独立同分布
  2. 均值为未知参数 θ \theta θ.方差为未知参数 v = σ 2 v=\sigma^2 v=σ2
    对于均值最自然的估计量是样本均值:
    Θ ^ = M n = X 1 + X 2 + . . . + X n n \hat\Theta=M_n=\frac{X_1+X_2+...+X_n}{n} Θ^=Mn=nX1+X2+...+Xn
    样本均值当作均值估计量时有:
  • E ( M n ) = θ E(M_n)=\theta E(Mn)=θ,所以 M n M_n Mn θ \theta θ的无偏估计量。
  • E ( X i M n ) = θ 2 = E ( X i ) E ( M n ) E(X_iM_n)=\theta^2=E(X_i)E(M_n) E(XiMn)=θ2=E(Xi)E(Mn),所以 M n M_n Mn X i X_i Xi不相关。
  • v a r ( M n ) = v a r ( X 1 + X 2 + . . . + X n ) / n 2 = v / n var(M_n)=var(X_1+X_2+...+X_n)/n^2=v/n var(Mn)=var(X1+X2+...+Xn)/n2=v/n.可见方差和均方不依赖
  • 均方误差 E [ ( Θ ^ − θ ) 2 ] = E [ ( M n − θ ) 2 ] = E [ ( M n − E ( M n ) ) 2 ] = v a r ( M n ) E[(\hat\Theta-\theta)^2]=E[(M_n-\theta)^2]=E[(M_n-E(M_n))^2]=var(M_n) E[(Θ^θ)2]=E[(Mnθ)2]=E[(MnE(M
  • 5
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值