- 数理统计基础概念见前文:数理统计 —— 总体、样本、统计量及其分布
文章目录
1. 参数的点估计
1.1 概念
- 设总体
X
X
X 的分布为
F
(
x
∣
θ
)
F(x|\theta)
F(x∣θ)(可以是多维的),其中
θ
\theta
θ 是一个未知参数,
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 是取自总体的一个样本。由样本构造一个适当的统计量
θ
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}(X_1,X_2,...,X_n)
θ^(X1,X2,...,Xn) 作为参数
θ
\theta
θ 的估计,则称统计量
θ
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}(X_1,X_2,...,X_n)
θ^(X1,X2,...,Xn) 为
θ
\theta
θ 的
估计量
,通常记为 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn) - 如果
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn 是样本容量为n的一个观察值,将其带入估计量
θ
^
\hat{\theta}
θ^ 中得值
θ
^
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\hat{\theta}(x_1,x_2,...,x_n)
θ^(x1,x2,...,xn),并以其作为未知参数
θ
\theta
θ 的近似值,统计中称这个值为未知参数
θ
\theta
θ 的
估计值
- 建立一个适当的统计量作为未知参数
θ
\theta
θ 的估计量,并以相应的观察值作为未知参数估计值的问题,称为参数
θ
\theta
θ 的
点估计
问题
1.2 方法
1.2.1 矩估计法
-
基本思想:
- 设总体
X
X
X 中有
k
k
k 个未知参数
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_k
θ1,θ2,...,θk,
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 是来自总体
X
X
X 的样本,如果
X
X
X 的
l
l
l 阶原点矩
E
(
X
l
)
(
l
=
1
,
2
,
.
.
.
,
k
)
E(X^l)(l=1,2,...,k)
E(Xl)(l=1,2,...,k) 存在,即
E
(
X
l
)
=
∫
−
∞
+
∞
x
l
f
(
x
∣
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
d
x
E(X^l) = \int_{-\infin}^{+\infin}x^lf(x|\theta_1,\theta_2,...,\theta_k)dx
E(Xl)=∫−∞+∞xlf(x∣θ1,θ2,...,θk)dx 或
E
(
X
l
)
=
∑
i
x
i
l
P
(
X
=
x
i
∣
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
E(X^l) = \sum\limits_i x_i^l P(X=x_i|\theta_1,\theta_2,...,\theta_k)
E(Xl)=i∑xilP(X=xi∣θ1,θ2,...,θk) 存在,令样本矩=总体矩,即
1 n ∑ i = 1 n x i l = E ( X l ) ( l = 1 , 2 , . . . , k ) \frac{1}{n}\sum\limits_{i=1}^nx_i^l=E(X^l)(l=1,2,...,k) n1i=1∑nxil=E(Xl)(l=1,2,...,k)
这是包括 k k k 个未知参数 θ 1 , θ 2 , . . . , θ k \theta_1,\theta_2,...,\theta_k θ1,θ2,...,θk 的 k k k 个联立方程组(称为矩法方程),由此解得
θ ^ l = θ ^ l ( X 1 , X 2 , . . . , X n ) ( l = 1 , 2 , . . . , k ) \hat{\theta}_l=\hat{\theta}_l(X_1,X_2,...,X_n)(l=1,2,...,k) θ^l=θ^l(X1,X2,...,Xn)(l=1,2,...,k)
则 θ ^ l \hat{\theta}_l θ^l 为 θ l \theta_l θl 的矩估计量, θ ^ l ( x 1 , x 2 , . . . , x n ) \hat{\theta}_l(x_1,x_2,...,x_n) θ^l(x1,x2,...,xn) 为 θ l \theta_l θl 的矩估计值
- 设总体
X
X
X 中有
k
k
k 个未知参数
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_k
θ1,θ2,...,θk,
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 是来自总体
X
X
X 的样本,如果
X
X
X 的
l
l
l 阶原点矩
E
(
X
l
)
(
l
=
1
,
2
,
.
.
.
,
k
)
E(X^l)(l=1,2,...,k)
E(Xl)(l=1,2,...,k) 存在,即
E
(
X
l
)
=
∫
−
∞
+
∞
x
l
f
(
x
∣
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
d
x
E(X^l) = \int_{-\infin}^{+\infin}x^lf(x|\theta_1,\theta_2,...,\theta_k)dx
E(Xl)=∫−∞+∞xlf(x∣θ1,θ2,...,θk)dx 或
E
(
X
l
)
=
∑
i
x
i
l
P
(
X
=
x
i
∣
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
E(X^l) = \sum\limits_i x_i^l P(X=x_i|\theta_1,\theta_2,...,\theta_k)
E(Xl)=i∑xilP(X=xi∣θ1,θ2,...,θk) 存在,令样本矩=总体矩,即
-
理解
- 总体矩是由总体自身决定的一个常数(比如总体一阶原点矩 μ \mu μ ,即期望),而样本矩来自抽样数据,每一个样本观察值求出的样本矩都不同(比如样本均值 X ˉ \bar{X} Xˉ),因此样本矩和总体矩相等的概率其实是0。不过由于样本满足 X i ∼ i . i . d X X_i\stackrel{i.i.d}{\sim}X Xi∼i.i.dX,我们可以肯定样本矩离总体矩相距不远,因此强行令二者相等,就得到一个关于未知参数 θ \theta θ 估计值 θ ^ \hat{\theta} θ^ 的等式
- 总体 X X X 中有几个未知参数,就按 ”样本 l l l 阶矩=总体 l l l 阶矩”( l = 1 , 2 , . . . l=1,2,... l=1,2,...)这样列出多少方程,联立解方程就解出了所有未知参数 θ \theta θ 的估计值 θ ^ \hat{\theta} θ^
-
注
1.2.2 最大似然估计法
-
基本思想
- 对未知参数 θ \theta θ 进行估计时,在该参数可能的取值范围 I I I 内选取,使得 “此样本获此观测值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn” 的概率最大的参数值 θ ^ \hat{\theta} θ^ 作为 θ \theta θ 的估计,这样选定的 θ ^ \hat{\theta} θ^ 最有利于 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 的出现
-
θ
∈
I
\theta\in I
θ∈I 是未知参数,
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 为
X
X
X 的一个样本,记
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 取值为
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn 的概率为样本的
似然函数
L ( θ ) L(\theta) L(θ),即
L ( θ ) = L ( x 1 , x 2 , . . . , x n ; θ 1 , θ 2 , . . . , θ k ) = { ∏ i = 1 n p ( x i ; θ 1 , θ 2 , . . . , θ k ) X 是 离 散 型 随 机 变 量 ∏ i = 1 n f ( x i ; θ 1 , θ 2 , . . . , θ k ) X 是 连 续 型 随 机 变 量 L(\theta) = L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k)= \left\{ \begin{aligned} &\prod\limits_{i=1}^np(x_i;\theta_1,\theta_2,...,\theta_k) &X是离散型随机变量\\ &\prod\limits_{i=1}^nf(x_i;\theta_1,\theta_2,...,\theta_k) &X是连续型随机变量\\ \end{aligned} \right. L(θ)=L(x1,x2,...,xn;θ1,θ2,...,θk)=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧i=1∏np(xi;θ1,θ2,...,θk)i=1∏nf(xi;θ1,θ2,...,θk)X是离散型随机变量X是连续型随机变量
若存在 θ ^ = θ ^ ( x 1 , x 2 , . . . , x n ) ∈ I \hat{\theta} =\hat{\theta}(x_1,x_2,...,x_n)\in I θ^=θ^(x1,x2,...,xn)∈I,使
L ( x 1 , x 2 , . . . , x n ; θ ^ ) = max θ ∈ I L ( x 1 , x 2 , . . . , x n ; θ ) L(x_1,x_2,...,x_n;\hat{\theta}) = \max\limits_{\theta\in I} L(x_1,x_2,...,x_n;\theta) L(x1,x2,...,xn;θ^)=θ∈ImaxL(x1,x2,...,xn;θ)
则称 θ ^ = θ ^ ( x 1 , x 2 , . . . , x n ) \hat{\theta} =\hat{\theta}(x_1,x_2,...,x_n) θ^=θ^(x1,x2,...,xn) 为参数 θ \theta θ 的最大似然估计值
,而相应的统计量 θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}(X_1,X_2,...,X_n) θ^(X1,X2,...,Xn) 称为参数 θ \theta θ 的最大似然统计量
- 说明: p ( x ; θ ) p(x;\theta) p(x;θ) 这种写法的意思是 X = x X=x X=x 的概率取决于一个目前未知的固定参数 θ \theta θ。在数值上和 p ( x ) p(x) p(x) 相同,加个 θ \theta θ 只是为了说明这里有个固定的待估参数
-
求参数最大似然估计量的步骤
-
写出样本的似然函数
L ( θ ) = L ( x 1 , x 2 , . . . , x n ; θ 1 , θ 2 , . . . , θ k ) = { ∏ i = 1 n p ( x i ; θ 1 , θ 2 , . . . , θ k ) X 是 离 散 型 随 机 变 量 ∏ i = 1 n f ( x i ; θ 1 , θ 2 , . . . , θ k ) X 是 连 续 型 随 机 变 量 L(\theta) = L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k)= \left\{ \begin{aligned} &\prod\limits_{i=1}^np(x_i;\theta_1,\theta_2,...,\theta_k) &X是离散型随机变量\\ &\prod\limits_{i=1}^nf(x_i;\theta_1,\theta_2,...,\theta_k) &X是连续型随机变量\\ \end{aligned} \right. L(θ)=L(x1,x2,...,xn;θ1,θ2,...,θk)=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧i=1∏np(xi;θ1,θ2,...,θk)i=1∏nf(xi;θ1,θ2,...,θk)X是离散型随机变量X是连续型随机变量
注意:- 后面我们要最大化这个
L
(
θ
)
L(\theta)
L(θ),为了简化计算,可以两边取对数把连乘转换为连加,这样处理后得到
对数似然函数
- 这里 p ( x i ; θ ) = ∑ k M p ( x i ∣ w k ; θ ) p(x_i;\theta) = \sum_k^M p(x_i|w_k;\theta) p(xi;θ)=∑kMp(xi∣wk;θ),等号右边是类条件概率( w k w_k wk 是 x i x_i xi 所属的类)。朴素贝叶斯方法中需要估计这个类条件概率,通常写成拆开的形式;而参数估计时我们要对模型整体进行估计,所以 w w w 不重要可以省略
- 后面我们要最大化这个
L
(
θ
)
L(\theta)
L(θ),为了简化计算,可以两边取对数把连乘转换为连加,这样处理后得到
-
如果 p ( x i ; θ 1 , θ 2 , . . . , θ k ) p(x_i;\theta_1,\theta_2,...,\theta_k) p(xi;θ1,θ2,...,θk) 或 f ( x i ; θ 1 , θ 2 , . . . , θ k ) f(x_i;\theta_1,\theta_2,...,\theta_k) f(xi;θ1,θ2,...,θk) 关于 θ i ( i = 1 , 2 , . . . , k ) \theta_i(i=1,2,...,k) θi(i=1,2,...,k) 可微。则令
∂ L ( θ ) ∂ θ i = 0 或 ∂ l n L ( θ ) ∂ θ i = 0 \frac{\partial L(\theta)}{\partial\theta_i}=0 或 \frac{\partial lnL(\theta)}{\partial\theta_i}=0 ∂θi∂L(θ)=0或∂θi∂lnL(θ)=0
由于 L ( θ ) L(\theta) L(θ) 是连乘形式,又 l n x lnx lnx 是 x x x 的单调增函数,因此 L ( θ ) L(\theta) L(θ) 和 l n L ( θ ) lnL(\theta) lnL(θ) 在同一 θ \theta θ 取极值,所以通常使用解对数似然方程组 ∂ l n L ( θ ) ∂ θ i = 0 \frac{\partial lnL(\theta)}{\partial\theta_i} = 0 ∂θi∂lnL(θ)=0 的方法,求得 θ i \theta_i θi 的最大似然估计量 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) ( i = 1 , 2 , . . . , k ) \hat{\theta} = \hat{\theta}(X_1,X_2,...,X_n)(i=1,2,...,k) θ^=θ^(X1,X2,...,Xn)(i=1,2,...,k) -
若 p ( x i ; θ 1 , θ 2 , . . . , θ k ) p(x_i;\theta_1,\theta_2,...,\theta_k) p(xi;θ1,θ2,...,θk) 或 f ( x i ; θ 1 , θ 2 , . . . , θ k ) f(x_i;\theta_1,\theta_2,...,\theta_k) f(xi;θ1,θ2,...,θk) 不可微,或似然方程组无解,则应由定义用其他方法求得 θ ^ \hat{\theta} θ^,例如当 L ( θ ) L(\theta) L(θ) 为 θ \theta θ 的单调函数时, θ ^ \hat{\theta} θ^ 为 θ \theta θ 取值的上限或下限
-
对于可微和不可微两种情况,可以参考
极大似然估计详解 这篇文章最后估计正态分布和均匀分布参数的两个例子。
-
-
理解
- 最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。比如一个菜鸟和一个高手运动员一起打靶,问你一个十环的成绩最可能是谁打出的,显然高手更有可能打出十环,这就执行了一次最大似然估计
- 在统计学中,似然函数(likelihood function)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,抛之前我们不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%,这个概率只有在抛硬币之前才是有意义的,抛完硬币后的结果便是确定的;而似然刚好相反,是在确定的结果下去推测产生这个结果的可能性,还是抛硬币的例子,假设我们随机抛掷一枚硬币1,000次,结果500次人头朝上,500次数字朝上,于是我们判断这是一枚标准的硬币,两面朝上的概率均为50%,这个过程就是我们运用出现的结果来判断这个事情本身的性质(参数),也就是似然。
- 对于一个参数化模型,给出一个确定的结果,似然函数必然包含其模型参数,通过最大化似然函数求解模型的最优参数,即是进行最大似然估计。
-
注
- 求总体分布中未知参数 θ \theta θ 的最大似然估计量必须知道总体的概率密度或分布,写出样本的似然函数(或对数似然函数),并求出最大值点是关键
- 最大似然估计量的不变性原则:设 θ ^ \hat{\theta} θ^ 是总体分布中未知参数 θ \theta θ 的最大似然估计,函数 u = u ( θ ) u=u(\theta) u=u(θ) 具有单值反函数 θ = θ ( u ) \theta = \theta(u) θ=θ(u),则 u ^ = u ( θ ^ ) \hat{u}=u(\hat{\theta}) u^=u(θ^) 是 u ( θ ) u(\theta) u(θ) 的最大似然估计。对于多个未知参数,不变性原理仍然成立
-
示例
1.3 估计量的评价标准
2. 参数的区间估计
2.1 基本概念
- 设
θ
\theta
θ 是总体
X
X
X 的一个未知参数,对于给定
α
\alpha
α (0<
α
\alpha
α<1),如果样本
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn 确定的两个统计量
θ
^
1
=
θ
^
1
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}_1=\hat{\theta}_1(X_1,X_2,...,X_n)
θ^1=θ^1(X1,X2,...,Xn),
θ
^
2
=
θ
^
2
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}_2=\hat{\theta}_2(X_1,X_2,...,X_n)
θ^2=θ^2(X1,X2,...,Xn)(
θ
^
1
<
θ
^
2
\hat{\theta}_1<\hat{\theta}_2
θ^1<θ^2),使
P { θ ^ 1 ( X 1 , X 2 , . . . , X n ) < θ < θ ^ 2 ( X 1 , X 2 , . . . , X n ) } = 1 − α P\{\hat{\theta}_1(X_1,X_2,...,X_n) <\theta<\hat{\theta}_2(X_1,X_2,...,X_n)\} = 1-\alpha P{θ^1(X1,X2,...,Xn)<θ<θ^2(X1,X2,...,Xn)}=1−α
则称随机变量 ( θ ^ 1 , θ ^ 2 ) (\hat{\theta}_1,\hat{\theta}_2) (θ^1,θ^2) 是 θ \theta θ 置信度为 1 − α 1-\alpha 1−α 的置信区间
, θ ^ 1 \hat{\theta}_1 θ^1 和 θ ^ 2 \hat{\theta}_2 θ^2 分别称为 θ \theta θ 的双侧置信区间的置信下限
和置信上限
, 1 − α 1-\alpha 1−α 称为置信度
或置信水平
, α \alpha α 称为显著性水平
- 注意:置信区间长度表示估计的精度,置信区间越短表示估计精度越高
- 给定置信度,求未知参数置信区间的问题,称为
参数区间估计
问题
2.2 理解
-
总体 X X X 的指标是一个确定性数,比如某批灯泡的寿命期望 μ \mu μ 和方差 σ \sigma σ 都是常数
-
从总体中抽取简单随机样本 ( X 1 , X 2 , … , X n ) (X_1,X_2,…,X_n) (X1,X2,…,Xn) ,其寿命均值 X ˉ \bar{X} Xˉ 和 μ \mu μ 是什么关系呢?没有关系!每一个样本的均值 X ˉ \bar{X} Xˉ 都会或多或少地偏离 μ \mu μ ,事实上,对于寿命这种连续型随机变量,有 P ( X ˉ = μ ) = 0 P(\bar{X}=\mu)=0 P(Xˉ=μ)=0,上面矩估计也说了这个问题
-
尽管如此,由于样本满足 X i ∼ i . i . d X X_i\stackrel{i.i.d}{\sim}X Xi∼i.i.dX,我们可以肯定 X ˉ \bar{X} Xˉ 离 μ \mu μ 相距不远,形式化一点,可以描述为 X ˉ \bar{X} Xˉ 和 μ \mu μ 的距离 ≥ \geq ≥ 某一小量 △ \bigtriangleup △ 的概率为另一小量 α \alpha α,即
P ( ∣ X ˉ − μ ∣ < △ ) = 1 − α P ( ∣ X ˉ − μ ∣ ≥ △ ) = α \begin{aligned} & P(|\bar{X}-\mu|<\bigtriangleup) = 1-\alpha \\ & P(|\bar{X}-\mu|\geq\bigtriangleup) = \alpha \end{aligned} P(∣Xˉ−μ∣<△)=1−αP(∣Xˉ−μ∣≥△)=α
α \alpha α 称为显著性水平,一般取0.025、0.05、0.01等小数; 1 − α 1-\alpha 1−α 称为置信度/置信水平 -
根据中心极限定理,对于独立同分布的随机变量序列 { X i } \{X_i\} {Xi}(可以看作样本),无论 X i X_i Xi 服从什么分布,其和式在大样本条件下都会服从正态分布,即
∑ i = 1 n X i ∼ n → ∞ N ( n μ , n σ 2 ) ∑ i = 1 n X i − n μ n σ ∼ n → ∞ N ( 0 , 1 ) \sum\limits_{i=1}^nX_i \stackrel{n\to\infin}{\sim} N(n\mu,n\sigma^2) \\ \frac{\sum\limits_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma}\stackrel{n\to\infin}{\sim}N(0,1) i=1∑nXi∼n→∞N(nμ,nσ2)nσi=1∑nXi−nμ∼n→∞N(0,1)
因此下面我们只分析正态总体的参数估计和假设检验问题
2.3 置信区间的求解
-
σ \sigma σ 已知时:
先解 △ \bigtriangleup △, 由于 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2),有 X ˉ ∼ N ( μ , σ 2 n ) \bar{X} \sim N(\mu,\frac{\sigma^2}{n}) Xˉ∼N(μ,nσ2),标准化得
X ˉ − μ σ / n ∼ N ( 0 , 1 ) \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\\ σ/nXˉ−μ∼N(0,1)
把 X ˉ − μ σ / n \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} σ/nXˉ−μ 记作随机变量 Z Z Z,以概率形式描述置信区间
P ( ∣ Z ∣ < △ σ / n ) = 1 − α P(|Z|<\frac{\bigtriangleup}{\sigma/\sqrt{n}}) = 1-\alpha P(∣Z∣<σ/n△)=1−α
对应到标准正态分布的概率密度图像上,有
于是可以如下解出 △ \bigtriangleup △ ( Z α 2 Z_{\frac{\alpha}{2}} Z2α 的值可以通过查标准正态分布上 α \alpha α分位数表得到)
△ σ / n = Z α 2 △ = Z α 2 σ n \frac{\bigtriangleup}{\sigma/\sqrt{n}} = Z_{\frac{\alpha}{2}} \\ \bigtriangleup = Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} σ/n△=Z2α△=Z2αnσ得到 △ \bigtriangleup △ 后,给定置信度 1 − α 1-\alpha 1−α,就有置信区间 ( X ˉ − △ , X ˉ + △ ) (\bar{X} -\bigtriangleup,\bar{X} +\bigtriangleup) (Xˉ−△,Xˉ+△),即
P ( X ˉ − △ < μ < X ˉ + △ ) = 1 − α P(\bar{X} -\bigtriangleup <\mu< \bar{X}+\bigtriangleup) = 1-\alpha P(Xˉ−△<μ<Xˉ+△)=1−α -
σ \sigma σ 未知时:
使用样本方差 S S S 代替 σ \sigma σ,根据常用结论(见上篇文章)
n ( X ˉ − μ ) S ∼ t ( n − 1 ) \frac{\sqrt{n}(\bar{X}-\mu)}{S} \sim t(n-1) Sn(Xˉ−μ)∼t(n−1)
把 X ˉ − μ S / n \frac{\bar{X}-\mu}{S/\sqrt{n}} S/nXˉ−μ 记为 t t t,有
P ( ∣ t ∣ < △ S / n ) = 1 − α P(|t|<\frac{\bigtriangleup}{S/\sqrt{n}}) = 1-\alpha P(∣t∣<S/n△)=1−α
同理对应到 t t t 分布的概率密度图像上,以概率形式描述置信区间
于是可以如下解出 △ \bigtriangleup △ ( t α 2 ( n − 1 ) t_{\frac{\alpha}{2}}(n-1) t2α(n−1) 的值可以通过查 t t t 分布上 α \alpha α分位数表得到)
△ = t α 2 ( n − 1 ) S n \bigtriangleup = t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}} △=t2α(n−1)nS
同理,给定置信度 1 − α 1-\alpha 1−α,就有置信区间 ( X ˉ − △ , X ˉ + △ ) (\bar{X} -\bigtriangleup,\bar{X} +\bigtriangleup) (Xˉ−△,Xˉ+△)
2.4 正态总体均值的置信区间 (置信水平为 1 − α 1-\alpha 1−α)
3. 假设检验
3.1 思想方法
-
关于总体(分布中的未知参数,分布的类型、特征、相关性,独立性…)的每一种论断(“看法”)称为统计假设。然后根据样本观察数据或试验结果所提供的信息去推断(检验)这个“看法”(即假设)是否成立,这类统计推断问题称为统计假设检验问题,简称为
假设检验
。- 如果总体分布函数
F
(
x
;
θ
)
F(x;\theta)
F(x;θ) 形式已知,但其中的参数
θ
\theta
θ 未知,只涉及参数
θ
\theta
θ 的各种统计假设称为
参数假设
。 - 如果一个统计假设完全确定总体的分布,则称这种假设为
简单假设
。 - 常常把着重考查、没有充分理由不能轻易否定的假设取为
原假设/基本假设/零假设
,记为 H 0 H_0 H0,将其否定的陈述(假设)称为对立假设/备择假设
,记为 H 1 H_1 H1。对原假设 H 0 H_0 H0 作出否定或不否定的推断,通常称为对 H 0 H_0 H0 作显著性检验
。
- 如果总体分布函数
F
(
x
;
θ
)
F(x;\theta)
F(x;θ) 形式已知,但其中的参数
θ
\theta
θ 未知,只涉及参数
θ
\theta
θ 的各种统计假设称为
-
对这些假设进行检验的基本思想是采用带有概率性质的反证法,即 ”小概率原理“,也即 “概率很接近于0的事件在一次试验或观察中认为它不会发生”,若发生了则拒绝原假设 H H H。小概率事件中 “小概率” 的值没有统一规定,通常是根据实际问题的要求,规定一个界限 α ( 0 < α < 1 ) \alpha(0<\alpha<1) α(0<α<1) 当一个事件的概率不大于 α \alpha α 时,即认为它是小概率事件。在假设检验问题中, α \alpha α 也称为显著性水平,通常取0.1、0.05、0.01等。
-
在假设检验中,由拒绝原假设 H 0 H_0 H0 的全体样本点所组成的集合 C C C 称为
否定域/拒绝域
, C C C 的补集 C ∗ C^* C∗ 称为 H 0 H_0 H0 的接受域
。 -
如果 H 0 H_0 H0 的否定域形式为 C = { ( x 1 , x 2 , . . . , x n ) ∣ T > λ 2 或 T < λ 1 } C=\{(x_1,x_2,...,x_n)|T>\lambda_2或T<\lambda_1\} C={(x1,x2,...,xn)∣T>λ2或T<λ1},即否定域位于接受域两侧,则称这种检验为
双边检验
。如果 H 0 H_0 H0 的否定域形式为 C = { ( x 1 , x 2 , . . . , x n ) ∣ T > λ } C=\{(x_1,x_2,...,x_n)|T>\lambda\} C={(x1,x2,...,xn)∣T>λ} 或 C = { ( x 1 , x 2 , . . . , x n ) ∣ T < λ } C=\{(x_1,x_2,...,x_n)|T<\lambda\} C={(x1,x2,...,xn)∣T<λ},即否定域位于接受域的一侧,称这种检验为右边检验
或左边检验
,统称单边检验
3.2 理解
-
假设检验其实是区间估计的一个应用,以总体分布参数期望 μ \mu μ 为例
-
在区间估计时,我们不知道真实 μ \mu μ,所以通过样本均值 X ˉ \bar{X} Xˉ 来估计 μ \mu μ。这个估计是概率形式的,给定一个 α \alpha α(显著性水平),我们就能肯定有 1 − α 1-\alpha 1−α 的概率(置信度)满足 X ˉ \bar{X} Xˉ 和 μ \mu μ 的距离小于 △ \bigtriangleup △,即
P ( ∣ X ˉ − μ ∣ < △ ) = 1 − α P(|\bar{X}-\mu|<\bigtriangleup) = 1-\alpha P(∣Xˉ−μ∣<△)=1−α
根据总体方差 σ \sigma σ 是否已知,有
△ = { Z α 2 σ n σ 已 知 , Z ∼ N ( 0 , 1 ) t α 2 ( n − 1 ) S n σ 未 知 , t ∼ t ( n − 1 ) \bigtriangleup= \left\{ \begin{aligned} &Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} &\sigma已知,Z\sim N(0,1)\\ &t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}}&\sigma未知,t\sim t(n-1) \end{aligned} \right. △=⎩⎪⎪⎨⎪⎪⎧Z2αnσt2α(n−1)nSσ已知,Z∼N(0,1)σ未知,t∼t(n−1) -
在假设检验时,我们已经有了一个原假设 H 0 H_0 H0(比如 μ = μ 0 \mu=\mu_0 μ=μ0)以及备择假设 H 1 H_1 H1(比如 μ ≠ μ 0 \mu\neq\mu_0 μ=μ0)。从概率角度描述 H 0 H_0 H0,就是样本均值 X ˉ \bar{X} Xˉ 和 μ 0 \mu_0 μ0 的差距 ≥ \geq ≥ 小量 △ \bigtriangleup △ 的概率应该为一小量 α \alpha α(显著性水平),即
P ( ∣ X ˉ − μ 0 ∣ ≥ △ ) = α P(|\bar{X}-\mu_0|\geq \bigtriangleup) = \alpha P(∣Xˉ−μ0∣≥△)=α
同理解出
△ = { Z α 2 σ n σ 已 知 , Z ∼ N ( 0 , 1 ) t α 2 ( n − 1 ) S n σ 未 知 , t ∼ t ( n − 1 ) \bigtriangleup= \left\{ \begin{aligned} &Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} &\sigma已知,Z\sim N(0,1)\\ &t_{\frac{\alpha}{2}}(n-1)\frac{S}{\sqrt{n}}&\sigma未知,t\sim t(n-1) \end{aligned} \right. △=⎩⎪⎪⎨⎪⎪⎧Z2αnσt2α(n−1)nSσ已知,Z∼N(0,1)σ未知,t∼t(n−1)
根据小概率原理,我们认为 ∣ X ˉ − μ 0 ∣ ≥ △ |\bar{X}-\mu_0|\geq \bigtriangleup ∣Xˉ−μ0∣≥△ 这件事不会发生,换句话说,一旦某个样本满足了 ∣ X ˉ − μ 0 ∣ ≥ △ |\bar{X}-\mu_0|\geq \bigtriangleup ∣Xˉ−μ0∣≥△ ,我们就拒绝原假设 H 0 H_0 H0,拒绝原假设的这个区间 ( − ∞ , − μ 0 − △ ] ∪ [ μ 0 + △ , + ∞ ) (-\infin,-\mu_0-\bigtriangleup]\cup [\mu_0+\bigtriangleup,+\infin) (−∞,−μ0−△]∪[μ0+△,+∞) 称为拒绝域,这是一种双边检验。当 H 1 H_1 H1 是 μ > μ 0 \mu>\mu_0 μ>μ0 或 μ < μ 0 \mu<\mu_0 μ<μ0 时成为单边检验,计算都类似
-
3.3 正态总体下六大检验及拒绝域
3.4 示例
4. 两类错误
- 两类错误
- 第一类错误(”弃真“): H 0 H_0 H0 为真,但按检验法则否定了 H 0 H_0 H0。犯这种错误的概率为 α = P { 拒 绝 H 0 ∣ H 0 为 真 } \alpha=P\{拒绝H_0|H_0为真\} α=P{拒绝H0∣H0为真}
- 第二类错误(”取伪“): H 0 H_0 H0 为假,但按检验法则接受了 H 0 H_0 H0。犯这种错误的概率为 β = P { 接 受 H 0 ∣ H 1 为 真 } \beta=P\{接受H_0|H_1为真\} β=P{接受H0∣H1为真}
- 注意:
- 两类错误的概率,并不满足 β = 1 − α \beta = 1-\alpha β=1−α
- 在固定样本容量 n n n 的情况下, β \beta β 和 α \alpha α 此小彼大
- 实际应用中,我们通常认为第二类错误的危害更小,因此在控制 α \alpha α 的情况下尽量减小 β \beta β
- 关于
α
\alpha
α
- 是显著性水平
- 是假设检验中小概率事件的发生概率
- 是犯第一类错误的概率
5. 无偏性、有效性、一致性(相合性)
5.1 无偏性
- 无偏估计是用样本统计量来估计总体参数时的一种无偏推断。 估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。
E ( θ ^ ) = θ \mathbb{E}(\hat{\theta}) = \theta E(θ^)=θ - 无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值
- 注意:
- 无偏估计有时并不一定存在
- 可估参数的无偏估计往往不唯一
- 无偏估计不一定是好估计
- 有偏估计可以修正为无偏估计
5.2 有效性
- 有效性就是看估计量的方差值,方差代表波动,波动越小越有效
- 若 D ( θ ^ 1 ) < D ( θ ^ 2 ) D(\hat{θ}_1)<D(\hat{θ}_2) D(θ^1)<D(θ^2) 则 θ ^ 1 \hat{θ}_1 θ^1 比 θ ^ 2 \hat{θ}_2 θ^2 更加有效
5.3 一致性
- 一致性就是在大样本条件下,估计值接近真实值
- 对
∀
ε
>
0
∀ε>0
∀ε>0,有:
lim n → ∞ P ( ∣ θ ^ − θ ∣ ≥ ϵ ) = 0 \lim\limits_{n→\infin}P(|\hat{\theta}−\theta| \geq \epsilon) = 0 n→∞limP(∣θ^−θ∣≥ϵ)=0