在众多统计学领域的分支中,一个常见的公式就是方差分解,出现在回归分析
,非参数统计
,抽样技术
等等。这篇文章做一个方差分解的梳理,公式是很简单的,重要的是明白这么做在不同分支下的意义是什么。
1 回归分析
在回归里面,我们通常有下面这个分解式:
S S T = S S R + S S E ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y ^ i − y ˉ ) 2 + ∑ i = 1 n ( y i − y ^ i ) 2 SST=SSR+SSE \\ \sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(\hat y_i-\bar y)^2 + \sum_{i=1}^n(y_i-\hat y_i) ^2 SST=SSR+SSEi=1∑n(yi−yˉ)2=i=1∑n(y^i−yˉ)2+i=1∑n(yi−y^i)2
其中, SST
是总离差平方和,表示因变量的变异;SSR
是回归模型所解释的变异 ;SSE
就是回归模型所不能解释的变易。
这三个量对于回归来说太重要了,比如多元线性回归模型显著性F
检验的构造结果就是
F = S S R / ( p ) S S E / ( n − p − 1 ) ∼ F ( p , n − p − 1 ) F=\frac{SSR/(p)}{SSE/(n-p-1)} \sim F(p,n-p-1) F=SSE/(n−p−1)SSR/(p)∼F(p,n−p−1)
其中,p为自变量 x i x_i xi的个数。
2 抽样技术
抽样技术里面的分层抽样,分层的目的就是去掉层间差异,只让层内差异影响估计量的方差,从而提升估计量的估计精度。
假设我们对总体分为 L L L层,每一层的单元个体数量为 N 1 , N 2 , . . . , N L N_1,N_2,...,N_L N1,N2,...,NL,设计的样本量分配为 n 1 , n 2 , . . . , n L n_1,n_2,...,n_L n1,n2,...,nL。
∑ h = 1 L ∑ i = 1 n h ( y h i − y ˉ ˉ ) = ∑ h = 1 L n h ( y ˉ h − y ˉ ˉ ) 2 + ∑ h = 1 L ∑ i = 1 n h ( y h i − y ˉ h ) 2 \sum_{h=1}^L\sum_{i=1}^{n_h}(y_{hi}-\bar {\bar y}) = \sum_{h=1}^Ln_h(\bar y_h-\bar{\bar y})^2 + \sum_{h=1}^L\sum_{i=1}^{n_h}(y_{hi}-\bar y_h)^2 h=1∑Li=1∑nh(yhi−yˉˉ)=h=1∑Lnh(yˉh−yˉˉ)2+h=1∑Li=1∑nh(yhi−yˉh)2
这一个分解式的左侧跟回归的实际上是一样的, y ˉ ˉ \bar{\bar y} yˉˉ表示的是每一层的均值 y ˉ h \bar y_h yˉh</