【统计知识总结系列01】回归分析、抽样技术、方差分析以及非参数统计中的方差分解

最新推荐文章于 2023-09-08 23:58:03 发布

Brandon Bryant

最新推荐文章于 2023-09-08 23:58:03 发布

阅读量1.4k

点赞数 2

分类专栏：统计基础文章标签：统计学均方误差

本文链接：https://blog.csdn.net/weixin_45632492/article/details/109680442

版权

本文详细介绍了方差分解在统计学不同领域的应用，包括回归分析中的总离差平方和分解、抽样技术中的层间与层内方差、单因素与两因素方差分析，以及非参数统计中的Kruskal-Wallis和Friedman秩方差分析。通过方差分解，可以深入理解各种统计模型的内在结构和检验统计量的构建。

摘要由CSDN通过智能技术生成

在众多统计学领域的分支中，一个常见的公式就是方差分解，出现在回归分析，非参数统计，抽样技术等等。这篇文章做一个方差分解的梳理，公式是很简单的，重要的是明白这么做在不同分支下的意义是什么。

1 回归分析

在回归里面，我们通常有下面这个分解式：
$\\ \sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(\hat y_i-\bar y)^2 + \sum_{i=1}^n(y_i-\hat y_i) ^2$
其中， SST是总离差平方和，表示因变量的变异；SSR是回归模型所解释的变异；SSE 就是回归模型所不能解释的变易。

这三个量对于回归来说太重要了，比如多元线性回归模型显著性F检验的构造结果就是
$F=\frac{SSR/(p)}{SSE/(n-p-1)} \sim F(p,n-p-1)$
其中，p为自变量 $x_i$ 的个数。

2 抽样技术

抽样技术里面的分层抽样，分层的目的就是去掉层间差异，只让层内差异影响估计量的方差，从而提升估计量的估计精度。

假设我们对总体分为 $L$ 层，每一层的单元个体数量为 $N_1,N_2,...,N_L$ ，设计的样本量分配为 $n_1,n_2,...,n_L$ 。
$\sum_{h=1}^L\sum_{i=1}^{n_h}(y_{hi}-\bar {\bar y}) = \sum_{h=1}^Ln_h(\bar y_h-\bar{\bar y})^2 + \sum_{h=1}^L\sum_{i=1}^{n_h}(y_{hi}-\bar y_h)^2$
这一个分解式的左侧跟回归的实际上是一样的， $\bar{\bar y}$ 表示的是每一层的均值 $\bar y_h$