数据分析模型第三章_数据分析中i的平方是什么意思-CSDN博客

本文链接：https://blog.csdn.net/wf312058666/article/details/111995488

参数估计，偏差和评测估计

一. 参数估计
二. 偏差和评测估计
三. 结语

一. 参数估计

参数估计(parameter estimation). 正如第一章模型的介绍中所提到的，一般当我们手上有了一大把相关的数据，我们想做预测，我们要做两件事情，第一件事情是选取适合的模型，例如多项式模型，神经网络模型，树模型，等等这种泛化模型(以一挡百的模型)，这部分内容暂且按下不表.在数据分析模型这课中，着重关注第二件事情，参数估计，即相关模型给定的情况下对于模型的参数估计.小弟认为，参数估计可以分为两大派别：
第一派别：利用给定的数据来估计参数。在这派别里的方法可谓百花齐放,例如多均值估计利用詹姆斯斯丁估计(James-stein estimation)(收缩估计). 在詹姆斯丁估计的基础上又有林德利改变估计(Lindely modification). 具有惩罚性的岭回归估计(Ridge regression)和拉索回归估计(Lasso regression)(稀疏估计)等等.
第二派别:基于给定的数据，利用概率来估计参数，例如最大似然估计和贝叶斯估计(先验和后验)
在数据分析模型这门课，只涉及一些很基础的参数估计方法，小弟在前面讲的这么多，只是希望大家在看参数估计的知识之前有一个大体的概念，在数据分析模型这课里并不需要过多了解。
但无论是什么派别，对于参数的估计自然都会相关与数据的函数公式.
举个例子
如果数据 $y_1,y_2,....y_n$ 服从一个分布 $p(y|\theta)$ ，如果我们要估计 $\theta$ ,那么我们估计的 $\bar\theta=f(y_1,y_2,...,y_n)$ .

最小二乘法(Least Square)
最小二乘法属于第一派别，估计的参数是等于你的数据组成的一种数学函数表达式。最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和，来寻找数据的最佳函数匹配.

线性模型和最小二乘法的参数估计(linear model &least square)
线性模型:
给定一个输入变量X=(X1,X2,…,Xn),预测输出 $\bar{Y}$ .
$\bar{Y}=\bar{\beta_0}+\sum_{j=1}^{n}X_j\bar{\beta_j}$
这是一个多元线性模型，它是由多个一元线性模型相加而成的，即:
$\bar{Y}=\bar{\beta_0}+\sum_{j=1}^{n}X_j\bar{\beta_j}=\sum_{i=1}^{n}\bar{y_i} = \begin{cases} \bar{y_1}=\bar\beta_1X1+\xi_1\\ \bar{y_2}=\bar\beta_2X2+\xi_2 \\ \bar{y_3}=\bar\beta_3X3+\xi_3 \\ ................. \\ \bar{y_n}=\bar\beta_nXn+\xi_n \\ \end{cases},\sum_{i=1}^{n}\xi_i=\bar\beta_0$
那么我们利用最小二乘法，找真值和预测值的最小误差的平方和，从而估计参数,即:
$y_i$ 为真值
$RSS(\bar\beta_0,\bar\beta_1,\bar\beta_2,....\bar\beta_n)=\sum_{i=1}^{N}(y_i-({\beta_0}+\sum_{j=1}^{n}X_j{\bar\beta_j}))^2$
我们当然希望预测值和真值越像越好，那么这个RSS(·)的值需要尽可能的小.这里提个题外话RSS的英语是root-sum-square即平方公差法。
如果我们要估计 $\bar{\beta_0}$ ,我们需要找到 $\bar{\beta_0}$ 其满足RSS(·)为最小值,那么利用
求偏导的方式得出 $\bar{\beta_0}$ ，即:
$\frac{\partial RSS(·)}{\partial \bar{\beta_0}}=0$
如果我们要估计 $\bar{\beta_n}$ ,则:
$\frac{\partial RSS(·)}{\partial \bar{\beta_n}}=0$
它的想法是找到一个斜率为0的RSS(·)值，我们一般默认斜率为0的RSS(·)值为最低值也就是说有且仅有一个下弧线. 对没错，这个默认实在是太苛刻了，但我们不需要思考太多，因为这个问题很大，涉及了凸面问题和非凸面问题，局部最小值，全局最小值，以及如何最快找到最低值的问题例如深度学习里的梯度下降,涅斯捷罗夫冲量等等。也不是这门课单单这么要求的，只要利用最小二乘法来估计参数，均默认斜率为0处的RSS(·)值为最低值.
一般我们会把上述所有公式写成矩阵的形式，有利于代码的书写，也很简洁漂亮.
线性模型的矩阵写法:
$\bar{Y}=X^{T}\bar{\beta}$
$X=\begin{bmatrix} x_1 \\ x_2 \\ x_3\\ ...\\ x_n\\ \end{bmatrix}$ $X^T$ 为 $X$ 的逆矩阵即 $\begin{bmatrix} x_1,x_2...,x_n\\ \end{bmatrix}$ $，\bar{\beta}=\begin{bmatrix} \bar{\beta_0}\\ \bar{\beta_0}\\ ...\\ \bar{\beta_n}\\ \end{bmatrix}$ ,我们会把截距 $\bar{\beta_0}$ 放入 $\bar{\beta}$ 列矩阵中. 那么我们的 $X^T=\begin{bmatrix} 1,x_1,x_2,...,x_n\\\end{bmatrix} ,\bar{Y}=[\bar{\beta_{0}}+x_1\bar\beta_1+x_2\bar\beta_2+...+x_n\bar\beta_n]$ .
那么利用最小二乘法,找真值和预测值的最小误差的平方和, 我们的RSS(·)为:
$RSS(\bar\beta)=(Y-X\bar\beta)^T(Y-X\bar\beta)$
同样计算 $\bar\beta$ 的偏导，即: $\frac{\partial RSS(\bar\beta)}{\partial \bar\beta}=2X^T(Y-X\bar\beta)=0$
那么化简 $X^T(Y-X\bar\beta)=0→X^TY-X^TX\bar\beta=0→X^TY-I\bar\beta=0→\bar\beta=I^{-1}XY→\bar\beta=(X^TX)^{-1}XY$
这里的 $I$ 为单位矩阵.所以在写R或者python代码的时候，我们就写一个 $\bar\beta=(X^TX)^{-1}XY$ ，就可以直接估计出所有的参数了( $\bar\beta$ 矩阵的形式).

正态分布和最小二乘法(normal distribution &least square)
假设这里有一组班级身高的样本 $y = (1.75, 1.64, 1.81, 1.55, 1.51, 1.67, 1.83, 1.63, 1.83, 1.63, 1.72)$ 单位米，这组身高我们认为符合正态分布，估计正态分布的俩个参数 $\mu,\sigma^2$ .
那么利用最小二乘法的定义找最小化误差的平方和,既然这组样本身高符合正态分布，那么我们希望的我们均值身高 $\mu$ 要跟这些样本身高的距离要足够的近。
$\bar{\mu}=\argmin_{\mu}SSE(\mu)=\argmin_{\mu}{\sum_{i=1}^{n}(y_i-\mu)^2}$
同样，我们还是求 $\mu$ 导数，找斜率为0，默认斜率为0，SSE(·)的值为最低.SSE是sum squared error平方误差和的英语缩写.
$\frac{dSSE(\mu)}{d\mu}=\sum_{i=1}^{n}\frac{d(y_i-\mu)^2}{d\mu}=-2\sum_{i=1}^{n}(y_i-\mu)=-2\sum_{i=1}^{n}y_i+2n\mu=0$
即 $\bar{\mu}=\frac{1}{n}\sum_{i=1}^{n}y_i$ ,这也叫做样本均值(sample mean).

接下来我们估计 $\sigma^2$ ,这个就容易多了，利用方差的定义即可:
$\bar\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{\mu})^2$
那么 $\bar\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar\mu)^2}$ ,这就是样本标准差(sample standard deviation).

最大似然估计(Maximum Likelihood estimation)
最大似然估计由1920年的费雪提出的，被广泛应用在很多概率分布模型的估计参数上面，记住费雪这个大哥我们之后还会学习他的很多理论，例如费雪信息等。正如小弟之前所提到的，最大似然估计是第二个派别利用概率的角度来估计模型的参数.
假如你有n个y即 $y_1,y_2,...,y_n$ 符合某个概率分布 $p(y|\theta)$ ,那么你有n个对应的概率即 $p(y_1|\theta),p(y_2|\theta),...,p(y_n|\theta)$ ,现在我们要估计参数 $\theta$ 的值利用这些数据.因为这些点即n个y都是独立的，每个点都有对应的概率，那么我们希望这些点能够产生用于这个参数 $\theta$ 的分布的概率要最大.于是我们将这些点的概率乘起来得到这个参数 $\theta$ 的分布的产生概率即:
$p(y|\theta)=\Pi_{i=1}^{n}p(y_i|\theta)$
$\Pi$ 是连乘.
那么我希望这个 $p(y|\theta)$ 分布的产生概率要最大即:
$\bar\theta=\argmax_\theta \{p(y|\theta)\}$
$p(y|\theta)$ 也被称为似然方程(likelihood function)。解上述这个公式跟最小二乘法一样，依旧是对 $p(y|\theta)$ 求 $\theta$ 导数，斜率为0，但默认为最大值也就是说有且仅有一个上弧线.但是在一般我们会面对奇形怪状的各种概率分布，为了计算方便我们会在前面加 “-log”,这个log很精髓，它不仅把带有指数的概率分布的指数取了下来方便运算，并且log还是单调函数不影响我们 $p(y|\theta)$ 的函数图像,那么变为找最小值，斜率为0，有且仅有一条下弧线.，那么我们的公式变为:
$\bar\theta=\argmin_\theta \{-logp(y|\theta)\}$

这个 $-logp(y|\theta)$ 被称为负log似然(negative log-likelihood)
有时候我们经常用 $L(y|\theta)$ 来代表 $-logp(y|\theta)$ 负log似然。
有时候我们也会用 $logp(y|\theta)$ 来代替不一定要加负号，负号仅仅为了方便运算.

似然估计正态分布(ML estimation of normal distribution)
给了 $y=(y_1,....,y_n)$ ，符合正态分布，估计 $\mu,\sigma$
那么该似然方程为:
$p(y|\mu,\sigma^2)=\Pi_{i=1}^{n}p(y_i|\theta)=(\frac{1}{2\pi\sigma^2})^2exp(-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(\mu-y_i)^2)$
那么负log似然为:
$L(y|\mu,\sigma^2)=-logp(y|\mu,\sigma^2)=\frac{n}{2}log(2\pi\sigma^2)+\frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i-\mu)^2$

求偏导:
$\frac{\partial L(y|\mu,\sigma^2)}{\partial \mu}=0$
$\frac{\partial L(y|\mu,\sigma^2)}{\partial \sigma}=0$

估计 $\bar\mu$ :
$\frac{\partial L(y|\mu,\sigma^2)}{\partial \mu}=-\frac{1}{\sigma^2}\sum_{i=1}^{n}(y_i-\mu)=-\frac{1} {\sigma^2}\sum_{i=1}^{n}y_i+\frac{n\mu}{\sigma^2}=0$

得:
$\bar\mu=\frac{1}{n}\sum_{i=1}^{n}y_i$ 样本均值

估计 $\bar\sigma$ :
$\frac{\partial L(y|\mu,\sigma^2)}{\partial \sigma}=\frac{n}{\sigma}-\frac{1}{\sigma^3}\sum_{i=1}^{n}(y_i-\mu)^2=0$

得：
$\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(y-\mu)^2$
将我们之前估计的 $\bar\mu$ 带入 $\mu$ 中即:
$\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(y-\bar\mu)^2$ ,那么 $\bar\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar\mu)^2}$ 样本标准差

假设这里有一组班级身高的样本 $y = (1.75, 1.64, 1.81, 1.55, 1.51, 1.67, 1.83, 1.63, 1.83, 1.63, 1.72)$ 单位米，符合正态分布，那么样本均值为 $\bar\mu=1.6789$ ,样本标准差为 $\bar\sigma=\sqrt{\frac{1}{9}\sum_{i=1}^{9}(y_i-1.6789)^2}=0.1032$
图像为:
在这里插入图片描述
我们可以清楚看见我们的数据样本 $y = (1.75, 1.64, 1.81, 1.55, 1.51, 1.67, 1.83, 1.63, 1.83, 1.63, 1.72)$ 大致分布在 $(\bar\mu-2\bar\sigma,\bar\mu+2\bar\sigma)≈(1.47,1.88)$ 的正态分布之间.
如果有问身高在总体里1.6m到1.8m之间的概率是多少，那么 $P(1.6<X<1.8|\bar\mu=1.6789,\bar\sigma^2=0.1032^2)≈0.664$

似然估计泊松分布(ML estimation of Poisson)
除了连续函数，我们也可以用似然估计离散函数，泊松分布的参数 $\lambda$

负log似然:
$L(y|\lambda)=-\sum_{i=1}^{n}y_ilog\lambda+n\lambda+\sum_{i=1}^{n}logy_i!$
求导:
$\frac{dL(y|\lambda)}{d\lambda}=-\frac{1}{\lambda}\sum_{i=1}^{n}y_i=0$
得：
$\bar\lambda=\frac{1}{n}\sum_{i=1}^{n}y_i$

似然估计伯努利分布(ML estimation of Poisson)
log似然:
$L(x_1,x_2,...x_n|\theta)=\sum_{i=1}^{n}x_ilog\theta+(n-\sum_{i=1}^{n}x_i)log(1-\theta)$
求导:
$\frac{dL(x_1,x_2,...x_n|\theta)}{d\theta}=\frac{\sum_{i=1}^{n}x_i}{\theta}-\frac{(n-\sum_{i=1}^{n}x_i)}{1-\theta}$
得：
$\bar\theta=\frac{\sum_{i=1}^{n}x_i}{n}$ ， $\sum_{i=1}^{n}x_i$ 为一共成功得次数，n为总共尝试的次数.

二. 偏差和评测估计

评测估计(evaluating estimators)不是一种估计的方法，而是比较不同的估计方法，从而抉择用哪个估计方法.
2.1 取样统计(sampling statistics)
很明显，我们有很多的参数的估计方法，那么，我们如何比较不同参数估计呢，举个例子, $\bar\sigma_1^2=(\frac{1}{n-1})\sum_{i=1}^{n}(y_i-\bar\mu)^2$ 和 $\bar\sigma_2^2=(\frac{1}{n})\sum_{i=1}^{n}(y_i-\bar\mu)^2$ 那个对于方差的估计， $\bar\sigma_1^2$ 和 $\bar\sigma_2^2$ 哪个估计更好点呢。比较不同的估计，我们经常会比较它们内在的性质，但这些性质经常涉及取样统计中的一些概念。换句话说，反复从总体抽样的样本中，进而比较这些估计的表现情况，从而选取较好的参数估计.
$总体(population)→_{取样}→样本(sample)→_{估计参数}→模型(正态分布，泊松...)$
样本均值分布(sample mean distribution)
假如我们这里有一个总体很大的人群身高单位米,总体的人群身高服从正态分布N( $\mu$ =1.65, $\sigma^2$ =0.1)，我们现在随机抽取样本一组有5个即y=(1.620,1.652,1.623,1.475,1.621)利用我们的似然估计我们知道 $\bar\mu$ = $\bar y$ = $\frac{1}{5}\sum_{i=1}^{5}y_i$ =1.598 样本均值.接下来我们多取几组,每组样本有5个数据样本.

第一组/第一组样本: $y^1=(1.620,1.652,1.623,1.475,1.621) →\bar\mu_1=\bar y_1=1.598$
第二组: $y^2=(1.729, 1.517, 1.417, 1.505, 1.683) →\bar\mu_2=\bar y_2=1.570$
第三组: $y^3=(1.689, 1.695, 1.637, 1.668, 1.602) →\bar\mu_3=\bar y_3=1.658$
第四组: $y^4=(1.736, 1.513, 1.695, 1.565, 1.616) →\bar\mu_4=\bar y_4=1.625$
第五组: $y^5=(1.705, 1.753, 1.538, 1.776, 1.716) →\bar\mu_5=\bar y_5=1.697$
…
…
当然了，利用似然估计，每组都会有不同的样本均值.接下来我们画图，x轴为样本均值(sample mean)，y轴为各个样本均值出现的频率(frequency)即出现的概率，如下图在这里插入图片描述
这里有1,000,000组样本，每组5个，该图即为样本分布。图中的样本分布的均值恰巧等于身高总体的正态分布均值=1.65(X轴为1.65处,正态分布以 $\mu$ 对称).
正如小弟之前所说，对于参数的估计其实是等于相关数据的一个函数公式.我们利用似然估计的 $\bar\mu=\bar Y=\frac{1}{n}\sum_{i=1}^{n}Y_i$ 中每个 $Y_i$ 都服从总体的正态分布N( $\mu$ =1.65, $\sigma^2$ =0.1).

再利用第二章所讲的正态分布具有的几个性质:
1.如果 $Y_1～N(\mu_1,\sigma_1^2)$ , $Y_2～N(\mu_2,\sigma_2^2)$ → $Y_1+Y_2～N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$

2.如果 $Y～N(\mu,\sigma^2)$ → $\frac{Y}{n}～N(\frac{\mu}{n},(\frac{\sigma}{n})^2)$ 切记是针对参数进行改变，而不是 $\frac{\sigma^2}{n}$ ,推导也很简单， $V[\frac{Y}{n}]=(\frac{1}{n})^2V[Y]=(\frac{\sigma}{n})^2$ .

那么，在我们该样本分布中，利用似然估计得到的均值 $\bar\mu=\bar Y～N(\mu,\frac{\sigma^2}{n})$ ,那么我们知道 $E[\bar\mu]=\mu=1.65$ ,恰巧1.65等于身高总体的正态分布均值, 所以说利用最小二乘法或者似然估计正态分布的均值是准确无误的.
另外我们也可以利用标准正态分布来画出该样本均值分布，因为标准正态随机变量为 $\frac{\bar Y-\mu}{{\sigma}/\sqrt{n}}～N(0,1)$ 第二章的内容.

到这里大家应该明白取样统计中的样本分布是极其重要的，它经常用在:
1.置信区间(confidence intervals)
2.假设检验(hypothesis testing)
3.评测估计或者比较估计(evaluate estimators)
1和2后续会讲，在这一章中我们着重看看第三点.

2.2评测估计(evaluating estimators)
我们一般会注意估计的这么几种性质从而比较不同的估计
1.偏差(bias):哪个更贴近真实的参数或者总体的参数
2.方差(variance):哪个估计的参数变化更大，哪个参数变化更小点.

估计的偏差(bias of estimator)
偏差就是指估计的参数和真实的参数差多少的意思,估计的偏差决定了你是否过饱和估计你的真实参数.这也将影响你是否过饱和(overestimates)预测。
如果 $Y=(Y_1,Y_2,....,Y_n)$ 是我们的数据， $\bar\theta(Y)$ 是数据组成的函数为我们估计的参数.
那么估计参数的偏差为:
$b_\theta(\bar\theta)=E[\bar\theta(Y)]-\theta$
如果 $b_\theta(\bar\theta)$ =0那么这个参数估计为无偏差(unbiased)估计
举个例子:
$Y=(Y_1,Y_2,...,Y_n), Y_i$ 为i.i.d独立同分布，服从均值为 $\mu$ 的正态分布.
$E[\bar Y]=E[\frac{Y_1+Y_2+....+Y_n}{n}]=\frac{E[Y_1]}{n}+\frac{E[Y_2]}{n}+\frac{E[Y_3]}{n}+...+\frac{E[Y_n]}{n}=\mu$
那么根据偏差公式 $b_\theta(\bar\theta)=E[\bar\theta(Y)]-\theta=\mu-\mu=0$
我们会发现原来样本均值是无偏差估计，也就是说利用最小二乘法和似然估计的均值都是无偏差的。

估计的方差(variance of estimator)
关于 $\bar\theta(Y)$ 的方差：
$Var_\theta(\bar\theta)=E[(\bar\theta(Y)-E[\bar\theta(Y)])^2]=V[\bar\theta(Y)]$
从这个公式可以看出，估计量的方差等于 $\bar\theta$ 的样本分布的方差
该方差越大意味着每次取出样本进行估计的变化就越大.
举个例子:
$Y=(Y_1,Y_2,...,Y_n), Y_i$ 为i.i.d独立同分布，服从均值为 $\mu$ ,方差为 $\sigma^2$ 的正态分布.
我们来计算下样本均值 $\bar Y$ 的方差:
$V[\bar Y]=V[\frac{Y_1}{n}+\frac{Y_2}{n}+...+\frac{Y_n}{n}]=\frac{1}{n^2}(V[Y_1]+V[Y_2]+...+V[Y_n])=\frac{\sigma^2}{n}$
我们可以看出， $\frac{\sigma^2}{n}$ 就是我们最早计算的样本分布的方差即, $\bar \theta=\bar Y～N(\mu,\frac{\sigma^2}{n})$ ，并且随着n增大，样本数增大，那么样本均值的估计会趋于稳定，变化较小.

估计的均方误差(mean squared error,简写MSE)
我们一般比较不同的估计利用均方误差来比较，均方误差的值越大.
$MSE_\theta(\bar\theta)=E[(\bar\theta(Y)-\theta)^2]=(E[\bar\theta(Y)]-\theta)^2+E[(\bar\theta(Y)-E[\bar\theta(Y)])^2]=b_\theta(\bar\theta)^2+Var_\theta(\bar\theta)$
这里有个说法的问题,比较不同的估计利用上述公式叫均方误差(MSE)，我们也可以叫这个公式是平方误差(squared error).在高等数据分析里，这就是损失方程(loss function)或者风险方程(risk function)关于估计参数和真参的损失方程.
有的同学会说"我明白这公式干什么，不就是真参和估计参数的差值的期望也就是取均值嘛，无可厚非，但为什么非得用平方差的形式，我们用绝对值不香么." 没错，期望就是均值，就像小弟在最上面给样本分布图一样,只不过在该图 $\bar\theta(Y)$ 是样本均值，把x轴变为 $(\bar\theta(Y)-\theta)^2$ 然后在这个分布下，取均值也就是期望.也就是多次取样本，分别计算平方误差，最后取均值罢了。但为什么，数学家们由衷的喜欢用平方差呢，绝对值不行么？
我们这次写成损失方程的形式 $L(\theta,\bar\theta)$ ，根据泰勒函数展开:
$L(\theta,\bar\theta)=L(\theta,\bar\theta)+(\theta-\bar\theta)L'(\theta,\bar\theta)+\frac{(\theta-\bar\theta)^2}{2}L''(\theta,\bar\theta)$
当 $\theta≈\bar\theta$ 时， $L'(\theta,\bar\theta)$ ≈0，那么 $L(\theta,\bar\theta)≈\frac{(\theta-\bar\theta)^2}{2}L''(\theta,\bar\theta)$
我们会发现，原来只要是损失函数多多少少长得很像平方差，因为有一项 $(\theta-\bar\theta)^2$ .

言归正传，估计的均方误差 $MSE_\theta(\bar\theta)=b_\theta(\bar\theta)^2+Var_\theta(\bar\theta)$
我们依旧拿样本均值来试试这个公式
那么 $SE_{\mu,\sigma^2}(\bar Y)=b_{\mu}^2(\bar Y)+Var_{\mu.\sigma^2}(\bar Y)=0+\frac{\sigma^2}{n}=\frac{\sigma^2}{n}$
根据结果，我们得出这三点:
1.根据MSE，样本均值 $\bar \mu$ 为总体均值 $\mu$
2. MSE会随着 $\sigma^2$ 的增加而增加
3. MSE会随着n的减少而减少.

现在我们来试试，比较两个关于正态分布方差的估计
$\bar\sigma^2_{ML}=\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar y)^2$ 这是利用似然估计的方差也就是样本方差

$\bar \sigma^2_u=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2$ 这是另外一个估计关于方差的.
$\bar y=\frac{1}{n}\sum_{i=1}^{n}y_i$ 是样本均值,样本均值无偏差，即样本均值为总体均值 $\mu$ 。

来一个个算，从偏差开始:
根据偏差公式 $b_\theta(\bar\theta)=E[\bar\theta(Y)]-\theta$
计算 $\bar\sigma^2_{ML}$ 的偏差
$b_{\sigma^{2}}(\bar\sigma^2_{ML})=E[\bar\sigma^2_{ML}]-\sigma^2=E[\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar y)^2]-\sigma^2=\frac{1}{n}E[\sum_{i=1}^{n}(y_i-\bar y)^2]-\sigma^2=\frac{1}{n}V[\sum_{i=1}^{n}(y_i-\bar y)]+\frac{1}{n}E[(y_i-\bar y)]^2-\sigma^2=\frac{1}{n}V[\sum_{i=1}^{n}(y_i-\bar y)]+0-\sigma^2=\frac{1}{n}V[\sum_{i=1}^{n}y_i]-\frac{1}{n}(nV[\bar y])-\sigma^2=(\sigma^2-\frac{1}{n}\sigma^2)-\sigma^2=-\frac{1}{n}\sigma^2$ , 这里的推导用到了 $V[X]=E[X^2]-E[X]^2$ 和我们之前讲到的 $\bar\mu=\bar Y～N(\mu,\frac{\sigma^2}{n})$

计算 $\bar\sigma^2_u$ 的偏差
$\bar\sigma^2_u=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2=\frac{n}{n-1}\bar\sigma^2_{ML}$
那么
$b_{\sigma^{2}}(\bar\sigma^2_{u})=E[\bar\sigma^2_{u}]-\sigma^2=\frac{n}{n-1}E[\bar\sigma^2_{ML}]-\sigma^2=\sigma^2-\sigma^2=0$ 这个估计竟然是无偏估计，没错 $\bar\sigma^2_u$ 这就是总体方差估计(population variance estimator).这其实也是 $\bar\sigma^2_u$ 总体方差估计的推导过程。上述方法利用无偏性来推出总体方差的估计。但是在上学期间，小弟的老师主要用另外一个角度来介绍总体方差的由来的。该方法涉及了卡方分布和自由度。小弟我在此带大家重温一下这两个概念。
1.自由度(degrees of freedom)，自由度df=n-k,其中n为样本数量，k为被限制的条件数或变量个数,自由度常用在抽样分布中.
2.卡方分布(chi-square),卡方分布是由k个独立标准正态随机变量的和所构成的分布，如果 $X_1,X_2,...X_k$ 是独立的标准正态随机变量，那么这k个变量的平方和就是k个自由度的卡方分布.卡方分布的期望 $E[\chi^2]$ 为k,方差 $V[\chi^2]$ 为 $2 k$
$Q=\sum_{i=1}^{k}X^2_i, Q～\chi^2(k)$ 这参数k就是自由度,当自由度很大时，卡方分布趋近于正态分布.
证明总体方差:
$\sum_{i=1}^{n}(y_i-\bar y)^2=\sum_{i=1}^{n}(y_i-\mu)^2-n(\bar y-\mu)^2$
等式两边同除 $\sigma^2$
得:
$\frac{\sum_{i=1}^{n}(y_i-\bar y)^2}{\sigma^2}=\frac{\sum_{i=1}^{n}(y_i-\mu)^2}{\sigma^2}-\frac{n(\bar y-\mu)^2}{\sigma^2}$
整理下该公式得:
$\frac{\sum_{i=1}^{n}(y_i-\mu)^2}{\sigma^2}=\frac{\sum_{i=1}^{n}(y_i-\bar y)^2}{\sigma^2}+\frac{n(\bar y-\mu)^2}{\sigma^2}$
$(\frac{\sum_{i=1}^{n}(y_i-\mu)}{\sigma})^2=(\frac{\sum_{i=1}^{n}(y_i-\bar y)}{\sigma})^2+(\frac{\sqrt{n}(\bar y-\mu)}{\sigma})^2$ ，根据卡方分布，我们知道等式左边 $(\frac{\sum_{i=1}^{n}(y_i-\mu)}{\sigma})^2$ 有n个自由度即有n个标准正态随机变量，等式右边的 $(\frac{\sqrt{n}(\bar y-\mu)}{\sigma})^2$ 有1个自由度即1个标准正态随机变量，那么等式右边的 $(\frac{\sum_{i=1}^{n}(y_i-\bar y)}{\sigma})^2$ 有n-1个自由度即n-1个标准正态随机变量，那么 $(\frac{\sum_{i=1}^{n}(y_i-\bar y)}{\sigma})^2=n-1$ ，整理该公式变为 $\sigma^2=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2$ 得到总体方差。切记这里的n不是总体而是样本数目.所以是利用样本数目n来无偏估计总体方差.

小弟希望那些初学统计的同学能尽可能的知道所有细节，所以写的比较多，甚至把两年多以前的笔记都找了回来，小弟毕竟不是数学专业，也希望大家可以纠察出小弟在理论上的谬误从而互相学习，小弟在此不胜感激。

言归正传，为了算这两个估计量的MSE，所以我们需要计算这两个估计的方差。但很不幸的是我们无法计算这两个估计的方差的具体值，因为我们无法解决 $E[y^2_i]$ ,即使我们知道 $E[y_i]=\mu=\int yp(y)dy$ 但我们无法解出 $E[y^2_i]=\int y^2p(y)dy^2$ .换句话说，如果是离散变量,即使我们知道 $E[y]=\mu=\sum yp(y)$ ,但我们无法算出 $E[y^2]=\sum y^2p(y)$ .如果把所有对应的概率具体值都给出来，我们还是可以算的，但毕竟小弟我在讲原理，假设的条件不会很多，但如果碰到具体实验或者项目，那已知条件肯定会充沛很多，大家利用公式计算MSE再对比对应估计量的MSE即可.

回归正题，虽然不能计算具体的估计量的方差，但我们却知道这两个估计的方差谁大谁小.
$Var_{\sigma^{2}}(\bar\sigma^2_{u})=(\frac{n}{n-1})^2Var_{\sigma^{2}}[\bar\sigma^2_{ML}]$
可以看出 $Var_{\sigma^{2}}[\bar\sigma^2_{ML}]$ 更小.

也就是说 $\bar\sigma^2_{u}$ 这个估计虽然无偏，但有较大的方差.虽然 $\bar\sigma^2_{ML}$ 有偏差但有较小的方差.这说明了 $\bar\sigma^2_{ML}$ 牺牲了无偏差从而换来了方差较小的结果。
因为 $MSE_\theta(\bar\theta)=b_\theta(\bar\theta)^2+Var_\theta(\bar\theta)$ ，偏差和方差由如鱼肉和熊掌不可兼得，你如果注重无偏差，那么方差相比必然会大，你如果注重小方差，那偏差相比必然会大. 在现实问题中，这就是一个度的问题了，假如你有两个估计量算出的MSE值相同，这时候你需要考虑MSE里对应成分的问题了，如果你的偏差很小，方差很大，那么导致了你只能预测你手上的数据，对于未知数据的预测你不会有很大信心，因为你方差很大，预测不稳定，这就是过饱和估计(overestimate)。如果你偏差很大，方差很小。相反的话就是非饱和估计(underestimate)。另外 $MSE_\theta(\bar\theta)$ 会随着n(样本数)的增大趋近于0，因为 $b_\theta(\bar\theta)$ 和 $Var_\theta(\bar\theta)$ 均服从 $O(\frac{1}{n})$ . 但因为在MSE中， $b_\theta(\bar\theta)^2$ 服从 $O(\frac{1}{n^2})$ ，也就是说，随着n的增大， $b_\theta(\bar\theta)^2$ 会比 $Var_\theta(\bar\theta)$ 先趋近到0.
看到这里，各位同学是不是会有个想法，我们是不是可以有个估计方法可以牺牲无偏性，从而减小方差，因为当我们样本数量很多时我们更注重方差，而不是偏差，因为偏差会先趋近到0，况且我们的模型一般是预测未知数据，相应的减少方差是必要的。如果你能想到这一点，恭喜你，如果你早出生几年，你必然是统计学里的大才，因为你和当年的吉洪诺夫同学,拉索同学想的一样，这就是岭回归,拉索回归想要做的事情，岭回归就是在最小二乘法这种无偏差估计的基础上加上惩罚措施从而牺牲最小二乘法的无偏性，进而减小方差的一种估计参数方法.而拉索同学想的更细些，因为我们毕竟不知道模型需要有哪些参数，所以拉索回归还能精确的估计出参数为0的真参。

最后MSE还是有缺点的，因为MSE依靠对应参数的选择。举个例子
$\bar\sigma^2_{u}$ 是总体方差，无偏估计，但是 $E\sqrt{\bar\sigma^2_{u}}-\sigma≠0$
$\bar\sigma^2_{u}$ 的总体标准差是有偏差的

三. 结语

自习的同学可以参考Ross, S.M. (2014) Introduction to Probability and Statistics for Engineers and Scientists, 5th ed. Academic Press. 第6章(6.1,6.2,6.4,6.5)-7章(7.1,7.2,7.7)