参数估计和最大似然估计

最新推荐文章于 2024-07-11 18:01:48 发布

winycg

最新推荐文章于 2024-07-11 18:01:48 发布

阅读量1.4k

点赞数 2

分类专栏： python机器学习

本文链接：https://blog.csdn.net/winycg/article/details/80294225

版权

python机器学习专栏收录该内容

37 篇文章 7 订阅

订阅专栏

点估计

设总体 $X$ 的分布函数的形式已知，但它的一个或多个参数未知，借助于总体 $X$ 的一个样本来估计总体未知参数的值得问题称为参数的点估计问题。

举例：
某炸药厂，一天中发生着火现象的次数 $X$ 是一个随机变量，假设 $X$ 服从 $\lambda>0$ 泊松分布,即 $\sim \pi(\lambda)$ 。根据现有的样本量估计参数 $\lambda$

着火次数k	0 1 2 3 4 5 6 >=7
发生k次着火的天数	75 90 54 22 6 2 1 0

根据 $\lambda=E(X)$ ,以上的数据表示 $X = 0$ 出现了75次， $X = 1$ 出现了90次…，一共有250个样本
$E(X)=\frac{0 \times 75+1 \times 90 +2 \times 54+3 \times 22 +4 \times 6 + 5 \times 2+ 6 \times 1}{250}=1.22$
所以估计参数 $\lambda=1.22$

点估计：设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式为已知， $\theta$ 是待估参数， $X_{1},X_{2},...,X_{n}$ 是 $X$ 的一个样本， $x_{1},x_{2},...,x_{n}$ 是对应的样本值。点估计问题是构造出一个适当的统计量 $\hat{\theta}(X_{1},X_{2},...,X_{n})$ ,用它的观察值 $\hat{\theta}(x_{1},x_{2},...,x_{n})$ 作为未知参数 $\theta$ 的近似值，称 $\hat{\theta}(X_{1},X_{2},...,X_{n})$ 为 $\theta$ 的估计量， $\hat{\theta}(x_{1},x_{2},...,x_{n})$ 为 $\theta$ 的估计值。
下面介绍两种常用的构造估计量的方法：矩估计和最大似然估计
##矩估计法
设 $X$ 为连续型随机变量，其概率密度为 $f(x:\theta_{1}, \theta_{2},...,\theta_{k})$ ;或 $X$ 为离散型随机变量，其概率密度为 $P\{X=x\}=p(x;\theta_{1}, \theta_{2},...,\theta_{k})$ ,其其中 $\theta_{1}, \theta_{2},...,\theta_{k}$ 为待估参数。假设总体 $X$ 前 $k$ 阶矩为：
$\mu_{l}=E(X^{l})=\int_{-\infty}^{\infty}x^{l}f(x:\theta_{1}, \theta_{2},...,\theta_{k}) dx,(X是连续型)$
$\mu_{l}=E(X^{l})=\sum_{x \in R_{x}}x^{l}p(x;\theta_{1}, \theta_{2},...,\theta_{k}),(X是离散型)$
$l=1,2,\cdots,k$
其中， $R_{x}$ 是 $x$ 可能取值的范围。
$X_{1},X_{2},...,X_{n}$ 是来自 $X$ 的样本，样本矩为 $A_{l}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{l}$
样本矩依概率收敛于相应的总体矩 $u_{l}$ ，样本矩的连续函数依概率收敛于相应的总体矩的连续函数。因此，可以使用样本矩作为相应的总体矩的估计量，样本矩的连续函数作为相应的总体矩的连续函数的估计量，此估计法被称为矩估计法。具体做法如下：
$\left\{\begin{matrix} \mu_{1}=\mu_{1}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \mu_{2}=\mu_{2}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \cdots\\ \mu_{k}=\mu_{k}(\theta_{1},\theta_{2},\cdots ,\theta_{k}) \end{matrix}\right.$
这是包含 $k$ 个未知数 $\theta_{1},\theta_{2},\cdots ,\theta_{k}$ 的联立方程组。一般来说，可以得到：
$\left\{\begin{matrix} \theta_{1}=\theta_{1}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \theta_{2}=\theta_{2}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \cdots\\ \theta_{k}=\theta_{k}(\mu_{1},\mu_{2},\cdots ,\mu_{k}) \end{matrix}\right.$
以 $A_{i}$ 代替上述中的 $\mu_{i}，i=1,2,\cdots,k$ ,可得：
$\hat{\theta_{i}}=\theta_{i}(A_{1},A_{2},\cdots, A_{k}),i=1,2,\cdots,k$
分别作为 $\theta_{i}，i=1,2,\cdots,k$ 的估计量，称为矩估计量，观察值称为矩估计值。

最大似然估计

离散型

设总体 $X$ 属于离散型，分布律 $P\{X=x\}=p(x;\theta),\theta \in \Theta$ 的形式为已知， $\theta$ 为待估参数， $\Theta$ 为 $\theta$ 可能取值的范围。设 $X_{1},X_{2},\cdots,X_{n}$ 为来自 $X$ 的样本， $x_{1},x_{2},\cdots,x_{n}$ 为对应的样本值，它们都是已知的常数。易知样本 $X_{1},X_{2},\cdots,X_{n}$ 取到 $x_{1},x_{2},\cdots,x_{n}$ 的概率，即事件 $\{X_{1}=x_{1},X_{2}=x_{2},\cdots,X_{n}=x_{n}\}$ 发生的概率为：
$L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}p(x_{i};\theta),\theta \in \Theta$
概率值随 $\theta$ 的取值而变化，是 $\theta$ 的函数， $L(\theta)$ 称为样本的似然函数。
现在我们已经取到了样本值 $x_{1},x_{2},\cdots,x_{n}$ ，表明取到这一样本值的概率 $L(\theta)$ 比较大。当 $\theta=\theta_{0} \in \Theta$ 时 $L(\theta)$ 取得最大值，而 $\Theta$ 中的其他值使得 $L(\theta)$ 取得较小的值，所以认为取 $\theta_{0}$ 为未知参数 $\theta$ 的估计值最为合理，这就是最大似然估计，即：
$L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta)$
这样的得到的 $\hat{\theta}$ 与样本值 $x_{1},x_{2},\cdots,x_{n}$ 有关，常被记为 $\hat{\theta}(x_{1},x_{2},\cdots,x_{n})$ ,称为参数 $\theta$ 的最大似然估计值，统计量 $\hat{\theta}(X_{1},X_{2},\cdots,X_{n})$ 称为参数 $\theta$ 的最大似然估计量。

连续型

设总体 $X$ 属于连续型，概率密度 $f(x;\theta),\theta \in \Theta$ 的形式为已知， $\theta$ 为待估参数， $\Theta$ 为 $\theta$ 可能取值的范围。设 $X_{1},X_{2},\cdots,X_{n}$ 为来自 $X$ 的样本， $x_{1},x_{2},\cdots,x_{n}$ 为对应的样本值，它们都是已知的常数。易知样本 $X_{1},X_{2},\cdots,X_{n}$ 取到 $x_{1},x_{2},\cdots,x_{n}$ 的概率，即为随机点 $(X_{1},X_{2},\cdots,X_{n})$ 落在点 $(x_{1},x_{2},\cdots,x_{n})$ 的邻域（边长分别为 $dx_{1},dx_{2},\cdots,dx_{n}$ 的 $n$ 维立方体）内的概率近似为：
$\prod_{i=1}^{n}f(x_{i};\theta)dx_{i}$
其值随 $\theta$ 的变化而变化，取 $\theta$ 的估计值 $\hat{\theta}$ 使得概率取得最大值，但因子 $\prod_{i=1}^{n}dx_{i}$ 与 $\theta$ 无关，故只需要考虑函数：
$L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}f(x_{i};\theta)$
的最大值， $L(\theta)$ 称为样本的似然函数，若 $L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta)$
则 $\hat{\theta}(x_{1},x_{2},\cdots,x_{n})$ ,称为参数 $\theta$ 的最大似然估计值，统计量 $\hat{\theta}(X_{1},X_{2},\cdots,X_{n})$ 称为参数 $\theta$ 的最大似然估计量。

对数似然方程

似然函数中的连乘操作容易造成下溢，取对数之后可以变为相加的形式： $\log L(\theta)=\sum_{i=1}^{n}f(x_{i};\theta)$
确定最大似然估计量的问题归结为求 $L(\theta)$ 的最大值问题。很多情况下， $p(x;\theta)$ 和 $f(x;\theta)$ 关于 $\theta$ 可微，这时 $\hat{\theta}$ 可从方程： $\frac{\mathrm{d} L(\theta)}{\mathrm{d} \theta}=0$ 解得。又因为 $L(\theta)$ 和 $\ln L(\theta)$ 在同一 $\theta$ 处取得极值，因此 $\theta$ 的最大似然估计 $\theta$ 也可以从方程 $\frac{ \mathrm{d} \ln L(\theta)}{\mathrm{d} \theta}=0$ 求的，而使用对数方程求解比较方便，称为对数似然方程。

#无偏估计量
对于待估参数，不同的样本值就会得到不同的估计值。要确定一个估计量的好坏，就不能仅仅依据某次抽样的结果来衡量，而必须由大量抽样的结果来衡量。对此，一个自然而基本的衡量标准是要求估计量无系统偏差。也就是说，尽管在一次抽样中得到的估计值不一定恰好等于待估参数的真值，但在大量重复抽样时，所得到的估计值平均起来应与待估参数的真值相同，换句话说，估计量的均值（数学期望）应等于未知参数的真值。若估计量 $\hat{\theta}=\hat{\theta}(X_{1},X_{2},\cdots,X_{n})$ 的数学期望 $E(\hat{\theta})$ 存在，则有 $E(\hat{\theta})=\theta$
无偏估计的实际意义为无系统偏差。