参数估计和最大似然估计

点估计

设总体 X X X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体 X X X一个样本来估计总体未知参数的值得问题称为参数的点估计问题。

举例:
某炸药厂,一天中发生着火现象的次数 X X X是一个随机变量,假设 X X X服从 λ > 0 \lambda>0 λ>0泊松分布,即 X ∼ π ( λ ) X \sim \pi(\lambda) Xπ(λ)。根据现有的样本量估计参数 λ \lambda λ

着火次数k0 1 2 3 4 5 6 >=7
发生k次着火的天数75 90 54 22 6 2 1 0

根据 λ = E ( X ) \lambda=E(X) λ=E(X),以上的数据表示 X = 0 X=0 X=0出现了75次, X = 1 X=1 X=1出现了90次…,一共有250个样本
E ( X ) = 0 × 75 + 1 × 90 + 2 × 54 + 3 × 22 + 4 × 6 + 5 × 2 + 6 × 1 250 = 1.22 E(X)=\frac{0 \times 75+1 \times 90 +2 \times 54+3 \times 22 +4 \times 6 + 5 \times 2+ 6 \times 1}{250}=1.22 E(X)=2500×75+1×90+2×54+3×22+4×6+5×2+6×1=1.22
所以估计参数 λ = 1.22 \lambda=1.22 λ=1.22

点估计:设总体 X X X的分布函数 F ( x ; θ ) F(x;\theta) F(x;θ)的形式为已知, θ \theta θ是待估参数, X 1 , X 2 , . . . , X n X_{1},X_{2},...,X_{n} X1,X2,...,Xn X X X的一个样本, x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn是对应的样本值。点估计问题是构造出一个适当的统计量 θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}(X_{1},X_{2},...,X_{n}) θ^(X1,X2,...,Xn),用它的观察值 θ ^ ( x 1 , x 2 , . . . , x n ) \hat{\theta}(x_{1},x_{2},...,x_{n}) θ^(x1,x2,...,xn)作为未知参数 θ \theta θ的近似值,称 θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta}(X_{1},X_{2},...,X_{n}) θ^(X1,X2,...,Xn) θ \theta θ的估计量, θ ^ ( x 1 , x 2 , . . . , x n ) \hat{\theta}(x_{1},x_{2},...,x_{n}) θ^(x1,x2,...,xn) θ \theta θ的估计值。
下面介绍两种常用的构造估计量的方法:矩估计和最大似然估计
##矩估计法
X X X为连续型随机变量,其概率密度为 f ( x : θ 1 , θ 2 , . . . , θ k ) f(x:\theta_{1}, \theta_{2},...,\theta_{k}) f(x:θ1,θ2,...,θk);或 X X X为离散型随机变量,其概率密度为 P { X = x } = p ( x ; θ 1 , θ 2 , . . . , θ k ) P\{X=x\}=p(x;\theta_{1}, \theta_{2},...,\theta_{k}) P{X=x}=p(x;θ1,θ2,...,θk),其其中 θ 1 , θ 2 , . . . , θ k \theta_{1}, \theta_{2},...,\theta_{k} θ1,θ2,...,θk为待估参数。假设总体 X X X k k k阶矩为:
μ l = E ( X l ) = ∫ − ∞ ∞ x l f ( x : θ 1 , θ 2 , . . . , θ k ) d x , ( X 是 连 续 型 ) \mu_{l}=E(X^{l})=\int_{-\infty}^{\infty}x^{l}f(x:\theta_{1}, \theta_{2},...,\theta_{k}) dx,(X是连续型) μl=E(Xl)=xlf(x:θ1,θ2,...,θk)dx,(X)
μ l = E ( X l ) = ∑ x ∈ R x x l p ( x ; θ 1 , θ 2 , . . . , θ k ) , ( X 是 离 散 型 ) \mu_{l}=E(X^{l})=\sum_{x \in R_{x}}x^{l}p(x;\theta_{1}, \theta_{2},...,\theta_{k}),(X是离散型) μl=E(Xl)=xRxxlp(x;θ1,θ2,...,θk),(X)
l = 1 , 2 , ⋯   , k l=1,2,\cdots,k l=1,2,,k
其中, R x R_{x} Rx x x x可能取值的范围。
X 1 , X 2 , . . . , X n X_{1},X_{2},...,X_{n} X1,X2,...,Xn是来自 X X X的样本,样本矩为 A l = 1 n ∑ i = 1 n X i l A_{l}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{l} Al=n1i=1nXil
样本矩依概率收敛于相应的总体矩 u l u_{l} ul,样本矩的连续函数依概率收敛于相应的总体矩的连续函数。因此,可以使用样本矩作为相应的总体矩的估计量,样本矩的连续函数作为相应的总体矩的连续函数的估计量,此估计法被称为矩估计法。具体做法如下:
{ μ 1 = μ 1 ( θ 1 , θ 2 , ⋯   , θ k ) μ 2 = μ 2 ( θ 1 , θ 2 , ⋯   , θ k ) ⋯ μ k = μ k ( θ 1 , θ 2 , ⋯   , θ k ) \left\{\begin{matrix} \mu_{1}=\mu_{1}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \mu_{2}=\mu_{2}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \cdots\\ \mu_{k}=\mu_{k}(\theta_{1},\theta_{2},\cdots ,\theta_{k}) \end{matrix}\right. μ1=μ1(θ1,θ2,,θk)μ2=μ2(θ1,θ2,,θk)μk=μk(θ1,θ2,,θk)
这是包含 k k k个未知数 θ 1 , θ 2 , ⋯   , θ k \theta_{1},\theta_{2},\cdots ,\theta_{k} θ1,θ2,,θk的联立方程组。一般来说,可以得到:
{ θ 1 = θ 1 ( μ 1 , μ 2 , ⋯   , μ k ) θ 2 = θ 2 ( μ 1 , μ 2 , ⋯   , μ k ) ⋯ θ k = θ k ( μ 1 , μ 2 , ⋯   , μ k ) \left\{\begin{matrix} \theta_{1}=\theta_{1}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \theta_{2}=\theta_{2}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \cdots\\ \theta_{k}=\theta_{k}(\mu_{1},\mu_{2},\cdots ,\mu_{k}) \end{matrix}\right. θ1=θ1(μ1,μ2,,μk)θ2=θ2(μ1,μ2,,μk)θk=θk(μ1,μ2,,μk)
A i A_{i} Ai代替上述中的 μ i , i = 1 , 2 , ⋯   , k \mu_{i},i=1,2,\cdots,k μii=1,2,,k,可得:
θ i ^ = θ i ( A 1 , A 2 , ⋯   , A k ) , i = 1 , 2 , ⋯   , k \hat{\theta_{i}}=\theta_{i}(A_{1},A_{2},\cdots, A_{k}),i=1,2,\cdots,k θi^=θi(A1,A2,,Ak),i=1,2,,k
分别作为 θ i , i = 1 , 2 , ⋯   , k \theta_{i},i=1,2,\cdots,k θii=1,2,,k的估计量,称为矩估计量,观察值称为矩估计值。

最大似然估计

离散型

设总体 X X X属于离散型,分布律 P { X = x } = p ( x ; θ ) , θ ∈ Θ P\{X=x\}=p(x;\theta),\theta \in \Theta P{X=x}=p(x;θ),θΘ的形式为已知, θ \theta θ为待估参数, Θ \Theta Θ θ \theta θ可能取值的范围。设 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots,X_{n} X1,X2,,Xn为来自 X X X的样本, x 1 , x 2 , ⋯   , x n x_{1},x_{2},\cdots,x_{n} x1,x2,,xn为对应的样本值,它们都是已知的常数。易知样本 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots,X_{n} X1,X2,,Xn取到 x 1 , x 2 , ⋯   , x n x_{1},x_{2},\cdots,x_{n} x1,x2,,xn的概率,即事件 { X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n } \{X_{1}=x_{1},X_{2}=x_{2},\cdots,X_{n}=x_{n}\} {X1=x1,X2=x2,,Xn=xn}发生的概率为:
L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) , θ ∈ Θ L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}p(x_{i};\theta),\theta \in \Theta L(θ)=L(x1,x2,,xn;θ)=i=1np(xi;θ),θΘ
概率值随 θ \theta θ的取值而变化,是 θ \theta θ的函数, L ( θ ) L(\theta) L(θ)称为样本的似然函数。
现在我们已经取到了样本值 x 1 , x 2 , ⋯   , x n x_{1},x_{2},\cdots,x_{n} x1,x2,,xn,表明取到这一样本值的概率 L ( θ ) L(\theta) L(θ)比较大。当 θ = θ 0 ∈ Θ \theta=\theta_{0} \in \Theta θ=θ0Θ L ( θ ) L(\theta) L(θ)取得最大值,而 Θ \Theta Θ中的其他值使得 L ( θ ) L(\theta) L(θ)取得较小的值,所以认为取 θ 0 \theta_{0} θ0为未知参数 θ \theta θ的估计值最为合理,这就是最大似然估计,即:
L ( x 1 , x 2 , ⋯   , x n ; θ ^ ) = max ⁡ θ ∈ Θ L ( x 1 , x 2 , ⋯   , x n ; θ ) L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta) L(x1,x2,,xn;θ^)=θΘmaxL(x1,x2,,xn;θ)
这样的得到的 θ ^ \hat{\theta} θ^与样本值 x 1 , x 2 , ⋯   , x n x_{1},x_{2},\cdots,x_{n} x1,x2,,xn有关,常被记为 θ ^ ( x 1 , x 2 , ⋯   , x n ) \hat{\theta}(x_{1},x_{2},\cdots,x_{n}) θ^(x1,x2,,xn),称为参数 θ \theta θ的最大似然估计值,统计量 θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}(X_{1},X_{2},\cdots,X_{n}) θ^(X1,X2,,Xn)称为参数 θ \theta θ的最大似然估计量。

连续型

设总体 X X X属于连续型,概率密度 f ( x ; θ ) , θ ∈ Θ f(x;\theta),\theta \in \Theta f(x;θ),θΘ的形式为已知, θ \theta θ为待估参数, Θ \Theta Θ θ \theta θ可能取值的范围。设 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots,X_{n} X1,X2,,Xn为来自 X X X的样本, x 1 , x 2 , ⋯   , x n x_{1},x_{2},\cdots,x_{n} x1,x2,,xn为对应的样本值,它们都是已知的常数。易知样本 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots,X_{n} X1,X2,,Xn取到 x 1 , x 2 , ⋯   , x n x_{1},x_{2},\cdots,x_{n} x1,x2,,xn的概率,即为随机点 ( X 1 , X 2 , ⋯   , X n ) (X_{1},X_{2},\cdots,X_{n}) (X1,X2,,Xn)落在点 ( x 1 , x 2 , ⋯   , x n ) (x_{1},x_{2},\cdots,x_{n}) (x1,x2,,xn)的邻域(边长分别为 d x 1 , d x 2 , ⋯   , d x n dx_{1},dx_{2},\cdots,dx_{n} dx1,dx2,,dxn n n n维立方体)内的概率近似为:
∏ i = 1 n f ( x i ; θ ) d x i \prod_{i=1}^{n}f(x_{i};\theta)dx_{i} i=1nf(xi;θ)dxi
其值随 θ \theta θ的变化而变化,取 θ \theta θ的估计值 θ ^ \hat{\theta} θ^使得概率取得最大值,但因子 ∏ i = 1 n d x i \prod_{i=1}^{n}dx_{i} i=1ndxi θ \theta θ无关,故只需要考虑函数:
L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}f(x_{i};\theta) L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)
的最大值, L ( θ ) L(\theta) L(θ)称为样本的似然函数,若 L ( x 1 , x 2 , ⋯   , x n ; θ ^ ) = max ⁡ θ ∈ Θ L ( x 1 , x 2 , ⋯   , x n ; θ ) L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta) L(x1,x2,,xn;θ^)=θΘmaxL(x1,x2,,xn;θ)
θ ^ ( x 1 , x 2 , ⋯   , x n ) \hat{\theta}(x_{1},x_{2},\cdots,x_{n}) θ^(x1,x2,,xn),称为参数 θ \theta θ的最大似然估计值,统计量 θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}(X_{1},X_{2},\cdots,X_{n}) θ^(X1,X2,,Xn)称为参数 θ \theta θ的最大似然估计量。

对数似然方程

似然函数中的连乘操作容易造成下溢,取对数之后可以变为相加的形式: log ⁡ L ( θ ) = ∑ i = 1 n f ( x i ; θ ) \log L(\theta)=\sum_{i=1}^{n}f(x_{i};\theta) logL(θ)=i=1nf(xi;θ)
确定最大似然估计量的问题归结为求 L ( θ ) L(\theta) L(θ)的最大值问题。很多情况下, p ( x ; θ ) p(x;\theta) p(x;θ) f ( x ; θ ) f(x;\theta) f(x;θ)关于 θ \theta θ可微,这时 θ ^ \hat{\theta} θ^可从方程: d L ( θ ) d θ = 0 \frac{\mathrm{d} L(\theta)}{\mathrm{d} \theta}=0 dθdL(θ)=0解得。又因为 L ( θ ) L(\theta) L(θ) ln ⁡ L ( θ ) \ln L(\theta) lnL(θ)在同一 θ \theta θ处取得极值,因此 θ \theta θ的最大似然估计 θ \theta θ也可以从方程 d ln ⁡ L ( θ ) d θ = 0 \frac{ \mathrm{d} \ln L(\theta)}{\mathrm{d} \theta}=0 dθdlnL(θ)=0求的,而使用对数方程求解比较方便,称为对数似然方程。

#无偏估计量
对于待估参数,不同的样本值就会得到不同的估计值。要确定一个估计量的好坏,就不能仅仅依据某次抽样的结果来衡量,而必须由大量抽样的结果来衡量。对此,一个自然而基本的衡量标准是要求估计量无系统偏差。也就是说,尽管在一次抽样中得到的估计值不一定恰好等于待估参数的真值,但在大量重复抽样时,所得到的估计值平均起来应与待估参数的真值相同,换句话说,估计量的均值(数学期望)应等于未知参数的真值。若估计量 θ ^ = θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}=\hat{\theta}(X_{1},X_{2},\cdots,X_{n}) θ^=θ^(X1,X2,,Xn)的数学期望 E ( θ ^ ) E(\hat{\theta}) E(θ^)存在,则有 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ
无偏估计的实际意义为无系统偏差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值