UA MATH564 概率论IV 次序统计量

次序统计量的分布

次序统计量的作用是比较大的,经常可以作为某些分布的充分统计量,统计量的含义以及次序统计量的重要性可以参考统计理论那个系列。假设样本为{X1,X2,,Xn}\{X_1,X_2,\cdots,X_n\},总体分布为F(X)F(X),概率密度为f(x)f(x)。将这组样本按从小到大的顺序排列,并记为{X(1),X(2),,X(n)}\{X_{(1)},X_{(2)},\cdots,X_{(n)}\},则这种统计量叫做样本的次序统计量。

定理1(单个次序统计量的分布)
FX(j)=k=jnCnk[F(x)]k[1F(x)]nkF_{X_{(j)}} = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}
证明
先描述一个比较直观的推导:要计算X(j)X_{(j)}的分布就是要想办法估计P(X(j)x)P(X_{(j)} \le x),显然X(1)X_{(1)}X(j1)X_{(j-1)}也要小于xx。这意味着在原来的nn个样本{X1,X2,,Xn}\{X_1,X_2,\cdots,X_n\}中,至少有jj个比xx小。简单随机样本独立同分布,因此比xx小的样本数目服从二项分布binom(n,F(x))binom(n,F(x))。如果有kjk\ge j个比xx小,那么概率就是Cnk[F(x)]k[1F(x)]nkC_n^k [F(x)]^k[1-F(x)]^{n-k},对所有可能的kk求和就可以得到P(X(j)x)P(X_{(j)} \le x)
下面给出正式证明:
定义Yj=I(,x](Xj)Y_j = I_{(-\infty,x]}(X_j),记
p=P(Yj=1)=P(Xjx)=F(x)p = P(Y_j=1)=P(X_j \le x) = F(x)
从而YjBer(F(x))Y_j \sim Ber(F(x))。定义Sn=j=1nYjS_n = \sum_{j=1}^n Y_j,根据Bernoulli分布的可加性,SnBinom(n,F(x))S_n \sim Binom(n,F(x))。从而
FX(j)=P(X(j)x)=P(Snj)=k=jnCnk[F(x)]k[1F(x)]nkF_{X_{(j)}} = P(X_{(j)} \le x) = P(S_n \ge j) \\ = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}

定理2(单个次序统计量的概率密度)
fX(j)(x)=jCnj[F(x)]j1[1F(x)]njf(x)f_{X_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x)
证明
这个其实可以直接硬算,但这里给一个比较直观的推导:考虑
fX(j)(x)Δx=P(xX(j)<x+Δx)f_{X_{(j)}}(x) \Delta x = P(x \le X_{(j)}<x+\Delta x)
这个概率可以分成三部分来求:

  1. 有一个样本在[x,x+Δx)[x,x+\Delta x)中;
  2. j1j-1个样本在(,x)(\infty,x)中;
  3. njn-j个样本在[x+Δx,+)[x+\Delta x,+\infty)中;

第一条对应的概率为Cn1f(x)ΔxC_n^1f(x) \Delta x;第二条对应的概率为Cn1j1[F(x)]j1C_{n-1}^{j-1}[F(x)]^{j-1};第三条对应的概率为[1F(x)]nj[1-F(x)]^{n-j}。因此
fX(j)(x)Δx=[Cn1f(x)Δx][Cn1j1[F(x)]j1][[1F(x)]nj]=jCnj[F(x)]j1[1F(x)]njf(x)Δxf_{X_{(j)}}(x) \Delta x = [C_n^1f(x) \Delta x][C_{n-1}^{j-1}[F(x)]^{j-1}][[1-F(x)]^{n-j}] \\ =jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \Delta x
这里只用了一个nCn1j1=jCnjnC_{n-1}^{j-1} = jC_n^j的关系。

定理3(两个次序统计量的联合概率密度)不妨假设j>ij>i,则
fX(i),X(j)(xi,xj)=(n)2Cn2i1Cni3ji1[F(xi)]i1[F(xj)F(xi)]ji1[1F(xj)]njf_{X_{(i)},X_{(j)}}(x_i,x_j)=(n)_2C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}
证明
用上面那个定理那种比较直观的推导办法。
fX(i),X(j)(xi,xj)(Δx)2=P(xiX(i)<xi+Δx,xjX(j)<xj+Δx)f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2 = P(x_i \le X_{(i)} < x_i + \Delta x, x_j\le X_{(j)} < x_j + \Delta x)
将这个概率分成四部分计算:

  1. 有两个样本,一个在[xi,xi+Δx)[x_i,x_i+\Delta x)中,另一个在[xj,xj+Δx)[x_j,x_j+\Delta x)中;
  2. i1i-1个样本在(,xi)(\infty,x_i)中;
  3. ji1j-i-1个样本在[xi+Δx,xj][x_i+\Delta x,x_j]中;
  4. njn-j个样本在[xj+Δx,+)[x_j+\Delta x,+\infty)中;

第一条对应的概率是(n)2f(xi)Δf(xj)Δx(n)_2f(x_i)\Delta f(x_j)\Delta x;第二条对应的概率是Cn2i1[F(xi)]i1C_{n-2}^{i-1}[F(x_i)]^{i-1};第三条对应的概率是Cni3ji1[F(xj)F(xi)]ji1C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1};第四条对应的概率是[1F(xj)]nj[1-F(x_j)]^{n-j}。因此
fX(i),X(j)(xi,xj)(Δx)2=[(n)2f(xi)Δf(xj)Δx][Cn2i1[F(xi)]i1][Cni3ji1[F(xj)F(xi)]ji1][[1F(xj)]nj]f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2=[(n)_2f(x_i)\Delta f(x_j)\Delta x][C_{n-2}^{i-1}[F(x_i)]^{i-1}][C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}][[1-F(x_j)]^{n-j}]

例子

例1:均匀分布的次序统计量

假设{U1,,Un}\{U_1,\cdots,U_n\}是一组[0,1][0,1]上的均匀分布的简单随机样本,则
F(x)=x,f(x)=1F(x)=x,f(x) = 1
根据定理2:
fU(j)(x)=jCnj[F(x)]j1[1F(x)]njf(x)=n!(j1)!(nj)!xj1(1x)nj=Γ(n+1)Γ(j)Γ(nj+1)xj1(1x)njf_{U_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \\ = \frac{n!}{(j-1)!(n-j)!}x^{j-1}(1-x)^{n-j} \\ = \frac{\Gamma(n+1)}{\Gamma{(j)}\Gamma(n-j+1)}x^{j-1}(1-x)^{n-j}
因此U(j)Beta(j,nj+1)U_{(j)} \sim Beta(j,n-j+1)。即均匀分布U[0,1]U[0,1]的次序统计量会服从beta分布。根据定理3:
fU(i),U(j)(xi,xj)=(n)2Cn2i1Cni3ji1[F(xi)]i1[F(xj)F(xi)]ji1[1F(xj)]nj=n!(i1)!(ji1)!(nj)!xii1(xjxi)ji1(1xj)nj=Γ(n+1)Γ(i)Γ(ji)Γ(nj+1)xii1(xjxi)ji1(1xi(xjxi))njf_{U_{(i)},U_{(j)}}(x_i,x_j)=(n)_2C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j} \\ = \frac{n!}{(i-1)!(j-i-1)!(n-j)!}x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_j)^{n-j} \\ =\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_i - (x_j-x_i))^{n-j}
ui=xi,uj=xjxiu_i=x_i,u_j=x_j-x_i
fU(i),U(j)(ui,uj)=Γ(n+1)Γ(i)Γ(ji)Γ(nj+1)uii1ujji1(1uiuj)njf_{U_{(i)},U_{(j)}}(u_i,u_j)=\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} u_i^{i-1}u_j^{j-i-1}(1-u_i-u_j)^{n-j}
这个是二元的beta分布,可以记为beta(i,ji,nj+1)beta(i,j-i,n-j+1)

例2:Dirichlet分布

在上面的例子中,提到一个多元beta分布的东西,但它一般被称为Dirichlet分布,其一般形式为
f(xα)=Γ(i=1nαi)i=1nΓ(αi)i=1nxiαi1f(x|\alpha) = \frac{\Gamma(\sum_{i=1}^n \alpha_i)}{\prod_{i=1}^n \Gamma(\alpha_i)} \prod_{i=1}^n x_i^{\alpha_i-1}
这个分布定义在n1n-1维(因为是n1n-1维的线性流形)的单纯形Δn1={x:i=1nxi=1,xi0}\Delta^{n-1}=\{x:\sum_{i=1}^n x_i=1,x_i \ge 0\}上,分布可以记为Dir(α1,,αn)Dir(\alpha_1,\cdots,\alpha_n)。关于Dirichlet分布有几个有趣的性质:

  1. αi=1,i\alpha_i=1,\forall i,Dirichlet分布退化为单纯形Δn\Delta^n上的均匀分布;
  2. (X1,,Xi+Xi+1,,Xn)Dir(α1,,αi+αi+1,,αn)(X_1,\cdots,X_i+X_{i+1},\cdots,X_n)\sim Dir(\alpha_1,\cdots,\alpha_i+\alpha_{i+1},\cdots,\alpha_n)
  3. Xibeta(αi,j=1nαjαi)X_i \sim beta(\alpha_i,\sum_{j=1}^n \alpha_j - \alpha_i)
  4. {U1,,Un}\{U_1,\cdots,U_n\}mm个次序统计量(序号为i1,,imi_{1},\cdots,i_{m})的联合分布为Dir(i1,i2i2,,nim+1)Dir(i_1,i_2-i_2,\cdots,n-i_m+1)
发布了61 篇原创文章 · 获赞 0 · 访问量 1540
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览