样本及抽样分布
一、随机样本
定义: 设X是具有分布函数F的随机变量,若X1, X2, …, Xn 是具有同一分布函数F的、相互独立的随机变量,则称X1, X2, …, Xn 为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本,它们的观察值x1, x2, …, xn 称为样本值,又称为X的n个独立的观察值。
试验全部可能的观察值称为总体。一个总体对应于一个随机变量X。每一个可能的观察值称为个体。总体中所包含的个体的个数称为总体的容量。
二、箱线图
分位数: 设有容量为n的样本观察值x1, x2, …, xn 样本p分位数(0<p<1)记为xp,它具有以下的性质:(1)至少有np个观察值小于或等于xp;(2)至少有n(1-p)个观察值大于或等于xp。
x p = { x ( [ n p ] + 1 ) , 当 n p 不 是 整 数 1 2 [ x ( n p ) + x ( n p + 1 ) ] , 当 n p 是 整 数 x_p=\begin{cases} x_{([np]+1)}, 当np不是整数\\\\ \dfrac{1}{2}[x_{(np)}+x_{(np+1)}], 当np是整数 \end{cases} xp=⎩⎪⎪⎨⎪⎪⎧x([np]+1),当np不是整数21[x(np)+x(np+1)],当np是整数
0.25分位数x0.25称为第一四分位数,又记为Q1;0.5分位数x0.5称为样本中位数,又记为Q2或M;0.75分位数x0.75称为第三四分位数,又记为Q3;
箱线图:
箱线图如下所示
从箱线图可以看出:
1.中心位置:中位数所在位置就是数据集的中心。
2.散布程度:全部数据都落在[Min,Max]之内,在区间[Min,Q1],[Q1,M],[M,Q3],[Q3,Max]的数据个数各约占1/4. 区间较短时,表示落在该区间的点较集中,反之较为分散。
3.关于对称性:若中位数位于箱子的中间位置,则数据分布较为对称。又若Min离M的距离较Max离M的距离大,则表示数据分布向左倾斜,反之表示数据向右倾斜,且能看出分布尾部的长短。
疑似异常值: 在数据集中某一观察值不寻常地大于或小于该数据集中的其他数据,称为疑似异常值。
Q1与Q3之间的距离Q3-Q1 = 记 为 \xlongequal{记为} 记为IQR,称为四分位数间距。若数据小于Q1-1.5IQR或大于Q3+1.5IQR,就认为它是疑似异常值。
修正箱线图: 画出疑似异常值并以 ∗ * ∗表示。自箱子左侧引一水平线段直至数据集中除去疑似异常值后的最小值,又自箱子右侧引一水平线直至数据集中除去疑似异常值后的最大值。
三、抽样分布
统计量: 设X1, X2, …, Xn 是来自总体X的一个样本,g(X1, X2, …, Xn )是X1, X2, …, Xn 的函数,若g中不含未知参数,则称g(X1, X2, …, Xn )是一个统计量。
几个常用的统计量:
样本平均值: X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i X=n1i=1∑nXi
样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n − 1 ∑ i = 1 n ( X i 2 − n X ‾ 2 ) S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i^2-n\overline{X}^2) S2=n−11i=1∑n(Xi−X)2=n−11i=1∑n(Xi2−nX2)
样本标准差: S = S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S=\sqrt{\smash[b]{S^2}}=\sqrt{\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2} S=S2=n−11i=1∑n(Xi−X)2
样本k阶(原点)距: A k = 1 n ∑ i = 1 n X i k A_k=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i^k Ak=n1i=1∑nXik, k=1,2,…
样本k阶中心距: B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k B_k=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^k Bk=n1i=1∑n(Xi−X)k, k=2,3,…
经验分布函数:设X1, X2, …, Xn 是来自总体分布函数F(x)的一个样本,用S(x), − ∞ < x < ∞ -\infty<x<\infty −∞<x<∞表示X1, X2, …, Xn 中不大于x的随机变量的个数。定义经验分布函数Fn(x)为
F n ( x ) = 1 n S ( x ) , − ∞ < x < ∞ . F_n(x)=\dfrac{1}{n}S(x), -\infty<x<\infty. Fn(x)=n1S(x),−∞<x<∞.
经验分布函数Fn(x)的观察值为
F n ( x ) = { 0 , 若 x < x ( 1 ) , k n , 若 x ( k ) ⩽ x < x ( k + 1 ) , k = 1 , 2 , . . . , n − 1 , 1 , 若 x ⩾ x ( n ) . F_n(x)=\begin{cases} 0, 若x<x_{(1)},\\\\ \dfrac{k}{n}, 若x_{(k)}\leqslant x<x_{(k+1)}, k=1,2,...,n-1,\\\\ 1, 若x\geqslant x_{(n)}. \end{cases} Fn(x)=⎩⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎧0,若x<x(1),nk,若x(k)⩽x<x(k+1),k=1,2,...,n−1,1,若x⩾x