概率论小结6

最新推荐文章于 2024-01-08 01:29:27 发布

ysl_ysl123

最新推荐文章于 2024-01-08 01:29:27 发布

阅读量662

点赞数

分类专栏：概率论与数理统计

本文链接：https://blog.csdn.net/ysl_ysl123/article/details/93378110

版权

本文详细介绍了概率论中的样本和抽样分布概念，包括随机样本的定义、箱线图的绘制与解读，以及抽样分布中的统计量如样本平均值、方差等，并探讨了正态总体的χ2、t、F分布及其在样本均值与方差中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

样本及抽样分布

一、随机样本

定义： 设X是具有分布函数F的随机变量，若X₁, X₂, …, X_n 是具有同一分布函数F的、相互独立的随机变量，则称X₁, X₂, …, X_n 为从分布函数F（或总体F、或总体X）得到的容量为n的简单随机样本，简称样本，它们的观察值x₁, x₂, …, x_n 称为样本值，又称为X的n个独立的观察值。

试验全部可能的观察值称为总体。一个总体对应于一个随机变量X。每一个可能的观察值称为个体。总体中所包含的个体的个数称为总体的容量。

二、箱线图

分位数： 设有容量为n的样本观察值x₁, x₂, …, x_n 样本p分位数(0<p<1)记为x_p，它具有以下的性质：(1)至少有np个观察值小于或等于x_p；(2)至少有n(1-p)个观察值大于或等于x_p。
$x_p=\begin{cases} x_{([np]+1)}, 当np不是整数\\\\ \dfrac{1}{2}[x_{(np)}+x_{(np+1)}], 当np是整数 \end{cases}$

0.25分位数x_0.25称为第一四分位数，又记为Q₁；0.5分位数x_0.5称为样本中位数，又记为Q₂或M；0.75分位数x_0.75称为第三四分位数，又记为Q₃；

箱线图：
箱线图如下所示
在这里插入图片描述
从箱线图可以看出：
1.中心位置：中位数所在位置就是数据集的中心。
2.散布程度：全部数据都落在[Min,Max]之内，在区间[Min,Q₁]，[Q₁,M]，[M,Q₃]，[Q₃,Max]的数据个数各约占1/4. 区间较短时，表示落在该区间的点较集中，反之较为分散。
3.关于对称性：若中位数位于箱子的中间位置，则数据分布较为对称。又若Min离M的距离较Max离M的距离大，则表示数据分布向左倾斜，反之表示数据向右倾斜，且能看出分布尾部的长短。

疑似异常值： 在数据集中某一观察值不寻常地大于或小于该数据集中的其他数据，称为疑似异常值。
Q₁与Q₃之间的距离Q₃-Q₁ $\xlongequal{记为}$ IQR，称为四分位数间距。若数据小于Q₁-1.5IQR或大于Q₃+1.5IQR，就认为它是疑似异常值。

修正箱线图： 画出疑似异常值并以 $*$ 表示。自箱子左侧引一水平线段直至数据集中除去疑似异常值后的最小值，又自箱子右侧引一水平线直至数据集中除去疑似异常值后的最大值。
在这里插入图片描述

三、抽样分布

统计量： 设X₁, X₂, …, X_n 是来自总体X的一个样本，g(X₁, X₂, …, X_n )是X₁, X₂, …, X_n 的函数，若g中不含未知参数，则称g(X₁, X₂, …, X_n )是一个统计量。
几个常用的统计量：
样本平均值： $\overline{X}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$
样本方差： $S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i^2-n\overline{X}^2)$
样本标准差： $S=\sqrt{\smash[b]{S^2}}=\sqrt{\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}$
样本k阶（原点）距： $A_k=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i^k$ , k=1,2,…
样本k阶中心距： $B_k=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^k$ , k=2,3,…

经验分布函数：设X₁, X₂, …, X_n 是来自总体分布函数F(x)的一个样本，用S(x)， $-\infty<x<\infty$ 表示X₁, X₂, …, X_n 中不大于x的随机变量的个数。定义经验分布函数F_n(x)为
$F_n(x)=\dfrac{1}{n}S(x), -\infty<x<\infty.$
经验分布函数F_n(x)的观察值为
$F_n(x)=\begin{cases} 0, 若x<x_{(1)},\\\\ \dfrac{k}{n}, 若x_{(k)}\leqslant x<x_{(k+1)}, k=1,2,...,n-1,\\\\ 1, 若x\geqslant x_{(n)}. \end{cases}$

最低0.47元/天解锁文章