常用的统计量及其对应的抽样分布（python）

最新推荐文章于 2024-04-14 23:01:55 发布

yesterday_day

最新推荐文章于 2024-04-14 23:01:55 发布

阅读量1.3k

点赞数 2

文章标签：大数据

本文链接：https://blog.csdn.net/yesterday_day/article/details/125474188

版权

1.样本均值

设 x1,x2,⋯,xn为取自某总体的样本，其算术平均值称为样本均值，一般用 $\bar{x}$ 表示，即

$\bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n} \sum_{i=1}^{n} x_{i}$

如果把样本中的数据与样本均值的差称为偏差，则样本所有偏差之和为 0，即 $\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)=0$

# 从总体/总体的分布中抽取样本并计算样本均值和计算偏差
## （1）从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean)  # 计算偏差和
print("样本均值为：",x_mean)
print("偏差和为：",x_bias)

样本均值为： 12.4

偏差和为： -3.552713678800501e-15

## （2）从总体分布中抽取样本，假设总体分布为N（0，1）
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean)  # 计算偏差和
print("样本均值为：",x_mean)
print("偏差和为：",x_bias)

样本均值为： 0.08248736142784831

偏差和为： 1.1102230246251565e-16

统计量——样本均值的分布，即样本均值的抽样分布当n越来越大时近似服从正态分布，具体来说：

设 x1,x2,⋯,xn 是来自某个总体的样本， $\bar{x}$ 为样本均值。

（1）若总体分布为 N(μ, $\sigma^2$ )，则 $\bar{x}$ 的精确分布为 N(μ, $\sigma ^2/n$ );

（2）若总体分布末知或不是正态分布， E(x)=μ,Var(x)= $\sigma ^2$ 存在，则 n 较大时 $\bar{x}$ 的渐近分布为 N(μ, $\sigma ^2/n$ )。这里渐近分布是指 n 较大时的近似分布。

2.样本方差与样本标准差

设 x1,x2,⋯,xnx1,x2,⋯,xn 为取自某总体的样本，则它关于样本均值 ¯xx¯ 的平均偏差平方和 $s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$

称为样本方差

样本标准差就是样本方差的算术平方根，即 $s_{n}=\sqrt{s_{n}^{2}}$

在实际的应用中，我们往往不会直接使用样本方差，更倾向于使用样本标准差，因为样本方差的量纲（单位）与样本均值不一致，无法与样本均值进行加减运算。

当样本量较大时， $s_n^2$ 与 $s^2$ 相差不大，可以随意使用，当样本量较小时，计算样本方差最好使用无偏样本方差 $s^2$ 。 (无偏方差： $s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$ )

# 从总体/总体的分布中抽取样本并计算样本方差与样本标准差
## （1）从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为：",x_sn2)
print("样本方差s^2为：",x_s2)
print("样本标准差sn^2为：",x_sn)
print("样本标准差s^2为：",x_s)

样本方差sn^2为： 26.639999999999997
样本方差s^2为： 29.599999999999998
样本标准差sn^2为： 5.161395160225576
样本标准差s^2为： 5.440588203494177

## （2）从总体分布中抽取样本，假设总体分布为N（0，1）
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为：",x_sn2)
print("样本方差s^2为：",x_s2)
print("样本标准差sn^2为：",x_sn)
print("样本标准差s^2为：",x_s)

样本方差sn^2为： 0.7414712184611654
样本方差s^2为： 0.8238569094012949
样本标准差sn^2为： 0.8610872304599374
样本标准差s^2为： 0.9076656374465736设总体为 XX 方差存在，

设总体为 X 方差存在，即 E(X)=μ,Var(X)= $\sigma ^2$ <∞,x1,x2,⋯,xn 为从该总体得到的样本， $\bar{x}$ 和 $s^2$ 分别是样本均值和样本方差, 则

$\begin{gathered} E(\bar{x})=\mu, \quad \operatorname{Var}(\bar{x})=\sigma^{2} / n, \\ E\left(s^{2}\right)=\sigma^{2} . \end{gathered}$

此定理表明， 样本均值的期望与总体均值相同，而样本均值的方差是总体方差的 1/n。

3.样本分位数与样本中位数及其抽样分布

样本中位数：

$m_{0.5}= \begin{cases}x\left(\frac{n+1}{2}\right), & n {%2 \neq 0, } \\ \left.\frac{1}{2}\left(\frac{x}{2}\right)+x\left(\frac{n}{2}+1\right)\right), & n \text {%2 = 0. }\end{cases}$

# 从总体/总体的分布中抽取样本并计算样本样本中位数
## （1）从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为：",x_mid)

样本中位数为： 9.5

## （2）从总体分布中抽取样本，假设总体分布为N（0，1）
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为：",x_mid)

样本中位数为： 0.7193841543276442

样本p分位数

$m_{p}= \begin{cases}x_{([n p+1])}, &{(1)}\\ \frac{1}{2}\left(x_{(n p)}+x_{(n p+1)}\right), &{(2)}\end{cases}$

(1)若np不是整数 (2) 若np是整数

先将抽样的n个样本按从小到大排序，样本p分位数就是排在第n×p位的样品值，当然有可能n×p不是整数，按上述公式处理。

# 从总体/总体的分布中抽取样本并计算样本样本中位数
## （1）从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_low = np.percentile(x_i,25) # 计算样本下四分位数
x_high = np.percentile(x_i,75) # 计算样本上四分位数
print("样本下四分位数为：",x_low)
print("样本上四分位数为：",x_high)

样本下四分位数为： 7.25
样本上四分位数为： 14.75

设总体密度函数为 p(x),xp 为其 p 分位数， p(x)在 xp 处连续且 p(xp)> 0 ，则当 n→∞ 时样本 p 分位数 mp的渐近分布为

$N\left(x_{p}, \frac{p(1-p)}{n \cdot p^{2}\left(x_{p}\right)}\right)$

特别地, 对于样本中位数来说, 当 n→∞时有

$N\left(x_{0.5}, \frac{1}{4 n \cdot p^{2}\left(x_{0.5}\right)}\right)$

yesterday_day

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
常用的统计量及其对应的抽样分布（python）

数理统计
复制链接

扫一扫