常用的统计量及其对应的抽样分布(python)

1.样本均值

设 x1,x2,⋯,xn为取自某总体的样本, 其算术平均值称为样本均值,一 般用\bar{x}表示,即 

\bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n} \sum_{i=1}^{n} x_{i}

如果把样本中的数据与样本均值的差称为偏差, 则样本所有偏差之和为 0, 即\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)=0 

# 从总体/总体的分布中抽取样本并计算样本均值和计算偏差
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean)  # 计算偏差和
print("样本均值为:",x_mean)
print("偏差和为:",x_bias)

 样本均值为: 12.4

 偏差和为: -3.552713678800501e-15

## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean)  # 计算偏差和
print("样本均值为:",x_mean)
print("偏差和为:",x_bias)

 样本均值为: 0.08248736142784831

 偏差和为: 1.1102230246251565e-16

统计量——样本均值的分布,即样本均值的抽样分布当n越来越大时近似服从正态分布,具体来说:

设 x1,x2,⋯,xn 是来自某个总体的样本, \bar{x} 为样本均值。

(1)若总体分布为 N(μ,\sigma^2), 则 \bar{x}的精确分布为 N(μ,\sigma ^2/n);

(2) 若总体分布末知或不是正态分布, E(x)=μ,Var(x)=\sigma ^2存在, 则 n 较大时 \bar{x} 的渐近分布为 N(μ,\sigma ^2/n)。 这里渐近分布是指 n 较大时的近似分布。

2.样本方差与样本标准差 

设 x1,x2,⋯,xnx1,x2,⋯,xn 为取自某总体的样本,则它关于样本均值 ¯xx¯ 的平均偏差平方和s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} 

称为样本方差

样本标准差就是样本方差的算术平方根,即s_{n}=\sqrt{s_{n}^{2}} 

在实际的应用中,我们往往不会直接使用样本方差,更倾向于使用样本标准差,因为样本方差的量纲(单位)与样本均值不一致,无法与样本均值进行加减运算。 

当样本量较大时,s_n^2s^2相差不大,可以随意使用,当样本量较小时,计算样本方差最好使用无偏样本方差s^2。 (无偏方差:s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2})

# 从总体/总体的分布中抽取样本并计算样本方差与样本标准差
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为:",x_sn2)
print("样本方差s^2为:",x_s2)
print("样本标准差sn^2为:",x_sn)
print("样本标准差s^2为:",x_s)
样本方差sn^2为: 26.639999999999997
样本方差s^2为: 29.599999999999998
样本标准差sn^2为: 5.161395160225576
样本标准差s^2为: 5.440588203494177
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为:",x_sn2)
print("样本方差s^2为:",x_s2)
print("样本标准差sn^2为:",x_sn)
print("样本标准差s^2为:",x_s)

 

样本方差sn^2为: 0.7414712184611654
样本方差s^2为: 0.8238569094012949
样本标准差sn^2为: 0.8610872304599374
样本标准差s^2为: 0.9076656374465736设总体为 XX 方差存在, 

设总体为 X 方差存在, 即 E(X)=μ,Var(X)=\sigma ^2<∞,x1,x2,⋯,xn 为 从该总体得到的样本, \bar{x}s^2 分别是样本均值和样本方差, 则 

\begin{gathered} E(\bar{x})=\mu, \quad \operatorname{Var}(\bar{x})=\sigma^{2} / n, \\ E\left(s^{2}\right)=\sigma^{2} . \end{gathered} 

此定理表明, 样本均值的期望与总体均值相同, 而样本均值的方差是总体方差的 1/n。 

 3.样本分位数与样本中位数及其抽样分布

样本中位数 :

m_{0.5}= \begin{cases}x\left(\frac{n+1}{2}\right), & n {%2 \neq 0, } \\ \left.\frac{1}{2}\left(\frac{x}{2}\right)+x\left(\frac{n}{2}+1\right)\right), & n \text {%2 = 0. }\end{cases}

# 从总体/总体的分布中抽取样本并计算样本样本中位数
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为:",x_mid)
样本中位数为: 9.5
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10)  # 从总体分布N(0,1)中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为:",x_mid)
样本中位数为: 0.7193841543276442

样本p分位数 

m_{p}= \begin{cases}x_{([n p+1])}, &{(1)}\\ \frac{1}{2}\left(x_{(n p)}+x_{(n p+1)}\right), &{(2)}\end{cases} 

(1)若np不是整数          (2) 若np是整数

先将抽样的n个样本按从小到大排序,样本p分位数就是排在第n×p位的样品值,当然有可能n×p不是整数,按上述公式处理。 

# 从总体/总体的分布中抽取样本并计算样本样本中位数
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])   # 假设总体为X
x_i = np.random.choice(X, 10, replace=False)  # 从总体X中抽取10个样本
x_low = np.percentile(x_i,25) # 计算样本下四分位数
x_high = np.percentile(x_i,75) # 计算样本上四分位数
print("样本下四分位数为:",x_low)
print("样本上四分位数为:",x_high)
样本下四分位数为: 7.25
样本上四分位数为: 14.75

设总体密度函数为 p(x),xp 为其 p 分位数, p(x)在 xp 处连续且 p(xp)> 0 , 则当 n→∞ 时样本 p 分位数 mp的渐近分布为 

N\left(x_{p}, \frac{p(1-p)}{n \cdot p^{2}\left(x_{p}\right)}\right) 

特别地, 对于样本中位数来说, 当 n→∞时有 

N\left(x_{0.5}, \frac{1}{4 n \cdot p^{2}\left(x_{0.5}\right)}\right) 

 

 

 

 

 

 

 

 

 

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值