1.样本均值
设 x1,x2,⋯,xn为取自某总体的样本, 其算术平均值称为样本均值,一 般用表示,即
如果把样本中的数据与样本均值的差称为偏差, 则样本所有偏差之和为 0, 即
# 从总体/总体的分布中抽取样本并计算样本均值和计算偏差
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean) # 计算偏差和
print("样本均值为:",x_mean)
print("偏差和为:",x_bias)
样本均值为: 12.4
偏差和为: -3.552713678800501e-15
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10) # 从总体分布N(0,1)中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean) # 计算偏差和
print("样本均值为:",x_mean)
print("偏差和为:",x_bias)
样本均值为: 0.08248736142784831
偏差和为: 1.1102230246251565e-16
统计量——样本均值的分布,即样本均值的抽样分布当n越来越大时近似服从正态分布,具体来说:
设 x1,x2,⋯,xn 是来自某个总体的样本, 为样本均值。
(1)若总体分布为 N(μ,), 则 的精确分布为 N(μ,);
(2) 若总体分布末知或不是正态分布, E(x)=μ,Var(x)=存在, 则 n 较大时 的渐近分布为 N(μ,)。 这里渐近分布是指 n 较大时的近似分布。
2.样本方差与样本标准差
设 x1,x2,⋯,xnx1,x2,⋯,xn 为取自某总体的样本,则它关于样本均值 ¯xx¯ 的平均偏差平方和
称为样本方差
样本标准差就是样本方差的算术平方根,即
在实际的应用中,我们往往不会直接使用样本方差,更倾向于使用样本标准差,因为样本方差的量纲(单位)与样本均值不一致,无法与样本均值进行加减运算。
当样本量较大时,与相差不大,可以随意使用,当样本量较小时,计算样本方差最好使用无偏样本方差。 (无偏方差:)
# 从总体/总体的分布中抽取样本并计算样本方差与样本标准差
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为:",x_sn2)
print("样本方差s^2为:",x_s2)
print("样本标准差sn^2为:",x_sn)
print("样本标准差s^2为:",x_s)
样本方差sn^2为: 26.639999999999997 样本方差s^2为: 29.599999999999998 样本标准差sn^2为: 5.161395160225576 样本标准差s^2为: 5.440588203494177
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10) # 从总体分布N(0,1)中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为:",x_sn2)
print("样本方差s^2为:",x_s2)
print("样本标准差sn^2为:",x_sn)
print("样本标准差s^2为:",x_s)
样本方差sn^2为: 0.7414712184611654 样本方差s^2为: 0.8238569094012949 样本标准差sn^2为: 0.8610872304599374 样本标准差s^2为: 0.9076656374465736设总体为 XX 方差存在,
设总体为 X 方差存在, 即 E(X)=μ,Var(X)=<∞,x1,x2,⋯,xn 为 从该总体得到的样本, 和 分别是样本均值和样本方差, 则
此定理表明, 样本均值的期望与总体均值相同, 而样本均值的方差是总体方差的 1/n。
3.样本分位数与样本中位数及其抽样分布
样本中位数 :
# 从总体/总体的分布中抽取样本并计算样本样本中位数
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为:",x_mid)
样本中位数为: 9.5
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10) # 从总体分布N(0,1)中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为:",x_mid)
样本中位数为: 0.7193841543276442
样本p分位数
(1)若np不是整数 (2) 若np是整数
先将抽样的n个样本按从小到大排序,样本p分位数就是排在第n×p位的样品值,当然有可能n×p不是整数,按上述公式处理。
# 从总体/总体的分布中抽取样本并计算样本样本中位数
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_low = np.percentile(x_i,25) # 计算样本下四分位数
x_high = np.percentile(x_i,75) # 计算样本上四分位数
print("样本下四分位数为:",x_low)
print("样本上四分位数为:",x_high)
样本下四分位数为: 7.25 样本上四分位数为: 14.75
设总体密度函数为 p(x),xp 为其 p 分位数, p(x)在 xp 处连续且 p(xp)> 0 , 则当 n→∞ 时样本 p 分位数 mp的渐近分布为
特别地, 对于样本中位数来说, 当 n→∞时有