概念
1、基本概念
定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。
样本的两重性:一经抽样便是一组确定数值;但在通常描述中样本也是一组随机变量,因为抽样本身就是随机的
2、常用统计量
- 样本均值:通常使用样本均值来估计总体分布的均值和对有关总体分布均值的假设做检验
- 样本方差:通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设做检验
- k阶样本原点矩:k阶原点矩是随机变量x“偏离”原点(0,0)的“距离”的k次方的期望值。一般地,对于正整数k,如果E|(X-0)k|=E|Xk|=<∞,故称E(Xk) 为随机变量X的k阶原点矩。
- k阶样本中心矩:k阶中心矩是随机变量x“偏离”其中心的“距离”的k次方的期望值。一般均以其平均数为“中心”。故,对于正整数k,如果E(X)存在,“偏离”E(x)的k次方的期望值存在、且E[|X - E(X)|k)]<∞,则称E{[X-E(X)]k}为随机变量X的k阶中心矩。如X的方差是X的二阶中心矩,即D(X)=E{[X-E(X)]2} 等。
- 顺序统计量:就是将样本按从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量
二、描述性统计
1、数据集中趋势的度量
- 平均数:容易受极端值影响
- 中位数:分奇偶
- 频数
- 众数
- 百分位数
python实现
#NumPy系统是Python的⼀一种开源的数值计算扩展。⽤用来存储和处理理⼤大型矩阵。
##平均数
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np