数据的描述性统计
对数据的描述性统计主要是指对结构化数据的描述分析,可从三个维度进行分析:数据的集中趋势、数据的离散程度和数据的分布形态。
描述数据集中趋势的指标有:众数、中位数、平均数(包含算数平均数、加权平均数、集合平均数)和分位数。
描述数据的离散程度的指标有:方差、标准差、极差和平均差(数值型数据);四分位差(顺序数据);异众比率(分类数据);离散系数 (相对离散程度)。
描述数据分布形态的指标:偏态系数和峰态系数。
1.数据的集中趋势描述指标
算术平均数
简单算数平均数:即所有数值相加除以数值个数,
公式:
x ˉ = x 1 + x 2 + ⋯ + x n n \bar{x}=\frac{x_1+x_2+\cdots+x_n}{n} xˉ=nx1+x2+⋯+xn
加权算数平均数:当每个数值的重要程度不同时,为了测算平均水平就要给不同数值赋予不同的权重。所有数据的权重都为1的加权算数平均数就是简单算术平均数。
公式:
x ˉ = x 1 + 2 x 2 + ⋯ + n x n 1 + 2 + ⋯ + n \bar{x}=\frac{x_1+2x_2+\cdots+nx_n}{1+2+\cdots+n} xˉ=