描述性统计分析
描述定性数据的图形法和数值法
对给定的类,类(或组)频数是指落入这个类中的观测值的个数。
对给定的类,类(或组)相对频率是指落入这个类中的观测值个数相对于观测值总数的比例。
定性数据的图形描述常用条形图,饼图和帕雷托图。
条形图:给出相应每一类的频数(或相对频率),长方形的高度或长度与类频数(或相对频率)成比例。
饼图:把一个整圆(饼)分成几份,每一份代表一个类,每份中心角与类相对频率成比例。
帕雷托图:将定性变量(即长方形)的类(组)按照高度从左向右降序排列的条形图。
帕雷托图以意大利经济学家 Vilfredo Pareto 命名。
描述定量数据的图形法
定量数据集是由某种有意义的数值标度的数据组成。为了描述、总结和检测这些数据的模型,我们可以采用三种图形法:点图、茎叶图和直方图。
点图
数据集中每一个定量测量的数值表示为水平刻度尺上的一个点,当数值重复时,点垂直画在另一个点之上。
茎叶图
定量变量的数值分为茎和叶两部分,可能的茎按顺序排在一列中,数据集中每一定量测量值的叶放在相应茎的行上,有相同茎的观测值的叶在水平方向按升序排列。
茎是测量值小数点左边的部分,叶是剩下的小数点右边的部分。
直方图
定量变量的可能数值被分成若干组区间,其中每一区间有相同的宽度,这些区间构成了水平轴刻度。确定落在每一组区间中的观测值的频数或相对频率。每一组区间上放一个垂直的长方形,它的高度或者等于频数或者等于相对频率。
描述定量数据的数值法
三种类型的度量
- 中心趋势度量:帮助确定相对频率分布中心位置的度量
- 变异的度量:围绕中心波动的度量
- 相对位置的度量:描述数据集中一个观测值相对位置的度量
两个定义
- 统计量:有样本数据计算得到的数值描述性度量
- 参数:总体的数据描述性度量
中心趋势的度量
算数平均、中位数和众数是三种最常用的中心趋势度量。
变异性的度量
数据变异性最常用度量是极差、方差和标准差。
- 极差:等于y一个数据集合中最大测量值和最小测量值的差。
- 方差
- 标准差
经验法则
若一个数据集有近似丘形的对称分布,则可用以下的经验法则描述数据集:
1. 大约68%的测量值位于均值的1个标准差范围内
2. 大约95%的测量值位于均值的2个标准差范围内
3. 几乎所有的测量值位于均值的3个标准差范围内
相对位置的度量
观测值相对位置的两个度量是百分位数和 z z 得分。
百分位数
定义
数据集的第
百分位数是这样一个 y y 值:使得在数据集的相对频率分布中有
的面积位于它的左边,有 100(1−p)% 100 ( 1 − p ) % 的面积位于它的右边(其中, 0≤p≤1