根据数据分析的目的和思考方式来看,数据统计方法有两大类--------描述统计和推断统计
描述统计是采用图表或数学方法描述数据的情况,有集中趋势分析,离散趋势分析,相关分析。
推断统计是采用样本推断总体,有参数估计和假设检验
对于分析方法又有两种,分别是基本分析法和元分析法,基本分析法是对零次或一次数据进行分析,而元分析法是对二次或三次数据进行分析。
研究问题之前我们需要统计分布总体的分布情况,表现为概率分布:概率分布主要分为两大类型,离散型随机变量和连续性随机变量。
离散型随机变量
离散型随机变量的分布为概念函数p(x)
xi | x1 | x2 |
---|---|---|
pi | p1 | p2 |
比较典型的分布分别是二项分布和泊松分布
- 二项分布适用于只有两种对立的结果
- 泊松分布用来描述在同一时空环境下发生某事件的次数
连续型随机变量
连续型随机变量的概念分布函数和概念密度函数,其中分布函数的导数是密度函数
分布函数分为以下几类:
- 正态分布,是统计分析中最重要和最基础的分布。
- 卡方分布,主要是在正态分布的基础上对一个总体样本方差的分布情况
- t分布,当样本标准差未知,用样本标准差代替总体标准差来进行相关的显著性检验
- f分布,在正态分布的基础上描述两个总体的样本差的比例的分布情况
参数检验
参数检验主要有两种,分别是参数估计和假设检验。
参数估计有两种推断方法,点估计和区间估计
假设检验:提出一个假设,然后确定要用什么统计量来检验问题,称为检验统计量,然后确定一个显著性水平,计算出检验统计量,对比检验统计量和显著性水平的差异,查表来得出结论。
那么,如何得出确定出检验统计量呢,这就需要用到参数检验和非参数检验的方法了,参数检验是对总体分布规律已知的方法,选择相应的方法进行得出。非参数检验是使用卡方检验的方法来确定实际值和理论推断值的偏离程度。
分析方法
分析方法主要是为了得出相关关系,然后确定变量之间的关系。