基本概念
- 抽样误差
在一个总体(包括全部个体)中抽取样本(包括全部个体中的部分个体),样本统计量之间的差异就体现了抽样误差。由于抽样误差的存在,如果用样本统计量直接估算总体参数,则肯定会有一定的误差,所以在估计总体参数的时候需要考虑到这种偏差的存在,即用置信区间来估计总体参数。
- 标准误
标准误则可以通过一次样本来计算抽取误差的大小。如果标准误较小,则说明抽样误差小,意味着样本很稳定,对总体的代表性较好;如果标准误较大,则说明抽样误差大,提示样本代表性不强,这种情况下需要加大样本量。
- t分布
t分布可以看做是小样本时的正态分布,当数据量大时,就变成了正态分布,当数据量小时,就是正态分布。当自由度为30时,t分布与正态分布就已经十分接近了,当自由度为50时,差别就已经微乎其微了。
t分布主要是与均数有关的抽样分布,常用于两个均数是否相等的统计检验、回归系数是否为0的统计检验。这些检验的形式都是某参数是否等于0,如两个差值是否等于0,回归系数是否等于0.
F分布是与方差有关的抽样分布,常用于方差齐性检验、方差分析和回归模型检验。他们都是针对方差而不是均值,如方差齐性检验是两个方差之比,方差分析是组间或组内之比,回归模型检验是模型方差与残差方差之比。
卡方分布也是与方差有关的抽样分析,但它在实际中常用于描述分类数据的实际频数与理论频数之间的抽样误差。由于卡方分布本身是连续分布了因此在用于分类数据是,只有大样本时才近似卡方分布。(在理论频数较小时需要对卡方分布进行检验校正)
关于统计资料类型的思考
1. 计数资料可否采用连续资料的方法进行分析?
如果计数资料的取值都离0很远,大致呈正态分布,而且对预测值出现小数点甚至众数不是很介意,那么,在这种情况下,计数资料可以考虑用连续资料的方法进行分析。否则最好使用Poisson回归或负二项回归。
2. 分类资料中的有序无序怎么确定?
对于形式上的等级资料,如果研究目的关注这种等级或程度上的差异,则可将作为有序分类资料。如果研究目的只是想了解各级别的构成情况,并不关心程度上的区别,则可将其作为无序分类资料。
3. 连续资料什么时候转化为分类资料?
将连续资料转化为分类资料主要出于实际应用考虑或者连续资料本身与结果变量之间没有线性关系,这时为了简化问题,可以进行转化
4.寻找cut-off值的方法:
- 根据业和实际经验(比如年龄)
- 利用广义可加模型结合专业来划分
- 利用ROC曲线进行寻找
其前提条件是:必须有一个明确的二分类结局。然后找到ROC图中最靠近左上角的点就是cut-off值。(只能分为两类) - 利用最大选择秩统计量来划分
最大选择秩统计量相当于对x变量的每个值来划分,每一次划分都将数据划分为两组,同时计算一个标准化统计量,它反映了按某值划分后两组的差异情况。全部划分后找到最大的,其对应的划分值就是最佳cut-off值。 - 利用分类树进行划分
基于熵的概念 - 聚类分析(无需因变量的存在)
中心极限定理
中心极限定理针对的是样本统计量而非原始数量。它是说:不管原始数据的分布是什么样的(可能是正态也可能是偏态),从原始数据中多次抽样,得到多个样本,每个样本可以计算出一个相应的统计量(如均值),如果每个样本中的例数大于30,那么统计量(如均值)的分布接近于正态
假设检验的思想
一般我们从正面作出假设(如两个变量不具有相关性),这种假设称为零假设。零假设的对立面就是备择假设。一般零假设是想推翻的,备择假设是想被证实的。
第一类错误即I型错误是指拒绝了实际上成立的H0,为“弃真”的错误,其概率通常用α表示,这称为显著性水平。α可取单侧也可取双侧,可以根据需要确定α的大小,一般规定α=0.05或α=0.01。
第二类错误即Ⅱ型错误是指不拒绝实际上不成立的H0,为“存伪”的错误,其概率通常用β表示。β只能取单尾,假设检验时一般不知道β的值,在一定条件下(如已知两总体的差值δ、样本含量n和检验水准α)可以测算出来。
参考文献:
白话统计 冯国双 著