统计学知识
假设检验
---- | 参数检验 | 细节 | 非参数检验 | 细节 |
---|---|---|---|---|
方差分析 | 检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响 | K-W检验 | 检验两个以上样本是否来自同一个概率分布的非参数检验 | |
卡方检验/Fisher精确检验 | 可以用于独立性检验,比较两个或两个以上的变量之间是否有关联性,样本总量<40,或出现<1的期望频数用Fisher | |||
z/t检验 | 主要对均值或比例进行检验,需要满足正态性假定前提 | MannWhithey-U检验(曼-惠特尼U检验) |
假设检验问题
假设检验:就是通过从总体中提取一定容量的样本,利用样本去检验总体分布是否具有某种特性。
参数检验:总体分布已知(正态、指数、二项等),总体分布依赖于未知参数(或参数向量),要检验的是有关”未知参数“的假设
-
假设检验
-
z统计量
- 大样本或小样本但总体标准差已知
-
t统计量
-
主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。 t检验是用t分布理论来推论差异发生的概率,从而比较 “两个平均数的差异是否显著”。
-
适用条件:
(1)样本来自正态或近似正态检验!
(2)已知一个总体均值
(3)可以得到一个样本均值及该样本的标准差 -
t检验前提:
(1)样本来自正态总体
(2)随机样本
(3)方差齐性,均值比较时,要求两样本总体方差相等 -
分类
-
单总体
- 检验样本平均值与已知总体平均数的差异是否显著
-
双总体
-
检验两个样本平均数与其各自所代表的总体的差异是否显著。两种情况:(1)独立样本t检验,各实验处理组之间毫无相关存在,即独立样本。(2)配对样本t检验,检验匹配而成的两组被试获得的数据或同组被试在不同条件下获得的数据的差异性,这两种情况组成的样本即为相关样本
-
独立样本t检验:
-
配对样本t检验:单样本t检验的扩展
-
-
-
-
卡方统计量
- 用于方差的检验
-
F统计量
- 用于方差比的检验
-
-
方差分析
-
假定:
(1)总体服从正态
(2)各总体具有相同的标准差
(3)样本独立抽样
检验统计量:F分布 -
通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。从误差来源进行分析。
-
-
可单因素或双因素
-
非参数检验:总体分布形式未知,需要一种和总体分布族的 “具体数学形式无关” 的统计方法,称为非参数方法。如,检验一批数据是否来自某个”已知总体“。符号检验、符号秩和检验、秩和检验、Fisher置换检验和拟合优度检验
-
卡方检验
列联分析:独立性检验
-
讨论最多的拟合优度方法之一:pearson卡方检验
-
-
-
-
可以用于独立性检验,两分类变量之间独立
主要比较两个或两个以上的变量之间是否有关联性
-
-
Fisher精确检验
-
用于样本总量小于40或出现小于1的期望频数时(实际应用中,出现小于5的期望频数时也使用)
-
用来检验一次随机实验的结果是否支持对于某个随机实验的假设,理论源于超几何分布,以p_value作为检测值,计算的p-value越小,表示越远离零假设。在实际计算当中又分为单边检验和双边检测,不同的方法结果存在差异。当期望频数有其中之一大于5则考虑卡方检验作为假设验证的统计方法
-
理论依据:超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关
-
-
-
-
-
spss中卡方检验、Fisher精确检验
-
http://www.360doc.com/content/17/0117/23/33220657_623161364.shtml
-
行×列表 卡方检验注意事项
- 1.一般认为行×列表中不宜有1/5以上格子的理论数小于5,或有小于1的理论数。当理论数太小可采取下列方法处理:
- ①增加样本含量以增大理论数;
- ②删去上述理论数太小的行和列;
- ③将太小理论数所在行或列与性质相近的邻行邻列中的实际数合并,使重新计算的理论数增大。
- 由于后两法可能会损失信息,损害样本的随机性,不同的合并方式有可能影响推断结论,故不宜作常规方法。另外,不能把不同性质的实际数合并,如研究血型时,不能把不同的血型资料合并。
- 2.如检验结果拒绝检验假设,只能认为各总体率或总体构成比之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。
-
-
Kruskal-Wallis检验(K-W检验、H检验)(分布;方差)
-
检验两个以上样本是否来自同一个概率分布的非参数检验。秩检验,威尔科克逊检验推广。
-
被检验的几个样本必须是 “独立的、不相关的”,与之对应的是单因素方差分析,但是K-W检验“不假设样本来自正态分布”,
原假设:各样本服从的概率分布具有相同的中位数,不对总体分布形态做出任何假定。
此检验原假设不被接受,意味着至少一个样本概率中位数不同于其他样本,未识别出差异发生在哪些样本之间及差异的大小。 -
检验统计量计算:
(1)合并所有样本
(2)合并后样本值从低到高排序
(3)排序后的值用秩代替,从最小值1开始 -
-
例子:
-
spss操作:分析-非参数检验-k个独立样本
https://wenku.baidu.com/view/48546023346baf1ffc4ffe4733687e21af45ffe5.html -
python:
from scipy import stats
A=[1,3,6,9,0]
B=[3,5,1,4,11,34]
C=[1,9,5,3,0,2,4,5,7,12]
kw=stats.kruskal(A,B,C).pvalue
print(kw)
-
-
MannWhithey-U检验(曼-惠特尼U检验)(2均值z、t)
-
假定两个样本分别来自除总体均值外完全相同的两个总体,
目的是检验两总体均值是否有明显差异。
非参,对总体分布无要求,两样本独立。
可以看做是对两均值之差的参数检验方式的T检验或相应的大样本正态检验的代用品。 -
曼-惠特尼秩和检验,明确考虑了每一个样本中各测定值所排的秩
-
步骤:
-
例子:
-
医学类数学模型
医学相关概念
COX回归模型
-
比例风险回归模型,半参数回归模型。模型以生存结局和生存时间为因变量(2个因变量?),能分析带有截尾生存时间的资料,且不要求估计资料的分布类型。生存分析中应用最多的多因素分析方法。
- 危险率与时间和客观因素之间的关系
-
基本原理:
-
模型假定:
-
假设检验:
-
https://blog.csdn.net/qq_37523061/article/details/84635614