全基因组关联分析(GWAS)-统计方法与模型简介
https://zhuanlan.zhihu.com/p/671934969
1、基本统计学概念
假设检验
• 零假设(H0):即原假设
• 备择假设(H1):与零假设对立的假设
• 计算零假设(H0)成立的概率
• 如果H0成立的概率很低(e.g. 5% or 1%),则拒绝原假设,接受备择假设
• 否则接受原假设
两类错误与统计功效
• I类错误(Type I error): 拒绝真实的H0, 即假阳性, 概率α为显著性水平;
• II类错误(Type II error): 接受错误的H0, 即假阴性, 概率为β;
• 功效(Power): 拒绝错误H0的概率, (1-β)
2、Case/Control关联分析
病例对照分析
• Case/control,一般可以用Pearson’s X2检验来分析
• 等位基因关联,检测性状与等位基因的关联性
• 假设一个标记有两种等位基因,分别为1和2,令Nca为病例,Nco为对照,列联表如下
• H0:列变量与行变量无关,即该位点等位基因的分布与病例-对照无关;
• H1:列变量与行变量有关,即该位点等位基因的分布与病例-对照有关。
卡方检验
当H0成立时,总体趋向卡方分布,且自由度为(r−1)(c−1) =(2−1)(2−1) = 1
Note:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。卡方检