写作目的
由于偶尔会被问应该在什么情况下使用什么检验,然后有时答不上来或者分析的不是很准确,故而在阅读文献的时候特意记录一下文献中的统计方法。
如果需要在R里看源码的话,可参考该博文https://mp.weixin.qq.com/s/UNB0zaBHrH0XE_j8vj5d-A
类别变量
文献来源:A Six-genotype Genetic Prognostic Model for Papillary Thyroid Cancer https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5132178/
原文:
Comparisons of categorical variables were performed with either Pearson’s chi-squared test or, for cases with small number, Fisher’s exact test.
针对分类变量若样本量少使用fisher exact test,样本量大使用卡方检验。
如何判断样本量小(Fisher 精确检验 与卡方检验 - 简书 https://www.jianshu.com/p/f0e1b0100e59):
1.所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验.
2.如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验.
3.如果有理论数T<1或n<40,则用Fisher’s检验.
连续型变量
先奉上一张图,来源于https://mp.weixin.qq.com/s/OhkSFJSUcgDD9nFdc8kHTg推文中的图,啧啧,我感觉这张图基本就把连续型最常用的应用条件给说明清楚了
对于要使用T检验而言,一般样本量大于40个即可认为符合正态分布
ssGSEA的算法原理
参考博文https://mp.weixin.qq.com/s/TnUq-NfIc7oQTjnflVqs4g
连续型变量
t检验与u检验
一般都用t检验,u检验即z检验,需要假设方差已知。一般均匀分布的方差已知