1. 随机变量及其分布
随机现象: 也称为不确定现象,是指在相同条件下重复试验可能得到不同结果的现象,比如掷骰子,抛硬币等。
随机事件: 对随机现象进行观测和试验,事先并不能确定这次试验的结果是什么,随机试验所得到的每一种可能的结果,称为随机事件。
随机变量:随机事件在数学上可用一个变量,比如x来描述,称为随机变量,随机变量可分为两大类:
离散型随机变量:随机变量的取值为有限或无限可列个数值
连续型随机变量:随机变量的取值是连续的
2. 正态分布
正态分布:又称高斯分布,最早是由德国数学家高斯发现的,其概率密度函数如下
称随机变量x服从正态分布,记法如下
正态分布的的概率密度曲线为钟型曲线,示例如下
正态分布曲线的特点:
1. 以x=μ为对称轴左右对称,在x=μ时取最大值,x越远离μ,f(x)值越小
2. 正态分布拥有两个参数,位置参数μ和形态参数σ,若σ不变,改变μ的值,正态曲线沿x轴平行移动,形状保持不变; 若μ保持不变,σ越大,数据分布越分散,曲线越矮胖,σ越小,曲线越高瘦
μ=0,σ=1的正态分布称为标准正态分布,任意一个正态分布可以通过以下变换得到一个服从标准正态分布的新的随机变量z
正态分布曲线下面积具有一定的分布规律,总结如下
正态分布是一种非常重要的统计分布,具有多种应用
1)制定医学参考值范围
医学参考值:是指大多数正常人的解剖,生理,生化等各种指标测量值的波动范围,所谓正常人,不是指绝对的健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。
在制定医学参考值时,要有足够的抽样样本数目,注意控制测量误差,确定是否需要分组计算,决定取双侧还是单侧,选择合适的百分界限,根据资料分布特征选择恰当的计算方法。
计算医学参考值有两种方法,当变量服从或者近似服从正态分布时,采用正态分布法
当变量不符合正态分布,且经变量转换为不符合正态分布时,可使用百分位数法
2)统计质量控制
以x ± 2s 作为上,下警戒值,以x ± 3s 作为上,下控制值,如超出警戒值,则发出警报,如超出控制值,提示可能存在非随机的系统误差
3)正态分布是许多统计方法的理论基础
t检验,方差分析等统计分析方法建立在正态分布的基础上,可通过正态分布推导出;二项分布,泊松分布等分布在一定条件下可以近似于正态分布
3. t 分布
1)抽样误差和样本均数分布
抽样误差:由个体差异产生,随机抽样造成的样本统计量与总体参数之间的差异,以及不同抽样样本间样本统计量的差异,称为抽样误差。抽样误差不可避免,但其分布具有一定的规律性,可以估计并加以控制
样本均数的抽样误差:样本均数与总体均数间的差异以及统一总体中各样本均数间的差异,称为样本均数的抽样误差
标准误:样本统计量的标准差称为标准误, 简写为SE, 样本均数的标准差称之为均数的标准误,简写为SEM, SEM反映样本均数间的离散程度,也反映样本均数与相应总体均数间的差异,其公式如下
在实际应用中,由于总体标准差σ常常未知,而用样本标准差s进行估计,因此公式转换为
在非正态分布总体中抽样,当样本含量足够大时(如n>50),其样本均数也近似服从正态分布
2)t分布
样本均数服从正态分布,对样本均数进行标准正态转换, 即z变换的过程中,用样本均数的标准差代替总体标准差,就得到了t变换,示意如下
英国统计学家W.S.Gosset于1908年以笔名"Student"发表论文,证明t统计量服从v=n-1的t分布,t分布在小样本资料统计推断中具有重要意义,是总体均数的区间估计和假设检验的理论基础。
t分布只有一个参数,自由度v, 不同自由度下的t分布曲线如下图所示
t分布曲线的特点包括:
1,t=0使取峰值,以0为中心,左右对称
2. 自由度v越小,t分布越离散,曲线峰值越小,尾部越高;v越大,分布区域集中,峰值大而尾部下垂
3. v为正无穷时,t分布即为标准正态分布
4. 二项分布
二项分类变量:随机事件只具有两种互斥的结果,称为二项分类变量,比如化验结果的阴性与阳性
伯努利试验:重复n次结果为二项分类变量的随机事件,各事件之间相互独立
二项分布:n次伯努利试验中事件A出现的次数,其概率的公式如下
记作
二项分布的均数,方差,标准差为
当n足够大,且π不接近与0也不接近与1时,二项分布近似于正态分布
和样本均数的标准误类似,从总体率为π的总体中重复抽取样本容量为n的样本,样本率p与总体率间的差异以及各样本率的差异,称为样本率的抽样误差,公式如下
在实际应用中,总体率π未知,用样本率p代替,样本率的标准误公式如下
5. 泊松分布
泊松分布是n很大,π很小的二项分布的一个特例,其概率函数如下
记作
泊松分布的方差和均数都等于λ
当λ足够大(λ≥20)时,泊松分布近似于正态分布。
·end·
—如果喜欢,快分享给你的朋友们吧—
原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!
本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。
更多精彩
写在最后
转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。
扫描下方二维码,关注我们,解锁更多精彩内容!
一个只分享干货的
生信公众号