一. 非参数统计的概念
非参数检验对总体的分布类型不做严格规定,又称为任意分布检验,它直接对总体分布进行假设检验,应用时可以不考虑研究对象为何种分布以及分布是否已知,也由于这种假设检验方法并不是参数间的比较,而是应用于分布间的比较,故称为非参数检验。
优点:不受总体分布的限制,适用范围广,且计算简便
缺点:对于符合参数检验的资料,如果选用非参数检验,则会降低检验效能(1-β)
非参数检验方法很多,其中较常用,检验效率高,又比较系统,完整的就是秩和检验。
二. Wilcoxon符合秩和检验
1. 配对设计Wilcoxon符合秩和检验
当配对设计数值变量的差值d不服从正态分布时,应使用非参数检验,适合该资料的非参数检验称为符号秩和检验,也称为Wilcoxon符号秩和检验,可以用于配对样本差值的中位数与0的比较,还可以用于单样本中位数与已知中位数的比较
进行这种检验,最关键的步骤是编秩,也就是排序,步骤如下
1) 求差值, 根据差值的绝对值从小到大编秩
2) 差值为0时,舍去不计,同时样本例数减1
3) 差值的绝对值相等时,符号相同可顺次编秩,符号不同先取平均秩次,再给秩次冠以原差值的正负号
4) 求秩和并确定检验统计量:分别求出正负秩次之和,任取其中一个的绝对值作为统计量
2. 完全随机化设计两样本比较的秩和检验
当应用于数值变量资料时,与配对设计相比,有几点不同
1)将两组数据放在一起,从小到大统一编秩,不在是求差值了
2)当原始数据相同,若在同一组,则顺序编秩或者取平均秩次都可以;若在不同组,则取平均秩次
3)以样本例数小的秩和T作为检验统计量
当应用于等级资料时,只需要注意,此时每组的秩和等于平均秩次与样本量的乘积,示例如下
探讨吸烟与不吸烟两组的血压水平是否有差异,将血压水平分为正常血压,高血压前期,高血压共3个等级,统计每组的频数,然后按照血压水平的不同等级依次计算秩和,用每一组的样本量来进行编秩,依次为1-36,37-76,77-100,求取不同血压水平吸烟与不吸烟两组的秩和时,等于平均秩次乘以各组的样本量。
三. 完全随机化设计多样本比较的秩和检验
当完全随机设计多组数值变量资料不满足方差分析的条件时,应进行变量变换或用非参数检验,最常用的非参数检验为Kruskal-Wallis秩和检验,检验统计量为H,又称为H检验,也同时适用于数值变量资料和等级资料
检验统计量H的计算公式如下
R为各组的秩和,n为各组的样本例数,N为总的样本例数。
当相同的数值变量较多时,应对H值进行校正,公式如下
其中
当适用于等级资料时,由于使用的是平均秩次,可以认为每组都是相同的秩次,所以通常会用到H值的校正。
需要注意的是,H检验在做出统计推断时要根据不同条件使用不同的临界值表
当组数k=3, 每组例数≤5时,使用H界值表
当不满足上述条件时,H值近似服从自由度v=k-1的卡方分布,需要使用卡方界值表
四. 区组设计的多样本比较的秩和检验
对多组随机区组设计的数值变量资料,当满足正态性和方差齐性条件时,可选用随机区组设计的方差分析,若不满足方差分析的条件,应采用friedman秩和检验,也称为M检验。
friedman秩和检验的基本思想是:各区组内的观察值按从小到大进行编秩,如果各处理的效应相同,各区组内秩应以相等的概率出现在各处理组中,各处理组的秩和应该大致相等,不太可能出现较大差别。
检验统计量M的计算公式如下
当区组数b≤15,处理组数k≤15时,可利用M界值表进行统计推断。
·end·
—如果喜欢,快分享给你的朋友们吧—
原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!
本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。
更多精彩
写在最后
转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。
扫描下方二维码,关注我们,解锁更多精彩内容!
一个只分享干货的
生信公众号