接上篇文章生存分析(1),本文将进一步介绍生存分析中有关生存率的具体算法及其应用
Kaplan-Meier法(K-M法、乘积极限法)
Kaplan-Meier法由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法。
1.计算方法
a. 将样本生存时间T从小到大排列成如表第1栏。若遇到非删失值和删失值相同时,非截删失排在前面。
b. 列出与T相应的死亡人数d,如表第2栏
c. 列出期初病例数n,如表第3栏,即生存期为某时间时尚存活的病例数
d. 计算活过各时点的生存率P(T>t),计算公式为
2.标准误计算
均数的标准误
为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。
(具体可参考这里的介绍)
对于K-M法,标准误的计算方法有两种:
<1>
Sp(T>t)=P(T>t)∑d(n−d)n−−−−−−−√
<1> Sp(T>t)=P(T>t)1−P(t>t)n−d−−−−−−−√
例数较多时,两法计算结果相同,但例数逐渐减少,法1的结果偏小,法二的结果偏大。
3.生存率的可信区间
利用正态近似原理,估计总体生存率的可信区间,如95%置信度
上表中存活时间大于30天,生存率的95%可信区间为
4.单因素分析(log-rank test)
对数秩检验(log-rank test)
属于非参数检验,用于比较两组或多组生存曲线或生存时间是否相同
检验统计量为卡方
χ2
自由度=组数-1
其中A为观察死亡数,T为理论死亡数。当有T<5时,用下式进行校正
计算完卡方值,查表得到P值,可得到推断结论
具体而言,首先将数据按如下形式组织:
将A、B两组的生存天数混在一起从小到大排序放在第二列,第一列是对应的组别,其他按表中给的填入
如此便可以得到A、B两组各自的合计理论死亡数,和实际死亡数(注意删失数据不参与计算),分别带入公式计算卡方即可
K-M方法提供三种假设检验分别是
Log-rank检验、Breslow检验和Tarone Ware检验
三者都是构造卡方检验量,具体比较如下:
更为具体的内容可参考这儿
当数据量较小(n<=50)且不含删失数据时,可以选择Wilcoxon 秩和检验,检验效果更好。
Wilcoxon 秩和检验
核心思想:如果两个样本来自相同的整体,那么秩将大约均匀的分布在两个样本中(秩:将样本从小到大排序,排名即为秩)。否则,则有一个样本获得较小的秩和,另一个获得较大的秩和。
计算:
设两个独立样本为:第一个样本x的样本容量为n1,第二个样本y的样本容量为n2,在容量为n1+n2的混合样本(样本x、y之和)中,x样本的秩和为
Wx
,y样本的秩和为
Wy
,且有
我们定义
W1=Wx−n1(n1+1)2=x统一秩和−x原秩和
W2=Wy−n2(n2+1)2=y统一秩和−y原秩和
可以知道样本x在混合之后的秩和最小也是原秩和,即
min(Wx)=n1(n1+1)2
对样本y同理,即
min(Wy)=n2(n2+1)2
根据
Wx
和
Wy
的关系可知,最大秩和为
max(Wx)=n(n+1)2−n2(n2+1)2
max(Wy)=n(n+1)2−n1(n1+1)2
因此
W1
和
W2
的取值范围均为:
[0,n(n+1)2−n1(n1+1)2−n2(n2+1)2]=[0,n1n2]
接下来我们进行假设检验。
假设: x,y样本来自相同总体
当原假设为真时,所有的
xi
和
yi
相当于从同一总体中抽得的独立随机样本,
xi
和
yi
构成可分辨的排列情况,可看成一排n个球随机地指定
n1
个为x球另
n2
个为y球,共有
Cn1n
种可能,而且它们是等可能的。基于这样分析,在原假设为真的条件下不难求出
W1
和
W2
的概率分布,显然它们的分布还是相同的,这个分布称为样本大小为
n1
和
n2
的Mann-Whitney-Wilcoxon分布
一个比较实际的方法是,对于每个样本数大于等于8的大样本来说,我们可以采用标准正态分布Z来近似检验。
因为
W1
的中心点为
n1n22
,所以
Wx
的中心点为
W_x的方差 σ2 从数学上可推导出
如果样本中存在结,将影响公式中的方差(结:即相同的数据,此时秩会被平分)
按结值调整方差的公式为:
其中 τj 为第 j 个结的个数。结值的存在将使原方差变小,这是一个显然正确的事实。标准化后
其中0.5是为了对离散变量进行连续性修正,对于 Wx−μ>0 减0.5修正,反之加0.5修正。
算例
x组:11 15 10 18 11 20 24 22 25
y组:13 14 10 8 16 9 17 21
将二者统一如下:
可以看出
n1=9
,
n2
=8,
Wx
=96.5,
Wy
=56.5.
H0:两个样本的分布是相同的。标准分布z值的计算结果为:
如果设定显著水平 α=0.05 ,我们知道标准正态分布在0.05显著水平时,上临界值为1.645,下下临界值为-1.645,由1.445<1.645,所以不能拒绝原假设。
当然你也可以用第二个样本的秩和 Wy 来计算标准正态分布,此时要注意公式中的 n1 和 n2 发生对换。
寿命表法(life table,LT)
生存资料按如下格式准备
1.计算方法
第一列为人为时间分组
第二至第四列按列名填入
第五栏校正人数,按公式
N=L−W2
期内生存概率即条件生存概率,死亡概率同理计算,但是分母改为校准人数N
生存率同样使用乘法定理计算即可
2.标准误计算
标准误按如下公式计算
3.生存率可信区间
同K-M法
K-M法与寿命表法比较
1.格式与精确度
K-M法使用患者实际寿命作为分布区间,相对更精确
寿命表法采用人为规定时间段作为分布区间,范围扩大精确度有所下降
2.适用范围
K-M法更适合于样本量较少的数据
寿命表法更适合于样本量较大的数据
(不过,考虑到现在计算能力的强大,一般程度的数据量并不会对计算速度有太大影响)
3.关注点不同
K-M法关注每一个时点的生存率,重视对生存率规律的细致把握,可以利用K-M的结果去研究影响生存率变化(如曲线的突变点)的影响因素。
寿命表法则更重视对生存规律的总体把握(如各年生存率的情况)。
至此,有关生存分析的非参数研究方法K-M与寿命表法就介绍完了。接下来的一篇文章,将介绍含参数的研究方法—Cox比例风险回归模型。