生存分析(2)

接上篇文章生存分析(1),本文将进一步介绍生存分析中有关生存率的具体算法及其应用

Kaplan-Meier法(K-M法、乘积极限法)

Kaplan-Meier法由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法
这里写图片描述

1.计算方法

a. 将样本生存时间T从小到大排列成如表第1栏。若遇到非删失值和删失值相同时,非截删失排在前面。
b. 列出与T相应的死亡人数d,如表第2栏
c. 列出期初病例数n,如表第3栏,即生存期为某时间时尚存活的病例数
d. 计算活过各时点的生存率P(T>t),计算公式为

P(T>t)=p=ndn

2.标准误计算

均数的标准误
为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。
具体可参考这里的介绍

对于K-M法,标准误的计算方法有两种:
<1> Sp(T>t)=P(T>t)d(nd)n

<1> Sp(T>t)=P(T>t)1P(t>t)nd

例数较多时,两法计算结果相同,但例数逐渐减少,法1的结果偏小,法二的结果偏大。

3.生存率的可信区间

利用正态近似原理,估计总体生存率的可信区间,如95%置信度

=P(T>t)±1.96Sp(T>t)

上表中存活时间大于30天,生存率的95%可信区间为
P(T>30)±1.96×0.1107=(0.4646,0.8486)

4.单因素分析(log-rank test)

对数秩检验(log-rank test)
属于非参数检验,用于比较两组或多组生存曲线或生存时间是否相同
检验统计量为卡方 χ2
自由度=组数-1

χ2=(AT)2T

其中A为观察死亡数,T为理论死亡数。当有T<5时,用下式进行校正
χ2=(|AT|0.5)2T

计算完卡方值,查表得到P值,可得到推断结论
具体而言,首先将数据按如下形式组织:

这里写图片描述

将A、B两组的生存天数混在一起从小到大排序放在第二列,第一列是对应的组别,其他按表中给的填入
如此便可以得到A、B两组各自的合计理论死亡数,和实际死亡数(注意删失数据不参与计算),分别带入公式计算卡方即可

K-M方法提供三种假设检验分别是
Log-rank检验、Breslow检验和Tarone Ware检验
三者都是构造卡方检验量,具体比较如下:
这里写图片描述
更为具体的内容可参考这儿


当数据量较小(n<=50)且不含删失数据时,可以选择Wilcoxon 秩和检验,检验效果更好。

Wilcoxon 秩和检验
核心思想:如果两个样本来自相同的整体,那么秩将大约均匀的分布在两个样本中(秩:将样本从小到大排序,排名即为秩)。否则,则有一个样本获得较小的秩和,另一个获得较大的秩和。

计算:
设两个独立样本为:第一个样本x的样本容量为n1,第二个样本y的样本容量为n2,在容量为n1+n2的混合样本(样本x、y之和)中,x样本的秩和为 Wx ,y样本的秩和为 Wy ,且有

Wx+Wy=1+2++n=n(n+1)2

我们定义
W1=Wxn1(n1+1)2=xx
W2=Wyn2(n2+1)2=yy

可以知道样本x在混合之后的秩和最小也是原秩和,即
min(Wx)=n1(n1+1)2
对样本y同理,即
min(Wy)=n2(n2+1)2

根据 Wx Wy 的关系可知,最大秩和为
max(Wx)=n(n+1)2n2(n2+1)2
max(Wy)=n(n+1)2n1(n1+1)2

因此 W1 W2 的取值范围均为:
[0,n(n+1)2n1(n1+1)2n2(n2+1)2]=[0,n1n2]

接下来我们进行假设检验。

假设: x,y样本来自相同总体
当原假设为真时,所有的 xi yi 相当于从同一总体中抽得的独立随机样本, xi yi 构成可分辨的排列情况,可看成一排n个球随机地指定 n1 个为x球另 n2 个为y球,共有 Cn1n 种可能,而且它们是等可能的。基于这样分析,在原假设为真的条件下不难求出 W1 W2 的概率分布,显然它们的分布还是相同的,这个分布称为样本大小为 n1 n2 的Mann-Whitney-Wilcoxon分布

一个比较实际的方法是,对于每个样本数大于等于8的大样本来说,我们可以采用标准正态分布Z来近似检验。
因为 W1 的中心点为 n1n22 ,所以 Wx 的中心点为

μ=n1n22+n1(n1+1)2=n1(n1+n2+1)2

W_x的方差 σ2 从数学上可推导出
σ2=n1n2(n1+n2+1)12

如果样本中存在结,将影响公式中的方差(结:即相同的数据,此时秩会被平分)
按结值调整方差的公式为:

σ2=n1n2(n1+n2+1)12n1n2((τ3jτj)12(n1+n2)(n1+n21)

其中 τj 为第 j 个结的个数。结值的存在将使原方差变小,这是一个显然正确的事实。标准化后Wx
z=Wxμ±0.5σ=Wxn1(n1+n2+1)2±0.5n1n2(n1+n2+1)12n1n2(τ3jτ)12(n1+n2)(n1+n21)N(0,1)

其中0.5是为了对离散变量进行连续性修正,对于 Wxμ>0 减0.5修正,反之加0.5修正。

算例
x组:11 15 10 18 11 20 24 22 25
y组:13 14 10 8 16 9 17 21
将二者统一如下:

这里写图片描述

可以看出 n1=9 n2 =8, Wx =96.5, Wy =56.5.
H0:两个样本的分布是相同的。标准分布z值的计算结果为:

z=96.59(9+8+1)20.59×8(9+8+1)129×8(82+82)12(9+8)(9+91)=1.44515

如果设定显著水平 α=0.05 ,我们知道标准正态分布在0.05显著水平时,上临界值为1.645,下下临界值为-1.645,由1.445<1.645,所以不能拒绝原假设。
当然你也可以用第二个样本的秩和 Wy 来计算标准正态分布,此时要注意公式中的 n1 n2 发生对换。

寿命表法(life table,LT)

生存资料按如下格式准备
这里写图片描述

1.计算方法

第一列为人为时间分组
第二至第四列按列名填入
第五栏校正人数,按公式 N=LW2
期内生存概率即条件生存概率,死亡概率同理计算,但是分母改为校准人数N
生存率同样使用乘法定理计算即可

2.标准误计算

标准误按如下公式计算

Sp(T>n)=p(T>n)qpN

3.生存率可信区间

同K-M法

K-M法与寿命表法比较

1.格式与精确度
K-M法使用患者实际寿命作为分布区间,相对更精确
寿命表法采用人为规定时间段作为分布区间,范围扩大精确度有所下降

2.适用范围
K-M法更适合于样本量较少的数据
寿命表法更适合于样本量较大的数据
(不过,考虑到现在计算能力的强大,一般程度的数据量并不会对计算速度有太大影响)

3.关注点不同
K-M法关注每一个时点的生存率,重视对生存率规律的细致把握,可以利用K-M的结果去研究影响生存率变化(如曲线的突变点)的影响因素。
寿命表法则更重视对生存规律的总体把握(如各年生存率的情况)。

至此,有关生存分析的非参数研究方法K-M与寿命表法就介绍完了。接下来的一篇文章,将介绍含参数的研究方法—Cox比例风险回归模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值