生存分析基础

生存分析

生存分析(survival analysis)是一个历史悠久的概念,最早在1662年就被提出,主要用来分析随访研究中研究对象是否发生我们关心的事件以及发生该事件之前的时长(生存时间)。生存分析也被称为时间事件分析(time-to-event analysis),因为该分析方法不仅只关注患者是否发生死亡,也可以用于分析其他事件,例如在肿瘤领域中:

  • 从治疗开始到疾病发生进展的时间

  • 从患者反应到复发的时间

  • 患者肿瘤发生脑转移的时间等等

也可以应用于其他领域,如:

  • 患者脑卒中复发的时间

  • 从艾滋病毒感染到艾滋病发展的时间

  • 机器发生故障的时间

1. 生存数据(Time to event)

事件(Event) 的具体定义取决于新药试验中事先指定的临床终点 (clinical endpoint) 。如果终点是总体生存期*(overall survival, OS)*,那么事件就是患者的死亡。如果终点是无进展生存期 *(progression-free survival, PFS)*,那么事件就是患者病情的进展 (例如固体瘤增大或者白血病的血液指标恶化) 或者死亡。生存分析能在生物医学以外的许多不同领域有用武之地,其关键就在于事件这个概念在定义上的灵活性。

时间(Time) 指从病人被随机分派进入临床试验的分组 (相对的时间零点) 直到事件发生所经历的时间跨度。时间可以为天、周、月和年。临床试验的病人招募通常是个持续的过程,不同病人的试验一般始于日历上不同的具体时间点,在数据分析时只有采用相对时间,才能有同样的时间轴及零点。对于临床试验的病人群体而言,个体病人的生存时间是一个随机变量,用大写的T表示。而生存曲线横坐标则对应各病人事件发生的时间点,它不是随机变量 (而用做函数的自变量),用小写的t表示,随机变量T一般不遵从正态分布。

删失 (Censoring)指由于事件没有被观测到或者无法观测到,而导致生存时间无法精确记录的情况。其中最为常见的情形称为右删失(right censoring,图1),对这样的病人我们只知道其生存时间要大于从试验开始到删失发生的时间。

library(tidyverse)
fkdt <- tibble(Subject = as.factor(1:10), 
               Years = sample(4:20, 10, replace = T),
               censor = sample(c("Censor", rep("Event", 2)), 10, 
                               replace = T)) 

ggplot(fkdt, aes(Subject, Years)) + 
  geom_bar(stat = "identity", width = 0.5) + 
  geom_point(data = fkdt, 
             aes(Subject, Years, color = censor, shape = censor), 
             size = 6) +
  coord_flip() +
  theme_minimal() + 
  theme(legend.title = element_blank(),
        legend.position = "bottom")

图片

有多种原因可以导致右删失情况的出现,其中包括:(1)病人在某时间点上退出试验或失去随访信息;(2)病人在整个试验结束时事件还未发生;(3)病人由于毒性等原因停用被分派的药物或换用其它药物;(4)竞争风险事件的发生。

2. 生存函数和风险函数

生存函数(Survival Function)

生存函数为患者活过一定时间的概率

图片

通过求导可以得出生存函数与概率密度函数的关系:

其累积生存概率函数(cumulative survival probability)为:

风险函数(Hazard Function)

风险率函数为患者在时间时生存,但在极短的时间后死亡的概率。

图片

而h(t)在从零开始的一个时间段内的积分,H(t),则被称为累积风险函数 (cumulative hazard function):

各函数方程之间的关系

图片

3. 未来更新计划

由于生存时间T的非正态分布以及删失情况的存在让传统的统计方法在分析这类数据时无用武之地,于是统计学家们殚精竭虑,直到1970年代才使生存分析这一方法体系趋于成熟。

Kaplan–Meier曲线(K-M曲线)Cox Proportional Hazard Model(Cox回归)是现代生存分析方法的起源。两篇论文被引用次数很多,很大一部分原因在于临床试验(尤其癌症领域)应用广泛,不仅如此,它们在流行病学、社会科学、经济学、工业的可靠性测试等方面,都有着非常广泛的应用。

本系列未来会基于R语言更新传统的K-M分析、Cox回归以及现在一些前沿的方法,主要包括以下:

  1. 非参数法:Kaplan–Meier法及生存曲线绘制

  2. 半参数法:Cox回归及等比例风险检验

  3. 参数法:加速失效模型(AFT)

  4. 非参数法:限制平均生存时间(RMST)

  5. 如何从已发表K-M曲线中重构患者个体数据(IPD)

  6. 竞争风险模型(Competing Risks)

  7. 时依性变量(Time-Dependent Covariates)

  8. 游泳图(Swimmer Plots)

  9. 生存分析与因果推断:参数G方程(Parametric g-formula)

  10. 条件生存分析(Conditional survival)

  11. 界标分析(Landmark analysis)

  12. 脆弱模型(Frailty model)在生存分析中的应用

  13. 贝叶斯生存分析(Bayesian survival analysis)

  14. LASSO回归在生存分析中的应用

  15. 机器学习在生存分析中的应用

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
SPSS经典教材之一。本书主要针对SPSS 的中、高级用户,定位为应用统计专业的研究生教材和其他专业的统计分析参考书。它以SPSS 12.0 的功能为准,以统计理论为主线,详细介绍了SPSS 中的各种多变量统计模型和多元统计分析方法。在保持全书简明易懂风格的基础上,对统计理论作了详细的讲解。全书内容共分四大部分:第一部分讲解了一般线性模型和混合线性模型,并重点对前者中的方差分析模型进行了介绍;第二部分则在此基础上进一步介绍了回归模型,包括对连续因变量建模的线性回归模型、线性回归的衍生模型、通径分析模型和非线性回归模型,以及对分类因变量建模的Logistic 模型族和Probit 模型;第三部分系统介绍了因子分析、判别分析、对应分析、多维尺度分析等多元统计方法的原理及其在SPSS 中的实现;第四部分则对信度分析生存分析、缺失值分析方法等较难归类,但又比较重要的统计分析方法进行了讲解。各章后均提供了参考文献和思考练习题,书后附录则以流程图的方式提纲草领地给出了统计方法的分类体系,便于读者理解。另外,为便于读者自行对比分析结果,书中大部分表为SPSS 自动生成的。因此,大部分表及表题为英文。 需要指出的是,作为本套丛书的通用统计教材,本高级教程严格遵循了统计理论这一主线,在统计方法的纳入上是有所选择的。方法体系中比较特殊的时间序列模型并未纳入本书范畴,另有分册专门介绍;而对于联合分析、多维偏好分析、离散选择分析等在方法原理上并无特别之处,行业应用特点明显的模型,则将被放在相应的行业应用分册中讲解,本书不再专门介绍。除作为各专业研究生的统计教材和参考书外,本书还适用于各行业中希望深入学习和应用高级统计分析方法的读者。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皮肤小白生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值