一文精通竞争风险模型,做生存分析一定要看看,附R语言代码!

培训通知

Nhanes数据库数据挖掘,快速发表发文的利器,你来试试吧!欢迎报名郑老师团队统计课程,4.20直播。

我们在阅读文献时,经常会看到竞争风险模型,今天我们就来讲讲,是什么和怎么用,一篇文章就带你搞定!医学顶刊《BMJ》的一篇文章队列研究为例。

a0e8c754ca31971a1fb79170ed9cb571.png

本公众号回复“ 原文”即可获得R语言代码,文献等资料

这篇文章使用竞争风险模型来分析数据,那么何为竞争风险模型呢?

通常,我们在进行生存分析的时候,只会有关心一个结局变量。但当数据中有两种结局变量的时候应该怎么办呢?不妨看看竞争风险模型。今天让我们从定义与数据的角度来了解竞争风险模型。

一、定义

竞争风险分析是一种特殊类型的生存分析,旨在正确估计存在竞争事件时事件的边际概率。

描述生存过程的传统方法,例如 Kaplan Meier 乘积极限法(也称为Kaplan Meier估计器),其设计目的不是为了适应同一事件的多个原因的竞争性质,因此在分析特定原因事件的边际概率时,它们往往会产生不准确的估计。

因此,竞争风险模型有相应的分析方法,即累积发生率函数(Cumulative Incidence Function ,CIF),通过估计特定事件的边际概率作为其特定原因概率和总体生存概率的函数来解决此特定问题。

简单来说:一般的生存分析用 Kaplan Meier 乘积极限法,竞争风险分析用累积发生率函数CIF。

该方法结合了KM乘积极限方法的思想和竞争因果路径的思想,为一组受试者的多个竞争事件的生存体验提供了更可解释的估计。与许多分析一样,竞争风险分析包括一种非参数方法,该方法涉及使用修改的卡方检验来比较各组之间的 CIF 曲线,以及一种基于子分布风险函数对 CIF 进行建模的参数方法。

1.什么是“竞争事件”和“竞争风险”?

例如,在标准生存数据中,受试者在随访期间应该只经历一种类型的事件(如乳腺癌死亡);然而,在现实生活中,受试者可能会经历不止一种类型的特定事件(如,如果死亡率具有研究意义,那么我们的观察结果——肿瘤科的老年患者,可能会死于心脏病或乳腺癌,甚至交通事故)。

当这些不同类型的事件只能发生其中一种时,我们将这些事件称为“竞争事件”,从某种意义上说,它们相互竞争以传递感兴趣的事件,并且一种类型的事件的发生将阻止其他事件的发生。因此,我们将这些事件的概率称为“竞争风险”,从某种意义上说,每个竞争事件的概率都受到其他竞争事件的某种调节,这有一个适合描述由多种类型决定的生存过程的解释的事件。

以下有更多的实例中能用到竞争风险:

  • 研究乳腺癌癌症特异性死亡时,其他死亡原因(例如死于心脏病)与乳腺癌癌症特异性死亡形成竞争关系

  • 士兵可能会在战斗或交通事故中死亡

  • 研究谵妄与痴呆症发病率时,患者死亡与痴呆症发病率

2. 为什么我们不应该使用Kaplan Meier估计器?

与标准生存分析一样,竞争事件数据的分析目标是估计一段时间内许多可能事件中一个事件的概率,从而允许受试者在竞争事件中失败。在上面的例子中,我们可能想要估计一段时间内的乳腺癌死亡率,并想知道在调整或不调整协变量的情况下,两个或多个治疗组之间的乳腺癌死亡率是否存在差异。

在标准生存分析中,这些问题可以通过使用 Kaplan Meier 乘积极限法来获得随时间变化的事件概率,并使用 Cox 比例风险模型来预测该概率来回答。

同样,在竞争事件数据中,典型的方法涉及使用 KM 估计器来单独估计每种类型事件的概率,同时将除了因失访或退出而被审查的其他竞争事件视为被审查。这种估计事件概率的方法称为特定原因风险函数,其数学表达式为:

955213e896696b4ba8855cb30fcc00d1.png

随机变量 Tc 表示事件类型 c 发生故障的时间,因此,假定事件 c 在时间 t 之前未发生故障,则特定原因的危险函数 hc(t) 给出事件类型 c 在时间 t 时的瞬时故障率。

相应地,有一个基于 Cox 比例风险模型的特定原因风险模型,其公式为:

f0ed4e6ad91b2038e10ab76e96e64ec6.png 

事件类型 c 在时间 t 的比例风险模型允许协变量的影响因事件类型而异,如下标 beta 系数所示。

使用这些方法,人们可以单独估计每一项竞争事件的失败率。例如,在我们的乳腺癌死亡率示例中,当乳腺癌死亡是感兴趣的事件时,除了传统的审查观察之外,心脏病发作和所有其他原因导致的死亡也应该被视为审查。这将使我们能够估计乳腺癌死亡率的特定原因风险,并继续拟合乳腺癌死亡率的特定原因风险模型。当心脏病发作引起的死亡成为关注事件时,同样的程序也可以适用。

针对具体原因的方法的一个主要警告是,它仍然假设对那些实际上没有受到审查但在竞争事件中失败的受试者进行独立审查,就像标准审查制度(例如失访)一样。假设这个假设成立,当关注乳腺癌的特定原因死亡率时,那么在时间 t 时任何被审查的受试者都会有相同的乳腺癌死亡率,无论审查的原因是 CVD 还是其他死因,或失访。这个假设相当于说竞争事件是独立的,这是KM类型的分析有效的基础。

但是,无法明确测试任何给定数据集是否满足此假设。例如,我们永远无法确定一个死于心脏病的受试者如果没有死于心脏病,是否会死于乳腺癌,因为对于死于心脏病的受试者来说,死于癌症的可能性是无法观察到的。因此,特定原因风险函数的估计没有提供信息解释,因为它严重依赖于独立性审查假设。

3.解决办法是什么?

迄今为止,分析竞争事件数据的最流行的替代方法称为累积发生率函数 (CIF),它估计每个竞争事件的边际概率。

(边际概率定义为受试者实际发生感兴趣事件的概率,无论他们是否在其他竞争事件中受到审查或失败。)

在最简单的情况下,当只有一个感兴趣的事件时,CIF 应等于(1-KM)估计值。然而,当存在竞争事件时,每个竞争事件的边际概率可以根据 CIF 进行估计,CIF 是从我们之前讨论的特定原因危害中得出的。根据定义,边际概率不假设竞争事件的独立性,并且它的解释与临床医生在成本效益分析中更相关,在成本效益分析中,风险概率用于评估治疗效用。

3.1累积发生函数(CIF)

正如我们之前提到的,当没有竞争事件时,CIF 相当于 1-KM 估计器。当存在竞争事件时,CIF 与 1-KM 估计器的不同之处在于,它使用总体生存函数 S(t),该函数除了感兴趣的事件之外还对竞争事件的失败进行计数,而 1-KM 估计器使用事件类型特定的生存函数 Sc(t),它将竞争事件的失败视为已审查。

  • 通过使用总体生存函数,CIF 无需对竞争事件的审查独立性做出无法验证的假设。由于 S(t) 始终小于 Sc(t),因此在竞争事件数据中,CIF 始终小于 1-KM 估计值,这意味着 1-KM 往往会高估感兴趣的事件类型的失败概率。

  • 另一个优点是,根据定义,每个竞争事件的 CIF 是 S(t) 的一小部分,因此所有竞争事件的每个单独危险的总和应等于总体危险。 CIF的这一特性使得剖析整体危险成为可能,从而具有更实用的解释。

3.2 非参数分析

Gray (1988) 提出了一种非参数检验来比较两个或多个 CIF。该检验类似于比较 KM 曲线的对数秩检验,使用修改后的卡方检验统计量。该检验不需要独立审查假设。

参考文献:https://www.jstor.org/stable/2241622

3.3 参数分析

Fine 和 Gray (1999) 提出了比例风险模型,旨在通过将 CIF 曲线视为次分布函数,对带有协变量的 CIF 进行建模。次分布函数类似于 Cox 比例风险模型,不同之处在于它对从 CIF 派生的风险函数(称为次分布风险)进行建模。

https://www.jstor.org/stable/2670170

该模型满足所建模的亚群风险的比例风险假设,这意味着一般风险比公式与 Cox 模型基本相同,除了 Cox 模型中的系数 beta 被 Fine 和 Gray 中的 gamma 替换为细微的外观差异外。因此,我们应该以与 Cox 模型估计的 beta 类似的方式解释 gamma,只不过它估计存在竞争事件时某些协变量的影响。Fine 和 Gray 模型还可以扩展以允许依赖于时间的协变量。

二、数据与R语言代码

本公众号回复“ 原文 ”即可获得R语言代码,文献等资料

我们使用R语言自带的casebase包中的“bmtcrr”数据进行分析

92f98412809af13ff703b41f0590491f.png

查看前30行数据:

280e7c301bd076694e9fcc934ff4a3b4.png

可以看到,数据中,结局由ftime(时间变量)与Status(状态)组成,而Status中,分别是

  • 0:没有发生任何时间

  • 1:疾病复发

  • 2:发生其他事件(比如死亡)

由于死亡后无法观察到疾病是否复发,所以与状态1互为竞争事件。

使用str()函数查看数据类型

78fe4555049d680a50ec5ed8d9d6d88e.png

我们选择移植干细胞来源Source作为单因素探究方向:

2c9d2c102042141abc69245da87d7452.png

d872409b2bcd6882774f04a17fd9a3ed.png

结果解读:

第一行中,统计量为1.781492,P值为0.18196619>0.05。表明在控制了状态2(发生其他事件)时,干细胞来源BM+PB与PB的累积发生率没有统计学差异。

第二行中统计量为4.591711 ,P值为0.03212692<0.05。,表明在控制了状态1(复发)的情况下,BM+PM与PB的其他事件竞争风险累计发生率有统计学差异。

$ets 中数据为各时间节点时的CIF值,例如接受BM+PB患者的复发CIF为0.1904762。

$var 中数据为各时间点时CIF值的方差

画图:

ce02389c9cd7851d51a3643d40ee01ce.png

5c73abd3107b31a4fe2784c21f2aa002.png

图中与结果中的fit1$ets数据相同,以图像的形式呈现

多因素代码:

28bc3ed773bf8adac5ca7b3239fc6c17.png

我们先把所有自变量都变成数字的形式后,使用data.frame组合成一个数据集。使用crr () 进行分析。指定failcode=1, cencode=0, 分别代表结局事件1与截尾0,其他默认为竞争风险事件2。

5ec172298ac1fbb0252d5684389930b7.png

我们重点关注其中的p-value,表示该变量是否有统计学差异,exp(coef) 为风险比的值,2.5%与97.5%为95%置信区间。其中phase变量的P值小于0.05,表明在多因素模型中,该变量有统计学差异。即移植阶段是患者复发的独立影响因素。

参考文献:

https://www.jstor.org/stable/2241622

https://www.jstor.org/stable/2670170

https://www.publichealth.columbia.edu/research/population-health-methods/competing-risk-analysis

本公众号回复“ 原文 ”即可获得R语言代码,文献等资料

本公众提供各种科研服务了!

一、课程培训

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看:

发文后退款:2024-2025年科研统计课程介绍

二、数据分析服务

浙江中医药大学郑老师团队接单各项医学研究数据分析的服务,提供高质量统计分析报告。有兴趣了解一下详情:

课题、论文、毕业数据分析 

 临床试验设计与分析 公共数据库挖掘与统计

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com
### 回答1: Linux内核是一种开源的操作系统内核,是Linux操作系统的核心组成部分。它提供了操作系统与硬件之间的抽象层,负责管理系统的资源、调度任务、提供驱动程序等功能。 Linux内核采用分层的架构,包括硬件抽象层、系统调用层、进程管理层、文件系统层和网络层等。硬件抽象层负责将不同硬件设备的接口统一起来,使得上层的软件可以方便地与硬件进行通信。系统调用层提供了一组API供用户进程调用,如文件操作、网络通信等。进程管理层负责进程的创建、销毁以及调度等任务。文件系统层负责文件的管理和存储。网络层负责网络协议的实现和网络通信。 Linux内核的工作原理可以简单概括为以下几个关键步骤。首先,当一台计算机启动时,BIOS会加载内核映像到内存中,并执行启动代码。然后,内核初始化各种数据结构、驱动程序和关键服务。接下来,内核创建一个初始的用户空间进程,称为init进程。init进程是所有其他进程的祖先进程。在此之后,内核根据调度算法来决定哪个进程可以使用CPU,并依次执行。同时,内核会提供一个中断机制,以便处理硬件事件的优先级。 内核还提供了许多系统调用供用户进程调用,以实现对各种功能的访问。当用户进程需要操作文件、创建进程或进行网络通信时,会通过系统调用将请求传递给内核,由内核代表用户进程执行相应的操作。内核通过调度算法来分配CPU时间片,并通过虚拟内存管理来管理内存资源的分配和回收。 总而言之,Linux内核是一个高度可配置和模块化的操作系统内核,通过分层架构和系统调用机制实现了对硬件的抽象和对用户进程的管理。了解Linux内核的架构和工作原理,有助于深入理解Linux操作系统以及开发和调试相关应用程序。 ### 回答2: Linux是一种开源的操作系统内核,其设计目标是为了在不同的计算机硬件平台上提供高效的、稳定的和安全的操作系统服务。 Linux内核的架构可以分为三个主要部分:进程管理、内存管理和文件系统管理。 在进程管理方面,Linux内核使用了多任务处理技术,可以同时运行多个进程。每个进程都有独立的地址空间和资源,通过调度算法可以合理分配CPU时间片,优化系统的响应速度和资源利用率。 在内存管理方面,Linux内核使用了虚拟内存技术,将物理内存和逻辑内存进行了映射,使得每个进程都有独立的地址空间。当物理内存不足时,Linux内核会通过页面置换算法将暂时不使用的页写入磁盘交换空间,以释放物理内存供其他进程使用。 在文件系统管理方面,Linux内核支持多种文件系统,包括传统的ext3和ext4文件系统,以及现代的Btrfs和XFS文件系统。它负责文件的读写操作,以及文件的权限控制和磁盘空间的管理。 Linux内核的工作原理可以简单概括为以下几个步骤:首先,启动引导程序将内核加载到内存中,并进行初始化。然后,内核分配一部分内存作为内核空间,用于存放内核代码和数据结构。接着,内核根据系统的硬件配置进行设备的初始化和驱动程序的加载。之后,内核根据系统的启动参数和配置文件进行一系列的初始化工作,包括启动系统服务和加载用户程序。最后,内核进入主循环,不断地处理中断、调度进程、管理内存和文件系统,以提供稳定的操作系统服务。 总之,Linux内核是一个复杂而高效的软件系统,它通过进程管理、内存管理和文件系统管理等功能,实现了操作系统的基本功能。了解Linux内核的架构和工作原理,有助于我们更好地理解和使用这个优秀的开源操作系统。 ### 回答3: Linux内核是一个开放源代码的操作系统内核,由一个核心程序和一组通用的系统工具组成。它是Linux操作系统的核心,负责处理硬件设备、管理系统资源、实现进程管理、文件系统和网络功能等。 Linux内核的架构可以分为两个层次:用户空间和内核空间。用户空间包括用户应用程序,如图形界面、终端程序等,它们通过系统调用接口与内核进行通信。内核空间包括内核核心的数据结构和程序,用于管理和控制硬件资源。 Linux内核的工作原理可以概括为以下几个方面: 1. 进程管理:内核负责创建、调度和终止进程。它使用进程描述符(task_struct)来跟踪进程的状态和资源使用情况,并根据调度算法分配CPU时间片给不同的进程。 2. 内存管理:内核负责管理系统的物理内存和虚拟内存。物理内存管理包括内存分配和释放,虚拟内存管理包括页面置换和页面回写等策略,以优化内存的使用效率。 3. 文件系统:内核提供文件系统接口,管理文件和目录的创建、读写和删除等操作。它通过虚拟文件系统层(VFS)将不同的文件系统统一管理,如ext4、NTFS等。 4. 设备驱动:内核提供了访问硬件设备的接口,通过设备驱动程序与硬件交互。不同的硬件设备需要不同的驱动程序,如网卡、显卡、声卡等。 5. 网络功能:内核提供TCP/IP协议栈和网络设备驱动程序,用于实现网络通信功能。它提供网络连接的建立、数据传输和断开等功能,支持各种网络协议,如HTTP、FTP、SSH等。 总的来说,Linux内核是一个非常复杂且功能强大的软件,它负责管理计算机的各种资源和提供操作系统的各种功能。通过深入理解其架构和工作原理,我们可以更好地理解和使用Linux操作系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值