公共数据库GBD(全球疾病负担) 于5.16 已经发布最新版2021年数据集。全球疾病负担(GBD)是迄今为止规模最大、最全面的一项研究,旨在量化不同地区和不同时期的健康损失,从而改善卫生系统并消除差异。继前两篇利用GBD数据绘图(双Y轴图和热力图)文章后,本期迎来GBD数据的第三篇文章——基于GBD数据构建Age-Period-Cohort(APC)模型。
一、年龄-时期-队列模型(APC)
1.简介
APC 模型应用于估计年龄、时期和队列三者独立因素对慢性非传染性疾病发病率或死亡率的影响。年龄效应代表了随着年龄增加对某结局的影响大小,时期效应指的是随着时间推移结局发生变化,队列效应反映了不同年代出生的群体由于出生方式改变或暴露不同导致的结局不同。
2.应用
二、基于GBD数据建立APC模型
1.年龄-时期-队列提取划分
本研究从GBD2021数据库中提取1990-2021年中国某种癌症的发病数据,由于考虑到 20 岁以下年龄组该癌症发病较他年龄组小得多,故选取20岁以上年龄段人群,同时对80岁以上年龄组不再细化,将≥80岁人群统称为80~84岁组,最终按每5岁一组分为13个年龄组(20~24,25~29......75~79,80~84);将1990—2019 年以每5年划分为一个时期组:1990~1994、1995~1999......2015~2019(因2020-2021未满5年,无法划分,仅对1990-2019年进行),共划分得到 6 个时期组;出生队列 = 时期 - 年龄,早期队列:1990-80=1910,晚期队列:2015-20=1995,出生队列的重叠现象通过取中值加以避免,最终得到1910、1915、1920......1995等18个队列组。
2.年龄层人群提取
根据后续APC网页分析工具界面要求,我们需要准备的数据是1990-2019年中国不同年龄层的癌症发病(死亡)数以及所在年龄层的人群数,此部分数据同样可从GBD2021 Result Tools中下载获取,由于GBD中提供的人群年份数据均为单一年份,需要将其取平均值合并成5年的区段数据。具体操作见后续代码。
3.基于R语言的数据清理
####基于GBD数据的年龄-时期-队列模型构建####
rm(list = ls())
setwd("I://gbddata")
##纳入软件包##
library(readxl)
library(dplyr)
library(reshape2)
library(purrr)
##纳入口腔癌发病数据##
gbd_cancer<-read_xlsx("ihme-gbd_2021_data.xlsx",sheet = 1)%>%data.frame()
gbd_cancerdata<-filter(gbd_cancer,measure_name=="Incidence",sex_id==3,age_id%in%9:21,metric_name=="Number")%>%select(age_name,year,val)
##纳入标准人口数据##
gbd_pop<-read.csv("IHME-GBD_2021_population.csv",header=T)
gbd_pop<-filter(gbd_pop,sex_id==3,age_id%in%9:21)%>%select(age_name,year,val)
##调用自定义函数==将5个单一的年份取平均值合并成5年的区段数据,以适用于网页APC模型的构建##
source("function_five.R")
##构建人群数据集##
table(gbd_pop$age_name)%>%names()->nn
yearcut<-c("1990~1994","1995~1999","2000~2004","2005~2009","2010~2014","2015~2019","2020~2021")
ll<-list()
for(i in 1:length(nn)){
a<-filter(gbd_pop,age_name==nn[i])
a$aval<-rep(function_five(a$val),c(rep(5,6),2))
a$yearcut<-rep(yearcut,c(rep(5,6),2))
ll[[i]]<-a
}
b<-ll[[1]]
for(i in 1:length(nn)){
b<-rbind(b,ll[[i+1]])
}
gbd_popa<-b##完成人群数据集构建##
##构建发病数据集##
ll<-list()
for(i in 1:length(nn)){
a<-filter(gbd_cancerdata,ag

本文介绍如何利用GBD2021数据构建年龄-时期-队列(APC)模型,分析中国某种癌症1990-2019年的发病率。通过对不同年龄、时期和队列的划分,揭示年龄效应、时期效应和队列效应。数据清理和模型构建过程在R语言中完成,并展示了APC模型在网页应用中的操作和结果。
最低0.47元/天 解锁文章
4284

被折叠的 条评论
为什么被折叠?



