GBD数据库分析高分技巧——分层聚类

详情请点击下方:

优惠了!第2期GBD公共数据库挖掘1对1指导班,快速撰写SCI


GBD数据库本身就是一个可用于研究全球疾病负担的数据库,数据全面、分析简单,无论是统计小白还是科研医生都能用这个数据库进行探索。但要想在众多文章中脱颖而出,不妨添加一些“套路”。

今天就用一篇一区top文章为大家讲清楚,如何用层次聚类对GBD数据库进行聚类分析。

简单来说,聚类分析就像是把一堆不同的水果(如苹果、香蕉、橙子)根据它们的特征(如颜色、大小、形状)分成几类。

ac00adebae116be66c0a9bcc033f868c.png

聚类分析的本质,就是对变量进行分类,研究者依据自身对变量和理论的了解,将具有相同性质的变量分为一类。如果你也想在挖掘GBD数据库时尝试这个分析套路,欢迎联系郑老师的统计团队!专业的统计师指导,不管是聚类分析还是预测模型,都可以带你尝试!如果你对GBD数据库挖掘感兴趣,扫描下方二维码来聊聊吧!

接下来我们将以一篇GBD聚类文章为例,为大家解读如何用聚类分析对不同地区的数据进行分类。

2024年3月12日,英国伦敦国王学院的作者在《Science of The Total Environment》(医学一区top,IF=8.2)中发表的题为:“Effect of ambient ozone pollution on disease burden globally: A systematic analysis for the global burden of disease study 2019”的研究论文,旨在探究GBD环境臭氧污染对于全球疾病负担的影响。

072ac743a090a2d2bfc08b5e67eee24b.png

本文有两大亮点:第一点为在数据分析时使用了分层聚类分析的方法;第二点为文章方向为臭氧对所有疾病的疾病负担。

接下来本文将从这两点进行简单介绍。

何为分层聚类分析?

当我们在网上搜“聚类分析”时,跳出来的第一句话就是“聚类分析是一种无监督学习的方法,旨在将数据集中的样本划分为具有相似特征的不同组”。

问题来了,什么是无监督式学习?和监督式学习有什么区别?

简单来讲,有监督学习就像老师教孩子识别苹果和香蕉,给出明确的“这是苹果”、“那是香蕉”的指示,孩子学会了根据这些标签来分类。

而无监督学习则是一群孩子在沙滩上玩耍,没有大人告诉他们怎么玩,他们自己分群、堆沙堡或挖沙子,形成了自然的群体和活动模式。

如果公式的角度,我们可以从最简单的线性回归来理解:

Y=aX+b

公式中的Y为响应变量向量,X为自变量向量,a为系数,b为截距。将所有数据都告知,得出最后的Y,这就是一个简单的有监督式学习的公式。

而无监督式学习呢,就是没有Y这个响应变量,只有自变量X。而是通过自变量X之间的一些数据特性进行聚类,降维,关联规则学习。

我们今天要说的层次聚类(Hierarchical Clustering)就是聚类分析中的一种。层次聚类目的是把每个数据点作为一个独立的簇开始,然后逐步合并最相似的簇,直到所有的数据点被合并到一个簇中或达到了预定的簇。

举个例子,在200个水果中有苹果,葡萄,龙眼,橙子,西瓜找出类似的。那聚类会更具形状,大小,颜色来把这些水果分组。如果目标是分成3组,那可能开始时200个水果会按各自的大小,颜色聚集到同一个簇中,最终可能以葡萄和龙眼组,苹果和橙子组,西瓜组分成3个大组。

文章内容

接下来将对文章内容进行简单介绍。

暴露于环境臭氧污染会造成健康损失甚至死亡,两者都是世界范围内疾病负担的主要危险因素。因此本文的研究团队基于GBD 2019的数据,综合综合评价臭氧污染相关疾病负担。

9e2813f4fe79408f580ac9e4043339c8.png

初步分析表明,2019年,臭氧污染导致全球365,222人死亡,6,210,145人死亡,占全球死亡人数的0.65%,占全球DALYs的0.24%。

722f2c1203d3edc2ca32640628b1f3ba.png

研究团队发现,疾病负担随着年龄的增长而持续增加,其中男性为高危人群,中低社会人口指数(SDI)区域为高危区。

e4fde396941da940708ec809fe624c41.png

由于臭氧污染的疾病负担在GBD区域和各国之间差别很大,因此研究团队使用聚类分析评价全球疾病负担研究(GBD)地区相关疾病负担的变化规律。

ce59a311cf1952260d846d0ff4455fbf.png

结果发现,2019年,与1990年相比,死亡人数和残疾病例数分别增长了76.11%和56.37%。

最后,使用率年龄-时期-队列(APC)模型和贝叶斯年龄-时期-队列(BAPC)模型预测未来25年的疾病负担。结果显示,从2020年到2044年,男女死亡病例数和残疾调整生命年病例数仍将增加。

综上所述,如今环境臭氧污染已经威胁到全球公众的健康。应考虑全球具体情况,制定更积极有效的战略措施。

总之,将分层聚类方法应用于GBD数据库的分析中,不仅可以细化数据的分层结构,丰富研究成果的多样性,增强数据可视化的效果,从而使研究报告更加具有创新性和说服力。


详情请点击下方:

没数据?来学习GBD课程吧!利用全球健康数据,1-2个月快速撰写SCI论文

BAPC(Bayesian Age-Period-Cohort)预测模型是一种统计模型,它用于分析和预测在考虑年龄、时期和队列效应影响下的数据。这种模型特别适用于人口学、流行病学和市场营销等领域,其中数据受到这些时间相关因素的影响。BAPC模型通常通过贝叶斯方法来实现,利用贝叶斯推断来估计模型参数。 在R语言中,可以使用不同的包来实现BAPC模型,比如`apc`或`BAMP`。但是,R中并没有一个专门叫做BAPC的包。以下是一个简单的例子,演示如何使用`apc`包进行年龄-时期-队列模型的分析。请注意,这里仅提供了代码的一个基本框架,你可能需要根据自己的具体数据和研究目的进行适当的调整。 ```R # 安装并加载apc包 install.packages("apc") library(apc) # 假设你有一个名为data的数据框,其中包含以下列: # year: 年份 # age: 年龄 # count: 每一年每个年龄组的计数数据 # age.group: 年龄分组变量 # 使用apc包中的函数来拟合模型 # apc_fit 是模型拟合对象 apc_fit <- apc模型拟合函数(data$year, data$age, data$count) # 查看模型结果 summary(apc_fit) # 进行预测 # predict函数中的newdata需要包含你想要预测的年份、年龄和队列信息 predictions <- predict(apc_fit, newdata=你的新数据框) # 打印预测结果 print(predictions) ``` 请记住,上述代码仅为示例,并不代表实际可用的代码。在实际应用中,需要根据数据的具体情况和分析需求来选择和调整合适的统计模型和分析方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值