一区IF 12.9!NHANES+机器学习成发文主流 | NHANES数据库周报(10.26~11.1)

a9699b4c1329e7514287ccddf72c42a4.png

美国国家健康和营养检查调查(NHANES)是一项旨在评估美国成人和儿童健康和营养状况的研究计划。该调查的独特之处在于它结合了访谈和体格检查。由美国疾病控制和预防中心(CDC)负责为国家提供健康统计数据。

NHANES计划始于20世纪60年代初,并作为一系列针对不同人口群体或健康主题的调查进行。自1999年以来,对美国的人口健康状况进行了更为定期的调查。每次调查中,来自美国约3000个县中30个选定县的约10000名参与者被要求在移动检查中心(MEC)参加家庭访谈、随后的身体检查和实验室测试。

NHANES访谈包括人口统计,社会经济,饮食和健康相关问题。检查部分包括医疗,牙科和生理测量,以及由训练有素的医务人员进行的实验室测试。

ed46a9ace5e65b677c30a3d72dd791bf.jpeg

一、2024年NHANES文献预览

本周PubMed数据库“标题/摘要:NHANES”搜索发现,共发表101篇NHANES论文。其中6篇一区,36篇二区

1.外国学者文章介绍(一)

a7ba7f752b826b0eacdd3c4901f9e6fc.png

文章题目:采用集成机器学习对临床风险预测算法进行基准测试,用于非酒精性脂肪肝肝纤维化的无创诊断。

研究背景与目的:Ensemble机器学习方法,如超级学习器,将联合收割机多个模型组合成一个模型,以提高预测准确性。在这里,我们探索了超级学习者作为临床风险预测基准工具的潜力,说明了在NAFLD患者中识别显著肝纤维化的方法。

方法 :我们使用23个人口统计学/临床变量来训练来自NASH临床研究网络观察性研究(n = 648)的数据的超级学习者,并使用来自FLINT试验(n = 270)和全国健康和营养调查(NHANES)的NAFLD参与者(n = 1244)的数据验证模型。

结果:将超级学习者的性能与现有模型进行比较(纤维化-4 [FIB-4]、NAFLD纤维化评分、Forns、AST与血小板比率指数[APRI]、BARD和脂肪变性相关纤维化估计值[SAFE]),在FLINT和NHANES验证集中表现出较强的区分能力,AUC为0.79(95%CI:0.73-0.84)和0.74(95%CI:0.68-0.79)。

结论:值得注意的是,SAFE评分与超级学习者的表现相似,两者在验证数据集中的表现都优于FIB-4,APRI,Forns和BARD评分。令人惊讶的是,来自12个基本模型的超级学习者的表现与90个基本模型的表现相匹配。总体而言,超级学习者作为“同类最佳”机器学习预测器,在检测纤维化NASH方面表现出色,这种方法可用于对传统临床风险预测模型的性能进行基准测试。

33211818e76c8cce005c03bd1c4cb473.png

### NHANES 临床数据库的数据挖掘方法 #### 导入必要的库并加载数据 为了有效地挖掘NHANES临床数据库,首先需要安装和加载所需的R包,并读取CSV文件中的数据。这可以通过以下命令完: ```r library(tableone) library(survey) bc <- read.csv("E:/nhanes/nhanes.csv", sep = &#39;,&#39;, header = TRUE) ``` 这些操作确保了后续处理能够顺利进行[^1]。 #### 创建描述性统计表格(基线表) 利用`tableone`包创建基线表对于理解数据集的整体结构至关重要。通过指定分组变量和其他参数,可以生详细的汇总统计数据。具体实现如下所示: ```r # 假设 &#39;group&#39; 是分类变量名 tab1 <- CreateTableOne(vars = c(&#39;age&#39;, &#39;bmi&#39;), data = bc, factorVars = "sex", strata = "group") print(tab1, showAllLevels = TRUE) ``` 此过程有助于识别不同子群体之间的差异以及潜在的趋势。 #### 处理缺失值问题 由于NHANES数据库中可能存在大量的缺失值,因此对其进行适当管理非常重要。种常用的技术是对缺失值执行多重插补,以减少因删除不完全记录而引起的偏倚风险。下面展示了如何应用链式方程法来进行这工作: ```r library(mice) imp_data <- mice(bc[,c(&#39;var_with_missing&#39;,&#39;other_vars&#39;)], method=&#39;pmm&#39;, m=5, maxit=50) completed_datasets <- complete(imp_data, action="long", include = FALSE) ``` 这里选择了预测均值匹配(`pmm`)作为具体的插补算法之;同时设置了五个平行版本的填补后的数据集用于进步分析[^2]。 #### 应用加权回归模型 考虑到NHANES样本设计的特点,在构建任何类型的回归模型之前都应考虑加入权重因子。这样做的目的是使估计结果更接近总体特征而非简单随机样本特性。例如在线性回归场景下可采取如下做法: ```r design <- svydesign(ids=~SDMVPSU ,stratums =~ SDMVSTRA ,weights =~ WTMEC2YR ,data=bc ) model_fit <- svyglm(outcome ~ predictor1 +predictor2 , design=design,family=gaussian()) summary(model_fit) ``` 上述代码片段说明了怎样定义调查设计方案并通过调用`svyglm()`函数拟合广义线性模型来解释目标响应变量与协变量间的关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值