一区IF 12.9!NHANES+机器学习成发文主流 | NHANES数据库周报(10.26~11.1)

a9699b4c1329e7514287ccddf72c42a4.png

美国国家健康和营养检查调查(NHANES)是一项旨在评估美国成人和儿童健康和营养状况的研究计划。该调查的独特之处在于它结合了访谈和体格检查。由美国疾病控制和预防中心(CDC)负责为国家提供健康统计数据。

NHANES计划始于20世纪60年代初,并作为一系列针对不同人口群体或健康主题的调查进行。自1999年以来,对美国的人口健康状况进行了更为定期的调查。每次调查中,来自美国约3000个县中30个选定县的约10000名参与者被要求在移动检查中心(MEC)参加家庭访谈、随后的身体检查和实验室测试。

NHANES访谈包括人口统计,社会经济,饮食和健康相关问题。检查部分包括医疗,牙科和生理测量,以及由训练有素的医务人员进行的实验室测试。

ed46a9ace5e65b677c30a3d72dd791bf.jpeg

一、2024年NHANES文献预览

本周PubMed数据库“标题/摘要:NHANES”搜索发现,共发表101篇NHANES论文。其中6篇一区,36篇二区

1.外国学者文章介绍(一)

a7ba7f752b826b0eacdd3c4901f9e6fc.png

文章题目:采用集成机器学习对临床风险预测算法进行基准测试,用于非酒精性脂肪肝肝纤维化的无创诊断。

研究背景与目的:Ensemble机器学习方法,如超级学习器,将联合收割机多个模型组合成一个模型,以提高预测准确性。在这里,我们探索了超级学习者作为临床风险预测基准工具的潜力,说明了在NAFLD患者中识别显著肝纤维化的方法。

方法 :我们使用23个人口统计学/临床变量来训练来自NASH临床研究网络观察性研究(n = 648)的数据的超级学习者,并使用来自FLINT试验(n = 270)和全国健康和营养调查(NHANES)的NAFLD参与者(n = 1244)的数据验证模型。

结果:将超级学习者的性能与现有模型进行比较(纤维化-4 [FIB-4]、NAFLD纤维化评分、Forns、AST与血小板比率指数[APRI]、BARD和脂肪变性相关纤维化估计值[SAFE]),在FLINT和NHANES验证集中表现出较强的区分能力,AUC为0.79(95%CI:0.73-0.84)和0.74(95%CI:0.68-0.79)。

结论:值得注意的是,SAFE评分与超级学习者的表现相似,两者在验证数据集中的表现都优于FIB-4,APRI,Forns和BARD评分。令人惊讶的是,来自12个基本模型的超级学习者的表现与90个基本模型的表现相匹配。总体而言,超级学习者作为“同类最佳”机器学习预测器,在检测纤维化NASH方面表现出色,这种方法可用于对传统临床风险预测模型的性能进行基准测试。

33211818e76c8cce005c03bd1c4cb473.png

### NHANES 数据集在机器学习中的应用 NHANES(National Health and Nutrition Examination Survey)是个综合性的健康和营养调查项目,涵盖了大量的人口统计数据、体检结果以及实验室检测数据。这些丰富的多维度数据使得NHANES为进行各种医学研究的理想资源。 #### 使用R语言处理NHANES数据 为了方便获取和预处理NHANES数据,在R环境中可以直接利用专门设计用于访问该数据库的包来简化操作流程[^1]。例如,可以通过编写自定义函数实现自动化下载特定年份或主题的数据文件,并将其转换适合进步分析的形式。 ```r library(nhanesA) download_nhanes_data <- function(year, component){ data <- nhanes_get_data(year=year, component=component) return(data) } # 下载2017-2018年度的身体测量组件数据 body_measurements_2017_2018 <- download_nhanes_data("2017-2018", "BMX") ``` #### 构建预测模型 当涉及到具体的机器学习应用场景时,可以根据不同的业务需求选取合适的算法和技术手段。对于医疗领域而言,常见的任务可能包括但不限于疾病诊断辅助决策支持系统开发、风险评估指标挖掘等方面的工作。下面将以糖尿病患病概率估计为例展示如何基于随机森林分类器建立个简单的预测框架: ```python from sklearn.ensemble import RandomForestClassifier import pandas as pd def train_diabetes_prediction_model(df): X = df[[&#39;age&#39;, &#39;bmi&#39;, ...]] # 特征列 y = df[&#39;diabetic&#39;] # 目标变量 model = RandomForestClassifier() model.fit(X,y) return model # 假设已经加载好经过清洗后的DataFrame对象df model = train_diabetes_prediction_model(df) ``` 值得注意的是,在实际工作中还需要考虑更多细节问题,比如特征工程的选择、超参数调优策略等。此外,由于涉及个人隐私保护等因素的影响,务必遵循相关法律法规的要求妥善保管所使用的敏感信息[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值