NHANES更新数据后,权重计算方式也更新了

NHANES更新数据后,权重计算方式也更新了

免责声明:我懒,不出教程。

官网说明在此:

https://wwwn.cdc.gov/nchs/nhanes/analyticguidelines.aspx

如果你比我还懒,我下载了几个说明文件。

2021 年 8 月至 2023 年 8 月的总样本量与之前的 2 年周期相似。然而,由于没有按种族和西班牙裔血统和收入进行过度抽样,因此人口统计亚组的样本量不同。特别是,与之前包括过度抽样的周期相比,非西班牙裔白人的样本量较高,而非西班牙裔黑人的样本量较低。此外,60 岁及以上人群的样本量较高,而年轻群体的样本量较低。子组的估计值可能具有较低的精确度,因此,检测组间差异的统计能力可能较低。此外,年龄和种族/西班牙裔亚组(尤其是儿童和青少年年龄组)的估计值可能会显示意想不到的模式。与任何基于调查样本的估计一样,敦促分析师在评估结果时考虑合理性、背景和趋势。

NHANES 2017-2020 年 3 月疫情前

由于 2019 年冠状病毒病 (COVID-19) 大流行,NHANES 计划于 2020 年 3 月暂停了现场作业。因此,NHANES 2019-2020 周期的数据收集尚未完成,收集的数据不具有全国代表性。因此,将 2019 年至 2020 年 3 月收集的数据与 NHANES 2017-2018 周期的数据相结合,形成具有全国代表性的 NHANES 2017-2020 年 3 月大流行前数据样本。

2017 年至 2020 年 3 月疫情前的数据为3.2 年,而之前发布的数据为 2 年。分析人员可能希望将 2017-2020 年 3 月的数据文件与之前的周期相结合,以增加低患病率结局或亚组的样本量。如果完成,则应调整调查权重,以反映 2017-2020 年 3 月文件所代表的较长时期和较大人口。例如,将 2015-2016 年和 2017-2020 年 3 月的文件合并将得到一个代表 5.2 年的数据文件,调查权重应调整如下:2015-2016 年的调查权重应乘以 2/5.2(2015-2016 年周期代表的 5.2 年期间的分数),同样,2017-2020 年 3 月的调查权重应乘以 3.2/5.2。

NHANES 2021 年 8 月至 2023 年 8 月

分析师在将 2021 年 8 月至 2023 年 8 月与较早的周期相结合时应谨慎。2021 年 8 月至 2023 年 8 月的周期代表为期两年的数据收集期。然而,2017 年至 2020 年 3 月疫情前周期的数据收集结束与 2021 年 8 月至 2023 年 8 月周期的开始之间存在 1.5 年的差距。将 2021 年 8 月至 2023 年 8 月与早期周期相结合的横断面分析假设两个周期之间(即 2020 年 4 月至 2021 年 7 月)之间未观察到的数据与观察到的数据没有显着差异。鉴于在疫苗可用之前 COVID-19 大流行期间医疗保健服务、就业和教育中断,这种假设对于某些健康行为和结果可能不合理。2021 年 8 月至 2023 年 8 月期间,大流行时期的限制逐渐放松,对 COVID 的免疫力变得更加普遍。7 分析师应参考 2021 年 8 月至 2023 年 8 月数据收集之前涵盖疫情早期的其他数据源,以尽可能验证这一假设。

随着放血权重的增加,分析师将需要考虑哪些调查权重最适合使用。 NHANES 教程回顾了如何使用应使用最小子集的权重的原则为 NHANES 分析选择合适的调查权重。例如,如果分析同时包括访谈和检查变量,则应使用检查权重,因为它们说明了受访者对检查的无反应。对于这个循环,当包括血液分析物变量时,最好使用静脉切开权重,该权重说明对 MEC 中抽血无反应。然而,静脉切开术无反应的模式可能与检查后的调查内容不同,特别是饮食访谈。对于包括来自静脉切开部分和膳食访谈的变量的分析,可能最好使用膳食权重来说明进行访谈的星期几。由于膳食体重没有考虑缺失的血液分析物值,因此分析人员仍应评估分析中血液分析物值和其他变量的缺失响应如何引入偏倚。

### NHANES 数据库中的权重计算方法 在NHANES数据库中,样本权重对于确保数据分析结果能够代表整个美国人群至关重要。由于NHANES采用的是复杂分层、多阶段概率抽样设计,因此简单随机抽样的假设不成立。 为了正确应用这些权重,在处理NHANES数据时应遵循以下原则: #### 1. 理解不同类型的权重变量 NHANES提供了多种不同的权重变量来适应不同类型的研究需求。例如,`WTINT2YR` 是两年周期访谈的样本权重,适用于大多数流行病学研究[^1]。 #### 2. 加载必要的软件包并读取数据 要有效地操作和分析带有权重数据集,建议使用专门针对NHANES优化过的 R 包 `RNHANES` 或者其他类似的工具。下面是一个简单的加载过程示例: ```r library(RNHANES) data <- nhanes_load_data("DEMO_H", "2017-2018") weights <- data$WTINT2YR ``` 这段代码展示了如何利用 `RNHANES` 包导入特定年份(此处为2017-2018)的人口统计信息,并提取相应的样本权重向量 `WTINT2YR`。 #### 3. 使用加权函数执行统计分析 当涉及到实际的统计建模或描述性统计时,应当始终考虑使用权重参数。以下是几个常见场景下的实现方式: ##### 描述性统计 对于基本的汇总统计,如均值、百分位数等,可以通过设置 `svydesign()` 函数创建一个调查对象实例,再调用相应的方法来进行加权估计: ```r library(survey) # 创建调查设计对象 designed_data <- svydesign(ids=~SDMVPSU, strata=~SDMVSTRA, weights=~WTINT2YR, nest=TRUE, data=data) # 获取加权平均年龄 weighted_mean_age <- svymean(~RIDAGEYR, designed_data) print(weighted_mean_age) ``` 这里定义了一个基于NHANES结构化特征的设计方案,并对其进行了加权后的年龄均值计算。 ##### 回归模型构建 同样地,在建立回归方程时也需指定权重选项以保证结论的有效性和代表性: ```r model <- svyglm(DIQ010 ~ RIAGENDR + RIDAGEYR, design=designed_data, family="binomial") summary(model) ``` 此段脚本说明了怎样在一个逻辑斯蒂回归框架内加入性别 (`RIAGENDR`) 和年龄作为预测因子的同时考虑到样本权重的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值