NHANES数据挖掘|特征变量对死亡率预测的研究设计与分析

书接上回,应各位临床或在科室的小伙伴们需求,除了多组学和算法开发外,插播关于临床护理方向的数据挖掘,今天分享两篇NHANES的分析文献。

1、时依+中介分析


DOI: 10.1186/s12933-024-02191-5

整体思路

基于 NHANES 数据库(2009-2014),研究了中性粒细胞与淋巴细胞比值(NLR)与高血压患者全因死亡率及心血管死亡率之间的关系。研究共纳入 3067 名高血压患者,通过随访 92 个月 的数据,发现 NLR 的升高与死亡风险呈正相关。

  • 生存分析: 采用 Kaplan-Meier 方法绘制生存曲线,用 Log-Rank 检验组间差异。
  • Cox 回归模型: 多变量加权 Cox 比例风险模型评估 NLR 与全因死亡及心血管死亡的关联。
  • 非线性分析: 使用限制性三次样条(RCS)探讨 NLR 与死亡风险的非线性关系。
  • 预测能力: 使用 ROC 曲线和时间相关 AUC 评估 NLR 的死亡预测能力。
  • 中介分析: 探讨肾小球滤过率(eGFR)在 NLR 与死亡风险之间的中介作用。

变量

年龄、性别、种族、教育水平、吸烟状况、体重指数 (BMI)、糖尿病、心血管疾病 (CVD) 史、糖化血红蛋白 (HbA1c)、高密度脂蛋白胆固醇 (HDL)、低密度脂蛋白胆固醇 (LDL)、总胆固醇 (TC)、甘油三酯 (TG) 和估计肾小球滤过率 (eGFR)

结果


通过限制性三次样条可视化NLR 与高血压患者全因死亡率 ( A ) 和心血管死亡率 ( B ) 之间的关联。风险比根据年龄、性别、种族、BMI、吸烟状况、教育水平、糖尿病、心血管疾病史、HDL、LDL、TG、TC、HbA1c 和 eGFR 进行了调整


NLR 值较高(> 3.5)和较低(≤ 3.5)的生存率 Kaplan–Meier 曲线。A全因死亡率;B心血管死亡率


用于预测全因死亡率( A、B)和心血管死亡率(C、D)的 NLR 的时间相关 ROC 曲线和时间相关 AUC 值(95% 置信区间)


eGFR 对 NLR 与生存率之间关系的中介作用(A,全因死亡;B,心血管死亡)。根据年龄、性别、种族、BMI、吸烟状况、教育水平、糖尿病、心血管疾病史、HDL、LDL、TG、TC 和 HbA1c 进行调整

2、Cox生存+RCS分析


DOI: 10.1186/s12933-024-02173-7

整体思路

NHANES 数据库(2001-2018) 和美国国家死亡指数(NDI),探讨了三种胰岛素抵抗(IR)替代指标(HOMA-IR、TyG 指数和 TyG-BMI 指数)与冠心病(CHD)合并高血压患者全因死亡率之间的关系。通过对 1126 名患者 长达 76 个月的随访数据分析,发现 HOMA-IR 是全因死亡率的可靠预测因子,且其与生存率的关系呈 U 型曲线。

三类指标计算:HOMA-IR: 基于空腹血糖和胰岛素;TyG 指数: 基于甘油三酯和空腹血糖;TyG-BMI 指数: TyG 指数与 BMI 的乘积。

  • Cox 回归模型: 评估不同 IR 替代指标与全因死亡率的线性关系。
  • RCS 分析: 探讨 IR 替代指标与生存状态之间的非线性关系,并确定临界点。
  • 分段 Kaplan-Meier 分析: 验证 HOMA-IR 的分段效应。
  • 模型评估: 使用 ROC 曲线和 AUC 值评估预测能力,并进行分层和交互作用分析。

变量

  1. 人口统计学数据包括年龄、性别、种族、教育水平、婚姻状况和收入-贫困率 (PIR)。
  2. 病史信息包括糖尿病、癌症、心力衰竭、中风、慢性阻塞性肺病 (COPD)、使用降血糖和降脂处方药、吸烟、BMI、腰围和臀围。
  3. 实验室血液检查数据包括低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、总胆固醇(TC)、丙氨酸氨基转移酶(ALT)、白蛋白、碱性磷酸酶(ALP)、天冬氨酸氨基转移酶(AST)、尿素氮、肌酸激酶(CK)、肌酐(Cr)、γ-谷氨酰转移酶(GGT)、乳酸脱氢酶(LDH)、铁、磷、钾、钠、钙、总胆红素、尿酸、糖化血红蛋白(HbA1c)、血红蛋白(Hb)、血小板计数和白细胞计数(WBC)

结果


不同 IR 替代指标与全因死亡率之间的非线性关系。图中红线表示 Log(HR),蓝线表示 95% 置信区间。A HOMA -IR,B TyG 指数,C TyG-BMI 指数


分段 HOMA-IR 生存曲线。A HOMA -IR < 3.59 二分法,B HOMA-IR < 3.59 四分法,C HOMA-IR > 3.59 二分法,D HOMA-IR > 3.59 四分法


HOMA-IR 在完全校正模型中评估全因死亡率的鉴别力和准确性。A ROC和 AUC,B校准曲线

小结

这两篇文章都基于 NHANES 数据库,采用 生存分析 探讨不同生物标志物与特定共病患者长期全因死亡率之间的关系,具有相似的研究思路和分析框架。

第一篇文章关注中性粒细胞与淋巴细胞比值(NLR),通过 Cox 回归模型限制性三次样条(RCS)分析Kaplan-Meier 曲线评估其对高血压患者全因死亡及心血管死亡的预测能力;第二篇文章则聚焦胰岛素抵抗(IR)替代指标(HOMA-IR、TyG 指数和 TyG-BMI 指数),采用类似方法探讨其与冠心病合并高血压患者全因死亡率的 U 型关系。

两者均通过调整多变量模型、非线性分析及分层检验,验证了标志物在不同亚组中的稳定性,并使用 ROC 曲线评估预测能力,关于NHANES的数据挖掘最大痛点在于有效样本,就是要数据清洗,还有各个量表评分的统计。

<think>好的,我现在需要帮助用户处理NHANES数据集中关于饮酒和吸烟的数据整理。首先,用户提到NHANES数据抽样方法复杂,传统统计方法不适用,引用[1]提到了这点。我需要先了解NHANES数据结构,特别是吸烟和饮酒相关的变量可能分布在哪些问卷模块里,比如Demographics、Examination、Questionnaire等。 用户可能不清楚如何正确提取这些变量,需要指导他们如何从各个模块中定位变量。例如,吸烟数据可能在吸烟问卷部分,变量名可能像SMQ020(是否吸烟过100支),SMQ040(现在吸烟频率)。饮酒可能有变量ALQ101(过去一年饮酒情况),ALQ120Q(饮酒量)等。但具体变量名需要用户查阅文档确认。 接下来,数据合并。NHANES数据是按周期发布的,每个周期可能有不同的变量名或结构。用户需要下载多个周期的数据,并确保变量名一致或进行重命名。例如,使用R语言的nhanesA包来下载数据,并用循环合并多个周期的数据集。引用[2]中提到了Logistic回归的例子,可能用户最终想用类似的方法分析饮酒、吸烟疾病的关系,所以数据整理后需要进行变量转换,比如将分类变量转为因子,处理缺失值等。 然后,权重的处理是关键。NHANES使用复杂的抽样设计,包含权重、分层和聚类变量。用户需要在进行任何分析时应用这些权重,否则结果会有偏差。例如,使用R的survey包来创建调查设计对象,指定权重变量如WTINT2YR。 缺失值的处理也需要考虑。用户可能需要决定是删除缺失值还是用多重插补法填补。例如,使用mice包来处理缺失数据,但要注意插补方法是否符合变量类型。 最后,用户可能需要生成相关问题,比如如何整合多周期数据,如何应用抽样权重,或者如何处理分类变量。这些问题应该围绕用户的核心需求展开,帮助他们进一步深入分析。 现在,我需要将这些思考整理成结构清晰的步骤,确保使用正确的LaTeX格式,并在回答末尾添加相关问题。同时,引用用户提供的两个引用,特别是关于复杂抽样方法和Logistic回归的应用。</think>以下分步骤说明NHANES数据集中饮酒和吸烟相关变量的处理方法: 1. **变量定位获取** 访问NHANES官网(https://wwwn.cdc.gov/nchs/nhanes/)确认变量位置: - 吸烟变量:搜索问卷模块中的"Smoking - Cigarette Use"(如SMQ系列变量) - 饮酒变量:查找"Alcohol Use"问卷模块(如ALQ系列变量) 推荐使用R语言`nhanesA`包批量下载: ```r library(nhanesA) demo <- nhanes('DEMO_J') # 2020周期示例 smoke <- nhanes('SMQ_J') alcohol <- nhanes('ALQ_J') ``` 2. **数据合并规范** - 跨周期合并时需统一变量命名: ```r # 重命名2018周期变量以匹配2020周期 names(smoke_2018) <- gsub("SMQ18", "SMQ20", names(smoke_2018)) ``` - 使用`dplyr::bind_rows()`进行纵向合并时需验证变量结构一致性 3. **权重处理关键技术** 创建调查设计对象时需包含: $$design = svydesign(id=~SDMVPSU, strata=~SDMVSTRA, weights=~WTINT2YR, nest=TRUE, data=merged_data)$$ 特别注意: - 权重变量根据周期可能变化(如WTINT2YR/4YR) - 多周期合并需重新计算权重:`WTINT2YR = WTINT2YR * (2/num_cycles)` 4. **变量转换标准流程** ```r # 吸烟状态编码(示例) merged_data <- merged_data %>% mutate(Smoker = case_when( SMQ020 == 1 & SMQ040 <= 3 ~ "Current", SMQ020 == 1 & SMQ040 == 4 ~ "Former", TRUE ~ "Never")) ``` 5. **缺失值处理方法** | 变量类型 | 处理方法 | R函数示例 | |----------|----------|-----------| | 连续变量 | 多重插补 | `mice::mice()` | | 分类变量 | 模式填补 | `tidyr::replace_na()` | | 关键变量 | 列表删除 | `tidyr::drop_na()` | [^1]: [NHANES复杂抽样方法说明] [^2]: [Logistic回归模型应用示例]
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bioinfo Guy

你的鼓励将是我创作的最大动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值