Nhanes美国营养调查数据库的培训课程来了!
“Nhanes数据挖掘”课程即将开始! 欢迎报名, 发表文章即退款
2019年9月,普罗塞曼人口健康研究中心学者在《EBioMedicine》(一区,IF=11.1)发表题为:" Determinants of impaired lung function and lung cancer prediction among never-smokers in the UK Biobank cohort" 的研究论文。
这项研究是对英国生物银行(UK Biobank)中222,274名具有可重复肺活量图的从不吸烟者进行分析,使用泊松回归和稳健方差估计来评估肺功能受损的决定因素,使用Fine和Gray回归评估肺功能在癌症预测中的附加值,考虑全因死亡率的竞争风险。结果表明,确定了几个可改变的风险因素,这些因素与UKB终身从不吸烟者肺功能损害风险增加有关。对从不吸烟的人的肺癌癌症风险预测进行了适度区分,并发现纳入肺功能后略有改善。
摘要与主要结果
一、摘要
目的:肺部健康受损是全球健康的一个重大负担,包括慢性阻塞性肺疾病和肺癌。鉴于其对全球健康的影响,了解肺功能受损的决定因素及其与独立于吸烟的肺癌风险的关系非常重要。然而,到目前为止,还没有一项研究专门评估从不吸烟人群中肺功能受损的决定因素,而从不吸烟人群在所有肺癌患者中所占的比例也在不断上升。
方法:在英国生物银行以人群为基础的队列中,共有222,274例具有可重复肺活量图的不吸烟者被确定并纳入分析。肺功能的基线容量测量,包括1秒用力呼气量(FEV1)和用力肺活量(FVC),用于定义肺功能损害。使用泊松回归和稳健方差估计评估肺功能受损的决定因素。采用Fine和Gray回归法评估肺功能在癌症预测中的附加值,考虑全因死亡率的竞争风险。
结果:在对其他重要风险因素进行调整后,肺功能损害与低出生体重、环境空气污染(PM2.5μg/mm3)和超重有关。我们观察到,通过将肺功能添加到从不吸烟的癌症预测模型中,辨别能力略有提高。3年(0.700,95%CI:0.654–0.734)和5年(0.694,95%CI:0.658–0.736)时的最高优化校正AUC包括FEV1(GLI预测的FEV1的%),而7年时的最高AUC基于包括FEV1/FVC(0.722,95%CI:0.687–0.762)。
结论:我们确定了几个可改变的风险因素,这些因素与UKB终身从不吸烟者肺功能损害风险增加有关。我们对从不吸烟的人的肺癌癌症风险预测进行了适度区分,并发现纳入肺功能后略有改善。
二、研究结果
1.在英国生物银行的研究中,有222,274名从不吸烟者的肺活量图可重复(见图1)。在排除那些缺少预测数据的人之后,共有218,892人被纳入风险预测建模。基于218,892名参与者和123万人年的随访,我们通过癌症登记联系确定了165例从不吸烟者肺癌事件,中位随访时间为5.6年。在从不吸烟的人群中,肺癌癌症的发病率为13.4/10万人年(95%CI:11.5~15.6)。在UKB,从不吸烟者占肺癌总数的13%。就竞争风险而言,有2662人死于各种原因(肺癌相关死亡率除外),死亡率为每100000人年216.1(95%CI:208.0–224.4)。表1根据癌症状况总结了研究特征。补充表1总结了肺功能损害状态的研究特征。一般来说,从不吸烟的癌症患者在基线时年龄较大,更可能是女性,而且通常肺功能较差。肺功能损害在癌症患者中的发生率高出1.5至2倍(FEV1<80%:22.6% vs 15.9%,Pχ2=0.018;FEV1/FVC<70%:17.9% vs11.4%,Pχ2=0.008;两者:10.7% vs 5.1%,Pχ2=0.019)。
缩写:COPD,慢性阻塞性肺病;ETS,环境烟草烟雾;FEV1,用力呼气量,1s;FVC,用力肺活量;GLI,全球肺脏倡议;PM,颗粒物;SD,标准偏差。
a 英国生物库记录的种族被分为GLI种族组(白人、黑人、东北亚人、东南亚人、其他/混合),以便使用GLI-2012方程来预测参考FEV1值。
b 参考FEV1值是使用GLI-2012方程得出的,基于年龄、性别、身高和种族
2.在方法中描述的排除后,共有181805名从不吸烟的参与者被纳入多变量回归,以确定肺功能受损的决定因素。假定的风险因素与肺功能损害之间的关联,根据泊松模型的多变量调整关联估计为发病率比率(IRR),如表2所示。正如预期的那样,哮喘史与肺功能受损之间存在着强烈的相关性,FEV1、FEV1/FVC和这两个标准的IRR分别为2.25(95%CI:20-20-2.30)、3.17(95%CI:3.09-3.25)、5.17(95%CI:4.97-5.38)。在分层分析中,男性的这种关联性比女性更强(补充表4)。在所有3个标准定义中,暴露于以PM2.5微克/立方米形式存在的环境空气污染与肺功能受损风险增加相关,内部危害系数范围为1.29 - 1.85(每10微克/立方米)。在所有肺功能损害定义中,非哮喘患者的PM2·5相关性更强(补充表5)。
缩写:BMI,体重指数;ETS,环境烟草烟雾;FEV1,用力呼气量,1s;IRR,发病率比率;MET,代谢当量;PM、颗粒物。
注:(a)多变量回归模型,包括a下列出的所有决定因素;(b) 多变量回归模型,包括(a)和(b)项下列出的所有变量。
注:所有模型都根据年龄、性别、种族、身高、教育程度和家庭收入进行了调整。根据国际教育标准分类,UKB的教育(资格)被映射到最接近的同等学历,正如之前使用该队列的研究所做的那样。
3.在饮酒方面,根据FEV1、FEV1/FVC受损或两者兼有,与不喝酒的人相比,每一类饮酒者患肺损伤的风险都较低。对于FEV1肺损伤(预测FEV1<80%),戒酒者和日常饮酒者之间的风险差异最大(0.83[95%CI:0.79–0.87])。根据FEV1(每四分位数,IRR=0.94,95%CI:0.93–0.95),发现体力活动增加与风险降低有关,但不基于FEV1/FVC或两者结合。在体重指数方面,观察到肥胖时FEV1受损风险增加的趋势,但FEV1/FVC的趋势相反。ETS方差低,缺乏详细的剂量数据,但提示肺损伤风险适度增加。既往癌症(不包括肺癌)病史或癌症家族史未发现一致关系。
就早期生活决定因素而言,低出生体重(<2500 g)的个体肺功能受损的风险增加,IRR分别为1.19(95%CI:1.13–1.25)、1.06(95%CI:1.00–1.13)和1.21(95%CI:1.10–1.33),基于FEV1、FEV1/FVC受损或两者兼有。未观察到母亲吸烟状况的显著相关性(数据未显示)。将肺功能作为连续特征进行分析的结果如补充表6所示,在补充表6中,我们观察到基于一般线性估计的相似关联方向。
4.对于从不吸烟的癌症风险预测,年龄是我们评估的一组变量中最强的单一预测因子。无肺功能的模型包括预测因素年龄、性别、癌症个人病史(是与否)和癌症家族史(是与无)。具有肺功能的模型包括所有这些预测因子加上FEV1/FVC。Fine和Gray模型的指数模型系数(子分布风险比)如表3所示。我们计算了3年、5年和7年的肺癌绝对风险,以评估随时间变化的模型校准和鉴别(AUC)。包括肺功能在内的FineGray模型在固定年时间范围内的模型校准见补充图1,模型预测的绝对风险和观察到的风险在模型预测的风险分位数上显示出适度的校准。
缩写:CI,置信区间;FEV1,用力呼气量,1秒;FVC,用力肺活量;NA,不适用;SHR,亚氮杂比。
注:绝对风险预测是通过使用基线累积亚分布风险的Breslow型估计器,将病因k的累积发病率函数(CIF)计算为k as I^k (t)=1−exp (−H^k (t));,其中k是癌症,t是时间范围,H^k是特定协变量模式下癌症的累积亚分布危险。补充方法中提供了更多详细信息。
a当包括肺功能时,似然比检验(LRT)对模型拟合改善的P值为0.216。b年龄集中在55岁。FEV1/FVC以75%为中心,然后缩放到FEV1/FWC的5%变化。因此,用于计算绝对风险的累积基线亚分布危险表示55岁女性的基线风险,无癌症家族史,无个人病史
5.由于在这个基于人群的队列中,从不吸烟者中肺癌的发生率相对较低,我们决定不使用分样本方法进行模型训练和验证。相反,通过使用100个bootstrap重复的bootstrap方法计算乐观校正的AUC,对模型区分进行了内部验证。无肺功能模型的3年、5年和7年乐观校正AUC和基于bootstrap分位数的置信区间分别为0.686(95%CI:0642–0.733)、0.687(95%CI:0647–0.729)和0.719(95%CI:0688–0.763)。全模型(包括FEV1/FVC)的乐观校正时间依赖AUC分别为0.686(95%CI:0.638–0.733)、0.688(95%CI:0.647–0.730)和0.722(95%CI:0.687–0.762)。当包括FEV1/FVC时,观察到模型拟合的改善最小(PLRT=0.22,表3)。我们注意到,FEV1(GLI预测的FEV1的%)在3年和5年时作为肺功能的预测因子具有适度的信息性,分别赋予了1.4%和0.7%的AUC增益(补充表7)。
设计与统计学方法
一、研究设计
P(Population)参与者:英国生物银行(UK Biobank)中222,274名具有可重复肺活量图的从不吸烟者。
E(exposure)暴露因素:空气污染、体力活动、环境烟草烟雾暴露、教育程度
O(outcome)结局:肺癌。
S(Study design)研究类型:队列研究。
二、统计方法
1.为了评估生活方式因素与肺功能受损的关系,使用具有稳健方差估计的泊松回归模型来估计发病率(IRR)和95%置信区间(CI),不包括那些在基线前或基线后2年诊断为癌症的癌症患者。通过向回归模型中添加多项式项来评估连续协变量与结果的潜在非线性关系,并使用似然比检验来确定模型拟合的改进。按性别进行了分层分析,见补充表4。考虑到哮喘患者和非哮喘患者肺功能损害的机制可能不同,我们还根据哮喘状态进行了分层分析(补充表5)。
2.我们使用基于Fine和Gray模型的竞争风险回归,构建了从不吸烟者肺癌癌症风险的预测模型。使用Fine-Gray模型的累积基线亚危险度和线性预测因子的Breslow型估计来计算癌症的绝对风险(累积发病率)(更多详细信息,请参见补充方法)。我们将年龄、性别、个人癌症史、癌症家族史和肺功能纳入风险模型,基于它们与癌症的一致关联。通过绘制预测风险的分位数之间的观察和预测风险来评估模型校准。使用受试者工作特性曲线(AUC)下的时间依赖面积来评估模型区分。我们使用100次bootstrap重复计算了乐观校正的AUC。当使用似然比检验将肺功能纳入模型时,我们检验了模型拟合的改善,这比直接检验AUC的差异更为可取。
3.对于肺功能受损的潜在决定因素,如BMI、哮喘、肺癌癌症家族史、既往癌症史、ETS暴露、饮酒和空气污染,缺失数据通常很少(<10%)。由于我们的目标是同时估计每个预测因子的相关性,因此只有具有所有预测因子完整数据的参与者才被纳入(n=181805)分析。考虑到出生体重和体力活动仅在人口的一个子集(分别为58%和78%)中可用,我们在单独的模型中对这两个决定因素进行了分析,并根据具有完整数据的子集(n=88874)调整了其余决定因素作为协变量。
4.为了调查完整病例分析中的任何关联是否因数据缺失而有偏差,我们比较了分析中包含的研究特征与总人群之间的研究特征,频率分布相似(补充表2)。此外,我们使用多个估算数据进行了敏感性分析,结果基本相似(补充表3)。因此,我们在此报告基于完整案例分析的结果。所有数据准备和分析均使用Stata 14(Stata Corporation,College Station,Texas)和R版本3.5.3进行。
最后,欢迎报名郑老师团队的统计学9.2-9.3的Nhanes数据挖掘课程