三种常用回归模型,带你玩转NHANES!!!

近年来,使用美国营养健康(NHANES)数据的文章中,有一类统计学方法异军突起,我称之为回归三板斧,即在统计学设计上同时建立广义线性回归,加权位数和回归以及贝叶斯核机回归三种模型,对比结果比较优劣,再进行综合的分析讨论,得出较为严谨详实的结果。本次我们将结合文章对这种方法进行学习。

2019年2月,一篇题为:Association between exposure to a mixture of phenols, pesticides, and phthalates and obesity: Comparison of three statistical models 的研究论文发表于《Environ Int》,本文为中国学者写作,文章属于中科院分区一区,2023年IF=11.8

这项研究利用美国营养健康(NHANES)的数据,通过三种统计学模型,研究了化学物暴露与肥胖之间的关系。结果表明,邻苯二甲酸单(羧基)酯,双酚A以及双酚S被确定为与肥胖相关的最重要因素。

f3dd86191c63d73bc7a8ad3ed685a8c4.png

摘要与主要结果

一、摘要

背景:通常,对化学物对人体健康的影响的评估通常局限于分析暴露于单一化学物或一组相似化学物的健康效应。化学物混合物的效应很少被分析。在这项研究中,我们应用了三种统计模型来评估接触七种外源物(三种邻苯二甲酸酯代谢产物,两种酚类和两种农药)混合物与肥胖之间的关联。

方法:在这项研究中,我们测量了参与2013年至2014年美国国家健康和营养调查(NHANES)的成年人体内的环境酚类化合物、杀虫剂和邻苯二甲酸酯代谢物水平。通过身体检查来确定肥胖状况。我们使用广义线性回归(本文中包括逻辑回归和线性回归)、加权分位数和回归以及贝叶斯核机回归模型来拟合多变量模型,以估计化学物暴露与肥胖之间的关联。

结果:在我们的最终分析中包含了1269名个体,其中38.5%患有全身性肥胖,58.0%患有腹部肥胖。在建立的逻辑回归模型中,对于每一种单一化学物,双酚S(BPS),单(羧辛酰基)邻苯二甲酸(MCOP)和单(2-乙基-5-羧基戊基)邻苯二甲酸(MECPP)与全身性肥胖和腹部肥胖(第四个与第一个四分位数)均存在相关性。在线性回归中,MCOP与BMI和腰围有关。在加权最小二乘回归分析中,加权最小二乘指数与全身性肥胖(OR = 1.63, 95% CI: 1.21-2.20)和腹部肥胖(OR = 1.66, 95% CI: 1.18-2.34)均显著相关。MCOP,双酚A(BPA),双酚S(BPS)和单乙酰酸酯(MEP)是最重要的化学物质。在BKMR分析中,当所有化学物质的百分位数达到或超过60th时,混合物的整体效应与全身性肥胖显著相关,相比之下,当所有化学物质的百分位数都达到50th时,MCOP,BPA和BPS呈现出正向趋势,而MECPP呈现出平缓且逆向趋势。

结论:当比较这三个模型的结果时,MCOP、BPA和BPS被确定为与肥胖相关的最重要因素。我们建议通过应用不同的统计方法来估计化学物混合物的联合效应,并将它们的结果一起解释,考虑它们的优点和缺点。

二、研究结果

1. 研究人群的基线资料

研究人群的一般特征见表1。总共有1269名参与者纳入了分析。一般肥胖和腹部肥胖的患病率分别为38.5%和-58.0%。在两个分析组中,肥胖者和非肥胖者之间的性别、种族、教育水平、家庭收入和体育活动水平存在显著差异。年龄在腹部肥胖者和非腹部肥胖者之间存在显著差异。

de8ff285fcfc5281978b40f439117f91.png

2.化学物暴露测定及其相关性

这篇文章中的七种化学物质在研究人群中有超过90%的检测率。表2展示了这些化学物质的平均浓度、几何平均浓度和分布情况。BPA和其替代品BPS分别在95.0%和90.0%的参与者中检测到,并且BPA的浓度约为BPS的两倍。研究发现2,5-DCP的浓度远高于2,4-DCP。MEP的尿液浓度最高,其次是MCOP和MECPP。

这七种化学物质的浓度之间存在显著的相关性(图2),统计分析显示相关性具有统计学意义(P值<0.001),相关系数r在0.16到0.77之间。发现MECCP与MCOP和BPA之间存在中等相关性(r均为0.51),而2,4-DCP和2,5-DCP之间存在较强的相关性(r=0.77)。其他相关性相对较弱。

cd71e6d76319b3d91f431002463b8c39.png

716505c4dbbaace46c963ac069c44ed1.png

3.广义线性回归分析

我们使用多变量 logistic 回归和线性回归来评估每种化学物对肥胖的独立影响。在多变量 logistic 回归分析中,在调整了所有混杂变量后,MCOP、MECPP 和 BPS 在前两个四分位数中与总体肥胖显著关联(表3)。与此同时,仅在第3个四分位数中,BPA 与总体肥胖和腹部肥胖之间存在显著关联,而在第4个四分位数中没有(表3 和 表4)。我们未发现其他化学物与肥胖之间存在显著关联。为了控制其他化学物的混杂效应,我们拟合了一个单独的 logistic 回归模型,包括所有化学物。在这个分析中,只有 MCOP 与总体肥胖(OR: 1.72, 95% CI: 1.14–2.60)和腹部肥胖(OR: 1.57, 95% CI: 1.03–2.39)显著相关(补充材料表S1 和 S2)。

28ef270ec0f05643ab4959fcef17422c.png

e22d962ce10cde722f30f1952257ecbf.png

39f09171d2d100988283029ffc8982b0.png

b8fb2fa96b48f4767cdfedfca78f332d.png

我们使用多变量线性回归评估了化学物暴露和身体指数之间的关系(表5)。在调整了混杂变量后,MCOP 是唯一与 BMI 和腰围相关的化学物,在单一化学物分析中找到。在同时进入其他化学物的模型中进一步调整后,MCOP 仍然是与身体指数相关的唯一化学物(补充材料表S3)。在多变量线性回归模型中,所有方差膨胀因子(VIF)都小于10(结果未显示),这意味着化学物之间几乎没有多重共线性,尽管其中一些化学物之间存在高相关性。

bd5b7d14cb3821c4d5053626f66b4b0b.png

89b4dd557a36e5b8863a488d79baf05f.png

4.加权位数和回归

WQS指数与总体肥胖和腹部肥胖存在统计学关联。部分校正模型和完全校正模型的详细结果如表6所示。在前者中,WQS指数与总体肥胖(OR:1.50,95% CI:1.13–1.98)和腹部肥胖(OR:1.49,95% CI:1.07–2.07)显著相关。在完全调整的模型中,WQS指数每增加一个四分位,与总体肥胖(OR = 1.63,95% CI:1.21–2.19)和腹部肥胖(OR = 1.66,95% CI:1.18–2.33)显著相关。每个WQS指数的估计化学重量在附表S4和图3中显示。

5f860529e5952ac0b7048d5e70b7845d.png

51555b635e5a341bcfc4ce0b90247fa7.png

13877932f17dc00df8020a09e80f8fa3.png

无论是在总体肥胖模型还是腹部肥胖模型中,MCOP(分别加权0.40和0.29)都是最高加权的化学物质。在总体肥胖中,其后是MEP、BPA和BPS(分别加权0.21、0.18和0.09),而在腹部肥胖中,其后是BPA、MEP和BPS(分别加权0.24、0.17和0.13)。MECPP在两个模型中的加权最轻。为了进一步分析混合暴露对身体指数变化的影响,我们将BMI和腰围重新编码为连续结果,并拟合了WQS模型,以评估受七种环境化学物质暴露的影响。结果显示,WQS指数在粗略模型中与BMI的关联不显著(表7),但在进一步调整其他协变量后显著(β = 1.08,95% CI:0.17–2.00)。在调整了所有协变量后,WQS指数的一个四分位增加与腰围增加3.02 cm(96% CI:0.89–5.15)相关。

f4f10a189b0de81e4ce40400f16cd167.png

每个化学物质的权重报告在附表S5和图4中,MCOP、BPA、BPS和MEP是两个模型中权重最大的化学物质,MECPP在两个模型中的权重最轻。

0f4d4c94f66e8d60495282b010bfad44.png

0aacce6b26f5f45532ae9a6f2c583683.png

5.贝叶斯核机回归

我们将每种化学物质的自然对数转化浓度视为连续变量,并首先对 BKMR 模型进行拟合,以评估化学物暴露对二元结果(一般性肥胖和腹部肥胖)的联合影响。表8总结了BKMR模型得出的两个群体(groupPIP)和每种化学物质(condPIP)的入选概率。在一般性肥胖中,邻苯二甲酸酯代谢物和双酚类群的groupPIP大于0.5。

9b494385589cbd44d8c350d5b175357a.png

此外,在此群体中,MCOP的condPIP非常高,达到0.96,而该群体中其他化学物质的condPIP较低。而腹部分析中的groupPIPs都小于0.5。图5显示了化学物混合对潜在连续结果的整体关联性,尽管置信区间很宽,但当所有化学物浓度都在它们的百分之六十位数或更高时,相对于它们的百分之五十位数,一般性肥胖的潜在连续结果显示显著增加,表明与一般性肥胖存在显著的正相关关系。尽管在腹部肥胖模型中没有找到统计学上显著的差异,但趋势是增加的。

4b9e1585ea659422388c83a9d416b6db.png

图6显示了七种化学物质的暴露-反应函数的趋势。当其他化学物质浓度处于其中位数水平时,MCOP与一般性和腹部肥胖呈现出增加的关联,但一般性肥胖在浓度最高时稍有下降。MEP、BPA和BPS与肥胖呈正相关,而MECPP呈平缓或反向关系。我们进一步研究了化学物质之间的相互作用。我们将其他化学物质固定在中位数水平,并确定单个化学物质的暴露-反应函数,使第二个化学物质分别固定在其10th、50th和90th百分位数。结果显示于补充材料图S1中。2,4-DCP和2,5-DCP之间存在潜在的相互作用。在其他化学物质处于中位数水平时,某种化学物质的暴露-反应函数的其他斜率在另一种化学物质的不同分位数上是相似的,这表明没有相互作用。

12b7111d62aca0b7f7eb8c7e66e1bb15.png

为了分析混合暴露引起的身体指数变化,我们将BMI和腰围视为连续结果。表9总结了BKMR模型得出的入选概率。两个模型中的groupPIPs相对较小。当所有化学物质浓度都在它们的百分之六十位数或更高时,腰围和BMI呈现出增加的趋势(图7)。

465e0bcaf2bb846f5e0aa38c6dd61772.png

15e4fde3634af77c34298275754a655f.png

设计与统计学方法

一、研究设计

P2013年至2014年参加美国国家健康和营养检查调查(NHANES)的成年人。

I:未进行分组,暴露因素为研究对象体内的环境酚类化合物、杀虫剂和邻苯二甲酸酯代谢物水平。

O:结局:肥胖,包括全身性肥胖以及腹部肥胖。

S:横断面研究。

二、统计方法

1.差异性分析以及皮尔逊相关系数的计算,我们比较了连续和分类变量的差异,分别使用t检验和χ2检验。由于这七种化学物质的浓度严重右偏,在将其作为连续变量处理时,我们对数据进行了对数转换以改善正态分布。我们计算了这七种化学物质的对数转换浓度之间的皮尔逊相关系数。

326f088ac2debaea671f54ede178e47a.png

2.建立广义线性回归模型,首先,我们通过多变量 logistic 回归,比较化学物质浓度的第二、第三和第四分位数与第一分位数之间的关联,评估个体化学物质与整体肥胖或腹部肥胖之间的关系。此外,我们针对每种化学物质拟合了一个 logistic 回归模型,并校正了其他化学物质的浓度。接下来,我们进行线性回归,以化学物质的 ln 转换浓度作为连续变量,以 BMI 或腰围作为连续的结果变量。所有多变量分析都进行了性别、种族、教育水平、年龄、家庭收入与贫困比率、吸烟状态、能量摄入水平、体力活动和 ln 转换的肌酐浓度的调整。

a80a817e58c5f297198405ad202e14c4.png

3318c19e39860e0ce4b853cead478485.png

3.建立加权分位数和回归模型,其次,我们使用WQS回归模型评估了混合暴露于七种化学物质的效应,该模型是一种带有线性(连续结果)或逻辑(二元结果)回归的加权四分位和方法(Carrico et al., 2014; Czarnota et al., 2015a; Czarnota et al., 2015b)。该方法考虑了所有测量的化学物质,并且该模型中包含的化学物质受限于与肥胖相关联的效应方向相同。通过将不同的化学物质分组为有序变量(四分位数),WQS回归模型计算出一个加权线性指数,代表了所有七种化学物质的整体体内累积。每种化学物质的相应权重表明了该化学物质对WQS指数的贡献程度。

b4607853b4945dc2080a87e48276c9f4.png

4.建立贝叶斯核机回归模型,第三,我们采用了BKMR模型,这是一个非参数的贝叶斯变量选择框架,用于评估化学物质对肥胖和身体指标的联合效应。BKMR结合了贝叶斯和统计学习方法,通过高斯核函数迭代地回归曝露-反应函数。BKMR能够识别化学物质内非线性和非加性的关系。由于我们分析中的化学物质高度相关,我们采用了一种具有50,000次迭代的层次变量选择方法,通过马尔可夫链蒙特卡洛算法进行。根据皮尔逊相关系数的值以及它们相似的暴露来源(Andaluri等,2018; Czaplicka, 2004; Wittassek等,2011),我们将MCOP,MEP,MECPP,BPA和BPS分为第一组,将2,5-DCP和2,4-DCP分为第二组。

c5a4f0e21da978b7f611a99daaa32d84.png

346f4b1411144fe724346f33ea0bad61.png

5.其它说明,在 NHANES 调查中,样本被加权以减少在年龄、性别和种族等亚群体中的选择偏差。因此,我们使用了非加权估计,因为用于计算样本权重的变量已经包含在了调整模型中,正如之前推荐的(Blount et al., 2006; Kim et al., 2017)。本研究中所有的显著性水平设定为0.05。所有的分析都是使用 R(3.5.1)进行的。WQS 和 BKMR 是使用 R 软件包 “gWQS”(版本 1.1.0)和 “bkmr”(版本 0.2.0)实现的。

ce1fcbea396e45c114964b827bda6024.png

小感悟

此类文章有许多优势:

其一,方法在近年非常流行,2018年开始出现,近两年快速升温,去年十篇,今年截至6月30日六篇,大有超越去年的趋势。

b9f1dc2dfab280a59759e2266d8e33cb.png

其二,文章质量非常可观,14篇文献中,一区6篇,二区6篇,三区2篇,无四区文章,文章质量上有保证。一篇文章三种回归模型(广义线性回归,加权位数和回归以及贝叶斯核机回归),再对不同的统计模型进行比较,取其精华,去其糟粕,最后得出综合性的讨论结果,文章质量高了,自然会有好去处。

其三,可复制性强,本次学习的文章为2019年发表,题目为“接触酚类、杀虫剂和邻苯二甲酸盐混合物与肥胖之间的关联:三种统计模型的比较”。在2020年,就有一篇题为“使用三种统计方法分析儿童和青少年暴露于9种化合物与肥胖之间的关联:NHANES 2005-2010”的文章发表在二区杂志上,加了一个儿童青少年定语以及更换化学物暴露,这就又是一篇文章。

其四,来源易获取,使用NHANES数据库的数据,数据来源易得。

那么优点这么多的文章怎么发呢?看起来这三种模型都很复杂,我们一线的临床朋友也许连听都没有听过,感觉不是自己能掌握的东西。

别担心,后续我会结合文章,对这三种统计模型展开更详细的讨论,对这三种统计模型进行各个击破,欢迎各位一起交流学习。

抓紧上车!

b07c0e9c4c7512a1973f131b0012a952.png

一个专门做公共数据库的公众号,关注我们

  • 3
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值