观察性研究回归建模只能纳入单因素P<0.05变量吗?看看这篇JAMA子刊文章如何做...

ad6ea97a551d495e4ff91535ebaf68e3.png


【欢迎阅读浙中大郑老师撰写的统计科普文】

回归分析是观察性研究中很重要的手段,通过模型调整,其目的是探讨多因素情况下,各个因素的独立效应。

那么,困惑诸多分析者的问题是,调整模型,也就是多因素回归分析,只能纳入单因素P<0.05的变量吗?

这个问题其实郑老师很早就回答过了,筛选自变量,最简单的方式、也最常见的方式是“先单因素后多因素法”,这种方法,郑老师上课也推荐给非统计学专业的医学生,不是说它是最好的方法,而是它最简单粗暴、最容易上手。

“先单后多”即先开展单因素回归,筛选出P值较小者一起纳入多因素回归模型。所以说,并不是完全按照单因素P<0.05作为严格标准纳入变量。

我们今天来看看这篇JAMA子刊的文章是如何做的?在方法学和结果中又是如何表述的呢?

原文阅读

发表在期刊《JAMA Network Open》(医学一区top,IF=10.5)的基于人群的队列研究,研究团队旨在确定首次(或基线)创伤入院后新发心理健康疾病的发生率,并评估其对长期健康结局的影响。

1d6cb0fb55aa8a88b5b8616177e49af3.png

研究中Cox比例风险回归用于分析创伤后自杀、全因死亡率及创伤再入院的相关因素。Logistic回归用于分析创伤后新发心理健康疾病的相关因素。

在Cox回归及Logistic回归分析中,协变量的选择仅限与结局生物学上可能相关的因素,并剔除P>0.25的变量,以构建最终的简约模型(parsimony model)。

0c7112e5e16cc807356de6503991f2cc.png

多因素Cox回归结果显示,创伤后新发心理健康疾病与以下结局显著相关:

  • 创伤再入院(调整后风险比 [aHR]1.30;95%置信区间[CI]1.23-1.37;P<0.001)

  • 自杀(上吊或药物过量)(aHR 3.14;95% CI:2.00-4.91;P<0.001)

  • 全因死亡率(aHR 1.24;95% CI:1.12-1.38;P<0.001)

以上结果已调整年龄、性别及基线创伤入院前是否已有心理健康疾病。

51b909bdf69c4b9c940afb6e84a68891.png

在26,958名基线无心理健康疾病的患者中,多因素Logistic回归分析显示,以下因素与创伤后新发心理健康疾病显著相关:

  • 年轻

  • 失业

  • 单身、离婚或分居(vs 已婚)

  • 土著族裔

  • 较低的社会经济地位

  • 创伤性脑损伤

多因素logistic回归结果放在了附录中。

所以,并不是一定要P值<0.05才纳入多因素回归模型!

老郑小评

在具体的处理上,可以采用"严进严纳" 的理念进行自变量筛选。老郑很早之前“30天学会医学统计学”公益课就已经讲过,现在带大家回顾一下!

严纳!挑选少量的自变量进入模型。严纳的方式很多,对于初学者,简单粗暴而且被认可的方法就是把单因素分析P值较小者纳入到回归模型中来。

(1)很多变量虽然单因素回归分析P>0.05,也有可能多因素回归P≤0.05。所以,不能就卡在0.05的界限。个中原因我就不多说了!

(2)如果你的自变量非常重要,特别是核心变量,哪怕单因素分析P较大,也值得多因素回归放进去分析

(3)很多时候自变量个数也就是3~5个,而样本量较大,这个时候根本不怕自变量太多,没有必要先单因素后多因素。

在不同的情况下,采用不同的纳入标准,仅供参考:

第一种:全部纳入

这种方法要求自变量较少,自变量之间关系简单,多重共线性不严重。一般情况下,自变量个数不太多(比如少于10个),且样本量是自变量个数20倍以上,可以采用本方法。

第二种方法:单因素筛选纳入(P值较小者,P≤0.2或者≤0.1)

这种方法要求自变量不是那么多,但样本量也不是那么大,因此可以考虑先单因素后多因素回归的方法。P值不要过于严格,一般P<0.2就可以了!

第三种方法:单因素筛选纳入(P值较小者,P≤0.05)

这种方法出现在自变量非常多几十个上百个,单因素分析P≤0.05者超过10个以上(P≤0.2的自变量更多了)。这种情况下,严格控制多因素回归自变量个数。P≤0.05者纳入多因素回归分析中。

所以,在你的文章中,真实的说明自变量筛选方法,是可行的,可以参照这篇推文所介绍的JAMA子刊文章中的方法和结果的表述!

观察性研先单后多的自变量筛选,目前非好的操作软件,是郑老师开发的免登录、免费Zstats风暴统计在线平台,它可以同时开展先单后多,设定不同的P值,并将单因素和多因素回归一起结合起来,快速形成三线表。欢迎使用。

7c710ae45464f6446d6279599f7c1534.png

4d708fe6a3879d19dd8da329ae5cf1e1.png

【感谢阅读浙中大郑老师撰写的统计科普文】


关于郑老师团队及公众号 

大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理

我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍

联系助教小董咨询(微信号aq566665ef8b0472b4514839d84570cb117865bf.jpeg

### 解决 PP-OCRv4 出现的错误 当遇到 `WARNING: The pretrained params backbone.blocks2.0.dw_conv.lab.scale not in model` 这样的警告时,这通常意味着预训练模型中的某些参数未能匹配到当前配置下的模型结构中[^2]。 对于此问题的一个有效解决方案是采用特定配置文件来适配预训练权重。具体操作方法如下: 通过指定配置文件 `ch_PP-OCRv4_det_student.yml` 并利用已有的最佳精度预训练模型 (`best_accuracy`) 来启动训练过程可以绕过上述不兼容的问题。执行命令如下所示: ```bash python3 tools/train.py -c configs/det/ch_PP-OCRv4/ch_PP-OCRv4_det_student.yml ``` 该方案不仅解决了参数缺失带来的警告,还能够继续基于高质量的预训练成果进行微调,从而提升最终检测效果。 关于蒸馏的概念,在机器学习领域内指的是将大型复杂网络(teacher 模型)的知识迁移到小型简单网络(student 模型)。这里 student 和 teacher 的关系是指两个不同规模或架构的神经网络之间的指导与被指导的关系;其中 teacher 已经经过充分训练并具有良好的性能,而 student 则试图模仿前者的行为模式以达到相似的效果但保持更高效的计算特性。 至于提到的 `Traceback` 错误信息部分,由于未提供具体的跟踪堆栈详情,难以给出针对性建议。不过一般而言,这报错往往涉及代码逻辑错误或是环境配置不当等问题。为了更好地帮助定位和解决问题,推荐记录完整的异常日志,并仔细检查最近修改过的代码片段以及确认依赖库版本的一致性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值