教程 | 回归如何控制混杂偏倚

文章介绍了风暴统计平台新添加的回归控制混杂模块,详细讲解了统计描述、简单关联性分析(包括多因素回归和多模型回归策略)及其在混杂偏倚控制中的应用。教程覆盖了从进入平台到完成分析的整个流程,旨在帮助用户高效使用该功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

回归分析主要研究目的可以归为三类:

  • 探讨影响因素

  • 控制偏倚

  • 预测与分类

关于影响因素研究,郑老师的风暴统计平台已经更新了"线性回归分析""logistic回归分析""生存分析"三大板块,近日,又更新了 "回归控制混杂偏倚" 模块!

控制混杂的回归与探讨影响因素的回归,统计过程相似,但具体思路又有所不同,回归控制混杂分析中,无论焦点因素与结局是否存在关联,都会被纳入多因素模型。混杂偏倚控制的基本统计过程分为三步:

第一步,统计描述。描述人群的分布特征。

第二步, 简单关联性分析。针对目标暴露因素与结局(一因一果的探索性分析)。可以使用差异性分析(t、F、卡方、秩和)或单因素回归分析,两者结果大致相同。

第三步,多因素分析。 暴露因素与潜在混杂作为自变量(多因一果)构建多因素回归模型。

根据这个统计思路,下面为大家详细介绍一下风暴统计平台"回归控制混杂"模块的使用方式。

1. 进入风暴统计平台

首先,进入风暴统计平台,点击“风暴智能统计”—“回归控制混杂”"最新版回归控制混杂"

这里我们不再赘述数据的导入与整理过程,详细教程大家可以点击下方链接:

详细指南!风暴统计如何高效导入数据,统计分析快人一步?

详细版!如何利用风暴统计进行数据的整理转换?

13bf00ffe4e918d5d3803769a81f0f4d.png

2. 统计描述

统计描述方式,平台提供了两种:

① 分组差异性分析(多个变量在1个分类变量不同组中的分布特征);

② 定量批量数据差异性分析(1个连续变量在多个不同分类变量中的分布特征)

这里多提一下分组差异性分析中的分组方式,会因不同研究类型而定

  • 病例对照研究:一般按照病例组/对照组分组;

  • 队列研究:通常按照暴露组/非暴露组分组;

  • 横截面调查:可灵活处理;

  • 随机对照研究:按照干预组/对照组分组。

9784be347d89ec91df43e67f75150f8a.png

2.1 / 分组差异性描述

风暴统计平台完成分组差异性描述十分的快捷,只需要依次在下拉框中勾选对应的分组变量正态变量偏态变量分类变量

fcb607d9139dd72ad4d98411f40ce7cb.png

选择完毕后,右侧就会自动根据不同类型的数据,使用不同的分析方式生成结果三线表!

b4b3c4344663cbc10e69aed5bc921c81.png

2.2 / 定量数据批量差异性描述

首先,选择定量检验变量,接着指定数据的分布类型是偏态还是正态。以及分组变量,被选择的变量将开展分组比较,定量数据的批量差异性分析只能选择分类数据哦!

e7b2e8096a94e71f33dfe188b7a93d5d.png

选择完成后,右侧就更新了定量数据批量差异性分析三线表!

f4c36749307ee427c4dff318256c1e2e.png

3. 简单关联性分析+多因素回归

具体回归分析方法的选择,大家可以考虑以下包括的这几种,关于回归分析策略,平台给出了两种,下面会分别进行介绍:

  • 多因素回归策略,一次性调整全部的混杂因素

  • 多模型回归策略,通过3-5个模型逐步调整混杂,观察暴露与结局的关联性变化。

1256122107e3a1a4f4776aa7cf1322b8.jpeg

3.1 / 多因素回归策略

首先,选入模型的变量。(仅cox回归中会有随访时间变量)

a7228ca152df4f5c6be66b3cd625b8b4.png

从统计策略上讲,纳入多因素回归的协变量,可以是基线差异性分析有意义的变量,也可以是单因素回归分析有意义的变量。两种方法的结果大致相同,大家可以根据自己的研究设计进行选择。

096237f657f060cb51f3d5fe893d14e7.png

  • 如果选择了基线差异性分析有意义的变量,那么平台会自动将上一步基线回归的结果同步到这里,减少操作步骤。

  • 如果选择了单因素回归分析有差异的变量,需要再选择开展单因素回归的协变量(定量与分类全部选入)。(注:在指定分类自变量这里,平台会将分类少于5种的变量自动归入,如果有更多分类变量,需要手动修改哦!)

ee9109bbd14c10e9562160efc1a9739e.png

接着是多因素回归变量设置,包括P阈值,回归方法的选择。在影响因素研究中不太建议大家使用逐步回归(主要用在预测模型中)。

0c81a92046a5523e32029805bf6ab02a.png

完成设置后,就可以生成回归三线表啦!可以看到因为AJCC是我们的焦点因素,因此,即便单因素AJCC与结局没有关联,已经会被自动纳入多因素回归中!

6938205ceffa4cfe2137171a7e49a41d.png

3.2 / 多模型回归策略

首先,选入模型的变量(仅cox回归中会有随访时间变量),接着点击"增加调整混杂因素"。

a2a26b5760caf7eed9a356d5c9d6090c.png

model1就是我们的单因素模型,因此我们直接开始选择model2的协变量,推荐使用自定义,多个模型逐个调整变量。

6a42f7ee8fdaf1ce4cc121c020e5df3a.png

这里我们model2先矫正性别与年龄,接着,继续点击"增加回归模型",model2矫正的性别、年龄会自动顺延至model3。另外,model3我们再额外矫正level和race。如需继续增加模型,可继续点击”增加回归模型“,最多可增至model5

0723145be9bb2591fae2c5bd4d11a388.png

完成后,右侧就直接出现多模型的结果啦,包括脚注一应俱全!

5ef997519582c1244056e59337cd641a.png

以上就是,风暴统计平台"回归控制混杂"模块的全部使用教程啦!欢迎大家试用,如果您在风暴统计平台的使用过程中有任何的建议或疑问,可以加入我们的讨论群!群里郑老师与助教会在群内解答!

欢迎加入

1ae61b75f54ee7a8e98b22deddc2a695.png

统计机器人交流群

7a4e5251a7c75b13d01404c4fb369a74.png

### 计算线性回归中的回归系数以求解 PAF 在统计学中,PAF(Population Attributable Fraction)表示由于暴露于某种风险因素而导致的结果比例。为了通过线性回归模型计算 PAF,首先需要估计每个变量的回归系数 \( \beta_i \)[^1]。 #### 回归系数的定义与计算 在线性回归模型中,假设我们有如下形式: \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p + \epsilon \] 其中: - \( Y \) 是响应变量, - \( X_1, X_2, ..., X_p \) 是自变量或特征, - \( \beta_0, \beta_1, ..., \beta_p \) 是待估参数, - \( \epsilon \) 表示误差项。 可以通过最小二乘法或其他优化技术来估算这些参数。具体来说,\( \hat{\beta} \) 的值可以由以下公式得出: \[ \hat{\beta} = (X^\top X)^{-1} X^\top y \] 这里 \( X \) 是设计矩阵,包含了所有的输入特征及其常数列;\( y \) 是目标向量。 #### 使用回归系数计算 PAF 一旦得到了回归系数 \( \beta_i \),就可以利用它们进一步推导出各个渠道对总体效应的影响程度——即 PAF 值。对于单个风险因子 \( i \): \[ PAF_i = \frac{P(E_i)\times(RR_i - 1)}{1 + P(E_i)(RR_i - 1)} \] 此处: - \( P(E_i) \) 表示人群中有该风险因子的比例; - \( RR_i \) 则是从回归得到的风险比,通常近似为 \( exp(\beta_i) \) 当采用逻辑回归时,或者直接取作 \( \beta_i \) 加上适当转换后的数值,在某些情况下适用于线性模型。 注意:上述公式的适用前提是满足一定的条件,比如因果关系成立以及无混杂偏倚等前提下才能有效应用。 以下是基于 Python 实现的一个简单例子展示如何获取并解释这些系数: ```python import numpy as np from sklearn.linear_model import LinearRegression # 构造数据集 np.random.seed(42) X = np.random.rand(100, 3) * 10 # 随机生成三个独立变量的数据 y = 2*X[:, 0] - 3*X[:, 1] + 5*X[:, 2] + np.random.randn(100)*2 # 定义依赖关系加上噪声 model = LinearRegression() model.fit(X, y) print("Coefficients:", model.coef_) # 输出各变量前的回归系数 ``` 此代码片段展示了如何拟合一个简单的多元线性回归模型,并提取其回归系数作为后续分析的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值