倾向值分析(协变量选择)

本文探讨了倾向值分析中选择协变量的方法,包括Hirano和Imbens的预设临界t值法、逐步回归法、OLS线性回归和逻辑回归。介绍了逻辑回归的原理和应用,如最大似然法、几率比和t检验。同时讨论了如何通过psestimate命令选择处理变量的最佳一阶和二阶形式,以及利用随机森林和逻辑回归计算特征重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hirano 和 Imbens 基于预设的临界t值来设定预测变量的方法

  1. 逻辑回归:逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法。逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于二分类。
    a.逻辑回归公式如下:
    在这里插入图片描述
    其中,Y为决策值,x为特征值,e为自然对数。Y(x)的图形如下:
    在这里插入图片描述
    对于常见二分类,逻辑回归通过一个区间分布进行划分,即如果Y值大于等于0.5,则属于正样本,如果Y值小于0.5,则属于负样本,这样就可以得到逻辑回归模型,判别函数如下:
    在这里插入图片描述
    在模型参数w与b没有确定的情况下,模型是无法工作的,因此接下来就是在实际应用期间最重要的是模型参数w和b的估计。其代价函数如下:
    在这里插入图片描述
    给定y值为1时,代价函数曲线横坐标为决策函数Y(x)的值越接近1,则代价越小,反之越大。当决策函数Y(x)的值为1时,代价为0。类似的,当给定y值为0时有同样的性质。
    b.Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。
    c.odds: 称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。
    OR:比值比,为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2)。
    d.最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。
    e.可以通过逻辑回归系数衡量自变量对分类因变量的影响。详见链接中包含一个连续变量的模型部分
    http://blog.sina.com.cn/s/blog_44befaf60102vznn.html
    f.关于逻辑回归的代码分析见链接
### IPTW 中混杂变量的选择方法与策略 #### 1. 定义混杂变量的重要性 在逆概率加权 (IPTW) 的应用中,选择合适的混杂变量至关重要。这些变量能够影响暴露因素和结局之间的关系,如果不加以调整,可能会导致估计偏差。因此,在构建倾向得分模型时,应仔细考虑哪些协变量应该被纳入。 #### 2. 基于理论框架选取潜在的混杂因子 通常情况下,研究者会依据已有的医学或流行病学知识体系来决定可能存在的混淆因素。例如,在肿瘤领域内,年龄、雌激素受体状态(er)、孕酮受体(pr)表达水平以及病理分级(histgrad),都是已经被广泛认可的影响乳腺癌预后的关键指标[^1]。 #### 3. 利用统计检验筛选重要预测子 除了依靠专业知识外,还可以通过一些初步的数据探索工作辅助判断哪些特征对于目标事件的发生具有显著贡献。比如可以先执行单因素Logistic回归分析,从中挑选出p小于某个阈(如0.2)的候选变量进入下一步多因素建模过程[^2]。 ```r # 单因素 Logistic 回归分析示例 univariate_models <- lapply(names(bc)[!names(bc) %in% c('ln_yesno')], function(x){ formula <- as.formula(paste('ln_yesno ~', x)) glm(formula, data = bc, family = binomial()) }) summary(univariate_models) ``` #### 4. 考虑交互作用项及其临床意义 有时两个及以上独立的风险标记之间可能存在复杂的相互作用模式,这同样需要引起重视。如果存在合理的生物学解释支持某些特定组合,则可以在最终模型里加入相应的交叉乘积项以提高拟合精度。 #### 5. 验证所选变量的有效性和稳定性 最后一步是要确保经过上述流程选出的一系列混杂控制要素确实有助于减少偏倚而不引入新的问题。可以通过多种方式实现这一点: - **内部验证**:采用交叉验证技术评估不同样本划分下参数估计的一致性; - **外部验证**:当有条件获取额外数据集时,尝试重复相同的操作步骤看能否得到相似结论; - **敏感度测试**:考察去除个别核心自变数后整体性能变化情况; 综上所述,合理地识别并处理好所有重要的混杂干扰源是成功实施IPTW的关键所在。在整个过程中既要依赖科学直觉也要借助严谨的方法论指导实践操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值