临床预测模型概述4-统计模型(Logistic,Cox,Lasso)

前言

概述3中简单介绍了我们在做预测模型前需要采用什么类型和形式的数据。那么有了数据之后,我们需要用什么方法学去做分析呢?以及分析之后我们又需要通过什么手段去验证呢?

在本次概述中,我将简单的介绍三种统计模型—— Logistic Regression(逻辑回归), Cox Proportional Hazards Model(Cox 比例风险模型) 和 LASSO Regression(LASSO 回归)。对于新手医生科研者而言,只要知道了这三种模型的各自应用条件以及如何采用计算机语言或者软件进行分析就足以开始临床预测模型征程啦。

1. Logistic Regression(逻辑回归)

逻辑回归是处理二元(有时也用于多分类)响应变量的预测模型,它预测一个事件发生的概率。这是一种广义线性模型(GLM),使用对数几率作为链接函数。

异同点:

● 与 Cox 模型和 LASSO 回归相比,逻辑回归直接估计分类结果的概率。

● 不涉及时间到事件的数据,不处理删失数据问题。

应用场景:

通过临床参数(年龄,性别,治疗方式等)或者基因表达量去预测疾病发生概率。

2. Cox Proportional Hazards Model(Cox 比例风险模型)

Cox 模型是一种半参数生存分析模型,用于评估多个变量对生存时间的相对影响。该模型假设不同层的风险比是恒定的(比例风险假设)。

异同点:

● 与逻辑回归不同,Cox 模型专门用于分析生存时间数据,能够处理删失数据。

● 与 LASSO 回归不同,它不进行变量选择或正则化,但可以与 LASSO 结合使用以提高模型预测能力和变量选择。

应用场景:

● 医疗:患者的生存时间分析,研究治疗方法、疾病状态等对生存时间的影响。

● 生物统计:动物研究中的生命周期分析。

3. LASSO Regression(LASSO 回归)

LASSO(Least Absolute Shrinkage and Selection Operator)回归是一种正则化的线性回归方法,通过对系数的大小加入一个L1惩罚项来进行变量选择和复杂度调整,促使一些系数精确地缩减到零。

异同点:

● LASSO 可以用于线性回归、逻辑回归等多种模型中增加正则化,与逻辑回归和Cox模型不同在于其能进行变量选择。

● LASSO回归可以告诉你纳入的参数从全部纳入到最后只有1个的情况下模型得出的评分,但是用普通的LASSO回归无法告诉研究者最适合的模型是什么,因此在选择模型的时候需要增加一步使用10乘交叉验证的LASSO回归获得最佳lamda值。同时由于生存数据经常存在删失的情况,而LASSO回归虽然可以将其应用于包括 Cox 比例风险模型在内的模型中(例如,通过惩罚 Cox 模型的似然函数来实现),但LASSO 本身并不专门针对生存数据的特性(如删失)。因此通常LASSO回归仅是用于参数的筛选。

应用场景:

● 特征选择:在拥有大量变量的数据集中识别最相关的变量。

● 防止过拟合:在预测模型中通过减少变量数量来提高模型的泛化能力。

● 医疗:基因数据处理、临床图像处理等。

小结

● logsitic主要用于不含生存时间的数据分析,Cox主要用于含有生存时间的数据分析,这两种模型都不能解决过拟合的问题。

● 针对于参数太多的数据需要采用通过LASSO回归减少过拟合的情况。因此LASSO回归除了也能够进行建模以外,它更重要的作用就是针对参数较多的数据进行变量的筛选(10乘交叉验证的),减少过拟合并提高模型的效能。

● 后续我们会进一步介绍10乘交叉验证的LASSO回归是什么?以及过拟合是什么含义?并通过代码对这三种统计模型进行实操展示。

注:若对内容有疑惑或者发现有明确错误的,请联系后台(希望多多交流)。更多内容可关注公众号:生信方舟。

- END -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值