“泰迪杯”挑战赛 - 通过 Logistic Lasso模型预测肝癌手术预后影响及因素

目 录

  1. 研究目标
  2. 分析方法与过程
    2.1. 总体流程
    2.2. 具体步骤
    2.3. 结果分析
  3. 结论
  4. 参考文献

1. 研究目标

本文目标为建立数据挖掘模型,研究肝癌手术预后影响(Y) (有或无)与食道静脉曲
( X 1 ) (X_1 ) (X1) ,门脉癌栓 ( X 2 ) (X_2 ) (X2) ,HbsAg ( X 3 ) (X_3 ) (X3) , Anti-HCV ( X 4 ) (X_4 ) (X4) ,肿瘤部位 ( X 5 ) (X_5 ) (X5) ,肿瘤大小 ( X 6 ) (X_6 ) (X6),肿瘤生长方式 ( X 7 ) (X_7 ) (X7) ,肿瘤包膜 ( X 8 ) (X_8 ) (X8) ,肿瘤旁的微小子灶 ( X 9 ) (X_9 ) (X9) ,术后腹水 ( X 10 ) (X_{10} ) (X10) (部分或全部)的关系,对病人的预后影响(Y) 预测,从而为病人规划最佳的手术和治疗方案。

2. 分析方法与过程

2.1 总体流程

步骤一:数据预处理:
题中所给数据已经过预处理。数据均为分类数据和有序数据,为了便于分析,将其转化为数值型数据。

步骤二:相关性检验:
由于模型需要,计算两两指标之间的相关性,相关性强的两个变量我们只选其中一个。

步骤三:模型建立:
建立 Logistic 二分类模型,进行拟合和预测。

步骤四;模型改进:
本问题由于样本数量过少,基于经典方法处理其预测能力往往比较差,我们利用最新稀疏正则化方法[1,2.3] ,开展此问题研究。稀疏正则化是指对解空间施以某种先验约束来使解具有稀疏性。我们基于 Logistic Lasso 方法研究上述问题,可有效克
服因为样本量过少而引起的弱预测能力。

步骤五:模型评价:
运用 ROC 曲线对分类器的分类效果做评价,并对模型的拟合效果和预测效果及可解释性进行评价。

步骤六:问题与思考。

2.2 具体步骤

步骤一:数据预处理
给定数据的因变量(预后影响)正负平衡,故无需删减。如下表 1 所示,变量X1到 X10 均为分类变量和有序变量,为了便于分析,将其转化为数值型变量,将 P分类数据用 P -1 维向量表示。如:将二分类变量用 0,1 表示,三分类变量用(0,1)(1,0),(0,0)表示,四分类变量用(0,0,1),(0,1,0),(1,0,0),(0,0,0) 表示。

在这里插入图片描述
在这里插入图片描述
在表 2 中,说明如下:
X 1 X_1 X1 (V1,V2,V3):(0,0,0)表示 no;(1,0,0)表示 light;(0,1,0)表示 mid; (0,0,1)表 示 serious.

X 2 X_2 X2 (V4,V5): (0,0)表示 no; (1,0)表示 branch; (0,1)表示 trunk.

X 3 X_3 X3 (V6): 0 表示 negative; 1 表示 positive.

X 4 X_4 X4 (V7): 0 表示 negative; 1 表示 positive.

X 5 X_5 X5

  • 3
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱学习的数据喵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值