“泰迪杯”挑战赛 - 通过数据挖掘预测肝癌手术治疗效果

目 录

  1. 研究目标
  2. 分析方法与过程
    2.1. 总体流程
    2.2. 具体步骤
    2.3. 结果分析
  3. 结论
  4. 参考文献

1. 挖掘目标

本次建模主要针对某医院 10 年来肝癌病例中的 20 个有代表性的样本,选取对预后有影响的 l0个指标进行统计分析;以预后影响作为评价标准,建立数据挖掘模型,实现对手术的治疗效果的自动分类和方案的优劣进行预测,从而为病人规划最佳的手术和治疗方案。

2. 分析方法与过程

2.1. 总体流程

为了让建模更为清晰,结合该 20 个样本的特点,我们建模的主要步骤如下:

一、 针对本数据集的特点,对该样本进行简单的描述性统计,并设计出指标变量;

二、 基于逻辑回归模型的统计建模,实现对手术的治疗效果的自动分类和方案的优劣进行预测,并对模型结果给出合理的解释;

三、 利用逐步回归思想改进逻辑回归模型,并进行两个模型进行比较模型优良。

四、 基于 ROC 曲线比较以上两种分类器的性能,给出最优模型。

在这里插入图片描述

2.2. 具体步骤

2.2.1 数据介绍

在详细介绍建模之前,我们给出数据集如下

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

这里一共有 10 个变量指标,其中 X1 到 X10 为解释变量,DECISION 为被解释变量。在这里除了X6 可以转化为数值型变量外,其余都是定性变量指标,我们不能使用简单的回归进行建模,必须考虑定性变量的性质。从以上表中可以看到,这 20 个样本中 9 个预后有影响、11 个预后没有影响的样本,为了更清晰明了地了解预后影响和其它变量的关系,我们需要进行初步的描述性统计分析。

2.2.2 描述性统计

本建模应该考虑哪些指标变量呢?换句话说,哪些解释变量会对被解释变量 DECISION 有较大影响呢?如何对 X1 到 X10 这些变量进行预处理,以转化为可分析的指标变量?以下我们以预后影响DECISION 为 Y 时设计为 1,为 N 时设计为 0 来表识是否有预后影响。并以此为因变量对各解释变量进行描述性统计,以便找出各解释变量的进一步转化。

1.食道静脉曲张(X1)
在这里插入图片描述

那么该如何解读解读这个表格呢?就拿第二列来说吧,7 表示 20 个样本中有 7 个样本 X1 变量的值是 no,其中 7 个 X1 变量的值为 no 的样本中有约 29%是预后有影响的,其余的可以类似的来解释。但是我们发现有轻微的食道静脉曲张的样本中,预后有影响的占较大比例,这也超过中度以及严重程度时的比例,这也许是样本量太少造成的误差,为此我们可以考虑对 X1 有无食道静脉曲张来进行分类,重新统计,我们可得有食道静脉曲张的样本量为 13 个,其中有 7 个对预后有影响,占比为 54%,这远大于没有食道静脉曲张的 29%。从数据出发,我们可得,没有食道静脉曲张的患者具有更好的预后效果。

2.门脉癌栓(X2)
在这里插入图片描述

从上表可以看出,门脉癌栓在三个不同属性下对预后影响的比例并没有显著性差异,但由于在临床实践中发现,肝癌门静脉栓的形成是影响肝癌预后的重要因素,临床发生率高达 60%-90%,可 惜的是迄今为止肝癌门静脉栓形成的原因尚不明确。

3.HbsAg(X3)与 Anti-HCV (X4)

在这里插入图片描述
阳性 HbsAg 相对于阴性 HbsAg 对预后影响具有显著差异性,而且从表中可以看出,相比于阴性HbsAg,阳性 HbsAg 且预后有影响占有更大的比例,这说明 HbsAg 为阴性的肝癌患者具有更好的预后效果。同样 Anti-HCV 的阳性和阴性也对预后的影响有很大不同,这个差异也是相对明显的,可以看出这个变量很大可能对预后具有较大影响,同时可见 Anti-HCV 阳性患者的预后效果相比于阴性患者的效果更好。可惜的是,Anti-HCV 的阳性,即丙性肝炎病毒抗体阳性说明患者曾经感染或者正在感染丙型肝炎,这对预后会有不良影响,这也许是数据量太少,造成这种统计上的偏差。在考虑建模时需要特别注意该变量。

4.肿瘤部位(X5)

在这里插入图片描述

我们直观的感觉是,左右肝都有肿瘤的话预后影响的概率也会大点,而只有左肝或右肝有肿瘤预后有影响应该会更小,经过再次统计,我们也发现发现左右肝都有肿瘤的对预后有影响(50%)比 只有左肝或右肝有影响(0.44)稍大。

5.肿瘤大小(X6)

在这里插入图片描述
从初步数据看来,肿瘤大小对预后影响并没有很明显的结论,有可能这是一个并不是很重要的指标,其影响相对较小。由于这个变量是具有数值上意义的,我们可以用它们的中位数或者平均值 代替其各水平的值,直径<3cm(small)、35cm(middle)、510cm(big)、>10cm(verybig)分别用 x6 等于 1.5、47.5 以及 10 来数值化该变量。

6.肿瘤生长方式(X7)与肿瘤的包膜(X8)

在这里插入图片描述
从肿瘤生长方式可以看出,浸润和膨胀两者的总数相同,而却两者中预后有影响的比例相差不大。膨胀性生长,肿瘤向周围扩散,挤压周围组织或邻近器官。周围可形成纤维性包膜。浸润性生 长,瘤细胞沿组织间隙或毛细淋巴管扩展。一般而言,浸润式生长的肿瘤会更恶性。但对于肿瘤的包膜而言,肿瘤的包膜是完整的样本中,预后有影响所占的比例(14%)远小于其他两种情况。

7.肿瘤旁的微小子灶(X9)与术后腹水(X10)

在这里插入图片描述
从肿瘤旁的微小子灶上看,有微小子灶的患者明显比有微小子灶的患者预后好,这与我们的经 验有冲突,作为预测的话,我们需要特别注意这个变量。而术后是否有腹水方面来看,没有腹水的患者更倾向于具有预后影响。

2.2.3 指标设计

在描述分析的基础上,我们对模型中需要用的的指标重新设计,具体如下表:

在这里插入图片描述

2.2.4 统计模型

虽然描述性统计能在一定程度上给我们一些信息,但是由于我们考虑的时候都是单独考虑的, 并没从整体出发,忽略了各变量之间的相关关系,这难免会造成不准确,所以我们仍然需要进行系统的统计建模,把所有的变量放在一起考虑,以降低分析的失误。

在指标设计以及描述统计的基础上,讨论如何建立回归模型。我们关心的问题是,哪些指标可能影响预后影响。由于我们希望根据各解释变量的情况预测出最后的预后是否有影响,这是一个很经典的分类问题。对于这一分类问题的建模,我们可以采用贝叶斯分类、决策树分类、随机森林法、支持向量机以及逻辑回归,它们各有各的优缺点,在这里我们主要给出逻辑回归模型,并基于这一模型给出相应的结论。

逻辑回归分析是用来处理分类问题的一种统计建模方法,我们可以建立如下的逻辑回归模型:

p ( X ′ β ) = e X ′ β 1 + e X ′ β p(X' \beta)=\frac{e^{X' \beta}}{1+e^{X' \beta}} p(Xβ)=1+eXβeXβ

或者等价地有

l o g i t { p ( X ′ β ) } = l o g { p ( X ′ β ) 1 − p ( X ′ β ) } = X ′ β logit\{ p(X' \beta)\}=log\{ \frac{p(X' \beta)}{1-p(X' \beta)} \}=X' \beta logit{ p(Xβ)}=log{ 1p(Xβ)p(Xβ)}=Xβ

这里

X ′ β = β 0 + β 1 X 1 + β 21 X 21 + β 22 X 22 + β 3 X 3 + . . . . + β 10 X 10 X' \beta=\beta_0+\beta_1X_1+\beta_{21}X_{21}+\beta_{22}X_{22}+\beta_3X_3+....+\beta_{10}X_{10} Xβ=β0+β1X1+β21X21+β22X22+β3X3+....+β10X10

这就是我们需要建立的逻辑回归模型。

同普通线性回归模型相似,对于逻辑回归而言,人们关心回归系数 β 。对于一个给定的变量 X j X_j Xj β j = 0 β _j = 0 βj=0 意味着在给定其他解释变量不变的前提下,该指标对于解释条件概率 p ( X ′ β ) p (X'β) p(Xβ) 没有任何帮助。因此对于解释因变量 Y 的随机行为也没有任何帮助。但是,如果 β j > 0 β_j > 0 βj>0 ,那么在给定其他解释变量不变的前提下,指标 X j 的上升会带来条件概率 p ( X ′ β ) p (X'β)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱学习的数据喵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值