“泰迪杯”挑战赛 - 通过数据挖掘预测肝癌手术治疗效果

最新推荐文章于 2022-07-30 00:50:16 发布

爱学习的数据喵

最新推荐文章于 2022-07-30 00:50:16 发布

阅读量1.5k

点赞数 4

分类专栏：泰迪杯论文大数据项目案例数据挖掘文章标签：大数据数据挖掘逻辑回归逐步回归 ROC 曲线

本文链接：https://blog.csdn.net/weixin_47922824/article/details/117223155

版权

研究目标
分析方法与过程
2.1. 总体流程
2.2. 具体步骤
2.3. 结果分析
结论
参考文献

1. 挖掘目标

本次建模主要针对某医院 10 年来肝癌病例中的 20 个有代表性的样本，选取对预后有影响的 l0个指标进行统计分析；以预后影响作为评价标准，建立数据挖掘模型，实现对手术的治疗效果的自动分类和方案的优劣进行预测，从而为病人规划最佳的手术和治疗方案。

2. 分析方法与过程

2.1. 总体流程

为了让建模更为清晰，结合该 20 个样本的特点，我们建模的主要步骤如下：

一、针对本数据集的特点，对该样本进行简单的描述性统计，并设计出指标变量；

二、基于逻辑回归模型的统计建模，实现对手术的治疗效果的自动分类和方案的优劣进行预测，并对模型结果给出合理的解释；

三、利用逐步回归思想改进逻辑回归模型，并进行两个模型进行比较模型优良。

四、基于 ROC 曲线比较以上两种分类器的性能，给出最优模型。

在这里插入图片描述

2.2. 具体步骤

2.2.1 数据介绍

在详细介绍建模之前，我们给出数据集如下

在这里插入图片描述

这里一共有 10 个变量指标，其中 X1 到 X10 为解释变量，DECISION 为被解释变量。在这里除了X6 可以转化为数值型变量外，其余都是定性变量指标，我们不能使用简单的回归进行建模，必须考虑定性变量的性质。从以上表中可以看到，这 20 个样本中 9 个预后有影响、11 个预后没有影响的样本，为了更清晰明了地了解预后影响和其它变量的关系，我们需要进行初步的描述性统计分析。

2.2.2 描述性统计

本建模应该考虑哪些指标变量呢？换句话说，哪些解释变量会对被解释变量 DECISION 有较大影响呢？如何对 X1 到 X10 这些变量进行预处理，以转化为可分析的指标变量？以下我们以预后影响DECISION 为 Y 时设计为 1，为 N 时设计为 0 来表识是否有预后影响。并以此为因变量对各解释变量进行描述性统计，以便找出各解释变量的进一步转化。

1.食道静脉曲张（X1）
在这里插入图片描述

那么该如何解读解读这个表格呢？就拿第二列来说吧，7 表示 20 个样本中有 7 个样本 X1 变量的值是 no，其中 7 个 X1 变量的值为 no 的样本中有约 29%是预后有影响的，其余的可以类似的来解释。但是我们发现有轻微的食道静脉曲张的样本中，预后有影响的占较大比例，这也超过中度以及严重程度时的比例，这也许是样本量太少造成的误差，为此我们可以考虑对 X1 有无食道静脉曲张来进行分类，重新统计，我们可得有食道静脉曲张的样本量为 13 个，其中有 7 个对预后有影响，占比为 54%，这远大于没有食道静脉曲张的 29%。从数据出发，我们可得，没有食道静脉曲张的患者具有更好的预后效果。

2.门脉癌栓(X2)
在这里插入图片描述

从上表可以看出，门脉癌栓在三个不同属性下对预后影响的比例并没有显著性差异，但由于在临床实践中发现，肝癌门静脉栓的形成是影响肝癌预后的重要因素，临床发生率高达 60%-90%，可惜的是迄今为止肝癌门静脉栓形成的原因尚不明确。

3.HbsAg(X3)与 Anti-HCV (X4)

在这里插入图片描述
阳性 HbsAg 相对于阴性 HbsAg 对预后影响具有显著差异性，而且从表中可以看出，相比于阴性HbsAg，阳性 HbsAg 且预后有影响占有更大的比例，这说明 HbsAg 为阴性的肝癌患者具有更好的预后效果。同样 Anti-HCV 的阳性和阴性也对预后的影响有很大不同，这个差异也是相对明显的，可以看出这个变量很大可能对预后具有较大影响，同时可见 Anti-HCV 阳性患者的预后效果相比于阴性患者的效果更好。可惜的是，Anti-HCV 的阳性，即丙性肝炎病毒抗体阳性说明患者曾经感染或者正在感染丙型肝炎，这对预后会有不良影响，这也许是数据量太少，造成这种统计上的偏差。在考虑建模时需要特别注意该变量。

4.肿瘤部位（X5）

在这里插入图片描述

我们直观的感觉是，左右肝都有肿瘤的话预后影响的概率也会大点，而只有左肝或右肝有肿瘤预后有影响应该会更小，经过再次统计，我们也发现发现左右肝都有肿瘤的对预后有影响（50%）比只有左肝或右肝有影响（0.44）稍大。

5.肿瘤大小（X6）

在这里插入图片描述
从初步数据看来，肿瘤大小对预后影响并没有很明显的结论，有可能这是一个并不是很重要的指标，其影响相对较小。由于这个变量是具有数值上意义的，我们可以用它们的中位数或者平均值代替其各水平的值，直径<3cm(small)、3_{5cm(middle)、5}10cm(big)、>10cm(verybig)分别用 x6 等于 1.5、47.5 以及 10 来数值化该变量。

6.肿瘤生长方式（X7）与肿瘤的包膜（X8）

在这里插入图片描述
从肿瘤生长方式可以看出，浸润和膨胀两者的总数相同，而却两者中预后有影响的比例相差不大。膨胀性生长，肿瘤向周围扩散，挤压周围组织或邻近器官。周围可形成纤维性包膜。浸润性生长，瘤细胞沿组织间隙或毛细淋巴管扩展。一般而言，浸润式生长的肿瘤会更恶性。但对于肿瘤的包膜而言，肿瘤的包膜是完整的样本中，预后有影响所占的比例（14%）远小于其他两种情况。

7.肿瘤旁的微小子灶（X9）与术后腹水（X10）

在这里插入图片描述
从肿瘤旁的微小子灶上看，有微小子灶的患者明显比有微小子灶的患者预后好，这与我们的经验有冲突，作为预测的话，我们需要特别注意这个变量。而术后是否有腹水方面来看，没有腹水的患者更倾向于具有预后影响。

2.2.3 指标设计

在描述分析的基础上，我们对模型中需要用的的指标重新设计，具体如下表：

在这里插入图片描述

2.2.4 统计模型

虽然描述性统计能在一定程度上给我们一些信息，但是由于我们考虑的时候都是单独考虑的，并没从整体出发，忽略了各变量之间的相关关系，这难免会造成不准确，所以我们仍然需要进行系统的统计建模，把所有的变量放在一起考虑，以降低分析的失误。

在指标设计以及描述统计的基础上，讨论如何建立回归模型。我们关心的问题是，哪些指标可能影响预后影响。由于我们希望根据各解释变量的情况预测出最后的预后是否有影响，这是一个很经典的分类问题。对于这一分类问题的建模，我们可以采用贝叶斯分类、决策树分类、随机森林法、支持向量机以及逻辑回归，它们各有各的优缺点，在这里我们主要给出逻辑回归模型，并基于这一模型给出相应的结论。

逻辑回归分析是用来处理分类问题的一种统计建模方法，我们可以建立如下的逻辑回归模型:

$\beta)=\frac{e^{X' \beta}}{1+e^{X' \beta}}$

或者等价地有

$logit\{ p(X' \beta)\}=log\{ \frac{p(X' \beta)}{1-p(X' \beta)} \}=X' \beta$

这里

$\beta=\beta_0+\beta_1X_1+\beta_{21}X_{21}+\beta_{22}X_{22}+\beta_3X_3+....+\beta_{10}X_{10}$

这就是我们需要建立的逻辑回归模型。

同普通线性回归模型相似，对于逻辑回归而言，人们关心回归系数 β 。对于一个给定的变量 $X_j$ ， $β _j = 0$ 意味着在给定其他解释变量不变的前提下，该指标对于解释条件概率 $p (X^{'} β)$ 没有任何帮助。因此对于解释因变量 Y 的随机行为也没有任何帮助。但是，如果 $β_j > 0$ ，那么在给定其他解释变量不变的前提下，指标 X j 的上升会带来条件概率