一、前言
本文要解决的问题为预测问题,即给出seer提取的癌症病人数据,如A病人的患病时长,性别,年龄等信息以及他是否死亡,通过训练后,给出某个病人的信息后就可以判定他是否死亡,具有一定的现实意义。同理还有股票涨跌问题
给出数据为csv格式,如下图所示,最后一列为因变量。
本文计划采用决策树、随机森林、stacking融合两种模型 三种方式进行训练和预测。
二、特征分析
这是特征之间的相关热力图,我把是否存活放在第一行了,你看第一行就能看出来和得癌症后是否存活和最后面两个特征相关性最大。而各个特征之间相关性不大,也符合常理,我把最后是否存活和各个特征之间关系的相关性矩阵图也画出来了。
三、运行结果
1、评价指标
大概就是准确率决策树84%,随机森林87%,融合后89%,每次都可能不一样,因为是随机的,但大概不变
2、决策树模型
决策树的树和ROC图
3、随机森林模型
随机森林的树和ROC图(分类器设为100),输出的是第一颗树
4、stacking融合模型
四、全部代码及数据
全部代码
所需积分为0哦,免费的