深入分析泰坦尼克号分析生存率

Noby_Ng

已于 2023-04-20 22:51:07 修改

阅读量4.9k

点赞数 4

分类专栏： Python 机器学习 Skelarn 文章标签：决策树大数据数据分析 python vbscript

于 2021-08-03 22:10:00 首次发布

本文链接：https://blog.csdn.net/weixin_51287450/article/details/119352587

版权

20/04/2023 更新：下面的代码有些error，未必能运行。

我在上一年又玩了一下这个数据，把代码error纠正在以下的超链接。

Google Drive: 海外用户

百度网盘：

链接：链接: https://pan.baidu.com/s/1PFEaAXQWo_7S-oCWfFeUtQ 提取码: evyf 复制这段内容后打开百度网盘手机App，操作更方便哦

QR Code:

Btw：不要只会copy，然后应付老师完事，仔细考虑背后的逻辑。

背景

背景

泰坦尼克号：英国白星航运公司下辖的一艘奥林匹克级邮轮，于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造，1911年5月31日下水，1912年4月2日完工试航。
首航时间：1912年4月10日
航线：从英国南安普敦出发，途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦，驶向美国纽约。
沉船：1912年4月15日（1912年4月14日23时40分左右撞击冰山）
船员+乘客人数：2224
遇难人数：1502（67.5%）

建立决策树模型，按照乘客的特征预测该乘客是否会在此次事故中死亡。

为了更方便后续建立决策树模型，数据会转换成数字的形式。大纲可参考上表。以下会详细解释相关的数据。

PassengerId 乘客id
- 不存在很大的相关性，因此会进行删除。
Survived 是否获救
- 0=没有获救，1=有获救
- 获救：38.25%
- 遇难：61.75%（实际遇难比例：67.5%）
Pclass 船票级别
- 代表社会经济地位。 1：一等座位（），2 ：二等座位，3 ：三等座位
- 人数占比是一等座位（24.07%），二等座位（20.70%），三等座位（55.23%）
Sex 性别
- male 男 =0，female 女 =1
- 男 : 女 = 64.9% : 35.1%
Age