20/04/2023 更新: 下面的代码有些error,未必能运行。
我在上一年又玩了一下这个数据,把代码error纠正在以下的超链接。
Google Drive: 海外用户
https://drive.google.com/file/d/13hkgznGp_tWcSdJyDCLa97Vyio9ee1fN/view?usp=sharing
百度网盘:
链接: 链接: https://pan.baidu.com/s/1PFEaAXQWo_7S-oCWfFeUtQ 提取码: evyf 复制这段内容后打开百度网盘手机App,操作更方便哦
QR Code:
Btw: 不要只会copy, 然后应付老师完事, 仔细考虑背后的逻辑。
目录
背景
- 泰坦尼克号:英国白星航运公司下辖的一艘奥林匹克级邮轮,于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。
- 首航时间:1912年4月10日
- 航线:从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,驶向美国纽约。
- 沉船:1912年4月15日(1912年4月14日23时40分左右撞击冰山)
- 船员+乘客人数:2224
- 遇难人数:1502(67.5%)
目标¶
建立决策树模型,按照乘客的特征预测该乘客是否会在此次事故中死亡。
数据字典
Survived | Definition | Details | Sex | Definition | Details |
死亡 | 0 | NA | 男 | 0 | <= 0.5 |
生还 | 1 | NA | 女 | 1 | <= 1 |
Pclass | Embarked | ||||
一等位 | 1 | <= 1.5 | Cherbourg | 0 | <= 0.5 |
二等位 | 2 | <= 2.5 | Queenstown | 1 | <= 1 |
三等位 | 3 | <= 3 | Southampton | 2 | <= 2 |
为了更方便后续建立决策树模型,数据会转换成数字的形式。大纲可参考上表。以下会详细解释相关的数据。
- PassengerId 乘客id
- 不存在很大的相关性,因此会进行删除。
- Survived 是否获救
- 0=没有获救,1=有获救
- 获救:38.25%
- 遇难:61.75%(实际遇难比例:67.5%)
- Pclass 船票级别
- 代表社会经济地位。 1: 一等座位(),2 : 二等座位,3 :三等座位
- 人数占比是一等座位(24.07%),二等座位(20.70%),三等座位(55.23%)
- Sex 性别
- male 男 =0,female 女 =1
- 男 : 女 = 64.9% : 35.1%
- Age