深入分析泰坦尼克号分析生存率

20/04/2023 更新: 下面的代码有些error,未必能运行。

我在上一年又玩了一下这个数据,把代码error纠正在以下的超链接。

Google Drive: 海外用户

https://drive.google.com/file/d/13hkgznGp_tWcSdJyDCLa97Vyio9ee1fN/view?usp=sharing

百度网盘:

链接:  链接: https://pan.baidu.com/s/1PFEaAXQWo_7S-oCWfFeUtQ 提取码: evyf 复制这段内容后打开百度网盘手机App,操作更方便哦

 QR Code: 

Btw: 不要只会copy, 然后应付老师完事, 仔细考虑背后的逻辑。

目录

背景

目标¶

数据字典

1.获取数据

2.探索数据

2.1.基本信息查看(Head, info)

 2.2.数据清洗

 2.3.数据探索及数据解释

3.数据建模

 4.数据分析

5.总结


背景

  • 泰坦尼克号:英国白星航运公司下辖的一艘奥林匹克级邮轮,于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911年5月31日下水,1912年4月2日完工试航。
  • 首航时间:1912年4月10日
  • 航线:从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,驶向美国纽约。
  • 沉船:1912年4月15日(1912年4月14日23时40分左右撞击冰山)
  • 船员+乘客人数:2224
  • 遇难人数:1502(67.5%)

目标

建立决策树模型,按照乘客的特征预测该乘客是否会在此次事故中死亡。

数据字典

Survived Definition Details Sex Definition Details
死亡 0 NA 0 <= 0.5
生还 1 NA 1 <= 1
Pclass     Embarked    
一等位 1 <= 1.5  Cherbourg 0 <= 0.5
二等位 2 <= 2.5 Queenstown 1 <= 1
三等位 3 <= 3 Southampton 2 <= 2

为了更方便后续建立决策树模型,数据会转换成数字的形式。大纲可参考上表。以下会详细解释相关的数据。

  • PassengerId 乘客id
    • 不存在很大的相关性,因此会进行删除。
  • Survived 是否获救
    • 0=没有获救,1=有获救
    • 获救:38.25%
    • 遇难:61.75%(实际遇难比例:67.5%)
  • Pclass 船票级别
    • 代表社会经济地位。 1: 一等座位(),2 : 二等座位,3 :三等座位
    • 人数占比是一等座位(24.07%),二等座位(20.70%),三等座位(55.23%)
  • Sex 性别
    • male 男 =0,female 女 =1
    • 男 : 女 = 64.9% : 35.1%
  • Age
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值