【AI+数据分析】之让AI用随机森林完成泰坦尼克号生存预测

概述

泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。1912 年 4 月 15 日,在她的首次航行中,被广泛认为“永不沉没”的泰坦尼克号在与冰山相撞后沉没。不幸的是,没有足够的救生艇供船上每个人使用,导致 2224 名乘客和船员中有 1502 人死亡。

虽然幸存中涉及到一些运气成分,但似乎有些人比其他人更有可能幸存。

在本次分析中,我们将使用乘客数据(即姓名、年龄、性别、社会经济阶层等),建立一个预测模型来回答以下问题:“什么样的人更有可能幸存?”

数据

有两个相似的数据集,一个是训练集train.csv,另一个是测试集test.csv。

train.csv包含乘客子集的详细信息(准确地说是 891 人),揭示了他们是否幸存,也称为“基本事实”。test.csv 数据集包含类似的信息,但没有透露每位乘客是否幸存,预测这些结果是你的工作,即:使用你在 train.csv 数据中找到的模式,预测船上的其他 418 名乘客(在 test.csv中找到)是否幸存。

实施流程

  1. 了解、分析问题;
  2. 获取训练集和测试集;
  3. 进行数据整理和清洗;
  4. 分析识别模式并探索数据,进行特征处理;
  5. 建模、预测和解决问题;
  6. 提交结果。

【注】我们要解决的问题是:从训练集中训练出来的模型是否可以根据给定的不包含幸存信息的测试集,确定测试集中的这些乘客是否幸存。有几个需要注意的重点:

  • 1912 年 4 月 15 日,泰坦尼克号在与冰山相撞后沉没,2224 名乘客和船员中有 1502 人遇难,即32%的存活率;
  • 沉船事故导致生命损失的原因之一是没有足够的救生艇供乘客和船员使用;
  • 尽管在沉没中幸存下来有一些运气成分,但某些人群比其他人群更有可能幸存下来,例如妇女、儿童和上层阶级。

详细的分析过程

使用随机森林预测泰塔尼克号幸存者

分析截图

在这里插入图片描述

在这里插入图片描述

参考文档

Titanic - Machine Learning from Disaster

  • 10
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

奥特曼巨人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值