kaggle Titanic 数据可视化

本文通过对kaggle上的泰坦尼克号数据进行可视化分析,探讨了年龄、仓位等级、性别、票价、兄弟姐妹/父母子女数量、上船地点等因素如何影响乘客的生存几率。结果显示,一等舱乘客生存率高,男性死亡率高,票价较高者生存率高,有一名兄弟姐妹或父母子女的生存概率较大,C地登船者生存几率优于S地。分析还指出,船仓位号缺失值较多,可能影响不大,而姓名和船票号对预测价值较低。
摘要由CSDN通过智能技术生成

参考文章https://zhuanlan.zhihu.com/p/27550334

在20世纪初,由英国白星轮船公司耗资7500万英镑打造的当时世界上最大的豪华客轮“泰坦尼克”号,曾被称作为“永不沉没的船”和“梦幻之船”这艘豪轮在她的处女之航中,就因撞上冰山而在大西洋沉没。百年来,关于“泰坦尼克”号沉没的原因,一直是人们争论不休的话题。

究竟什么样的人获救几率更大一些呢?这就是本次kaggle的主题,预测每个人的生还几率。

首先在开始建模之前,最好对于数据做一个简单的了解。这会对于建模时候特征的选择有很大的帮助。

数据一共包括,乘客id,是否生还,姓名,性别,年龄,兄弟姐妹陪同的数量,父母陪同的数量,票号,船票的价格,仓位号,上船的码头位置,这些数据中有部分有缺失值,可以先看下哪些有缺失。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
train=pd.read_csv('C:/kaggle/Titanic/train.csv')
test=pd.read_csv('C:/kaggle/Titanic/test.csv')
print train.head(3)             #打印数据
print train.info()              #查看数据训练数据缺失情况和数据类型,其中age和cabin确实较严重
print train.describe()          #数据描述,包括数量,平均数,标准差,4分位数,中位数,3/4分位数,最大值

年龄有714个数据,缺失200个,仓位号只有200多个,缺了700多个数据,那我们就应该考虑仓位号对于能否生还的影响大不大ÿ

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值