参考文章https://zhuanlan.zhihu.com/p/27550334
在20世纪初,由英国白星轮船公司耗资7500万英镑打造的当时世界上最大的豪华客轮“泰坦尼克”号,曾被称作为“永不沉没的船”和“梦幻之船”这艘豪轮在她的处女之航中,就因撞上冰山而在大西洋沉没。百年来,关于“泰坦尼克”号沉没的原因,一直是人们争论不休的话题。
究竟什么样的人获救几率更大一些呢?这就是本次kaggle的主题,预测每个人的生还几率。
首先在开始建模之前,最好对于数据做一个简单的了解。这会对于建模时候特征的选择有很大的帮助。
数据一共包括,乘客id,是否生还,姓名,性别,年龄,兄弟姐妹陪同的数量,父母陪同的数量,票号,船票的价格,仓位号,上船的码头位置,这些数据中有部分有缺失值,可以先看下哪些有缺失。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
train=pd.read_csv('C:/kaggle/Titanic/train.csv')
test=pd.read_csv('C:/kaggle/Titanic/test.csv')
print train.head(3) #打印数据
print train.info() #查看数据训练数据缺失情况和数据类型,其中age和cabin确实较严重
print train.describe() #数据描述,包括数量,平均数,标准差,4分位数,中位数,3/4分位数,最大值
年龄有714个数据,缺失200个,仓位号只有200多个,缺了700多个数据,那我们就应该考虑仓位号对于能否生还的影响大不大ÿ