kaggle Titanic 数据可视化

最新推荐文章于 2022-05-08 23:46:14 发布

xiaoling_000666

最新推荐文章于 2022-05-08 23:46:14 发布

阅读量1.4k

点赞数

分类专栏： python学习

本文链接：https://blog.csdn.net/xiaoling_000666/article/details/79818055

版权

本文通过对kaggle上的泰坦尼克号数据进行可视化分析，探讨了年龄、仓位等级、性别、票价、兄弟姐妹/父母子女数量、上船地点等因素如何影响乘客的生存几率。结果显示，一等舱乘客生存率高，男性死亡率高，票价较高者生存率高，有一名兄弟姐妹或父母子女的生存概率较大，C地登船者生存几率优于S地。分析还指出，船仓位号缺失值较多，可能影响不大，而姓名和船票号对预测价值较低。

摘要由CSDN通过智能技术生成

参考文章https://zhuanlan.zhihu.com/p/27550334

在20世纪初，由英国白星轮船公司耗资7500万英镑打造的当时世界上最大的豪华客轮“泰坦尼克”号，曾被称作为“永不沉没的船”和“梦幻之船”这艘豪轮在她的处女之航中，就因撞上冰山而在大西洋沉没。百年来，关于“泰坦尼克”号沉没的原因，一直是人们争论不休的话题。

究竟什么样的人获救几率更大一些呢？这就是本次kaggle的主题，预测每个人的生还几率。

首先在开始建模之前，最好对于数据做一个简单的了解。这会对于建模时候特征的选择有很大的帮助。

数据一共包括，乘客id，是否生还，姓名，性别，年龄，兄弟姐妹陪同的数量，父母陪同的数量，票号，船票的价格，仓位号，上船的码头位置，这些数据中有部分有缺失值，可以先看下哪些有缺失。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
train=pd.read_csv('C:/kaggle/Titanic/train.csv')
test=pd.read_csv('C:/kaggle/Titanic/test.csv')
print train.head(3)             #打印数据
print train.info()              #查看数据训练数据缺失情况和数据类型，其中age和cabin确实较严重
print train.describe()          #数据描述，包括数量，平均数，标准差，4分位数，中位数，3/4分位数，最大值

年龄有714个数据，缺失200个，仓位号只有200多个，缺了700多个数据，那我们就应该考虑仓位号对于能否生还的影响大不大ÿ

最低0.47元/天解锁文章

xiaoling_000666

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
kaggle Titanic 数据可视化

参考文章https://zhuanlan.zhihu.com/p/27550334在20世纪初，由英国白星轮船公司耗资7500万英镑打造的当时世界上最大的豪华客轮“泰坦尼克”号，曾被称作为“永不沉没的船”和“梦幻之船”这艘豪轮在她的处女之航中，就因撞上冰山而在大西洋沉没。百年来，关于“泰坦尼克”号沉没的原因，一直是人们争论不休的话题。究竟什么样的人获救几率更大一些呢？这就是本次kaggle的主题，...
复制链接

扫一扫

专栏目录