泰坦尼克号获救问题

数据来源:Kaggle数据集 → 共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)
字段意义:
    PassengerId: 乘客编号
    Survived   :存活情况(存活:1 ; 死亡:0)
    Pclass      : 客舱等级
    Name       : 乘客姓名
    Sex          : 性别
    Age          : 年龄
    SibSp      : 同乘的兄弟姐妹/配偶数
    Parch      : 同乘的父母/小孩数
    Ticket      : 船票编号
    Fare        : 船票价格
    Cabin       :客舱号
    Embarked   : 登船港口
目的:通过已知获救数据,预测乘客生存情况

1 整体来看,存活比例如何?

要求:

① 读取已知生存数据train.csv

② 查看已知存活数据中,存活比例如何?

提示:

① 注意过程中筛选掉缺失值之后再分析

② 这里用seaborn制图辅助研究

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import time

import warnings
warnings.filterwarnings('ignore') 

# 读取数据
os.chdir('C:/Users/yangy/Desktop/泰坦尼克号获救问题/')
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

# 已知数据中存活比例
sns.set()
sns.set_style("ticks")
plt.axis('equal')
train_data['Survived'].value_counts().plot.pie(autopct='%1.2f%%')
print('存活比例为38.38%')

2 结合性别和年龄数据,分析幸存下来的人是哪些人

要求:

① 年龄数据的分布情况

② 男性和女性存活情况

③ 老人和小孩存活情况

# 年龄数据的分布情况
train_data_age = train_data[train_data['Age'].notnull()]

plt.figure(figsize=(12,5))
plt.subplot(121)
t
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值