泰坦尼克号获救问题

最新推荐文章于 2022-08-08 11:31:00 发布

yangyuying_1219

最新推荐文章于 2022-08-08 11:31:00 发布

阅读量404

点赞数 1

文章标签：大数据 python 机器学习

本文链接：https://blog.csdn.net/yangyuying_1219/article/details/114241330

版权

数据来源：Kaggle数据集 → 共有1309名乘客数据，其中891是已知存活情况（train.csv），剩下418则是需要进行分析预测的（test.csv）
字段意义：
PassengerId: 乘客编号
Survived :存活情况（存活：1 ; 死亡：0）
Pclass : 客舱等级
Name : 乘客姓名
Sex : 性别
Age : 年龄
SibSp : 同乘的兄弟姐妹/配偶数
Parch : 同乘的父母/小孩数
Ticket : 船票编号
Fare : 船票价格
Cabin :客舱号
Embarked : 登船港口
目的：通过已知获救数据，预测乘客生存情况

1 整体来看，存活比例如何？

要求：

① 读取已知生存数据train.csv

② 查看已知存活数据中，存活比例如何？

提示：

① 注意过程中筛选掉缺失值之后再分析

② 这里用seaborn制图辅助研究

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import time

import warnings
warnings.filterwarnings('ignore') 

# 读取数据
os.chdir('C:/Users/yangy/Desktop/泰坦尼克号获救问题/')
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

# 已知数据中存活比例
sns.set()
sns.set_style("ticks")
plt.axis('equal')
train_data['Survived'].value_counts().plot.pie(autopct='%1.2f%%')
print('存活比例为38.38%')

2 结合性别和年龄数据，分析幸存下来的人是哪些人

要求：

① 年龄数据的分布情况

② 男性和女性存活情况

③ 老人和小孩存活情况

# 年龄数据的分布情况
train_data_age = train_data[train_data['Age'].notnull()]

plt.figure(figsize=(12,5))
plt.subplot(121)
t

最低0.47元/天解锁文章

yangyuying_1219

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
泰坦尼克号获救问题

数据来源：Kaggle数据集 → 共有1309名乘客数据，其中891是已知存活情况（train.csv），剩下418则是需要进行分析预测的（test.csv）字段意义： PassengerId: 乘客编号 Survived :存活情况（存活：1 ; 死亡：0） Pclass : 客舱等级 Name : 乘客姓名 Sex : 性别 Age : 年龄 SibSp : 同乘的兄弟姐妹/...
复制链接

扫一扫