泰坦尼克号获救问题分析和预测-Python项目实战记录

本文是作者(含笑半步癫)在学习Python网课时,将项目实战“泰坦尼克号获救问题分析”进行总结如下(含部分代码):

题目描述

数据来源:Kaggle数据集 → 共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)
字段意义:
PassengerId: 乘客编号
Survived :存活情况(存活:1 ; 死亡:0)
Pclass : 客舱等级
Name : 乘客姓名
Sex : 性别
Age : 年龄
SibSp : 同乘的兄弟姐妹/配偶数
Parch : 同乘的父母/小孩数
Ticket : 船票编号
Fare : 船票价格
Cabin :客舱号
Embarked : 登船港口
目的:通过已知获救数据,预测乘客生存情况

研究问题1

1、整体来看,存活比例如何?
1.1 分析思路:查看数据集,Survived为存活情况(存活:1 ; 死亡:0)。通过seaborn绘制一个饼图,Survived=1的数据占比即为存活比例。
1.2 相关代码块:

# 读取数据(训练数据train.csv;预测数据test.csv)
os.chdir('D:\\学习\\数据分析\\网易课堂\\CLASSDATA_ch06数据分析项目实战\\练习09_泰坦尼克号获救问题\\')
train_data=pd.read_csv('train.csv')
test_data=pd.read_csv('test.csv')

# 清洗数据:缺失值处理(存活情况Survived字段)
train_data_survived=train_data[train_data['Survived'].notnull()]

# 用seaborn绘制饼图,分析已知存活数据中的存活比例
sns.set_style('ticks') # 十字叉
plt.axis('equal')       #行宽相同
train_data_survived['Survived'].value_counts().plot.pie(autopct='%1.2f%%')

1.3 数据展现
在这里插入图片描述
1.4 分析总结
已知训练数据中,存活比例为38.38%

研究问题2

2、结合性别和年龄数据,分析幸存下来的人是哪些人?
2.1 分析思路:
(1)首先查看年龄数据分布情况;
(2) 然后分析男性和女性存活情况(比如猜测由于文化原因,可能女性存活率更高;
(3) 分析不同年龄段人的存活情况(比如猜测老人和小孩,可能存活率更高一些)
2.2 相关代码块
(1)首先查看年龄数据分布情况(根据可视化图表推荐,进行”分布“分析,选择直方图/箱型图进行展示;也可使用describe()函数查看数据统计分布情况:

sns.set()
sns.set_style('ticks')

# 缺失值处理:年龄Age字段
train_data_age=train_data[train_data['Age'].notnull()]

#
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值