泰坦尼克号获救问题分析和预测-Python项目实战记录

本文详述了作者通过Python对泰坦尼克号乘客数据进行的生存预测分析,包括存活比例、性别年龄影响、家庭成员数量、票价与存活率的关系,以及使用KNN模型进行预测的过程。研究发现,女性、低龄乘客、家庭成员较多的乘客存活率较高,而票价高的乘客更可能生还。
摘要由CSDN通过智能技术生成

本文是作者(含笑半步癫)在学习Python网课时,将项目实战“泰坦尼克号获救问题分析”进行总结如下(含部分代码):

题目描述

数据来源:Kaggle数据集 → 共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)
字段意义:
PassengerId: 乘客编号
Survived :存活情况(存活:1 ; 死亡:0)
Pclass : 客舱等级
Name : 乘客姓名
Sex : 性别
Age : 年龄
SibSp : 同乘的兄弟姐妹/配偶数
Parch : 同乘的父母/小孩数
Ticket : 船票编号
Fare : 船票价格
Cabin :客舱号
Embarked : 登船港口
目的:通过已知获救数据,预测乘客生存情况

研究问题1

1、整体来看,存活比例如何?
1.1 分析思路:查看数据集,Survived为存活情况(存活:1 ; 死亡:0)。通过seaborn绘制一个饼图,Survived=1的数据占比即为存活比例。
1.2 相关代码块:

# 读取数据(训练数据train.csv;预测数据test.csv)
os.chdir('D:\\学习\\数据分析\\网易课堂\\CLASSDATA_ch06数据分析项目实战\\练习09_泰坦尼克号获救问题\\')
train_data=pd.read_csv('train.csv')
test_data=pd.read_csv('test.csv')

# 清洗数据:缺失值处理(存活情况Survived字段)
train_data_survived=train_data[train_data['Survived'].notnull()]

# 用seaborn绘制饼图,分析已知存活数据中的存活比例
sns.set_style('ticks') # 十字叉
plt.axis('equal')       #行宽相同
train_data_survived['Survived'].value_counts().plot.pie(autopct='%1.2f%%')

1.3 数据展现
在这里插入图片描述
1.4 分析总结
已知训练数据中,存活比例为38.38%

研究问题2

2、结合性别和年龄数据,分析幸存下来的人是哪些人?
2.1 分析思路:
(1)首先查看年龄数据分布情况;
(2) 然后分析男性和女性存活情况(比如猜测由于文化原因,可能女性存活率更高;
(3) 分析不同年龄段人的存活情况(比如猜测老人和小孩,可能存活率更高一些)
2.2 相关代码块
(1)首先查看年龄数据分布情况(根据可视化图表推荐,进行”分布“分析,选择直方图/箱型图进行展示;也可使用describe()函数查看数据统计分布情况:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值