泰坦尼克号数据分析python实战

最新推荐文章于 2023-04-07 21:03:09 发布

安卡是只喵

最新推荐文章于 2023-04-07 21:03:09 发布

阅读量5.6k

点赞数 9

分类专栏： Python实战文章标签：数据分析 python 可视化

本文链接：https://blog.csdn.net/weixin_47015654/article/details/105740409

版权

泰坦尼克号数据分析python实战
（单因素分析）

数据集：kaggle上的泰坦尼克号数据集
主要字段有：
PassengerId：乘客的ID（和存活率无关）
Survived：是否存活（1为存活，0为死亡）
Pclass：船舱等级（等级较高的船舱救生设备比较齐全）
Name：乘客姓名（无关）
Sex：乘客性别
Age：乘客年龄
SibSp：兄弟姐妹（有些乘客可能带兄弟姐妹一起上船）
Parch：父母小孩（同SibSp）
Ticket：船票编号（无关）
Fare：费用（同Pclass）
Cabin：舱号（无关）
Embarked：上船的地点（可能存在一定的相关性？）

和存活率可能相关的变量：Survived，Pclass，Sex,Age,SibSp,Parch,Fare,Embarked

要分析的问题：
1，泰坦尼克号获救情况如何？
2，船舱等级Pclass对存活Survived的影响？
3，性别Sex对存活Survived的影响？
4，年龄Age对存活Survived的影响？

首先用python对数据集进行预处理

#首先导入相关的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
 %matplotlib inline    #可视化在页面展示

#打开数据集，这里是用相对路径
df=pd.read_csv(r'train.csv')

先了解数据的概括(形状，缺失值)

df.shape
df.info()

在这里插入图片描述
由运行结果可知：数据集中一共有12列，891行。其中，Age、Cabin、Embarked存在缺失值，对其进行缺失值处理

#用平均数填充Age缺失值 fillna()
df.Age.fillna(df.Age.mean(),inplace=True)

#Cabin为舱号，和生存率无关,且缺失的数据较多。故删除
#drop（） axis=1为删除列，0为删除行
df = df.drop(["Cabin" ],axis = 1)

#Embarked为上船的地点，缺失2条记录。这里用众数填充缺失值

#查找缺失的记录是第几条。运行可知，第62和830条记录的Embarked为缺失
df[df.Embarked.isnull()]
#对Embarked的数据进行计数。运行结果可知，S为众数。
df.Embarked.value_counts()
#用众数填充Embarked的2个缺失值 
#fillna('value',inplace为是否在原表上进行操作)
df.Embarked.fillna('S',inplace=True)
#查看处理后的计数情况
df.Embarked.value_counts()
#切片查看查看62行的数据，可以看到Embarked已经被填充上S
df.iloc[61]

在这里插入图片描述
数据缺失值处理完成，接下来进行数据的描述性统计分析

df.describe() #只针对数值型变量，忽略类别型变量

在这里插入图片描述
然后进行单因素分析

问题1：泰坦尼克号获救情况如何？

#计算泰坦尼克号的获救人数和获救率
total_survived=df.Survived.value_counts()
total_survived.index=total_survived.index

最低0.47元/天解锁文章

安卡是只喵

关注

9
点赞
踩
88

收藏

觉得还不错? 一键收藏
1
评论
泰坦尼克号数据分析python实战

泰坦尼克号数据分析python实战问题：分析哪些变量和存活率有关（单因素分析）数据集：kaggle上的泰坦尼克号数据集主要字段有：PassengerId：乘客的IDSurvived：是否存活（1为存活，0为死亡）Pclass：船舱等级Name：乘客姓名Sex：乘客性别Age：乘客年龄SibSp：兄弟姐妹（有些乘客可能带兄弟姐妹一起上船）Parch：父母小孩（同上）Tick...
复制链接

扫一扫

专栏目录