泰坦尼克号生还者数据集下载(免费):https://download.csdn.net/download/weixin_44940488/20814899
使用的分析软件:jupyter notebook
主要语法知识:Python数据清洗与整理、seaborn数据可视化。
1. 数据来源
# 导入相关库
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = 'SimHei' # 用来正常显示中文
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
# 数据导入
titanic = pd.read_csv(open('数据/titanic.csv'))
titanic.head()
主要字段有:surived和alive为乘客的生还情况;pclass与class为船舱等级;sex和who为乘客性别;age为乘客年龄;silbsp和parch为是否带有家属,后面统一用alone字段代表是否有家属;fare为船票价格;embarked和embarked_town为上船地点。
2. 定义问题
本次分析中主要分析两个问题:
- 泰坦尼克号乘客的基本信息分布情况?
- 乘客的信息与生还数据是否有关联?
3. 数据清洗
第一步:缺失值处理
# 查看缺失值
titanic.isnull().sum()
titanic.info()