项目--泰坦尼克号

最新推荐文章于 2024-06-03 16:23:08 发布

努力学--ing

最新推荐文章于 2024-06-03 16:23:08 发布

阅读量958

点赞数

分类专栏：项目文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_44361900/article/details/108361422

版权

项目专栏收录该内容

3 篇文章 0 订阅

订阅专栏

泰坦尼克号

本文将从六个部分对泰坦尼克号的数据进行分析，分别为提出问题、理解数据、数据清洗、构建模型、模型评估和实施方案。

一、提出问题

在泰坦尼克号沉船事件中，有人幸存了、有人牺牲，那有什么因素会影响到成员的幸存几率了？这就是问题所在。所以，实验中会提供两份数据列表，一份是带有分类结果的有多项特征（因素）的数据，然后用前一份数据（之后称为训练数据）来训练学习模型，后一份数据（之后称为测试数据），用在学习模型上得到测试结果（就是分类测试数据）

二、理解数据

2.1 导入工具包和数据

在这里插入图片描述

2.2 查看数据集信息

查看数据
解释标签数据
PassengerId：乘客ID
Survived：0代表NO，1代表YES
Pclass：1,2,3代表成员的经济社会地位1最高，3最低
Name：乘客姓名
Sex：代表性别
Age：年龄
SibSp：由两部分组成，Sibling（兄弟姐妹，堂妹都合适），Spouse代表（丈夫或妻子）
Parch：父母和孩子组成，若只跟保姆写0
Ticket：船票ID
Fare：船票价格
Cabin：船舱号
Embarked：登船港口：C=Cherbourg，Q=Queenstown，S=Southampton
获取数据类型列的描述统计信息
查看每一列的数据类型，和数据总数

从上图我们发现数据总共有1309行。
其中数据类型列：年龄（Age）、船舱号（Cabin）里面有缺失数据：
1）年龄（Age）里面数据总数是1046条，缺失了1309-1046=263，缺失率263/1309=20%
2）船票价格（Fare）里面数据总数是1308条，缺失了1条数据
字符串列：
1）登船港口（Embarked）里面数据总数是1307，只缺失了2条数据，缺失比较少
2）船舱号（Cabin）里面数据总数是295，缺失了1309-295=1014，缺失率=1014/1309=77.5%，缺失比较大
这为我们下一步数据清洗指明了方向，只有知道哪些数据缺失数据，我们才能有针对性的处理。

三、数据清洗

3.1 数据预处理

缺失值处理
在数据理解阶段可发现数据总共有1309行。其中数据类型列：年龄（Age）、船舱号（Cabin）里面有缺失数据；字符串列：登船港口（Embarked）、船舱号（Cabin）里面有缺失数据。
对于缺失的数据可以这样处理：

如果是数值类型，用平均值取代
如果是分类数据，用最常见的类别取代

在这里插入图片描述

使用模型预测缺失值，例如：K-NN

3.2 特征提取

数据分类

查看数据类型，分为3种数据类型。并对类别数据处理：用数值代替类别，并进行One-hot编码
1.数值类型：
乘客编号（PassengerId），年龄（Age），船票价格（Fare），同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）
2.时间序列：无
3.分类数据：
1）有直接类别的
乘客性别（Sex）：男性male，女性female
登船港口（Embarked）：出发地点S=英国南安普顿Southampton，途径地点1：C=法国瑟堡市Cherbourg，出发地点2：Q=爱尔兰昆士敦Queenstown
客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱
2）字符串类型：可能从这里面提取出特征来，也归到分类数据中
乘客姓名（Name）
客舱号（Cabin）
船票编号（Ticket）

3.2.1 分类数据：有直接类别的

乘客性别（Sex）：男性male，女性female
在这里插入图片描述

登船港口（Embarked）：出发地点S=英国南安普顿Southampton，途径地点1：C=法国瑟堡市Cherbourg，出发地点2：Q=爱尔兰昆士敦Queenstown
在这里插入图片描述

客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱
在这里插入图片描述

3.2.1 分类数据：字符串类型

字符串类型：可能从这里面提取出特征来，也归到分类数据中，这里数据有：
乘客姓名（Name）
注意到在乘客名字（Name）中，有一个非常显著的特点：
乘客头衔每个名字当中都包含了具体的称谓或者说是头衔，将这部分信息提取出来后可以作为非常有用一个新变量，可以帮助我们进行预测。
例如：
Braund, Mr. Owen Harris
Heikkinen, Miss. Laina
Oliva y Ocana, Dona. Fermina
Peter, Master. Michael J
在这里插入图片描述

客舱号（Cabin）
客场号的类别值是首字母，例如：
C85 类别映射为首字母C
在这里插入图片描述

船票编号（Ticket）
家庭人数=同代直系亲属数（Parch）+不同代直系亲属数（SibSp）+乘客自己
（因为乘客自己也是家庭成员的一个，所以这里加1）
家庭类别：
小家庭Family_Single：家庭人数=1
中等家庭Family_Small: 2<=家庭人数<=4
大家庭Family_Large: 家庭人数>=5
在这里插入图片描述

3.3 特征选择

相关系数法：计算各个特征的相关系数
在这里插入图片描述
查看各个特征与生成情况（Survived）的相关系数，
ascending=False表示按降序排列

根据各个特征与生成情况（Survived）的相关系数大小，我们选择了这几个特征作为模型的输入：
头衔（前面所在的数据集titleDf）、客舱等级（pclassDf）、家庭大小（familyDf）、船票价格（Fare）、船舱号（cabinDf）、登船港口（embarkedDf）、性别（Sex）
在这里插入图片描述

四、构建模型

4.构建模型

用训练数据和某个机器学习算法得到机器学习模型，用测试数据评估模型

4.1 建立训练数据集和测试数据集

训练数据集，做为我们的原始数据集（记为source），从这个原始数据集中拆分出训练数据集（记为train：用于模型训练）和测试数据集（记为test：用于模型评估）。
在这里插入图片描述
sourceRow是我们在最开始合并数据前知道的，原始数据集有总共有891条数据
从特征集合full_X中提取原始数据集提取前891行数据时，我们要减去1，因为行号是从0开始的。

891行前面的数据是测试数据集，891行之后的数据是预测数据集。[sourceRow:,:]就是从891行开始到最后一行作为预测数据集
从原始数据集（source）中拆分出训练数据集（用于模型训练train），测试数据集（用于模型评估test）
在这里插入图片描述

4.2 选择机器学习算法

选择一个机器学习算法，用于模型的训练
在这里插入图片描述

4.3 训练模型

在这里插入图片描述

五、模型评估

在这里插入图片描述

六、实施方案

在这里插入图片描述

努力学--ing

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
项目--泰坦尼克号

泰坦尼克号本文将从六个部分对泰坦尼克号的数据进行分析，分别为提出问题、理解数据、数据清洗、构建模型、模型评估和实施方案。一、提出问题在泰坦尼克号沉船事件中，有人幸存了、有人牺牲，那有什么因素会影响到成员的幸存几率了？这就是问题所在。所以，实验中会提供两份数据列表，一份是带有分类结果的有多项特征（因素）的数据，然后用前一份数据（之后称为训练数据）来训练学习模型，后一份数据（之后称为测试数据），用在学习模型上得到测试结果（就是分类测试数据）二、理解数据2.1 导入工具包和数据2.2 查看数据
复制链接

扫一扫