对于Titanic数据集模型的搭建与评估

最新推荐文章于 2021-12-16 18:56:55 发布

韩雨庭

最新推荐文章于 2021-12-16 18:56:55 发布

阅读量294

点赞数

分类专栏：数据分析文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45019579/article/details/108288742

版权

本文详细介绍了使用Titanic数据集进行机器学习的过程，包括数据清洗（处理缺失值和分类变量），模型选择（逻辑回归与决策树），训练集和测试集的划分，以及模型评估（交叉验证、混淆矩阵和ROC曲线）。

摘要由CSDN通过智能技术生成

步骤

数据清洗
确立搭建模型
训练前准备
试用不同模型
模型评估

数据清洗

把数据缺失值，重复值处理到易于模型分析的样子

缺失值处理

首先找到含有缺失值的特征

train.isnull().mean()

在这里插入图片描述

将含缺失值的特征分为分类变量与连续变量
处理缺失的分类变量

# 对分类变量进行填充
train['Cabin'] = train['Cabin'].fillna('NA')
train['Embarked'] = train['Embarked'].fillna('S')

处理缺失的连续变量

# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())

处理分类变量

data = pd.get_dummies(data)

确立搭建模型

在选定baseline之前需要先确定

监督学习/无监督学习
任务
数据样本，特征的稀疏性
比较几个baseline的泛化性

训练前准备

切割训练集和测试集

# 对数据集进行切割
X_train

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

韩雨庭

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【数据分析】 Titanic乘客获救预测（3）建模与评估

qq_36977302的博客

08-27

520

建模与评估1 建立模型1.1 数据导入1.2 模型选择1.3 建模1.3.1 切割训练集与测试集1.3.2 逻辑回归模型1.3.3 随机森林模型1.3.4 模型预测结果2 模型评估2.1 交叉验证2.2 混淆矩阵2.3 ROC曲线2.3.1 ROC曲线定义2.3.2 ROC曲线绘制 1 建立模型 1.1 数据导入 # 导入数据 # 原始训练数据train train = pd.read_csv('titanic/titanic_train.csv') # 特征处理后数据data data = pd.read

Titanic 模型评估

futurewq的博客

01-10

419

1.逻辑回归 #evaluate logisitic model X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=2018) clf.fit(X_train, Y_train) Y_train_pred = clf.predict(X_train) Y_test_pred...

参与评论您还未登录，请先登录后发表或查看评论

泰坦尼克号-数据建模及模型评估

m0_45588051的博客

08-28

948

今天加班，明天补上~

泰坦尼克号数据挖掘项目实战——Task5 模型评估

不积跬步，无以至千里

01-10

2041

任务5：记录5个模型（逻辑回归、SVM、决策树、随机森林、XGBoost）关于accuracy、precision，recall和F1-score、auc值的评分表格，并画出ROC曲线。参考：【1】https://www.cnblogs.com/sddai/p/5696870.html 【2】http://www.cnblogs.com/bluepoint2009/ar...

Kaggle入门Titanic——模型建立

weixin_30828379的博客

03-10

0，介绍通过前面的特征分析，我们已经得到的想要的训练集和测试集，这样我们就可以利用这些训练集训练模型，并通过模型对测试集进行预测。我们得到的训练集和测试集结构如下所示。 print(train.head(5)) print(test.head(5)) Survived Pclass Sex Age Fare Embarked FamilySize IsAlon...

数据分析之Kaggle Titanic竞赛——第三章：数据建模、模型评估

Jelly's Blog

08-28

521

目录0.前言1. 数据建模1.1 载入库1.2 读取数据集1.3 模型搭建1.3.1 切割训练集和测试集1.3.2 模型创建1.3.3 输出模型预测结果 0.前言经过前面的两章的知识点的学习，我可以对数数据的本身进行处理，比如数据本身的增删查补，还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据，我们做数据分析的目的也就是，运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模，搭建一个预测模型或者其他模型；我们从这个模型的到

Python数据分析：模型评估与调优

## 1.2 数据分析与模型评估的重要性数据分析是从数据中提取信息、发现规律、进行预测的过程，而模型评估则是在建立预测模型后对模型性能进行评估。数据分析和模型评估的准确性直接影响业务决策的结果，因此在实际...

Python数据分析与数据挖掘.pptx（共83页）

最新发布

05-14

- Titanic数据集是一个经典的案例，用于预测乘客是否能够生存。 - 分析过程中会涉及数据清洗、特征工程、模型选择等多个步骤。 2. **餐饮客户价值分析**: - 通过分析餐饮行业的客户消费记录，识别有价值的客户...

实验：集成学习预测Titanic号生还者

qq_45785407的博客

12-16

1750

文章目录一实验要求二实验思路三实验代码四实验结果参考一实验要求用集成方法对数据集进行分类利用若干算法，针对同一样本数据训练模型，使用投票机制，少数服从多数，用多数算法给出的结果当作最终的决策依据，对Titanic数据集进行分类，给出在测试集上的精确度；除了投票法，其他的集成学习方法也可以。实验来自kaggle入门赛 https://www.kaggle.com/c/titanic ,可以参考原网站代码与预处理部分，但与公开代码不同的在于，集成学习所用的基学习器需要自己

泰坦尼克号数据集，包含训练集和测试集。

06-10

机器学习泰坦尼克号案例的完整数据集，包含训练集和测试集。

kaggle项目Titanic的训练集和测试集

03-29

kaggle项目Titanic的训练集和测试集

Titanic模型构建

futurewq的博客

01-07

288

1.因为逻辑回顾和支持向量机对数据的要求一样，都需要的是连续性数据。所以先使用逻辑回归和支持向量机数据处理 train_data.Sex[train_data.Sex == 'male'] = 0 train_data.Sex[train_data.Sex == 'female'] = 1 test_data.Sex[test_data.Sex == 'male'] = 0 test_da...

Titanic：数据挖掘入门的第一步

GhostLWB的博客

12-22

5861

关键词：数据挖掘 机器学习 预测 Python 这是一篇超长图文教程来自kaggle经典数据挖掘项目:Titanic

Kaggle Titanic Challenges 生存预测数据预处理模型训练交叉验证步骤详细解析

清水河C罗——Leonardo-Liu

03-18

2133

本博客所有内容均整理自《Hands-On Machine Learning with Scikit-Learn & TensorFlow》一书及其GitHub源码。看《Hands-On》一书至第三章，习题里面后两题是实际操作的编程题，自己初步动手效果不错，特此记录一下。运行环境：Jupyter Notebook 语言：Python3.6.4 0、题目描述 Kaggle的Tita...

Kaggle泰坦尼克号生存预测挑战——模型建立、模型调参、融合

大墅哥哥的博客

08-28

1283

Kaggle泰坦尼克号生存预测挑战这是kaggle上Getting Started 的Prediction Competition，也是比较入门和简单的新人赛，我的最好成绩好像有进入top8%，重新地回顾巩固一下这个比赛，我将分成三个部分： Kaggle泰坦尼克号生存预测挑战——数据分析 Kaggle泰坦尼克号生存预测挑战——简单的特征工程 Kaggle泰坦尼克号生存预测挑战——模型

练习（一）——决策树与随机森林分析Titanic数据集船员生还情况

我是托蜜的博客

03-17

2729

数据描述 Titanic数据集包含11个特征，分别是： Survived：0代表死亡，1代表存活 Pclass：船舱类别，3类别最高 Name、Sex、Age分别为姓名、性别、年龄，其中年龄有缺失 SibSp:乘客的兄弟姐妹/配偶的个数(整数值) Parch:乘客的父母/孩子的个数(整数值) Ticket:船票号码 Fare:船票价格 Cabin:乘客所在船舱（数据大量缺失） Embark:乘客登...

泰坦尼克号数据挖掘项目实战——Task7 模型融合

不积跬步，无以至千里

01-13

1933

参考：【1】https://blog.csdn.net/qq_39422642/article/details/78566763 【2】https://blog.csdn.net/u014356002/article/details/54376138 【3】https://blog.csdn.net/junxinwoxin/article/details/80407917 【4】http...

Kaggle Titanic数据分析和预测

Marvinsky的专栏

06-16

7737

本文对Kaggle中的Titanic事故中乘客遇难情况进行了相应的分析和可视化，采用逻辑回归对他们的遇难情况进行了预测。

预测生死：Titanic数据集乘客生存分析

在本次分析中，我们将探讨的是Titanic数据集，这是一个经典的数据科学挑战，目标是通过乘客的个人信息预测他们在泰坦尼克号沉船事件中的生存概率。这个数据集包含了一系列结构化的特征，如乘客的基本信息、船票细节...