对于Titanic数据集模型的搭建与评估

本文详细介绍了使用Titanic数据集进行机器学习的过程,包括数据清洗(处理缺失值和分类变量),模型选择(逻辑回归与决策树),训练集和测试集的划分,以及模型评估(交叉验证、混淆矩阵和ROC曲线)。
摘要由CSDN通过智能技术生成

步骤

数据清洗
确立搭建模型
训练前准备
试用不同模型
模型评估

数据清洗

把数据缺失值,重复值处理到易于模型分析的样子

缺失值处理
  • 首先找到含有缺失值的特征
train.isnull().mean()

在这里插入图片描述

  • 将含缺失值的特征分为分类变量与连续变量

  • 处理缺失的分类变量

# 对分类变量进行填充
train['Cabin'] = train['Cabin'].fillna('NA')
train['Embarked'] = train['Embarked'].fillna('S')
  • 处理缺失的连续变量
# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())
处理分类变量
data = pd.get_dummies(data)

确立搭建模型

在选定baseline之前需要先确定

  • 监督学习/无监督学习
  • 任务
  • 数据样本,特征的稀疏性
  • 比较几个baseline的泛化性

训练前准备

切割训练集和测试集
# 对数据集进行切割
X_train
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值