数据分析之Kaggle Titanic竞赛——第三章：数据建模、模型评估

最新推荐文章于 2022-10-31 16:09:42 发布

公户灿灿

最新推荐文章于 2022-10-31 16:09:42 发布

阅读量397

点赞数

文章标签：机器学习数据分析 python

本文链接：https://blog.csdn.net/weixin_45507954/article/details/108288559

版权

本文介绍了在Kaggle Titanic生存预测竞赛中进行数据建模的步骤，包括载入库、读取数据、模型搭建。重点讨论了如何切割训练集和测试集，使用了sklearn库实现逻辑回归和随机森林模型，并分析了模型性能。通过模型预测，作者探讨了线性模型用于分类任务的数学原理和多分类问题的处理方式。

摘要由CSDN通过智能技术生成

0.前言

经过前面的两章的知识点的学习，我可以对数数据的本身进行处理，比如数据本身的增删查补，还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据，我们做数据分析的目的也就是，运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模，搭建一个预测模型或者其他模型；我们从这个模型的到结果之后，我们要分析我的模型是不是足够的可靠，那我就需要评估这个模型。今天我们学习建模，下一节我们学习评估。

我们拥有的泰坦尼克号的数据集，那么我们这次的目的就是，完成泰坦尼克号存活预测这个任务。

1. 数据建模

1.1 载入库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

1.2 读取数据集

# 读取原数据数集
train = pd.read_csv('train.csv')

#读取清洗过的数据集
data = pd.read_csv('clear_data.csv')

1.3 模型搭建

处理完前面的数据我们就得到建模数据，下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
模型的选择一方面是通过我们的任务来决定的。
除了根据我们任务来选择模型外，还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型

这里我的建模，并不是从零开始，自己一个人完成完成所有代码的编译。我们这里使用一个机器学习最常用的一个库（sklearn）来完成我们的模型的搭建

# sklearn模型算法选择路径图
Image

最低0.47元/天解锁文章

公户灿灿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据分析之Kaggle Titanic竞赛——第三章：数据建模、模型评估

目录0.前言1. 数据建模1.1 载入库1.2 读取数据集1.3 模型搭建1.3.1 切割训练集和测试集1.3.2 模型创建1.3.3 输出模型预测结果0.前言经过前面的两章的知识点的学习，我可以对数数据的本身进行处理，比如数据本身的增删查补，还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据，我们做数据分析的目的也就是，运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模，搭建一个预测模型或者其他模型；我们从这个模型的到
复制链接

扫一扫