学习笔记 — Datawhale数据分析入门Task05

本文介绍了数据建模的过程,包括加载数据、理解数据差异、模型选择与搭建。讨论了Matplotlib和Seaborn库的作用,分析了清洗前后数据的区别。在模型搭建部分,涉及了监督学习的概念,以及如何划分训练集和测试集。最后,通过逻辑回归和决策树等模型进行了训练,并输出了预测结果和概率。
摘要由CSDN通过智能技术生成

四、数据建模、计算、分析—建模

1、载入库,并思考这些库的作用是什么呢?

Matprotlib是Py的绘图库,可与NumPy一起使用,提供了一种有效的MatLab开元替代方案。

Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易。

2、载入清洗之后的数据(clear_data.csv),并将原始数据载入(train.csv),说说他们有什么不同?

①清洗过的数据与原数据形状不太相同

②清洗过的数据比原数据减少了'Survived''Name'这两个特征,并且数据中的文字类型都转成了数据类型以便后续数据处理

3、模型搭建

  • 处理完前面的数据我们就得到建模数据,下一步是选择合适模型
  • 在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
  • 监督学习:从标记的训练数据来进行的机器学习任务
  • 无监督学习:从未经标记和分类的数据来进行的机器学习任务
  • 模型的选择一方面是通过我们的任务来决定的。
  • 除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定
  • 刚开始我们总是先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型。
  • 泛化能力:指学习到的模型对未知数据的预测能力。

在调用机器学习scikit-learn库的时候就可以参考下方图片进行路径的选择

数据集的哪些差异会 

3.1切割训练集和测试集

为了评估模型的性能和泛化能力,就需要有一个参照进行验证,因此需要将数据集划分成训练集和测试集。

划分数据集的方法有:留出法,交叉验证法,自助法。

这里使用留出法划分数据集

  • 将数据集分为自变量和因变量
  • 在此次项目中x就是年龄、性别、舱位等级...,y就是 是否幸存。
  • 按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
  • 使用分层抽样
  • 设置随机种子以便结果能复现

3.2、模型创建

  • 创建基于线性模型的分类模型(逻辑回归)
  • 逻辑回归虽然叫回归但不是回归模型二十分类模型,并且常用于R分类
  • 创建基于树的分类模型(决策树、随机森林)
  • 分别使用这些模型进行训练,分别的到训练集和测试集的得分
  • 查看模型的参数,并更改参数值,观察模型变化

 

 3.3、输出模型预测结果

  • 输出模型预测分类标签
  • 输出不同分类标签的预测概率
  • 一般监督模型在sklearn里面有个predict能输出预测标签,predict_proba则可以输出标签概率

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值