Python机器学习日记3:监督学习(持续更新)

一、书目与章节

在这里插入图片描述
拜读的是这本《Python机器学习基础教程》,本文选自第2章“监督学习”第1节“分类与回归”与第2节“泛化、过拟合与欠拟合”。

本书电子版链接:https://pan.baidu.com/s/1MTPDFHeD6GVgMX4C_wOZPQ
提取码:ut34

本书全部代码:https://github.com/amueller/introduction_to_ml_with_python

二、什么是监督学习

1. 概念

利用输入/输出对构成训练集/训练集和机器学习模型,来对全新数据做出准确预测的机器学习算法

2. 类型

2.1. 分类(classification)

2.1.1. 目标

预测类别标签(class label)

2.1.2. 类型
  1. 二分类(binary classification)——> 回答一道是/否问题
    例如,垃圾邮件分类,通常分为正类(positive class)与反类(negative class)
  2. 多分类(multiclass classification)
    例如,鸢尾花分类、根据网站上的文本预测网站所用语言(类别为语言列表)

2.2. 回归(regression)

预测一个连续值,编程术语叫浮点数(floating-point number),数学术语叫做实数(real number)

2.3. 区分方法

判断输出是否具有某种连续性:
① 预测年收入 ——> 有连续性 ——> 回归
② 识别语言 ——> 无连续性 ——> 分类

3. 优缺点

通常需要用人力来构建训练集,但后续本impossible的任务将自动快速地完成

三、泛化、过拟合与欠拟合

1. 泛化(generalization)

① 如果一个模型能够对没见过的数据做出准确预测,就说明他能够从训练集泛化到测试集。

② 需要构建一个泛化精度尽可能高的模型。

2. 过拟合与欠拟合(overfitting & underfitting)

2.1. 过拟合

构建一个对现有信息量来说过于复杂的模型(考虑过多细节,得到一个在训练集上表现很好,但是无法泛化到新数据上的模型)

2.2. 欠拟合

选择过于简单的模型

2.3. 理想模型

模型越复杂,在训练数据上的预测结果越好。但是模型过于复杂,便会开始过多关注训练集中每个单独数据点,模型就不能很好地泛化到新数据上。二者之间存在一个最佳位置,可得到最好的泛化性能。即为想要的模型。
在这里插入图片描述

2.4. 模型复杂度与数据集大小的关系

模型复杂度与训练数据集中输入的变化密切相关:数据集中包含的数据点的变化范围越大,在不发生过拟合的前提下可以使用的模型就越复杂。收集更多数据,适当构建更复杂的模型,对监督学习任务往往特别有用。

To be continued…
欢迎继续浏览:一些分类与回归的数据集介绍

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

调参侠鱼尾

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值