监督学习(一)——几个概念

今天主要介绍几个概念信息,用比较浅显易懂的方式来阐述。

1、监督学习

用户将成对的输入和预期输出数据提供给算法,算法从中找到一种方法(具体方法不用深究),然后根据给定输入给出预期输出。这就是监督学习的过程。而这个过程中,从输入—输出对中进行学习的机器学习算法叫作监督学习算法
什么时候使用监督学习,可以有一个简单的说明:
每当想要根据给定输入预测某个结果,并且还有输入—输出对的示例时,都应该使用监督学习

2、分类与回归

监督学习的问题主要有两种:分类和回归
分类问题的主要目的是预测分类标签,这些标签来自预定义的可选列表。
分类问题可分为二分类和多分类。比如邮件系统,对于垃圾邮件的识别就是一个分类问题。

回归任务的目标是预测一个连续值。例如,根据教育水平、年龄和居住地来预测一个人的年收入,预测的结果是一个金额数值。

3、泛化

如果一个模型能够对没见过的数据做出准确预测,我们就说它能够从训练集泛化到测试集。而我们的目的是要构建一个泛化精度尽量高的模型。

4、过拟合和欠拟合

判断一个算法在新数据上表现好坏的唯一度量,就是在测试集上的评估。简单的模型对新数据的泛化能力更好,因此我们总是希望找一个最简单的模型。
构建一个对现有的信息来说过于复杂的模型,就被称为过拟合
如果在拟合模型的时候,过分关注训练集的细节,得到了一个在训练集上表现很好,但不能泛化到新数据上的模型,那么久存在过拟合现象。

相反,如果模型过于简单,那么就可能无法抓住数据的全部内容以及数据中的变化。甚至可能模型在训练集上的表现也很差。而选择这种过于简单的模型被称为欠拟合

对于过拟合欠拟合,二者之间存在一个最佳位置,也可以得到最好的泛化性能。这就是我们最需要的。

5、数据复杂度与数据集大小的关系

模型复杂度与训练数据集中输入的变化密切相关:
数据集中包含的数据点的变化范围越大,在不发生过拟合的前提下可以使用的模型就越复杂。通常来说,收集更多的数据点可以有更大的变化范围,所以更大的数据集可以用来构建更复杂的模型。但是, 仅复制相同的数据点或收集非常相似的数据是无济于事的。
因此,收集更多数据,适当构建更复杂的模型,对监督学习任务往往特别有用。

未完待续!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值