监督学习(一)——几个概念

最新推荐文章于 2024-09-10 09:57:58 发布

zartzwj

最新推荐文章于 2024-09-10 09:57:58 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/zartzwj/article/details/86578591

版权

今天主要介绍几个概念信息，用比较浅显易懂的方式来阐述。

1、监督学习

用户将成对的输入和预期输出数据提供给算法，算法从中找到一种方法（具体方法不用深究），然后根据给定输入给出预期输出。这就是监督学习的过程。而这个过程中，从输入—输出对中进行学习的机器学习算法叫作监督学习算法。
什么时候使用监督学习，可以有一个简单的说明：
每当想要根据给定输入预测某个结果，并且还有输入—输出对的示例时，都应该使用监督学习

2、分类与回归

监督学习的问题主要有两种：分类和回归
分类问题的主要目的是预测分类标签，这些标签来自预定义的可选列表。
分类问题可分为二分类和多分类。比如邮件系统，对于垃圾邮件的识别就是一个分类问题。

回归任务的目标是预测一个连续值。例如，根据教育水平、年龄和居住地来预测一个人的年收入，预测的结果是一个金额数值。

3、泛化

如果一个模型能够对没见过的数据做出准确预测，我们就说它能够从训练集泛化到测试集。而我们的目的是要构建一个泛化精度尽量高的模型。

4、过拟合和欠拟合

判断一个算法在新数据上表现好坏的唯一度量，就是在测试集上的评估。简单的模型对新数据的泛化能力更好，因此我们总是希望找一个最简单的模型。
构建一个对现有的信息来说过于复杂的模型，就被称为过拟合。
如果在拟合模型的时候，过分关注训练集的细节，得到了一个在训练集上表现很好，但不能泛化到新数据上的模型，那么久存在过拟合现象。

相反，如果模型过于简单，那么就可能无法抓住数据的全部内容以及数据中的变化。甚至可能模型在训练集上的表现也很差。而选择这种过于简单的模型被称为欠拟合。

对于过拟合和欠拟合，二者之间存在一个最佳位置，也可以得到最好的泛化性能。这就是我们最需要的。

5、数据复杂度与数据集大小的关系

模型复杂度与训练数据集中输入的变化密切相关:
数据集中包含的数据点的变化范围越大，在不发生过拟合的前提下可以使用的模型就越复杂。通常来说，收集更多的数据点可以有更大的变化范围，所以更大的数据集可以用来构建更复杂的模型。但是，仅复制相同的数据点或收集非常相似的数据是无济于事的。
因此，收集更多数据，适当构建更复杂的模型，对监督学习任务往往特别有用。

未完待续！