今天主要介绍几个概念信息,用比较浅显易懂的方式来阐述。
1、监督学习
用户将成对的输入和预期输出数据提供给算法,算法从中找到一种方法(具体方法不用深究),然后根据给定输入给出预期输出。这就是监督学习的过程。而这个过程中,从输入—输出对中进行学习的机器学习算法叫作监督学习算法。
什么时候使用监督学习,可以有一个简单的说明:
每当想要根据给定输入预测某个结果,并且还有输入—输出对的示例时,都应该使用监督学习
2、分类与回归
监督学习的问题主要有两种:分类和回归
分类问题的主要目的是预测分类标签,这些标签来自预定义的可选列表。
分类问题可分为二分类和多分类。比如邮件系统,对于垃圾邮件的识别就是一个分类问题。
回归任务的目标是预测一个连续值。例如,根据教育水平、年龄和居住地来预测一个人的年收入,预测的结果是一个金额数值。
3、泛化
如果一个模型能够对没见过的数据做出准确预测,我们就说它能够从训练集泛化到测试集。而我们的目的是要构建一个泛化精度尽量高的模型。
4、过拟合和欠拟合
判断一个算法在新数据上表现好坏的唯一度量,就是在测试集上的评估。简单的模型对新数据的泛化能力更好,因此我们总是希望找一个最简单的模型。
构建一个对现有的信息来说过于复杂的模型,就被称为过拟合。
如果在拟合模型的时候,过分关注训练集的细节,得到了一个在训练集上表现很好,但不能泛化到新数据上的模型,那么久存在过拟合现象。
相反,如果模型过于简单,那么就可能无法抓住数据的全部内容以及数据中的变化。甚至可能模型在训练集上的表现也很差。而选择这种过于简单的模型被称为欠拟合。
对于过拟合和欠拟合,二者之间存在一个最佳位置,也可以得到最好的泛化性能。这就是我们最需要的。
5、数据复杂度与数据集大小的关系
模型复杂度与训练数据集中输入的变化密切相关:
数据集中包含的数据点的变化范围越大,在不发生过拟合的前提下可以使用的模型就越复杂。通常来说,收集更多的数据点可以有更大的变化范围,所以更大的数据集可以用来构建更复杂的模型。但是, 仅复制相同的数据点或收集非常相似的数据是无济于事的。
因此,收集更多数据,适当构建更复杂的模型,对监督学习任务往往特别有用。
未完待续!