初识机器学习

1. 何为机器学习

说到机器学习,很多人可能会想到如今很火的深度学习,但它们并不能划等号。一句话,深度学习是机器学习的一个子类,而机器学习又是人工智能的一个子类。简而言之,机器学习是针对数据的一种建模技术。给定一些数据,机器自己可以从这些数据中获得一个匹配度很高的模型,这就是学习过程,而用来机器建模的这些数据被称为训练数据,简单流程如下:

2. 面临的挑战

当我们通过机器学习从训练数据中获得模型之后,我们就需要将该模型用来处理实际领域的数据,那么问题来了,这个模型是否具有普适性,因为输入数据与训练数据之间存在差异是不可避免的,那么依据训练数据建立的模型是否能够预测输入数据的输出,这就是最大的挑战。简单如图
在这里插入图片描述
在此,引出一个新名词泛化,泛化是确保模型对于训练数据与输入数据能够获得一致性能的处理过程,机器学习能否成功很大程度上取决于泛化过程。泛化过程失效的主要原因之一就是过拟合,简单来讲就是拟合过于严苛导致失去了普适性。因为对于数据而言,或多或少都会存在一些噪声,而机器学习又不能区分噪声,如果过拟合就会导致输入新的数据得到结果与预期完全不一样,普适性大大降低,因此为了克服过拟合,这儿有两个典型方法:正则化与验证。正则化就是力求构建一个极简模型,这个模型牺牲了较小的性能,却避免了过拟合的影响,能够更好地反映一个总体特征。验证就是将训练数据分为训练数据集和验证数据集,比值8比2,利用训练数据集训练模型,利用验证数据集进行评估,如果模型效果不佳,重复验证直至令人满意。

3. 类型

在这里插入图片描述
监督学习就好比老师教学生做题目一样,学生做出一道题后正确与否需要老师给出标准答案进行比对,因此监督学习的每个训练数据集均由输入与标准输出构成。在监督学习中,最常见的是分类与回归,分类就是对训练数据进行分类,因此它的标准输出就是数据对中的类别,回归是预测数值,因此它的标准输出就是数值。在无监督学习中,主要研究的是聚类问题,它是根据数据的特征将这些数据分类,这很容易与分类混淆,但一定要注意,聚类是没有标准输出的,它仅仅依靠机器自己的判别将数据分类,属于无监督学习,而分类是监督学习,存在标准输出。

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页