【机器学习课程】第一章机器学习概述 3.机器学习相关术语

人工智能学术前沿（真)

已于 2022-08-25 22:46:11 修改

阅读量376

点赞数

文章标签：机器学习人工智能 python

于 2022-08-25 22:41:27 首次发布

本文链接：https://blog.csdn.net/zzh1464501547/article/details/126533819

版权

自命不凡的学者总会把事物变得臃肿、复杂和有破坏性，而在相反的方向上努力是需要不凡的天赋和极大的勇气的。 ——爱因斯坦

3.机器学习相关术语

3.1 关于数据

原始数据（data）：从业务环境中获取到的，与研究问题相关的数据。一般原始数据中可能会存在不能够用于建模的无效数据，或存在一些缺失、异常的问题。

实例(instance)或样本(example)：每一条记录。不同类型的数据，有所不同，以结构化数据表格为例，一行数据就是一条记录。
针对不同任务，一个图片，一段文字一，篇文章，一段语音都可以是一条记录。

特征(feature)或属性(attribute)：单个的特点。结构化数据表格中的一个列。x1,x2,x3,……xn.

特征值（feature value）属性值(attribute value): 特征的描述内容，属性上的取值。 x1=3

维数：一个样本的特征数。数据表格中的列数和。n维

标签-目标特征(label)：数据集中，期望模型能够预测到的值。y
注意：有标签的是有监督学习，无标签的是无监督学习。

数据集（dataset）：经过数据预处理后，完成了对原始数据的清洗工作，有的数据集中输入特征和输出目标标签有了明显的区分标识。

训练集（train）、验证集(val)、测试集(test)：机器学习过程会从数据中获取特征，收集经验。虽然说数据越多越好，但是为了验证模型的性能，在训练过程中需要把一部分数据分离出来，不加入模型训练。模型训练过程中使用的数据就是训练集；这部分模型没有见过的数据就是验证集，它可以用来验证模型的性能;为了进一步保证模型的可靠性，有的任务会分出第三份数据，作为测试集，有的测试集可能是另一份类似的数据样本。

数据集划分：根据数据集的数据规模不同，数据集的划分也有所差异，常见的划分方法7:3，8:2，9:1，8:1:1，6:2:2等。

3.2 关于模型拟合

拟合：模型在训练集上不断的迭代，更新参数，以提高模型的准确度。

泛化能力（generalization），即从特殊到一般： 模型在新样本上表现出的适应能力。

过拟合（overfitting）：模型的复杂度过高。
欠拟合（underfitting）：模型的复杂度过低。

过拟合与欠拟合的理解

欠拟合图示：用一根直线去模拟数据样本的变化规律，数据样本点的偏离程度巨大。

过拟合图示：用一条非常复杂的曲线去模拟数据样本的变化规律，曲线上穿过看大量的样本点。

这里需要知道，拟合过程仅完成了训练部分，模型要想具有很好的鲁棒性，必须在训练样本、测试样本中也同样表现出良好的性能。下图中随着模型的迭代，虚线训练误差越来越小，红色实线验证集上的泛化误差不断变化，欠拟合区域误差不断降低，过拟合区域误差，开始向上偏离。误差变化的拐点，实际上就是我们要寻找模型最近拟合点。

为什么会出现过拟合现象？

造成原因主要有以下几种：
1、训练数据集样本单一，样本不足。如果训练样本只有负样本，然后那生成的模型去预测正样本，这肯定预测不准。所以训练样本要尽可能的全面，覆盖所有的数据类型。
2、训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征，忽略了真实输入和输出之间的关系。
3、模型过于复杂。模型太复杂，已经能够“死记硬背”记下了训练数据的信息，但是遇到没有见过的数据的时候不能够变通，泛化能力太差。我们希望模型对不同的模型都有稳定的输出。模型太复杂是过拟合的重要因素。

如何防止过拟合？

要想解决过拟合问题，就要显著减少测试误差而不过度增加训练误差，从而提高模型的泛化能力。

获取和使用更多的数据（数据集增强）——解决过拟合的根本性方法
采用合适的模型（控制模型的复杂度）过于复杂的模型会带来过拟合问题。
降低特征的数量

人工智能学术前沿（真)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫