【机器学习课程】第一章机器学习概述 3.机器学习相关术语

自命不凡的学者总会把事物变得臃肿、复杂和有破坏性,而在相反的方向上努力是需要不凡的天赋和极大的勇气的。 ——爱因斯坦

3.机器学习相关术语

3.1 关于数据

原始数据(data):从业务环境中获取到的,与研究问题相关的数据。一般原始数据中可能会存在不能够用于建模的无效数据,或存在一些缺失、异常的问题。

实例(instance)或样本(example):每一条记录。不同类型的数据,有所不同,以结构化数据表格为例,一行数据就是一条记录。
针对不同任务,一个图片,一段文字一,篇文章,一段语音都可以是一条记录。

特征(feature)或属性(attribute):单个的特点。结构化数据表格中的一个列。x1,x2,x3,……xn.

特征值(feature value)属性值(attribute value): 特征的描述内容,属性上的取值。 x1=3

维数:一个样本的特征数。数据表格中的列数和。n维

标签-目标特征(label):数据集中,期望模型能够预测到的值。y
注意:有标签的是有监督学习,无标签的是无监督学习。

数据集(dataset):经过数据预处理后,完成了对原始数据的清洗工作,有的数据集中输入特征和输出目标标签有了明显的区分标识。

训练集(train)、验证集(val)、测试集(test):机器学习过程会从数据中获取特征,收集经验。虽然说数据越多越好,但是为了验证模型的性能,在训练过程中需要把一部分数据分离出来,不加入模型训练。模型训练过程中使用的数据就是训练集;这部分模型没有见过的数据就是验证集,它可以用来验证模型的性能;为了进一步保证模型的可靠性,有的任务会分出第三份数据,作为测试集,有的测试集可能是另一份类似的数据样本。

数据集划分:根据数据集的数据规模不同,数据集的划分也有所差异,常见的划分方法7:3,8:2,9:1,8:1:1,6:2:2等。

3.2 关于模型拟合

拟合:模型在训练集上不断的迭代,更新参数,以提高模型的准确度。

泛化能力(generalization),即从特殊到一般: 模型在新样本上表现出的适应能力。

过拟合(overfitting):模型的复杂度过高。
欠拟合(underfitting):模型的复杂度过低。

过拟合与欠拟合的理解

欠拟合图示:用一根直线去模拟数据样本的变化规律,数据样本点的偏离程度巨大。

过拟合图示:用一条非常复杂的曲线去模拟数据样本的变化规律,曲线上穿过看大量的样本点。

这里需要知道,拟合过程仅完成了训练部分,模型要想具有很好的鲁棒性,必须在训练样本、测试样本中也同样表现出良好的性能。下图中随着模型的迭代,虚线训练误差越来越小,红色实线验证集上的泛化误差不断变化,欠拟合区域误差不断降低,过拟合区域误差,开始向上偏离。误差变化的拐点,实际上就是我们要寻找模型最近拟合点。

为什么会出现过拟合现象?

造成原因主要有以下几种:
1、训练数据集样本单一,样本不足。如果训练样本只有负样本,然后那生成的模型去预测正样本,这肯定预测不准。所以训练样本要尽可能的全面,覆盖所有的数据类型。
2、训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征,忽略了真实输入和输出之间的关系。
3、模型过于复杂。模型太复杂,已经能够“死记硬背”记下了训练数据的信息,但是遇到没有见过的数据的时候不能够变通,泛化能力太差。我们希望模型对不同的模型都有稳定的输出。模型太复杂是过拟合的重要因素。

如何防止过拟合?

要想解决过拟合问题,就要显著减少测试误差而不过度增加训练误差,从而提高模型的泛化能力。

  1. 获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法
  2. 采用合适的模型(控制模型的复杂度)过于复杂的模型会带来过拟合问题。
  3. 降低特征的数量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值