- 无监督学习算法(unsupervised learning algorithm)训练含有很多特征的数据 集,然后学习出这个数据集上有用的结构性质。
监督学习算法(supervised learning algorithm)训练含有很多特征的数据集,不 过数据集中的样本都有一个 标签(label)或 目标(target)。 - 测试集(test set)
- 度量模型性能的一种方法是计算模型在测试集上的 均方误差(mean squared error)MSE
11.线性回归(linear regression) - 在先前未观测到的输入上表现良好的能力被称为 泛化(generalization)。
- 训练集和测试集数据通过数据集上被称为 数据生成过程(data generating process)的概率分布生成。
- 欠拟合是指模型不能在训练集上获得足够低的误差。而过拟合是指训 练误差和和测试误差之间的差距太大。
- 通俗地,模型的容量是指其拟合各种函数的能力。
- 统计学习理论提供了量化模型容量的不同方法。在这些中,最有名的是 VapnikChervonenkis 维度(Vapnik-Chervonenkis dimension, VC)。VC维度量二元分类 器的容量。VC维定义为该分类器能够分类的训练样本的最大数目。
- 最近邻回归(nearest neighbor regression)
- 机器学习的 没有免费午餐定理(no free lunch theorem)表明 (Wolpert, 1996),在所有可能的数据生成分布上平均之后,每 一个分类算法在未事先观测的点上都有相同的错误率。换言之,在某种意义上,没 有一个机器学习算法总是比其他的要好。
- 正则化是指我们 修改学习算法,使其降低泛化误差而非训练误差。
- 估计的偏差被定义为:
- 估计量的 方差(variance)就是一个方差 ,其中随机变量是训练集。另外,方差的平方根被称为 标准差(standard error),记作
- 均方误差(mean squared error, MSE)
深度学习基本概念
最新推荐文章于 2024-09-19 10:45:00 发布