一、泛化:在先前未观测到的输入上表现良好的能力成为~。
泛化误差:新输入的误差期望。(也成为测试误差)
二、独立同分布假设
每个数据集中的样本都是彼此相互独立的,并且训练集和测试集是同分布的。
注:独立同分布(指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。 如果随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值且随机变量X1和X2服从同一分布,这意味 着X1和X2具有相同的分布形状和相同的分布参数,对离随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有 着相同的分布函数,相同的期望、方差。如实验条件保持不变,一系列的抛硬币的正反面结果是独立同分布。)
三、欠拟合(underfitting)
模型不能在训练集上获得足够低的误差。(就是e>ε)
四、过拟合(overfitting)
训练误差和测试误差之间的差距太大。
五、模型容量(capacity)
*定义:~指其拟合各种函数的能力;
*容量低的模型可能很难拟合训练集;
*容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。(学了不该学的)
六、假设空间(hypothesis space)
*可以控制算法容量
*如:y=b+wx,y=b+w1x+w2x^2...... 通过改变输入特征的数目和加入这些特征对应的参数,改变模型的容量。
七、Vapnik-Chervonenkis维度,简称VC维
VC维定义为该分类器能够分类的训练样本的最大数目。
八、正则化
修改学习算法,使其降低泛化误差而非训练误差。
九、没有免费午餐定理(no free lunch throren)
在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。(天下乌鸦一样黑,半斤八两)
十、超参数
*超参数可以设置来控制算法行为,超参数的值不是通过学习算法本身学习出来的;
*超参数验证集:用于挑选超参数的数据子集。(也就是用来“训练”超参数的)