简介
通过调节机器学习模型的容量,可以控制模型是否偏于过拟合还是欠拟合。
模型容量
容量从本质上说是描述了整个模型的拟合能力的大小。如果容量不足,模型将不能够很好地表示数据,表现为欠拟合;如果容量太大,那么模型就很容易过分拟合数据,因为其记住了不适合与测试集的训练集特性,表现为过拟合。
因此控制好模型的容量是一个关键问题。
控制方法
容量的控制可以通过多种方法控制,包括:
控制模型的假设空间。
添加正则项对模型进行偏好排除。
相关结论
当机器学习算法的容量适合于所执行任务的复杂度和所提供训练数据的数量时, 算法效果通常会最佳。
容量不足的模型不能解决复杂任务。 容量高的模型能够解决复杂的任务,但是当其容量高于任务所需时,有可能会过拟合。
以上参考连接:远鸿博客
个人理解
其实就个人而言容量一词很不好理解,总是会让我想到数据集的样本量。那么给我带来的直观感受就是训练的时候样本量能太多。然而这肯定是不合理的。因为解决过拟合的一个方案就是数据增强其实就是增加样本量。那么容量又该指什么呢?
结合容量的控制方法而言 其一是控制模型的假设空间其二是添加正则项对模型进行偏好排除。 那么我在此做几个假设:
- 就以分类网络为例,分类网络主要是做特征分类。而导致其过拟合的原因就是模型复杂度高,而模型复杂度高对应的就是特征多。那么是不是就能将模型容量理解为特征种类?
- 就容量的控制方法是添加正则项。而解决分类网络解决过拟合的问题添加正则项是为了降低模型学习能力。其实也就是减少单次学习特征分类任务。随机失活的目的也是一样。
- 而控制模型的假设空间则可以理解为模型需要学习的特征任务。
更新: 花书中有一句话为 “统计学习理论中最重要的结论阐述了训练误差和泛化误差之间差异的上界随着模型容量增长而增长,但随着训练样本增多而下降 (Vapnik and Chervonenkis, 1971; Vapnik, 1982; Blumeret al., 1989; Vapnik, 1995)。"
综上均为个人理解。若有诸多不对之处烦请指出。希望能同各位一起提高。