- 当你调试你的学习算法时,当面对测试集你的算法效果不佳时,你会怎么做 ?
- 使用更多的训练样本?
- 使用更少的特征集?
- 得到更多的其他特征?
- 尝试增加多项式的特征?
- 尝试增加拉姆他?
- 尝试减小拉姆他?
- 机器学习诊断法
我们通过将数据集分成训练集和测试集,将训练集训练出的参数用测试集数据测试性能。
常用的两种代价函数:
- 在多项式回归时, 怎么选择次数作为我们的假设模型?
我们可以把数据集分为三类,训练集,交叉验证集和测试集,
用交叉验证集来作为评判选择的标准,选择合适的模型,而测试集则是作为算法性能的评判。
- 诊断高偏差和高方差
上面的图分别表示了高偏差,刚好,高方差
从图中可以看出,随着多项式次数的增大,训练集上的偏差逐渐变小,而交叉验证集上的偏差在减小到一定程度后开始升高。
- 正则化与偏差/方差
λ的不同所得图如下
- 学习曲线
根据样本的大小与误差的关系我们可以画出一般的学习曲线:
在高偏差的情况下,随着样本数目的增大,训练集上的误差和交叉验证集上的误差逐渐逼近。
也就是说,增大样本的方法对高偏差的模型并不能起到一定作用
而模型处于高方差的情况下,增大样本可能会起到效果。
对开头提出的各种措施,我们看看他们适合于什么样的模型: