这节是对上一节知识点的进一步扩展。如何选择模型呢?误差越小越好吗?不是的!这里的误差的来源有偏差和方差(小声叨叨,这不就是MSE嘛),两种来源的误差对应着两种数据拟合问题,过拟合和欠拟合。如果一个模型可以在数据集的基础上减少这两种误差就完美了。接下来就采用N折交叉验证,平均误差最小的模型即是我们想要的模型。如何求解模型中的未知参数?梯度下降法!学习率如何确定,用Adagrad算法;怎么提高梯度下降的效率,随机梯度下降法;如何更快收敛,特征放缩。最后还有用泰勒公式推导梯度下降法的公式。
回答几个问题:
1、过拟合与欠拟合在数据集上各有什么表现,怎么解决过拟合与欠拟合?
欠拟合是指模型无法拟合所有训练数据,导致一些信息缺失。可以重新设计模型,如增加相关的特征变量、增加特征变量的幂次,总之是要把模型变得更复杂些;过拟合是指模型能够很好拟合训练数据,但是无法拟合测试数据。可以增加数据量,此外还可以对模型正则化。
2、为什么要对特征进行缩放or Normalize?
希望不同特征变量对损失函数的影响相当,变量的标准化可以去掉量纲。
3、随机梯度下降的优缺点,针对这个缺点,有哪些改进的方法?
随机梯度下降法的优点是更新速度更快;缺点是收敛性能不好。
https://blog.csdn.net/qq_38150441/article/details/80533891
小马的笔记: