该图形是来自于《统计学习导论》一书,为了说明选用不同的函数对同一组数据的拟合状况是不同的,即不同的拟合方法的均方误差(MSE)是不同的。
左图是用不同的函数关系来拟合数据,橙线是用线性回归(linear regression)的方法拟合数据,而蓝线和绿线分别是使用平滑样条(smoothing spline)来拟合。右图中的灰线表示的是训练MSE;红线表示的是MSE测试线;虚线表示的是所有方法中最小可能性的测试MSE;三个不同颜色的方块表示的是左图三种不同的方法对应的数值。
从左图的图形可以看出用线性回归拟合的方法缺少了的弹性,大部分数据都是均匀分布在直线两侧,很少数据落在直线上。而绿线和蓝线对数据的拟合情况就更好,其中绿线的拟合最好,而且曲线与数据联系更加紧密。
从右图的图形可以看出更多限制和更平滑的曲线比起伏波动的曲线更少直率,因此可以看出MSE的训练线随着更少的限制和更不平滑下降。