1.误差
误差的来源一般来自于偏值与方差
f^ 为真实的模型,f为理想模型。f是f^ 的一个预估。而二者之间的差距是由偏值和方差所产生的。
1.2 偏差的评估
假设 x的平均值是μ,方差为 σ^2 。
在计算M组N个样本点的平均值后,对于M的期望值等于其μ,也称为无偏值估计,如下式:
当N越小时,则越离散。分布距离取决于
而σ^2取决于样本的数量。
1.3 方差的评估
先预测M后,再计算S^2估测样本的σ ^2。如下
而S^2的期望值普遍比σ ^2小的多,如果N增大,则分布距离会变小。
1.4 不同的模型的偏差和方差
1.4.1 不同模型的方差
一次模型分布方差较小,分布也比较集中。而对于多次模型方差较大,分布也比较分散。
1.4.2 不同模型的偏差
简单的模型有较大的偏差,分布也比较紧密,而对于复杂的模型偏差较小,分布也比较广。复杂模型在分布区域可能更为接近目标真实函数。
1.5 过拟合和欠拟合
过拟合:即训练样本效果较好,而测试样本效果却比较差。方差过大容易导致过拟合现象。
欠拟合:模型训练训练样本效果差,即偏差太大。
1.5.1 过拟合的解决办法
1.增加数据,或根据问题的理解去制造更多的数据
2.调整数据集。一般来说参数越小越好,曲线越平滑越好。
1.5.2 欠拟合的解决办法
总体来说需要重新设计模型,
1.增加更多的输入特征
2.考虑更复杂模型
1.6 模型的选择
不要根据模型的测试样本效果就想当然的选择模型。可能会导致实际的测试样本效果偏差大于之前的测试样本值。
1.6.1交叉验证
模型的选择需要较差验证。将训练集分为训练集和测试集,用训练集来训练模型,用测试集来验证。确定好最佳的模型后。再使用全部的训练集去训练最佳模型,在使用测试集进行训练查看效果。
如果担心拆分训练集之后影响到效果,可以考虑N-交叉验证
1.6.2 N-交叉验证
将训练集差分成N份,N-1份训练集,1份验证集。对于不同的模型的误差求各模型的平均值来判断最佳模型。再使用训练集来训练最佳模型。