贝叶斯误差是我们学习模型的天花板,我们用贝叶斯误差和训练集误差进行比较来确定我们是否还拥有可避免偏差,是否有优化的空间,以及是否过拟合。
这里可以看出,只有承认训练集误差代表模型对真实数据的误差才能和贝叶斯误差进行比较。
然而对于训练集的误差我有些疑惑(下面我仍按猫识别问题进行分析):
1.我们假设我们的训练集是完全正确的。那么我们的训练集误差的确代表了真实误差。可是由于贝叶斯误差的存在,我们用尽手段也不能对所有的图片准确分析,这表明我们的训练集不是完备的。那么在这个不完备的(比较简单的)训练集上,我们是不是应该让训练集误差尽可能为0才能逼近贝叶斯误差?(而不是去对标贝叶斯误差)
2.我们假设我们的训练集也不是完全正确的,也有误差,那么训练集误差最低也必须是贝叶斯误差。
我们设训练集误差恰好为贝叶斯误差B(这里指错误率),模型的训练集错误率为E,我们假设模型的错误均匀地发生在每一个数据上。此时模型的真实错误率为:
B(1-E)+E(1-B)=B+E-2BE
显然我们不能用E代表真实误差,那我为什么要让E逼近B?
这里我有一点浅显的看法:
对于某些问题,我们的训练集可能不是由任何模型得来的:例如股票预测,我们的数据不来源于任何模型的预测而是来源于真实的记录。
但是对于图像识别这种问题,似乎就无法用上面的想法来理解(毕竟所有的图片都得观察得来,而不能记录)