假设这里有多个平行宇宙,每个空间里都在用10只宝可梦的data去找,由于不同宇宙中宝可梦的data是不同的,因此即使使用的是同一个model,最终获得的都会是不同的
variance
那为什么比较复杂的model,它的散布就比较开呢?比较简单的model,它的散布就比较密集呢?
Bias
Bias vs Variance
由前面的讨论可知,比较简单的model,variance比较小,bias比较大;而比较复杂的model,bias比较小,variance比较大
必须要知道自己的error主要来自于哪里
你现在的问题是bias大,还是variance大?
当你自己在做research的时候,你必须要搞清楚,手头上的这个model,它目前主要的error是来源于哪里;你觉得你现在的问题是bias大,还是variance大
你应该先知道这件事情,你才能知道你的future work,你要improve你的model的时候,你应该要走哪一个方向
通过regularization优化model的过程
1、蓝色区域代表最初的情况,此时model比较复杂,function set的space范围比较大,包含了target靶心,但由于data不够,比较分散,variance比较大
2、红色区域代表进行regularization之后的情况,此时model的function set范围被缩小成只包含平滑的曲线,space减小,variance当然也跟着变小,但这个缩小后的space实际上并没有包含原先已经包含的target靶心,因此该model的bias变大
3、橙色区域代表增大regularization的weight的情况,增大weight实际上就是放大function set的space,慢慢调整至包含target靶心,此时该model的bias变小,而相较于一开始的case,由于限定了曲线的平滑度(由weight控制平滑度的阈值),该model的variance也比较小
上述的1、2、3步骤,不断地调整regularization的weight,使model的bias和variance达到一个最佳平衡的状态(可以通过error来评价状态的好坏,weight需要慢慢调参)