目录
Validation
——I used a validation set, but my model still overfitted?
如果用validation set决定模型的时候,待选择的模型太多了,即|Hval|的值太大,仍然有可能会overfitting,原因如下图:
Why Deep?
回顾Lecture2的内容:如何在smaller|H|的时候,仍然有一个small loss,这是一个鱼与熊掌如何兼得的问题,而深度学习可以做到这件事情。
-
Review: Why Hidden layer?
我们可以用piecewise linear function去逼近任何的function,这部分在前面的课程有做过详细笔记,如下图:
可以用Sigmoid Function去逼近上图中蓝色的阶梯型Function,蓝色的阶梯型Function又被称作Hard Sigmoid Function。两个Relu Function可以组成一个Hard Sigmoid Function。
-
Deeper is Better
Fat + Short v.s. Thin + Tall:
一个Hidden layer就可以表示任何的Function,但是使用deep structure会更加effective。
对于同一个Function,可以使用高瘦的network产生这个Function,也可以使用矮胖的network产生这个Function,使用高瘦network的参数量会少于使用矮胖network的参数量。
下面举一个直观的例子,对于下图右边的Function,Deep structure需要2K个参数,而Shallow structure需要2^k个参数。所以Deep structure会有smaller|H|,不容易overfitting。
综上,Deep structure相比Shallow structure会更加effective,并且它的|H|也更加smaller,Deep learning做到了鱼与熊掌兼得。
To learn more: Deep networks outperforms shallow ones whenthe required functions are complex and regular. Deep is exponentially better than shallow evenwhen y =x^2.