这是课程链接,里面有反向传播的整体代码,之后会敲一遍,然后上代码片段
这一节还讲了特征为什么要进行尺度归一,是为了使步长更加合适。
这节课的课后作业很有意思,可以想一下:
1.样本归一化:预测时的样本数据同样也需要归一化,但使用训练样本的均值和极值进行计算,这是为什么?
2.当部分梯度的计算为0(接近0)时,可能是什么情况?是否意味着完成训练?
答2:可能是这个模型的整个loss函数不仅仅只有一个波谷,可能有多个波谷,部分梯度为0可能只是在某一个波谷里,但这个波谷可能位置较高,不是最下面的位置。所有并不意味着完成训练。