Key points:
使用不同的激活函数会导致公式中的偏导值的改变,即导致当前梯度的改变,从而导致得到的w,b的不同。
递归神经网络思想上更接近于人脑的工作方式,但学习算法less powerful。
选择10个输出神经元,而不是4个的原因可以从人脑分层次决策的方面来理解。将激活值最高的输出神经元作为估计的数字。
损失函数的引入原则:能够衡量算法性能、能够利于w,b的校正。
计算梯度时是否对梯度之和求均值影响的是学习率。
算法中的mini-size可以加快估算速度,同时仍满足可以不断获得使损失函数值不断下降的梯度的需求。
mini-size=1时即为online/incremental learning。
引入validation set 以设置网络的超参数。
Wjk: 第二层的第k个神经元与第三层的第j个神经元之间的连接,这种下标标记方式利于sigmod函数的计算。
In some sense, the moral of both our results and those in more sophisticated papers, is that for some problems:
sophisticated algorithm ≤ simple learning algorithm + good training data.深层神经网络的优势:具有构建复杂层次概念的能力。