随机梯度下降笔记(手写数字识别)

最新推荐文章于 2024-03-15 21:11:15 发布

_ksy

最新推荐文章于 2024-03-15 21:11:15 发布

阅读量721

点赞数

分类专栏：神经网络文章标签：神经网络

2 篇文章 0 订阅

订阅专栏

Key points:

使用不同的激活函数会导致公式中的偏导值的改变，即导致当前梯度的改变，从而导致得到的w,b的不同。
递归神经网络思想上更接近于人脑的工作方式，但学习算法less powerful。
选择10个输出神经元，而不是4个的原因可以从人脑分层次决策的方面来理解。将激活值最高的输出神经元作为估计的数字。
损失函数的引入原则：能够衡量算法性能、能够利于w,b的校正。
计算梯度时是否对梯度之和求均值影响的是学习率。
算法中的mini-size可以加快估算速度，同时仍满足可以不断获得使损失函数值不断下降的梯度的需求。
mini-size=1时即为online/incremental learning。
引入validation set 以设置网络的超参数。
Wjk: 第二层的第k个神经元与第三层的第j个神经元之间的连接，这种下标标记方式利于sigmod函数的计算。
In some sense, the moral of both our results and those in more sophisticated papers, is that for some problems:
sophisticated algorithm ≤ simple learning algorithm + good training data.
深层神经网络的优势：具有构建复杂层次概念的能力。