1. 第四章中:为何要设定损失函数?以数字识别任务为例,既然我们的目标是获得使识别精度尽可能高的神经网络,那不是应该把识别精度作为指标吗?
在进行神经网络的学习时,不能将识别精度作为指标。因为如果以识别精度为指标,则参数的导数在绝大多数地方都会变为0。识别精度对微小的参数变化基本上没有什么反应,即便有反应,它的值也是不连续地、突然地变化。(后一句话就可以作为前一句话的理解吧)
2. 第五章中:为何用计算图解题?
计算图的优点是,可以通过正向传播和反向传播高效地计算各个变量的导数值。
3. 第六章中:
6.1 参数更新:SGD(随机梯度,之字型);Momentum(增加动量,一阶);AdaGrad(增加二阶);Adam(一阶+二阶)
6.2 权重值的初始化:不要都设为0,必须随机生成初始值。总结一下,当激活函数使用ReLU时,权重初始值使用He初始值(),当激活函数为 sigmoid或 tanh等S型曲线函数时,初始值使用Xavier初始值。这是目前的最佳实践。(当前一层的节点数为n时