神经网络笔记

最新推荐文章于 2024-09-22 17:24:07 发布

yanduo2594

最新推荐文章于 2024-09-22 17:24:07 发布

阅读量297

点赞数

文章标签：激活函数数据损失正则化损失神经网络

本文链接：https://blog.csdn.net/yanduo2594/article/details/79688425

版权

斯坦福CS231n课程确实很好，学了有两三遍，每次都有不一样的收获，理解的也更深刻。这里把自己觉得重要的东西记录下来，以加深印象，同时便于查阅。CS211n简书笔记链接：https://www.jianshu.com/p/182baeb82c71

神经网络笔记1（上）

线性分类：评分函数s=Wx W:[10x3072]，x:[3072x1]

神经网络：评分函数s=W2max(0,W1x) W1:[100x3072]，W1将图像转化为100维的过渡向量，max(0,-)作用到每个元素，有多种选择。W2：[10x100]，得到10个数字，可以解释为分类评分。W1，W2通过随机梯度下降学习到，反向传播中通过链式法则求导计算得出。

三层神经网络类比看做s=W3max(0,W2max(0,W1x))，其中W1，W2，W3是要学习的参数，隐层尺寸为超参数。

常用激活函数：；Tanh：2σ(2x)-1（简单放大的sigmoid函数）；ReLU：f(x)=max(0,x)。ReLU激活函数的优点是梯度下降收敛快，前两者复杂度高，缺点是如果学习率设置太高，网络中40%的神经元都会死掉，梯度变为0，因此派生了Leky ReLU等变形来解决此问题。

正则化损失从生物学角度可以看做逐渐遗忘，因为它的效果是让所有突触权重W在参数更新过程中逐渐想着0变化。

一个单独的神经元可以实现一个二分类器，如二分类softmax或SVM分类器。

神经网络笔记1（下）

将神经网络算法以神经元的形式图形化，N层神经网络，没有把输入层算入。输出层一般不会有激活函数，因为输出层大多用于表示分类评分值，是任意的实数，或者某种实数的目标数（如在回归中）。

网络尺寸：神经元个数（输入层不算），参数个数（W,b）。

一个层的所有连接强度可以存在一个单独的矩阵中。3层神经网络比2层好，而做到4,5,6层帮助较小，但卷积神经网络不同。

过拟合（overfiting）是网络对数据中的噪声有很强的拟合能力，而没有重视数据间（假设）的潜在基本关系。

看起来如果数据不是足够复杂，则似乎小一点的网络更好，因为可以防止过拟合。然而并非如此，防止神经网络的过拟合有很多方法（L2正则化，dropout和输入噪音等），比减少网络神经元好得多，同时网络梯度下降难以训练。尽可能使用大网络，然后使用正则化技巧来控制过拟合。

神经网络笔记2

神经元模型在计算内积后进行线性激活函数计算，将这些神经元组成各个层，这些做法共同定义了评分函数（score function）的新形式。

数据预处理包括均值减法，归一化，PCA和白花（whitening）,最后一项卷积神经网络很少采用。

任何预处理策略（如数据均值）都只能在训练集数据上进行，应先分成训练/验证/测试集，只是从训练集中求图片均值，然后各个集中的图像在减去这个平均值。

权重初始化：不可以做全零初始化，因为如果权重被初始化为同样的值，神经元将失去不对称的源头。

正则化（regularization）（对模型复杂度的某种惩罚）：有不少方法是通过控制神经网络的容量来防止其过拟合。L2正则化是最常见的正则化方法，其通过惩罚目标函数中所有参数的平方实现。目标函数加一个1/2λW²，这关于W梯度就是λW（λ为正则化强度）。使网络倾向于使用所有特征，所有权重都以W+=-lambda*W向着0线性下降。

L1正则化向目标函数增加一个λ|W|，同时L1和L2也可以组合使用：λ1|W|+λ2|W²|。L1正则化会让权重向量在最优化过程中变得稀疏（即非常接近0）。而L2等传统方法可以得到大量很小的系数（0和非0小数有本质区别，L1更容易做截断来获得大量为0的系数）。

一般来说，L2正则化都会比L1正则化效果更好。

最大范式约束（maxnorm constraints）：给每个神经元中权重向量的量级设定上限，并使用投影梯度下降来确保这一约束。

随机失活（dropout）：让神经元以超参数p的概率被激活或者被置为0，predict函数即测试过程中不进行随机失活，但对于隐层输出都要乘以p。实际更倾向于使用反向随机失活（inverted dropout）预测代码保持不变。通常在使用L2正则化的同时在所有层后面使用随机失活。

损失函数：数据损失：