2022.5.1第四次周报-CSDN博客

本文链接：https://blog.csdn.net/weixin_43971717/article/details/124497951

前言

Learning Rate

分类 Classification

Convolutional Neural Networks（CNN）

为什么用CNN做影像辨识

为什么可以用比较少的参数可以来做影像处理这件事情

CNN架构

总结

前言

本周学习有关类神经网络的自动调整学习速率（Learning Rate）和损失函数（Loss）也可能有影响和卷积神经网络（Convolutional Neural Networks,CNN）

Learning Rate

Adam:RMSProp+Monentum

Various Improvements（改进后的公式）

${\theta _{i}}^{t+1}\leftarrow \theta _{i}^{t}-\frac{^{\eta _{t} }}{\sigma _{i}}m_{i}^{t}$

$\sigma _{i}^{t}=\sqrt{\frac{1}{t+1}\sum_{i=0}^{t}(g_{i}^{t})^{2}}$

$\eta ^{t}$ ：learning rate scheduling

学习速率调度

$\sigma _{i}$ ：root mean square of the gradients (only magnitude唯一幅度)

梯度的均方根

$m_{i}^{t}$ (momentum)：weighted sum of the previous gradients (consider direction考虑方向 )

先前梯度的加权和

分类 Classification

Regression

label

$\check{y}\leftrightarrow y=b+c^{T}\sigma (b+wx))$

Classification

$y={b}'+{w}'\sigma (b+wx)$

label $\hat{y}\leftrightarrow {y}'=softmax(y)$

soft-max: ${y_{i}}'=\frac{exp(y_{i})}{\sum_{j}^{}exp(y_{j})}$

Loss of classification

label

$\hat{y}\leftrightarrow {y}'\leftarrow softmax\leftarrow y\leftarrow network\leftarrow x$

Mean Square Error (MSE) $e=\sum_{i}^{}({\hat{y_{i}}-y_{i}}')^{2}$

Cross-entropy $e=-\sum_{i}^{}\hat{y_{i}}ln{y_{i}}'$

$L=\frac{1}{N}\sum_{n}^{}e_{n}$

Minimizing cross-entropy is equivalent to maximizing likelihood

最小化交叉熵等效于最大化似然

Convolutional Neural Networks（CNN）

为什么用CNN做影像辨识

我们都知道CNN常常被用在影像处理上，如果你今天用CNN来做影像处理，当然也可以用一般的neural network来做影像处理，不一定要用CNN。但是呢，我们现在会遇到的问题是这样的，实际上我们在training neural network时，我们会期待说：在network的structure里面，每一个neural就是代表了一个最基本的classifier，事实在文件上根据训练的结果，你有可能会得到很多这样的结论。但现在的问题是这样的，当我们一般直接用fully connect feedforward network来做影像处理的时候，往往我们会需要太多的参数，那么CNN做的事就是简化neural network的架构。我们把这里面一些根据人的知识，我们根据我们对影像就知道，某些weight用不上的，我们一开始就把它滤掉。不是用fully connect feedforward network，而是用比较少的参数来做影像处理这件事。

为什么可以用比较少的参数可以来做影像处理这件事情

第一个是在影像处理里面，我们说第一层的 hidden layer那些neural要做的事就是侦测某一种pattern，有没有某一种patter出现。大部分的pattern其实要比整张的image还要小，对一个neural来说，假设它要知道一个image里面有没有某一个pattern出现，它其实是不需要看整张image，它只要看image的一小部分。

第二是同样的pattern在image里面，可能会出现在image不同的部分，但是代表的是同样的含义，它们有同样的形状，可以用同样的neural，同样的参数就可以把patter侦测出来。

第三个是：我们知道一个image你可以做subsampling，你把一个image的奇数行，偶数列的pixel拿掉，变成原来十分之一的大小，它其实不会影响人对这张image的理解。对你来说：这张image跟这张image看起来可能没有太大的差别。是没有太大的影响的，所以我们就可以用这样的概念把image变小，这样就可以减少你需要的参数。

CNN架构

Convolution（卷积）

Max Pooling(池化)

Flatten(展开)

CNN的架构是这样的，首先input一张image以后，这张image会通过convolution layer，接下里做max pooling这件事，然后在做convolution，再做max pooling这件事。这个process可以反复无数次，反复的次数你觉得够多之后，(但是反复多少次你是要事先决定的，它就是network的架构(就像你的neural有几层一样)，你要做几层的convolution，做几层的Max Pooling，你再定neural架构的时候，你要事先决定好)。你做完决定要做的convolution和Max Pooling以后，你要做另外一件事，这件事情叫做flatten，再把flatten的output丢到一般fully connected feedforward network，然后得到影像辨识的结果。