神经网络与深度学习笔记2

最新推荐文章于 2024-07-25 14:29:46 发布

weixin_44578479

最新推荐文章于 2024-07-25 14:29:46 发布

阅读量63

点赞数

文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_44578479/article/details/129773967

版权

4.性能优化

性能优化问题描述：

权值如何取值才能使指标函数J(w)最小，即函数最小化问题。

基本思想为建立迭代形式，形式尽量简单，类似于基本BP算法（最速梯度法）。
类比泰勒展开，考虑函数f(x)在x*点处展开有如下公式：
结果如下：

由图可知，二次展开在邻域内精确度已达到要求，后续围绕二次型进行总结。
二次展开后选取基本点：全局极小点，局部极小点。
满足条件：

鞍点：沿某方向是极大值点，沿另一方向是极小值。
进一步推导得：某一算法有效可以<=>对二次型应该有好的效果。

二阶算法：

（1）牛顿法

牛顿法的基本思想：利用迭代点处的一阶导数（梯度）和二阶导数（Hessian矩阵）对目标函数进行二次函数近似，然后把二次模型的极小点作为新的迭代点，并不断重复这一过程，直至求得满足精度的近似最小值。
公式：

求导并且令导数等于零，得到更新公式:

（2）其他方法

高斯牛顿法：高斯-牛顿法（Gauss–Newton algorithm），它是牛顿法的修改版，用于寻找函数的最小值。和牛顿法不一样，它只能用于解决最小二乘问题。但是优点是，不需要二阶导数（二阶导数可能很难计算）。
Levenberg-Marquardt算法：它是利用梯度求最大（小）值的算法，属于“爬山”法的一种。它同时具有梯度法和牛顿法的优点。当λ很小时，步长等于牛顿法步长，当λ很大时，步长约等于梯度下降法的步长。

常用模型技巧

模型初始化：

1.把所有权值在[-1,1]区间内按均值或高斯分布进行初始化。
2.Xavier初始化：为了使得网络中信息更好的流动，每一层输出的方差应该尽量相等。需要实现下面所示均匀分布。

训练数据与测试数据：原始训练数据被分成 K 个不重叠的子集。然后执行 K 次模型训练和验证，每次在 K−1 个子集上进行训练，并在剩余的一个子集（在该轮中没有用于训练的子集）上进行验证。最后，通过对 K 次实验的结果取平均来估计训练和验证误差。

欠拟合与过拟合：
欠拟合：误差一直很大；过拟合：在训练集上误差小，测试集上误差大。如图所示：

权重衰减：为了防止过拟合和权值震荡的出现，加入新指标函数：

第二项约束了权值不能过大。在梯度下降时，导数容易计算：

Dropout（暂退）：每次迭代中，在计算下一层前，将当前层一些节点置零。

这样它不会太依赖某些局部的特征，模型泛化性更强。

5.卷积神经网络

（1）卷积与滤波

卷积被定义为：一个函数经过翻转和移动后与另一个函数的乘积的积分。执行卷积的目的是从输入中提取有用的特征
一维公式如下：

图像卷积（二维）与一维类似：

其中g称为滤波器。

图像计算过程：

①滤波：

②卷积：
1.滤波器𝑔(x,𝑦)左右、上下反转得到𝑔(-x,−𝑦,)
反转的目的：在LTI和LSI中，信号在时间和空间中移动不改变其特性，不断有信号随时间移动和系统产生响应，某一时刻的输出（即卷积输出）不仅包括当前信号的响应，还有之前信号的残留，所以是累加的，转换卷积核是为了计算这一过程。
2.按照前述公式计算卷积(先乘后累加）

图像去噪（图像平滑）：

①平均滤波：
平均值滤镜是一个简单的滑动窗口空间滤镜，它用窗口中所有像素值的平均值代替了窗口中的中心值。窗口或内核通常是正方形，但也可以是任何形状。公式及举例如下：

平均滤波有操作简单，效率高，易于实现的优点，可以得到物体特征的粗略描述。但是不能很好地保护图像细节，在给图像去噪的同时也破坏了图像细节部分，丢失图像特征信息。

②加权平均滤波：
在一个小区域内像素值加权求平均，公式及举例如下：

（2）卷积神经网络基本概念

全连接网络：链接权过多，难算难收敛，同时可能进入局部极小值，也容易产生过拟合问题

局部连接网络：只有一部分权值连接。部分输入和权值卷积。

特征提取：
填充（Padding），也就是在矩阵的边界上填充一些值，以增加矩阵的大小，通常用0或者复制边界像素来进行填充。如左图所示。

步长(Stride)：如右图所示，步长为2。

多通道卷积：当输⼊数据含多个通道时，我们需要构造⼀个输⼊通道数与输⼊数据的通道数相同的卷积核，从而能够与含多通道的输⼊数据做互相关运算。举例二输入通道如下：

池化(Pooling)：
思想：使用局部统计特征，如均值或最大值。解决特征过多问题

卷积神经网络结构：

由多个卷积层和下采样层构成，后面可连接全连接网络。

卷积层： k 个滤波器；下采样层：采用mean或max；后面：连着全连接网络。

递推：

前向传播定义为：

如果第l层为卷积+池化层，则：

（3）LeNet-5网络

网络结构：

①卷积层C1

手写数字数据集是灰度图像，输入为32 × 32 × 1 的图像，卷积核大小为5 × 5 ，卷积核数量为6，步长为1，零填充。最终得到的feature maps大小为（32 − 5 + 1 = 28 ）。

②下采样层S2

卷积层C1 之后接着就是池化运算，池化核大小为2 × 2 2，LeNet-5池化运算的采样方式为4个输入相加，乘以一个可训练参数，再加上一个可训练偏置，结果通过sigmoid，

③卷积层C3

如图所示：
在这里插入图片描述
C3中可训练参数并未直接连接S2所有的特征图，而是如图所示稀疏连接。在原论文中解释了使用这种采样方式原因包含两点：限制了连接数不至于过大（当年的计算能力比较弱）；强制限定不同特征图的组合可以使映射得到的特征图学习到不同的特征模式。

④下采样层S4

与下采样层S2 类似，采用大小为2 × 2，步距为2的池化核对输入feature maps下采样，输出feature maps大小为5 × 5 。

⑤卷积层C5

与卷积层C3不同，卷积层C5的输入为S4 的全部feature maps，由于S4 层的16个图的大小为5 × 5 ，与卷积核的大小相同，所以卷积后形成的图的大小为1x1。

⑥全连接层F6 和output
F6有84个神经元，与C5全连接，总连接数(120+1)*84=10164。
output由欧式径向基函数单元构成，每类一个单元，输出RBF单元计算输入向量和参数向量之间的欧式距离。

weixin_44578479

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习笔记2

权值如何取值才能使指标函数J(w)最小，即函数最小化问题。基本思想为建立迭代形式，形式尽量简单，类似于基本BP算法（最速梯度法）。类比泰勒展开，考虑函数f(x)在x*点处展开有如下公式：结果如下：由图可知，二次展开在邻域内精确度已达到要求，后续围绕二次型进行总结。二次展开后选取基本点：全局极小点，局部极小点。满足条件：鞍点：沿某方向是极大值点，沿另一方向是极小值。进一步推导得：某一算法有效可以<=>对二次型应该有好的效果。（1）牛顿法。
复制链接

扫一扫