2024春神经网络与深度学习课程总结第三周

最新推荐文章于 2024-07-26 13:24:37 发布

毕昴盈轩

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量1.4k

点赞数 25

文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/weixin_53528423/article/details/137346607

版权

本文概述了2024春季神经网络与深度学习课程的第三周内容，重点介绍了多层感知机、BP算法的原理和应用，涉及线性不可分问题、模型初始化、训练数据划分、欠拟合与过拟合、权重衰减、暂退等关键概念，以及卷积神经网络的基础概念和BP算法详解。

摘要由CSDN通过智能技术生成

2024春神经网络与深度学习课程总结第三周

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

一、多层感知机

1.1 线性不可分问题

无法进行线性分类的问题。
在这里插入图片描述
解决方法：使用多层感知机。

1.2 多层感知机

在输入和输出层间加一或多层隐单元，构成多层感知器（多层
前馈神经网络）；
加一层隐节点（单元）为三层网络，可解决异或（XOR）问题
由输入得到两个隐节点、一个输出层节点的输出：
在这里插入图片描述

可得到

三层感知器可识别任一凸多边形或无界的凸区域。更多层感知器网络，可识别更为复杂的图形。
多层感知器网络，有如下定理：
定理1：若隐层节点（单元）可任意设置，用三层阈值节点的
网络，可以实现任意的二值逻辑函数。
定理2：若隐层节点（单元）可任意设置，用三层S型非线性特
性节点的网络，可以一致逼近紧集上的连续函数或按范数逼近紧
集上的平方可积函数。

1.3 多层感知机的从零开始实现

import torch
from torch import nn
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

#初始化模型参数
num_inputs, num_outputs, num_hiddens = 784, 10, 256
W1 = nn.Parameter(torch.randn(num_inputs, num_hiddens, requires_grad=True) * 0.01)
b1 = nn.Parameter(torch.zeros(num_hiddens, requires_grad=True))
W2 = nn.Parameter(torch.randn(num_hiddens, num_outputs, requires_grad=True) * 0.01)
b2 = nn.Parameter(torch.zeros(num_outputs, requires_grad=True))
params = [W1, b1, W2, b2]

#激活函数
def relu(X):
	a = torch.zeros_like(X)
	return torch.max(X, a)

#模型
def net(X):
	X = X.reshape((-1, num_inputs))
	H = relu(X@W1 + b1) # 这里“@”代表矩阵乘法
	return (H@W2 + b2)

#损失函数
loss = nn.CrossEntropyLoss(reduction='none'）

#训练
num_epochs, lr = 10, 0.1
updater = torch.optim.SGD(params, lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

d2l.predict_ch3(net, test_iter)

二、多层前馈网络及BP算法

2.1 多层前馈网络

多层感知机是一种多层前馈网络，由多层神经网络构成，每层网络将输出传递给下一层网络。神经元间的权值连接仅出现在相邻层之间，不出现在其他位置。如果每一个神经元都连接到上一层的所有神经元（除输入层外），则成为全连接网络。
在这里插入图片描述
多层前馈网络的反向传播（BP）学习算法，简称BP算法。
x、y是网络的输入、输出向量，神经元用节点表示，网络由输入层、隐层和输出层节点组成，隐层可一层，也可多层（图中是单隐层），前层至后层节点通过权联接。由于用BP学习算法，所以常称BP神经网络。
BP学习算法由正向传播和反向传播组成：
① 正向传播是输入信号从输入层经隐层，传向输出层，若输出层得到了期望的输出，则学习算法结束；否则，转至反向传播。
② 反向传播是将误差(样本输出与网络输出之差）按原联接通路反向计算，由梯度下降法调整各层节点的权值和阈值，使误差减小。

三、模型训练的常用技巧

3.1 模型初始化

简单的考虑，把所有权值在[-1,1]区间内按均值或高斯分布进行初始化。
Xavier初始化：为了使得网络中信息更好的流动，每一层输出的方差应该尽量相等。因此需要实现下面的均匀分布：
在这里插入图片描述

3.2 训练数据与测试数据

数据包括：训练数据、验证数据、测试数据，通常三者比例为70%，15%，15%或60%，20%，20%，当数据很多时，训练和验证数据可适当减少。
𝐾折交叉验证：
原始训练数据被分成 K 个不重叠的子集。然后执行 K 次模型训练和验证，每次在 K−1 个子集上进行训练，并在剩余的一个子集（在该轮中没有用于训练的子集）上进行验证。最后，通过对 K 次实验的结果取平均来估计训练和验证误差。

3.3 欠拟合与过拟合

欠拟合：误差一直比较大。
过拟合：在训练数据集上误差小而在测试数据集上误差大。
在这里插入图片描述

3.4 权重衰减（L2正则化）

为防止过拟合和权值震荡，加入新的指标函数项：
在这里插入图片描述
第二项约束了权值不能过大。在梯度下降时，导数容易计算：

3.5 暂退

在整个训练过程的每一次迭代中，标准暂退法包括在计算下一层之前将当前层中的一些节点置零。
在这里插入图片描述

四、卷积神经网络

4.1 基本概念

特征提取：
在这里插入图片描述
填充：
在矩阵的边界上填充一些值，以增加矩阵的大小，通常用0或者复制边界像素来进行填充。

步长：如图步长为2

池化：
使用局部统计特征，如均值或最大值。解决特征过多问题。
由多个卷积层和下采样层构成，后面可连接全连接网络。
在这里插入图片描述

4.2 卷积神经网络BP算法

下采样层：
如果当前是卷积层，下一层为下采样层，误差如何从下采样层回传：假设为22核平均池化

如果当前是下采样层，下一层为卷积层，误差如何从卷积回传：假设为22核卷积
在这里插入图片描述
假设卷积核为

式中五角星表示图像卷积，计算时需首先上下、左右翻转后再做相关。
卷积层+卷积层：

卷积层+全连接层：