uvuvuvw-CSDN博客

目录习题7-1 在小批量梯度下降中，试分析为什么学习率要和批量大小成正比习题7-2 在Adam算法中，说明指数加权平均的偏差修正的合理性习题7-9 证明在标准的随机梯度下降中，权重衰减正则化和编辑正则化的效果相同.并分析这一结论在动量法和Adam算法中是否依然成立全面总结网络优化在迷你批量梯度下降法中，批量大小对网络优化的影响也非常大。一般而言，批量大小不影响随机梯度的期望，但是会影响随机梯度的方差。批量大小越大，随机梯度的方差越小，引入的噪声也越小，训练也越稳定，因此可以设置较大的学习率。而批量

2022-12-13 11:33:49 346

原创 NNDL 实验八网络优化与正则化（3）

0.0

2022-12-11 17:41:43 339

原创 NNDL 作业11：优化算法比较

Momentum、AdaGrad对SGD的改进体现在哪里？速度？方向？在图上有哪些体现？3. 仅从轨迹来看，Adam似乎不如AdaGrad效果好，是这样么？5. 总结SGD、Momentum、AdaGrad、Adam的优缺点6. Adam这么好，SGD是不是就用不到了？总结ref代码实现如下：结果如下：特征：这个梯度的特

2022-12-06 23:01:05 289

原创 NNDL 实验七循环神经网络（3）LSTM的记忆能力实验

长短期记忆网络（Long Short-Term Memory Network，LSTM）是一种可以有效缓解长程依赖问题的循环神经网络．LSTM 的特点是引入了一个新的内部状态（Internal State）c∈RD 和门控机制（Gating Mechanism）．不同时刻的内部状态以近似线性的方式进行传递，从而缓解梯度消失或梯度爆炸问题．同时门控机制进行信息筛选，可以有效地增加记忆能力．例如，输入门可以让网络忽略无关紧要的输入信息，遗忘门可以使得网络保留有用的历史信息．在上一节的数字求和任务中，如果模型能够

2022-12-04 17:47:31 261

原创 NNDL 作业10：第六章课后题（LSTM | GRU）

目录习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决办法.习题6-4 推导LSTM网络中参数的梯度，并分析其避免梯度消失的效果习题6-5 推导GRU网络中参数的梯度，并分析其避免梯度消失的效果附加题 6-1P 什么时候应该用GRU? 什么时候用LSTM?原因：6.50公式为：若使用作为k时刻g(·)的输入，计算误差项时,梯度可能会过大，从而导致梯度爆炸问题.解决方法：1.梯度剪切这个方案主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，然后更新

2022-12-03 22:03:12 424

原创 NNDL 实验七循环神经网络（2）梯度爆炸实验

范数是具有“距离”概念的函数。我们知道距离的定义是一个宽泛的概念，只要满足非负、自反、三角不等式就可以称之为距离。范数是一种强化了的距离概念，它在定义上比距离多了一条数乘的运算法则。有时候为了便于理解，我们可以把范数当作距离来理解。L2范数是我们最常见最常用的范数了，我们用的最多的度量距离欧氏距离就是一种L2范数，它的定义如下：表示向量元素的平方和再开平方。

2022-12-02 11:38:45 152

原创 NNDL 实验七循环神经网络（1）RNN记忆能力实验

RNN在隐藏层中带有自反馈的神经元对前面的信息进行记忆并应用于当前输出的计算中，即神经元在接收当前数据输入的同时，也接收了上一个隐藏层的输出结果，一直循环直到所有数据全部输入。RNN能够利用历史信息来辅助当前的决策，它也可以根据任务的不同，灵活地改变输出的个数。

2022-11-30 13:02:34 370

原创 NNDL 作业8：RNN - 简单循环网络

简单循环网络（ Simple Recurrent Network ， SRN）的神经网络

2022-11-15 00:19:15 137

原创 NNDL 实验六卷积神经网络（5）使用预训练resnet18实现CIFAR-10分类

CIFAR-10数据集包含了10种不同的类别、共60,000张图像，其中每个类别的图像都是6000张，图像大小均为32×32像素。CIFAR-10数据集的示例如图5.15所示。图5.15：CIFAR-10数据集示例使用压缩软件解压数据集保存到当前文件夹中。NNDL 实验5（下） - HBU_DAVID - 博客园 (cnblogs.com)NNDL 实验六卷积神经网络（5）使用预训练resnet18实现CIFAR-10分类_HBU_David的博客-CSDN博客_cifar10预训练模型。

2022-11-13 22:38:11 664

原创 NNDL 实验六卷积神经网络（4）ResNet18实现MNIST

这里为高层API版本的resnet18模型和自定义的resnet18模型赋予相同的权重，并使用相同的输入数据，观察输出结果是否一致。为了解决上述问题，我们可以使用1×1大小的卷积将输入特征图的通道数映射为与级联卷积输出特征图的一致通道数。1×1卷积：与标准卷积完全一样，唯一的特殊点在于卷积核的尺寸是1×1，也就是不去考虑输入数据局部信息之间的关系，而把关注点放在不同通道间。从输出结果看，和不使用残差连接的ResNet相比，添加了残差连接后，模型效果有了一定的提升。添加了残差连接后，模型收敛曲线更平滑。

2022-11-07 21:57:12 195

原创 NNDL 实验六卷积神经网络（3）LeNet实现MNIST

了解了 MNIST数据集，加深了对卷积神经网络的认识，也比较了前馈神经网络与卷积神经网络。

2022-11-05 23:20:47 189

原创 NNDL 作业7：第五章课后题（1×1 卷积核 | CNN BP）

从缩小后区域的误差，还原前一层较大区域的误差。对于b,则稍微有些特殊，因为在CNN中，误差δ是三维张量，而b只是一个向量，不能像普通网络中那样直接和误差δ相等。时间复杂度二:64×100×100×256 + 256×100×100×64×3×3 = 1,638,400,000。空间复杂度二:64×100×100 + 256×100×100 = 3,200,000。时间复杂度一:256×100×100×256×3×3=5898240000。1的卷积，那么结果的大小为500。

2022-10-30 00:31:25 870

原创 NNDL 实验六卷积神经网络（2）基础算子

本次实验主要是对多通道卷积算子进行实现实验，以及学习汇聚层算子参数量和计算量如何计算，在对这些知识的框架进行学习后其实本次实验已经可以说是完成了，但是我个人认为最后的选做题目是十分有意义的，本次的选做相当于为前面实验学习知识的巩固所给出的一道例题，在做完选做题后，我才真正感觉掌握了这节实验的知识。

2022-10-24 23:45:20 948

原创 NNDL 作业6：基于CNN的XO识别

文件夹train_data：放置训练集 1700张图片。文件夹test_data：放置测试集 300张图片。随训练次数增加损失函数逐渐减小，最终损失函数是0。从X、O文件夹，分别取出150张作为测试集。共2000张图片，X、O各1000张。

2022-10-23 22:58:21 142

原创 NNDL 实验六卷积神经网络（1）卷积

简单实现了几种常用的传统边缘检测算子,认识了卷积的定义及运算方法，实现了二维卷积运算。

2022-10-23 20:42:33 1473

原创 NNDL 作业5：卷积

使用卷积核，输出特征图

2022-10-16 00:40:44 165

原创 NNDL 实验五前馈神经网络（3）鸢尾花分类

探究了隐藏层层数和隐藏层节点对准确率和损失函数的影响。

2022-10-15 22:48:00 615

原创 NNDL 作业4：第四章课后题

更新一轮之后，接着输入下一个样本，算出误差后又可以更新一轮，再输入一个样本，又来更新一轮，通过不断地输入新的样本迭代地更新模型参数，就可以缩小计算值与真实值之间的误差，最终完成神经网络的训练。当直接令w ww=0，b=0时，会让下一层神经网络中所有神经元进行着相同的计算，具有同样的梯度，同样权重更新。在反向传播过程中，如果学习率比较大，一个很大的梯度经过ReLU神经元，可能会导致ReLU神经元更新后的偏置和权重是负数，进而导致下一轮正向传播过程中ReLU神经元的输入是负数，输出是0。在一定程度上可以缓解。

2022-10-09 18:12:45 87

原创 NNDL 实验五前馈神经网络（2）自动梯度计算 & 优化问题

1. 使用pytorch的预定义算子来重新实现二分类任务。使用'paddle.nn.Linear'定义线性层。# 其中第一个参数（in_features）为线性层输入维度；第二个参数（out_features）为线性层输出维度# weight_attr为权重参数属性，这里使用'paddle.nn.initializer.Normal'进行随机高斯分布初始化# bias_attr为偏置参数属性，这里使用'paddle.nn.initializer.Constant'进行常量初始化。

2022-10-09 00:23:21 195

原创 NNDL 作业3：分别使用numpy和pytorch实现FNN例题

反向传播算法将训练集数据输入到ANN的输入层，经过隐藏层，最后达到输出层并输出结果，这是ANN的前向传播过程；由于ANN的输出结果与实际结果有误差，则先计算估计值与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层；在反向传播的过程中，根据误差调整各种参数的值；不断迭代上述过程，直至收敛。

2022-10-02 22:50:05 341

原创 NNDL 实验五前馈神经网络（1）二分类任务

基于前馈神经网络二分类任务

2022-09-29 17:39:59 187

原创作业习题3

在线性空间中，证明一个点到平面的距离为证明:设平面内有一点,使得垂直于此平面又因为垂直于此平面,所以有平行于即:(k为常数)因此点到平面距离为又所以带入两边同时取模:所以距离为。

2022-09-24 14:03:30 81

原创 NNDL 实验四线性分类

定义:在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数。原因:激活函数可以使线性模型变为非线性模型，能够让模型解决更多问题，没有激活函数网络的学习能力将非常有限。常见的激活函数:sigmoid函数(Logistic函数)，tanh函数，ReLU函数。本次实验完善了runner类，学会了基于Logistic回归完成二分类任务，基于softmax回归完成多分类回归，同时应用了softmax完成了对Iris数据集的分类任务，了解了学习率及训练次数对模型准确率的影响。

2022-09-21 22:33:17 163

原创 NNDL 作业1：第二章课后题

运用到多分类场景下只对正确分类的结果看重。例如，对于一个多分类模型其模型结果输出为( a , b , c ) (a,b,c)(a,b,c)，而实际真实结果为( 1 , 0 , 0 ) (1, 0, 0)(1,0,0)。分类问题中的标签，是没有连续的概念的。每个标签之间的距离也是没有实际意义的，所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。从上述的结果中可以看出，交叉熵损失函数只和分类正确的预测结果有关。对于回归问题，需要考虑每个输出结果，所以交叉熵损失函数不适用于回归问题。

2022-09-18 11:08:44 83

yf1374111659的博客

原创【无标题】

原创 NNDL 作业12：第七章课后题