CikL160-CSDN博客

原创简要介绍图中的优化算法，编程实现并2D可视化

每次迭代并不是沿着梯度最大的方向下降的，而是根据每个样本梯度进行更新，因为每个样本的梯度的差异，就会导致轨迹出现波动。另外，如果学习率设置过大，也会导致参数在范围内波动，形成这种轨迹。

2023-12-24 09:48:59 954 1

程序中需要自定义权重矩阵，使得其参数相同，另外，把参数bias=False，不带偏置。根据文档的说明和上述程序运行流程，我们可以得知，weight_ih形状是(4,4)的矩阵，第一行是遗忘门权重，第二行是输入门权重，第三行是候选状态权重，第四行是输出门权重。LSTM遗忘门将输入映射到[0,1]之间，可以自主选择遗忘部分的信息的多少，来改善梯度消失的情况。LSTM的真正运行过程中，g和h实际上使用tanh激活函数，而在这里，替换成了线性激活。结果是使用相同的参数和激活函数，三种方法得到的结果都是一致的。

2023-12-17 15:24:49 887 1

原创 NNDL 作业10 BPTT

解决方法：引入门控机制控制信息的累积速度。使用长短期记忆网络LSTM。为在第k时刻函数g(·)的输入，在计算公式6.34中的误差项。时，梯度可能过大，从而导致梯度过大问题。

2023-12-09 17:50:57 373

原创 NNDL 作业9 RNN - SRN

input_size – 输入x中预期特征的数量hidden_size – 隐藏状态下的特征数量h偏差 – 如果False，则该层不使用偏差权重b_ih和b_hh。默认值：True非线性 – 使用的非线性。可以是'tanh'或'relu'。默认：'tanh'形状的输入：包含输入特征的张量形状的隐藏：包含批次中每个元素的初始隐藏状态的张量。没有说明的，就默认初始化为零。输出数据的形状（batch,hidden_size):包含没批次中，下一个隐藏的张量。

2023-12-02 16:07:54 866

原创 NNDL 作业八卷积导数反向传播

在膨胀卷积中，输出的每个元素是通过将卷积核的元素与输入张量进行点积计算得到的，但不同于传统卷积，这里的卷积核元素之间存在间隔。其中，(w) 是卷积核，(x) 是输入数据，(\ast) 表示卷积操作，(b) 是偏差。一个1 × 1卷积核，先得到100 × 100 × 64的特征映射，再进行3 × 3的卷积，得到。对于一个输入为100 × 100 × 256的特征映射组，使用3 × 3的卷积核，输。对于一个二维卷积，输入为3 × 3，卷积核大小为2 × 2，试将卷积操作重。

2023-11-19 13:12:35 181

原创 NNDL 作业7 基于CNN的XO识别

首先，这次实验让我对DataLoader这个函数有了更深的了解，知道这个批量加载的整个过程。批量加载完所有数据之后才是一轮。其次就是对卷积神经网络的整个流程更加熟悉，能熟练计算第一个全连接层的第一个参数量。参考链接：

2023-11-13 18:57:34 64

原创 NNDL 作业6 卷积

它的原理是通过将卷积核对图像进行滑动操作，计算出每个像素与其周围像素的差异，从而提取出图像的特征。这种操作可以被视为加权相乘再相加计算的一种形式，其中卷积核定义了权重系数。也就是说，要提取什么样的特征，卷积核首先就要符合什么特征。卷积的关键也就是卷积核的选择。例如，在边缘检测任务中，我们可以选择一个包含边缘特征的卷积核，如[[1, -1], [-1, 1]]，它可以检测出图像中的边缘。类似地，我们可以选择其他卷积核来提取其他类型的特征。

2023-11-04 21:20:02 71 1

原创 NNDL 作业5

如果将权重和偏置都初始化为0，那么每个神经元都会重复着相同的运算，有相同的梯度，每一层参数更新都一样。增大学习率，梯度接近于零，二者相乘，结果还是非常小，参数还是几乎不更新。第一项是输入层与第一个隐藏层之间的权重参数个数，第二项是隐藏层之间的权重参数个数，第三项是隐藏层与输出层的权重参数个数，最后一项是每个神经元的偏置。梯度消失是指：梯度接近于零，网络中的参数更新的微乎其微甚至不更新，这样无论程序运行多久，参数就相当于没变。,输出层大小为1，隐藏层的层数为L，每个隐藏层的神经元数量为。

2023-10-28 17:18:59 81 1

原创 NNDL 作业四

pytorch是一个深度学习框架，所有函数几乎都已经包装在里边了，使用时直接调用即可，例如：求导，各种激活函数等。从结果上来看，使用自带函数和用numpy写没有区别，所谓结果上的微小差异，是因为使用numpy写这个程序的时候使用round函数限制了小数点后边的位数，这里取两位小数，如果取4位，和pytorch无异。3、使用numpy自己写，会加深对传播过程的记忆和理解，但是会花费较长时间，使用框架虽然能节省很多时间，但不利于理解详细过程。1、在推导过程中，事实上，和老师程序中所体现的细节不一样。

2023-10-15 20:43:02 67

原创 NNDL 作业三

加入正则化后，每一次参数更新，都能够比原来多减一个2λW，这样参数就不会变得太大。既不会造成溢出类错误，也会减少过拟合的风险。

2023-10-11 19:52:21 47

原创 NNDL 作业二

平方损失函数如果用于分类任务，会导致正确分类和错误分类变得平均。所以说，平均损失函数更适用于回归问题，交叉熵损失函数多适用于分类问题。平方损失函数可反映出模型的输出与实际结果之间的距离。对于分类问题，输出结果就是类别，每个标签之间的距离没有实际意义，计算结果也不能反映分类问题的最优化程度。分别计算模型的精准率、召回率、F1值以及它们的宏平均和微平均。召回率：真实标签为c的样本中，预测结果也是c的占比。微平均：是每个样本的性能指标的算术平均值。精准率：预测类别为c中，预测正确的比例。

2023-09-24 13:28:12 126 1

原创 NNDL 作业一

理解：在计算机系统中，“经验”通常都是以“数据”的形式存在，而机器学习研究的主要内容就是在计算机上从数据中产生“学习算法”，然后利用学习算法，将数据提供给这些算法，从而产生模型。深度学习的核心是建立多层次的神经网络，利用大量数据进行训练，使得系统可以从数据中自动学习并提取出有用的特征和模式，最终实现对未知数据的预测或分类。连接主义学派则认为，智能是通过大量的数据和信息来实现的，因此他们研究的是人工智能的感知和处理机制。符号主义学派认为，智能是通过推理和逻辑来实现的，因此他们研究的是人工智能的逻辑推理机制。

2023-09-20 20:38:32 69 2

weixin_63316615的博客

原创 NNDL 作业13 优化算法3D可视化