![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 85
今天也是元气满满的一天呢
计算机没有黑魔法
展开
-
【23-24 秋学期】NNDL 作业12 优化算法2D可视化
SGD随机梯度下降,每次迭代采集1个样本(随机)。AdaGrad算法一种梯度下降法,是对批量梯度下降法的改进,但并不是对动量法的改进。它的目的是在解决优化问题时自动调整学习率,以便能够更快地收敛。与AdaGrad算法的区别在于𝑮𝑮𝒕𝒕的计算由累积方式变成了指数衰减移动平均。用之前积累动量替代真正的梯度,在第𝑡𝑡次迭代时,计算负梯度的指数加权移动平均作为参数的更新方向。自适应矩估计(adaptivem算法≈动量法+ RMSprop参考老师ppt和。原创 2023-12-24 11:50:10 · 1022 阅读 · 0 评论 -
【23-24 秋学期】NNDL 作业11 LSTM
首先是给大家推荐一下课程,有老师上课讲的下边这种动图:然后我在推导有关Ct的递归梯度时,也是参考了这个视频,博主【苏坡爱豆的笑容】讲的很清楚!!!【清晰图解LSTM、BPTT、RNN的梯度消失问题】【循环神经网络讲解|随时间反向传播推导(BPTT)|RNN梯度爆炸和梯度消失的原因|LSTM及GRU(解决RNN中的梯度爆炸和梯度消失)-跟李沐老师动手学深度学习】都非常nice!还有一篇知乎的文章解释有关避免梯度消失的也特别好!LSTM 如何避免梯度消失问题 - 知乎 (zhihu.com)原创 2023-12-17 16:19:32 · 224 阅读 · 0 评论 -
【23-24 秋学期】NNDL 作业10 BPTT
及时复习很重要!在前边的公式推导以及第三问为什么会梯度爆炸,我发现我的脑子是空的,然后我个人强推哔哩哔哩上的一个课,时间不是很长,但是听了以后再加上我自己消化老师的ppt,就成功推导出来了,感觉推导困难的小伙伴可以去看!循环神经网络讲解|随时间反向传播推导(BPTT)|RNN梯度爆炸和梯度消失的原因|LSTM及GRU(解决RNN中的梯度爆炸和梯度消失)-跟李沐老师动手学深度学习_哔哩哔哩_bilibili这个博主讲的关于为什么会梯度爆炸、梯度消失我也觉得挺好的,然后我前边的思路是按照他讲的写的。原创 2023-12-09 16:21:56 · 240 阅读 · 0 评论 -
【23-24 秋学期】NNDL 作业9 RNN - SRN
RNN与与以前Linear线性层的区别:RNN的权重是共享的。编码器:将文本表示成向量【编码器部分使用循环神经网络(RNN或者卷积神经网络(CNN)来将输入序列编码成一个固定长度的向量表示。这个向量包含了输入序列的重要特征信息。解码器:向量表示成输出【解码器部分使用循环神经网络(RNN)来将编码器输出的向量解码成目标序列。解码器通过学习来生成与目标序列相匹配的输出。使用CNN构造序列模型参考论文:。内容参考【编码器和解码器 - 简书 (jianshu.com)原创 2023-12-03 10:44:39 · 203 阅读 · 0 评论 -
【23-24 秋学期】NNDL 作业2
第二章课后题习题 2-1。原创 2023-09-22 15:54:22 · 184 阅读 · 0 评论 -
NNDL:作业3
在 Softmax 回归的风险函数中加入正则化项会对模型的训练产生影响。正则化项的作用是对模型的复杂度进行惩罚,防止。在Softmax回归的风险函数(公式(3.39))中如果加上正则化项会有什么影响?加入正则化后,在更新参数时每次需要减去。,使得参数不会太大,防止数值溢出。原创 2023-10-10 22:08:14 · 178 阅读 · 0 评论 -
NNDL 作业6 卷积
卷积核就是图像处理时,给定输入图像,输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素,其中权值由一个函数定义,这个函数称为卷积核。在卷积神经网络里,卷积核其实就是一个过滤器,但在深度学习里,它不做反转,而是直接执行逐元素的乘法和加法,我们把这个又称为互相关,在深度学习里称为卷积。卷积核_百度百科 (baidu.com)特征选择旨在通过去除不相关、冗余或嘈杂的特征,从原始特征中选择一小部分相关特征。特征选择过程基于从特征向量中选择最一致、相关和非冗余的特征子集。原创 2023-11-05 11:21:25 · 360 阅读 · 0 评论 -
【23-24 秋学期】NNDL 作业1
人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,用来生产出一种新的能以人类智能相似的方式做出反应的智能机器。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。(百度百科)机器学习(ML)是一个致力于理解和建立"学习"方法的研究领域,也就是说,利用数据来提高某些任务的性能的方法,是人工智能的一个子集。(全球百科)机器学习的过程就是。原创 2023-09-20 21:05:53 · 216 阅读 · 3 评论 -
【23-24 秋学期】NNDL 作业8 卷积 导数 反向传播
目前感觉卷积最难的地方在求解反向传播,还有证明上,感觉各种数学式子看起来比较费劲,在这里我试试不带数学式的总结一下:1,证明宽卷积具有交换性这个我看到的有直接以3*3输入、2*2卷积为例证明的,但是这样的证明不具有普遍性,后来我还是参考了老师的博客写的:原创 2023-11-26 14:45:07 · 262 阅读 · 0 评论 -
【23-24 秋学期】NNDL 作业7 基于CNN的XO识别
池化,也称子采样、降采样或汇聚,它的工作是取区域平均或最大,其目的是为了减少特征图,减少特征的数量,从而降低模型的计算量和参数量。最大池化(Max Pooling)。取4个点的最大值。这是最常用的池化方法。均值池化(Mean Pooling)。取4个点的均值。高斯池化。借鉴高斯模糊的方法。不常用。可训练池化。训练函数 ff ,接受4个点为输入,出入1个点。不常用。图来自【上图是一个2*2且步长为2的最大池化。文来自【卷积神经网络(CNN)的相关概念 - 掘金 (juejin.cn)原创 2023-11-13 15:08:31 · 348 阅读 · 0 评论 -
NNDL:作业五
如果对输入进行了0均值化处理,可以使得线性层的值y_mean为0,这样在y'=sigmoid(y),优化w参数时收敛速度快,得到最优w的效率更高,如下图所示,绿线是对x进行零均值后的梯度下降效果,黑线是未进行零均值化的下降效果。梯度消失举个例子,以sigmoid函数为例,在本文的前边的图中可以看到,当值过大过小时,梯度都非常接近于0,更新参数不明显,这就是梯度消失现象。如上图所示,在激活函数的值为0时,导数最大,下降速度最快;,通过引入正则化惩罚项,可以限制模型参数的大小,可以提高模型的泛化能力。原创 2023-10-28 22:02:58 · 409 阅读 · 0 评论 -
NNDL:作业四:分别使用numpy和pytorch实现FNN例题
其中numpy中所有函数都要自己写,但是在pytorch中可以直接调用backward函数,相对便利。但是我也遇到了问题:关于将数组转化为tensor类型的:我开始使用的是:但是不对,只能使用下边这种方式,才能成功调用backward函数:还要注意:因为:“requires_grad”属性用于标记该张量是否需要计算其梯度。如果一个张量的“requires_grad”属性为True,那么PyTorch会在该张量进行操作时自动计算其梯度,并将结果存储在“grad”属性中。原创 2023-10-15 13:08:34 · 531 阅读 · 0 评论 -
PyTorch学习:使用pytorch进行数据预处理
本文基于jupiter,将从如何读取数据集、对数据集处理缺失值、将数据转为张量形式来完成对数据的预处理。其中用到的数据集有:house_tiny.csv、boston_house_prices.csv、Iris.txt。原创 2023-09-17 14:20:28 · 648 阅读 · 0 评论 -
PyTorch学习:关于张量的一些认识
在深度学习中,数据经常用张量的形式所存储,张量可以将向量和矩阵推广到任意维度,其实就是存储和处理数据的多维数组。其中1阶张量为向量,2阶张量为矩阵。(图来自百度paddle平台)还有一些补充知识:张量的维度指的是张量中用来索引元素的索引个数,而对于向量而言,只需要一个索引就可以得到相应元素。高维的张量其实就是对低维张量的堆叠。张量的形状指的是张量中每一维度的大小。张量的类型指的是张量中每个元素的数据类型。原创 2023-09-16 13:46:56 · 633 阅读 · 1 评论