最是人间留不住1-CSDN博客

原创 pytorch学习笔记（22）

深度循环神经网络。# 双向循环神经网络。

2023-10-29 13:29:35 87

原创 pytorch学习笔记（21）

的记忆元，单元的值为0，形状为（批量大小，隐藏单元数）。因此，我们得到以下的状态初始化。在初始化函数中，长短期记忆网络的隐状态需要返回一个。仅对代码部分进行解释。

2023-10-29 12:49:48 89

原创 pytorch学习笔记（20）

此函数返回一个形状为（批量大小，隐藏单元个数）的张量，张量的值全部为零。具体原理可以看沐神的b站课程，也可以看书，我仅对代码部分进行讲解。直接用现成的API，代码简洁了许多，速度也更快了。定义隐状态的初始化函数。

2023-10-28 21:27:22 71

（recurrent neural networks，RNNs）是具有隐状态的神经网络。隐藏层和隐状态指的是两个截然不同的概念，隐藏层是在从输入到输出的路径上（以观测角度来理解）的隐藏的层，而隐状态则是在给定步骤所做的任何事情（以技术角度来定义）的。是一个可调的超参数。当训练语言模型时，输入和输出来自相同的词表。因此，它们具有相同的维度，即词表的大小。建一个类来包装这些函数，并存储从零开始实现的循环神经网络模型的参数。我们初始化循环神经网络模型的模型参数。初始化循环神经网络（RNN）的隐藏状态。

2023-10-27 16:47:58 162 1

原创 pytorch学习笔记（18）

计算机比较擅长计算，所以我们将词条转换为数字。词频以明显的方式迅速衰减。

2023-10-27 14:28:38 367 1

原创 pytorch学习笔记（17）

可以看到绿色的线离真实值很远说明预测效果很不好，原因是，当前几步的预测有问题时，这个问题会积累，就像滚雪球一样越来越大。单步预测：就是给出前4个点，预测下一个点的位置，再用这个点和前三个点预测下一个点的位置。步数越大预测效果越差。

2023-10-20 15:11:42 147 1

原创 pytorch学习笔记（16）

我仅仅对代码做了一些注释。

2023-10-20 13:26:19 120 1

原创 pytorch学习笔记（15）

稠密块没有改变图像的空间尺寸（高度和宽度），但增加了输出通道的数量，使每个卷积块的输出被连接到了最终输出。这种设计使得每个卷积块都能访问之前卷积块的输出，从而加强了特征的重用和模型的深度。由多个卷积块组成，每个卷积块使用相同数量的输出通道。然而，在前向传播中，我们将每个卷积块的输入和输出在通道维上连结。如图所示，ResNet和DenseNet的关键区别在于，DenseNet输出是。（用图中的[,]表示）而不是如ResNet的简单相加。

2023-10-16 20:03:22 86 1

原创 pytorch学习笔记（14）

ResNet以上代码对应下面的图。

2023-10-15 21:20:17 148 1

原创 pytorch学习笔记（13）

在Inception块中，通常调整的超参数是每层输出通道数。后续的stage与上述类似，最后放一个全连接层。

2023-10-15 17:23:10 33 1

原创 pytorch学习笔记（12）

NiN和AlexNet之间的一个显著区别是NiN完全取消了全连接层。NiN设计的一个优点是，它显著减少了模型所需参数的数量。然而，在实践中，这种设计有时会增加训练模型的时间。与AlexNet、LeNet一样，VGG网络可以分为两部分：第一部分主要由卷积层和池化层组成，第二部分由全连接层组成。下面的代码实现了VGG-11。

2023-10-11 19:30:10 42

原创 pytorch学习笔记（11）

AlexNet与上一节我们学过的LeNet相似，就是有更多的卷积层和更多的参数。

2023-10-11 12:18:30 29

原创 pytorch学习笔记（10）

使用Fashion-MNIST对该模型进行训练。

2023-10-09 19:38:38 139 1

原创 pytorch学习笔记（9）

当有多个输入通道时，经过池化层也会有多个输出结果。# 多输入多输出通道。

2023-10-09 16:26:04 59 1

原创 pytorch学习笔记（8）

【代码】pytorch学习笔记（8）

2023-10-09 14:29:29 31 1

原创 pytorch学习笔记（7）

可以看到与softmax相比，多层感知机的loss明显下降而精度却没有显著变化。损失函数还是为交叉熵损失。# 多层感知机代码实现。

2023-10-03 15:14:58 42 1

原创 pytorch学习笔记（6）

我们这样看：将蓝色线的左右两侧分为两类，左侧为正，右侧为负；将黄色线分为上下两侧，上面为正，下面为负。当两侧符号一样时为一种分类，当两侧符号不一样时，为另一种分类。因为输入维度是确定的，而输出维度就是分类的个数，你有几个分类就有几个输出维度，能改变的只有隐藏层。上图和softmax回归的差别就是多了一个隐藏层，多层感知机实际上也是一个多分类问题。我们先来解决上一讲所遗留下来的问题xor模型如何正确分类。为什么说隐藏层时超参数呢？

2023-10-03 12:34:09 35 1

原创 pytorch学习笔记（5）

也就是说当[<w, xi> + b]大于零时我们得到的yi是1，当[<w, xi> + b]小于等于零时我们得到的是－1而yi[<w, xi> + b] <= 0则说明yi与我们的预测值不一样则对w和b进行更新。直到所有的类都被正确分类。分类错误，l(y,x,w)=-y<w, x>，对权重进行更新，若-y<w, x>小于0，说明分类正确，则l(y,x,w)=0，不进行更新。等价于上述的if语句，首先先比较0 和 -y<w, x>的大小，当-y<w, x>大于0时，说明y<w, x>

2023-10-03 12:00:48 39 1

原创 pytorch学习笔记（4）

【代码】pytorch学习笔记（4）

2023-10-02 17:32:20 169 1

原创 pytorch学习笔记（3）

num_inputs = 784是因为我们的图片是28*28的，我们将这个矩阵拉成一个长条，即给他变成一个一维的向量（会损失一些空间特征），num_outputs = 10是因为我们只有十个分类（裤子，T恤等共十个）。y_hat[[0, 1], y]的意思是，0对应着y中的0，0对应着y_hat第一组的第1个元素0.1，1对应着y的2，2对应着y_hat第二组中的第三个元素0.5。w为行数为num_inputs，列数为num_outputs，服从均值为0，方差为0.01的正态分布。#softmax回归。

2023-09-29 14:02:41 162 1

原创 pytorch学习笔记（2）

y = [y1, ... , yn], 其中只有一个值为1，其他的全为0，比如说mnist数据集中，数字的值只能是0-9其中一个，现在我们假如他是1，那个y_truth=[0, 1, 0, 0, 0 ,0, 0, 0, 0, 0, 0]y_hat(也就是上图中的y尖)是我们的预测值，y_hat = [0.1, 0.6, 0.1, 0.1...]，其中最大的是0.6，那么我们就说最有可能的就是数字1。1.MSELoss（L2Loss），缺点是当离最优点太远时，梯度太大，我们不希望这样，所有有下面的损失函数。

2023-09-27 13:28:26 36 1

原创 pytorch学习笔记（1）

torch.normal(0, 1,(num_examples, len(w)) 表示均值为0，方差为1的随机数，大小是num_example个样本，列数是len(w)。在这里我们看到的true_w是二维的，等价于这样的公式 y = w1*x1+w2*x2+b ，也就是说相当于关键因素中的住房面积和卧室个数。y += torch.normal(0, 0.01, y.shape) 是让y再加上一个随机噪音，均值为0，方差为0.01，长度和y一样。梯度是一个函数增长最快的地方，加一个负号表示下降最快的地方。

2023-09-27 11:36:07 67 1

weixin_48944587的博客

原创 letcode(1)